NISHIO Hirokazu
[Translate]
行継続判定
PDFをテキスト化したものは、行ごとに分かれている
文の途中でも改行されているので、自然言語処理をする前に結合しなければならない
しかし100%繋いで良いわけではない
見出し
箇条書き
図キャプション
コード
脚注
数式
URL
数式
・コード・URLなどは異質なので取り除きたい
行継続モデル
適切なルールを人間が言語化できない時が機械学習の出番
直接繋いではいけないものと、繋いでもいいもの
Tweet
Related Pages
機械学習による書籍PDFからの本文抽出
ページの行ベース言語モデル
適切なルールを人間が言語化できない時が機械学習の出番
→
数式
×
コード
×
unicode私用領域
×
scrapboxパーサ
→
数式とコードの文字化
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:19:35 PM
[Edit]