NISHIO Hirokazu
[Translate]
OCRゴミ掃除
特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある
これが言語モデル作成の元データに混ざるとよくない
出現する文字にあからさまな偏りがあるので簡単に取れると思う
Tweet
Related Pages
機械学習による書籍PDFからの本文抽出
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:33:16 PM
[Edit]