NISHIO Hirokazu[Translate]
OCRゴミ掃除
特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある
これが言語モデル作成の元データに混ざるとよくない
出現する文字にあからさまな偏りがあるので簡単に取れると思う

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]