NISHIO Hirokazu[Translate]
日本語の形態素解析は多言語化の障壁
>@taku910: 今どきのNLPは生データから教師なし学習するサブワードを使い言語非依存になっています。英語に特化してるのではなくトークン数の差は学習データの量の差からくるものです。日本語データを増やせば自然にトークン数の差は減ります。日本語知識に「特化」するとかえって多言語処理の弊害になります。
>@taku910: 逆に言えば、この言語非依存のサブワードという技術があるからこそ、コーパス集めりゃ言語に依存せずそれなりに動くことが実現できています。日本語の形態素解析等は多言語化の障壁でしかありません。
>@taku910: 豊富な英語コーパスを犠牲にして日本語を増やすのは現実的ではないので、サブワードの学習のときのみ日本語コーパスを水増しすればトークン数問題? はなくなりますが、本当に数が精度に有効なのかは分かりません。


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]