日本語の言語モデルは必要か？

「別の小さいモデル」は無益だが「日本語に適したトークナイザー+αの層」は必要という話

from 未踏会議2023 日本語の言語モデルは必要か？ https://twitter.com/nishio/status/1634236182136762368

日本語の言語モデルは必要か？
巨大言語モデルは規模が能力に直結するので中途半端に小さい日本独自モデルを作っても無益なんだけど、巨大言語モデルとの日本語でのコミュニケーション効率が英語より下がると日本語話者にとって損失なので何もしなくて良いわけではない
日本語の学習データを増やせということか？
違う、トークナイザのトークン分割は言語中の語の出現頻度に沿うので、異なる言語話者は利害が相反する。データを増やした一つのモデルではダメ
機械翻訳が進化すればどうでも良くなるのでは
英語の単語列になってからそれが日本語の単語列に変換されるのでは、英語による世界の解像度が日本語よりも低い領域において英語に合わせた低いものになるので、英語に劣った言語にしかなれない

@kuboon 最近の機械翻訳では、自然言語のLLVMみたいな、どこの言語でもない中間言語に一旦変換されている、みたいな話があったような @nishio 中間言語って言葉で人間が想像してるのは単語という「離散的なシンボル」が並んだものだと思うんだけど、そもそもLLMの中では一つの単語に相当するものがfloatの1000次元とかのベクトルになってて、表現力が桁違い。だからそれを「英語にしてから日本語にする」より「直接日本語にする」が必要 @kuboon LLMから英語に出力せずに、float 1000次元の単語列から直接自然言語に機械翻訳するというのをイメージしていた @nishio それが必要で、ある自然言語についてそこの精度が劣っている場合、その言語の話者だけ損失を被る。で、これは各言語の話者で利害が相反するので、他言語話者に任せておいて解決する問題ではない。Unicodeでの漢字の扱いが日本人にとって不便なものになってしまうみたいなのと同じことがおこる @kuboon トークナイザのAPIを標準化して各言語のネイティブがコミット出来るような仕組みがあればいいのかな？ @nishio トークナイザーだけだと薄すぎる。バイト列を離散的なトークンIDにしてるだけだからね。そのトークンIDがベクトルになって、さらにもう少し内側に進んで言語の表層的な差異が消えて意味のベクトルになったあたりの情報をI/Oできる口が必要だと思う