「別の小さいモデル」は無益だが「日本語に適したトークナイザー+αの層」は必要という話
from 未踏会議2023 日本語の言語モデルは必要か? https://twitter.com/nishio/status/1634236182136762368
@kuboon 最近の機械翻訳では、自然言語のLLVMみたいな、どこの言語でもない中間言語に一旦変換されている、みたいな話があったような @nishio 中間言語って言葉で人間が想像してるのは単語という「離散的なシンボル」が並んだものだと思うんだけど、そもそもLLMの中では一つの単語に相当するものがfloatの1000次元とかのベクトルになってて、表現力が桁違い。だからそれを「英語にしてから日本語にする」より「直接日本語にする」が必要 @kuboon LLMから英語に出力せずに、float 1000次元の単語列から直接自然言語に機械翻訳するというのをイメージしていた @nishio それが必要で、ある自然言語についてそこの精度が劣っている場合、その言語の話者だけ損失を被る。で、これは各言語の話者で利害が相反するので、他言語話者に任せておいて解決する問題ではない。Unicodeでの漢字の扱いが日本人にとって不便なものになってしまうみたいなのと同じことがおこる @kuboon トークナイザのAPIを標準化して各言語のネイティブがコミット出来るような仕組みがあればいいのかな? @nishio トークナイザーだけだと薄すぎる。バイト列を離散的なトークンIDにしてるだけだからね。そのトークンIDがベクトルになって、さらにもう少し内側に進んで言語の表層的な差異が消えて意味のベクトルになったあたりの情報をI/Oできる口が必要だと思う
関連