NISHIO Hirokazu[Translate]
日本語言語モデルについて考えたこと
2023-02-21
数日前に口頭で質問されて口頭で答えたが、脳内のイメージ図を言葉では伝えられなかったので改めて図を描いた
(予期せず「言語モデルにできないこと」をやっていたことに後から気づいた)

サムネイル用


「日本語に特化した言語モデルを作ることで日本語特有の事情によって既存の言語モデルに対して優位になりうるか」という問いについて考えたことを書き出す
Q: 日本語の表現能力は英語よりも高いのではないか?
A: 僕はそうは思わない
自然言語はホモサピエンス同士がコミュニケーションをすることを目的として発展してきた
なので「伝わる」ことが最も重要
聞き手の平均的な理解能力がボトルネックになって言語の表現能力が増えない
「聞き手の平均的な理解能力」が民族や人種によって大差ないのであれば、その民族が使う自然言語も大差ない表現能力になる
(SF的には、過酷なコロニーに何世代も住んでる人たちの理解力が平均的なホモサピエンスより高くなったりとかしそうだが、まあ今の地球上では大差ないだろう)
例えば数学などでは「自然言語では曖昧に区別せず使っている概念」を区別するために、人工的な語彙や構文が使われる
この人工言語は平均的なホモサピエンスが理解できる必要はない
なので、自然言語よりも高い表現力を持ちうる
ただし興味のない領域の表現能力は捨てていたりする
英語も日本語も自然言語である時点で表現能力にキャップがかぶせられている、どんぐりの背比べ
数学者の間の専門的な議論や、複雑なアルゴリズムの挙動など、「訓練された専門家にのみ理解可能なタイプの言語」を理解する能力に比べればイージーなもの
並べた図


差があるかないかで言えば差はある
例えば日本語では主語の省略が自然に行われるので、主語を捨象しやすい。
これは逆に主語の区別を見落としやすいということでもある。
これは世界を分節化する際に、何を細かく刻んで何を大雑把に刻むかに、文化による差があるということ。
どちらかの言語がもう片方の言語より優れているのではない。

ある文化の人は他の文化の言語を見て「ロとハを区別しないでBと呼んでるアホだ」と思うが、相手から同様に「CとDを区別しないでニと呼んでるアホだ」と思われている
人間の脳の性能には大した差がないだろうから世界全体の刻まれる個数には大差がない。
具体例
AだよねってAIに言ったら、いやBだね、と言われた

複数の言語を使い、各領域について最も細かく分割されている言語を使うことで、どの一言語よりも優れた世界理解ができる。
高校数学でたとえると、ベクトルと複素数の両方がわかっていればベクトルを回転させたくなった時に複素数に変換して回転させてから戻すことができる。 #ベクトルと複素数のたとえ
もっとも操作がやりやすい体系に写像して、そこで操作してから戻すことで、元々の体系では難しかったことがあっさりとできる
異なる体系を複数持つのが良い
ヨーロッパの思想が流れ込む前に発展して翻訳コストの高さであまりヨーロッパに還元されなかった古代インド
キリスト教に対する宗教的対立から知識を共有しないインセンティブがあったイスラム教圏
言語モデルがより良くなってこれらの文化圏の文献を低コストに参照できるようになると面白い
これらの地域はまだ人口が増えていきそうなのも注目ポイント
日本人が日本語で質問したことを、AIが一旦アラビア語で考えてからその結果を元にパーリ語で考えて、最後に「こいつは日本語しかわからないから仕方ないな」と結論を日本語に翻訳して答える、みたいなことが起こる

Q: 日本語の言語モデルをよりよくすることに価値があるか
A: ある。
これは「日本語だけのモデルに価値がある」という意味ではない
今後どんどん成長していくであろう「言語をまたいで思考するAI」に対するパイプの太さが重要
「言語をまたいで思考するAI」は新たに発見された油田のようなもので、価値が湧き出してくる
ここから湧き出してくる価値を、パイプの細い言語のユーザはあまり享受できない

関連
このページの内容をまとめようとしてる過程(LLM以降の世界観)で言語化されたもの

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]