NISHIO Hirokazu[Translate]
Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models
Claudeこの論文では、大規模言語モデル(LLM)の空間推論能力を向上させるために、Visualization-of-Thought (VoT)というプロンプティング手法が提案されています。主な内容は以下の通りです。
1. VoTは、人間の「心の目」による空間推論をLLMに模倣させる手法である。推論ステップごとに可視化を行い、後続のステップを導くことで空間推論を引き出す。
2. 自然言語ナビゲーション、ビジュアルナビゲーション、ビジュアルタイリングの3つのタスクでVoTの有効性を評価した。VoTはこれらのタスクでLLMの空間推論能力を大幅に向上させ、既存のマルチモーダルLLMを上回る性能を示した。
3. 2Dグリッド世界の「ビジュアルナビゲーション」と「ビジュアルタイリング」の2つの新しいタスクとデータセットを開発した。これらは複雑さを変化させた空間推論の研究に適したテストベッドとなる。
4. VoTによるメンタルイメージ生成は人間の心の目に似ており、マルチモーダルLLMへの応用可能性が示唆された。
5. GPT-4を用いた実験により、VoTの有効性が実証された。LLMのメンタルイメージ生成能力の定量的・定性的分析を行い、その限界についても考察した。

心象風景を使った思考をLLMにエミュレートさせる方法
これができるなら現状のLLMでもKJ法ができるのでは

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]