NISHIO Hirokazu[日本語][English]

ブロードリスニングの4つのデータ型

ブロードリスニングのデータの形には大きく分けて4つある

だが特に新しいシステムのデータ構造に関してはまだ世の中の理解度が低いので、しばしば従来型のデータ型(≒アンケート)と混同される

まとめ画像

Polis型

K件の意見(statement)があり、それに対してN人が賛成・反対・中立の投票をしたデータ
- 欠損値を含む4種類の値の行列の形式になる、投票行列(vote matrix)とも呼ばれる
台湾の10年間のデジタル民主主義や、最近ではボーリンググリーンの事例が有名

インタビュー型

N人に対して、それぞれインタビュアーが対話をして情報を引き出したデータ
LLM以前はインタビュアーのコストが高すぎたのであまり大規模に行うことはできなかったが、LLMによって「AIインタビュアー」が実現可能になり、用途が広がった
デジタル民主主義2030プロジェクトで、いどばたシステムとして開発されてきたものが、2025年の参院選でチームみらいの「しゃべれるマニフェスト」に応用され、2万件の問題意識データの収集につながった
- この話は「チームみらいの社会実験「しゃべれるマニフェスト」から得られた知見」に書いた
  - チームみらいの社会実験「しゃべれるマニフェスト」から得られた知見｜NISHIO Hirokazu

選択肢アンケート型

LLM以前から広く行われていた「大勢から情報を集める方法」
- 選挙の投票も広い意味でこれに含まれる
LLMがなくても容易に集計できたため、LLM以前の世界ではこの種のアンケートを数量的に集計することや、選挙の投票で多数決をすることがデファクトスタンダード化した
- 多数決は集計方法として問題があることが指摘されてきた。書籍「多数決を疑う」などで解説されている
- 「この種の量的研究だけではダメで、質的研究が大事だ」という議論もあったが、質的研究のコストが高すぎてなかなか大規模に実行することはできなかった

自由記述アンケート型

LLM以前に「選択肢アンケート」で拾いきれない情報をなんとか拾おうとした結果、自由記述欄を設けることが行われた
- が、そこに書かれたものをどう分析するかは長らく大きな課題だった
- 単語頻度分析やトピック抽出などの自然言語処理が研究されてきた
- LLMの登場によって、格段に分析が楽になった
- これを活用したのが2023年のTalk to the City
  - 広聴AIもこのデータ型を想定している

Polis型について

Polis型は選択肢アンケート型と見なすことができる
- なので任意の選択肢式アンケートをPolis型データとみなしてPolis的分析ができる
  - 2022年参院選のPolis的可視化: 5段階質問が42件あり、592人の政治家が回答しているので(592, 42)次元の行列の可視化である
実際のPolisのシステムを使った場合、質問文を回答者が追加できる(設定によってON/OFFできる)
- ここが従来のアンケートと違うところ
- 選択肢アンケートで拾いきれなかった意見を、自由記述アンケートのように拾い上げることもできる
  - つまり二種類のアンケートのハイブリッド型とみることができる
- この自由記述の投稿は選択肢アンケートの質問項目になる
これはオープンクエスチョンは答えにくい問題の解決とも捉えることができる
- 答えやすい選択肢式の質問に答えている間に自分の意見が整理され、それが選択肢式の回答でアウトプットしきれなかったときに追加の意見として提出される
- 一方で一つのテキスト欄に過不足なく自分の意見を整理して書くことは大部分の人間にとって難しいタスクであり、しばしば不完全な(投稿された文字列だけを見て他人が内容を理解できない、投票できない)投稿がされる

インタビュー型について

この「一つのテキスト欄に過不足なく意見を整理して書くことが難しい」問題の解決手段としてAIインタビュアーがある
- つまりAIが必要な情報を聞き出し、それを整理して提出することを行う
- 提出者が均質なAIになるため、どのようなものを提出してほしいかをプロンプトに書くことで異なった人との会話からでも粒の揃ったデータが得られる
  - 「しゃべれるマニフェスト」ではマニフェストに対する修正案をAIが提出した
  - 「いどばたビジョン」では問題点と解決策を抽出する設計になっている
この手法はブロードリスニングの手法の中でも比較的新しい手法であって、試行錯誤の余地がある
- 会話をするAIがどのようなプロンプトで動くか(何を考えて会話を進めるか)
  - 安野さんがここを工夫しようとしてるのがみらいAIインタビューという理解
- チャットログから何を抽出するか(会話から何を読み取るか)
  - 「会話中に抽出する」「会話後に抽出する」の二通りある
  - 「いどばたビジョン」ではチャット中にチャットのスレッドと並行して抽出が行われている
Xでこのインタビュー型を選択肢アンケート型と混同している意見を見て、この記事を書くきっかけになった
- 冒頭で賛成か反対かをAIインタビュアーが質問することで賛成反対投票の一種と認識してしまったのかもしれないが、話していくとそうでもないことがわかると思う
- この質問に対する最初の「はい」/「いいえ」の答えは質問者の「なぜそう思うのか？」「そうでない場合はあり得るか？」といった質問によって「開かれた」ものにすることができ、これによって詳細な説明と探究を促すことができる。
  - from 文法的クローズドクエスチョンを概念的に開く

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]