ブロードリスニングの4つのデータ型
ブロードリスニングのデータの形には大きく分けて4つある
- だが特に新しいシステムのデータ構造に関してはまだ世の中の理解度が低いので、しばしば従来型のデータ型(≒アンケート)と混同される
まとめ画像

- K件の意見(statement)があり、それに対してN人が賛成・反対・中立の投票をしたデータ
- 台湾の10年間のデジタル民主主義や、最近ではボーリンググリーンの事例が有名

- N人に対して、それぞれインタビュアーが対話をして情報を引き出したデータ
- LLM以前はインタビュアーのコストが高すぎたのであまり大規模に行うことはできなかったが、LLMによって「AIインタビュアー」が実現可能になり、用途が広がった
- デジタル民主主義2030プロジェクトで、いどばたシステムとして開発されてきたものが、2025年の参院選でチームみらいの「しゃべれるマニフェスト」に応用され、2万件の問題意識データの収集につながった
選択肢アンケート型

- LLM以前から広く行われていた「大勢から情報を集める方法」
- LLMがなくても容易に集計できたため、LLM以前の世界ではこの種のアンケートを数量的に集計することや、選挙の投票で多数決をすることがデファクトスタンダード化した
- 多数決は集計方法として問題があることが指摘されてきた。書籍「多数決を疑う」などで解説されている
- 「この種の量的研究だけではダメで、質的研究が大事だ」という議論もあったが、質的研究のコストが高すぎてなかなか大規模に実行することはできなかった
自由記述アンケート型

- LLM以前に「選択肢アンケート」で拾いきれない情報をなんとか拾おうとした結果、自由記述欄を設けることが行われた
Polis型について
- Polis型は選択肢アンケート型と見なすことができる
- 実際のPolisのシステムを使った場合、質問文を回答者が追加できる(設定によってON/OFFできる)
- ここが従来のアンケートと違うところ
- 選択肢アンケートで拾いきれなかった意見を、自由記述アンケートのように拾い上げることもできる
- つまり二種類のアンケートのハイブリッド型とみることができる
- この自由記述の投稿は選択肢アンケートの質問項目になる
- これはオープンクエスチョンは答えにくい問題の解決とも捉えることができる
- 答えやすい選択肢式の質問に答えている間に自分の意見が整理され、それが選択肢式の回答でアウトプットしきれなかったときに追加の意見として提出される
- 一方で一つのテキスト欄に過不足なく自分の意見を整理して書くことは大部分の人間にとって難しいタスクであり、しばしば不完全な(投稿された文字列だけを見て他人が内容を理解できない、投票できない)投稿がされる
インタビュー型について
- この「一つのテキスト欄に過不足なく意見を整理して書くことが難しい」問題の解決手段としてAIインタビュアーがある
- つまりAIが必要な情報を聞き出し、それを整理して提出することを行う
- 提出者が均質なAIになるため、どのようなものを提出してほしいかをプロンプトに書くことで異なった人との会話からでも粒の揃ったデータが得られる
- この手法はブロードリスニングの手法の中でも比較的新しい手法であって、試行錯誤の余地がある
- 会話をするAIがどのようなプロンプトで動くか(何を考えて会話を進めるか)
- チャットログから何を抽出するか(会話から何を読み取るか)
- 「会話中に抽出する」「会話後に抽出する」の二通りある
- 「いどばたビジョン」ではチャット中にチャットのスレッドと並行して抽出が行われている
- Xでこのインタビュー型を選択肢アンケート型と混同している意見を見て、この記事を書くきっかけになった
- 冒頭で賛成か反対かをAIインタビュアーが質問することで賛成反対投票の一種と認識してしまったのかもしれないが、話していくとそうでもないことがわかると思う
この質問に対する最初の「はい」/「いいえ」の答えは質問者の「なぜそう思うのか?」「そうでない場合はあり得るか?」といった質問によって「開かれた」ものにすることができ、これによって詳細な説明と探究を促すことができる。