NISHIO Hirokazu[日本語][English]

Crowdsourced Adaptive Surveys

PDF Yamil Ricardo Velez

ひとことで CSAS(Crowdsourced Adaptive Surveys)=参加者の自由記述をLLMで設問化し、マルチアーム・バンディットで“出す設問”をリアルタイム最適化する「自己進化型アンケート」。新しい論点やコミュニティ固有の関心を取りこぼしにくくします。

何が新しい?

  • CATとの違い:CATは“既存スケールの精密測定”用。CSASは設問プール自体を参加者入力から増殖させ、未知の離散的論点を捕捉。
  • Wiki調査との違い:Wikiは主にペア比較。CSASは連続/順序尺度の評定(重要度や正確さなど)を目的に、バンディットで探索⇔活用を自動調整。

仕組み(パイプライン)

  1. 自由記述を集める
  2. LLMで設問化(1文要約など)
  3. フィルタ:埋め込みで近傍検索→重複除外(閾値0.90)/毒性除去
  4. 参加者が評定:自分の設問+既存からk件
  5. 選択最適化:Gaussian Thompson Sampling(GTS)で平均スコアが高い設問の提示確率を上げる(ただし確率フロア0.01で新規・少数も残す)
  6. 推定:提示確率の逆数でIPW補正して平均などを推定

実証から見えたこと(要旨)

  • Issue Salience(N=820, 2023/9/11–13)
    • 生活費・医療・景気など生活直結の経済・医療系が最上位。Gallupの固定カテゴリより、参加者生成項目(例:プライバシー保護、候補者の透明性、メンタルヘルス)が上に来ることが多い。
  • Latino向けミスインフォ(N=319, 2023/7/6–7)
    • 実際の出来事や党派ステレオタイプは“正確”寄りに、明白な虚偽は低評価。しかも参加者生成の主張が、既存ファクトチェック起点より**“信じられやすい”項目の発見に強い**。
  • ローカル政治
    • ローカルでも全国級論点が紛れ込む一方、地域特有の懸念も自動で掘り起こせる。

強み

  • 適応速度:新話題が出ても即プールに取り込み
  • 帰納的設計:研究者の想定外を拾える
  • 参加型:被験者が調査を共創
  • コスト効率:少数スロットでも多数設問を探索(推論コスト見積りは1人あたり約$0.005–$0.01程度)

留意点・限界と対策

  • “遅着”設問が不利:確率フロア、初期探索枠、バッチ導入
  • 類似度閾値の調整:低すぎ→過剰削除/高すぎ→重複残存(論文は0.90)
  • 多数派偏り:コンテキスト・バンディットや層別割当、deconfounded TSで緩和
  • サンプル代表性:便宜サンプルの特性を明示、必要なら追試
  • 安全性:モデレーションAPI必須、プロンプトと拒否基準の監査ログ

実装の最小レシピ(あなた向け)

  • 固定バッテリー+動的スロットmを用意
  • フロント:自由記述→要約確認→評定マトリクス(自作+k件)
  • バック:埋め込み近傍5件をRAGで参照→LLMで正規化設問→重複・毒性フィルタ→Qバンク
  • 配信:GTSで提示確率更新(指標=重要度/正確さ/遭遇頻度など)
  • 推定:IPWで平均・差分、群間異質性は属性を文脈に入れたバンディットで

まとめ CSAS=「参加者が作る設問 × LLM整形 × バンディット最適化」。固定設問では見落としがちな論点を、短尺で、動的に、参加型で拾い上げる実践的フレームです。


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]