NISHIO Hirokazu[日本語][English]

投票の多いPolisが一塊になる現象

2024-10-20 世論地図リリース時の懸念

なぜか?仮説

  • 複数のトピックが混ざっている場合に、本質的に2次元で表現しきれない
    • なら相関の高いいくつかの軸を取り出せばよい?
    • 世論地図ではトピックごとにわけてあるから起こらない?
    • 寄与率を見て適切に分割することが可能ではないか
      • 軸をクラスタリングする
      • N本の軸がある、2本ずつ取れば情報のロスはないが、数が多くなってしまう、実際にはあまりロスの増えない組み合わせがあるはず
      • 問題を簡単にする
        • N本の軸を2つのグループに分けて、それぞれでPCAをしたときに「失われる情報」である3次元以降の分散を最小化したい
        • 最適化問題
        • 既存のアルゴリズムに帰着しそう
  • ユーザがコメントを追加できる場合、本質的に元データの次元がどんどん高くなっていく
    • なら固定質問の世論地図では怒らない?
  • すべてに回答しないユーザの扱いの問題
    • 数学的に可能性を感じているが解明できていない
    • シンプルな事例として$(1, 0, 0), (0,1,0), (0,0,1)$の3通りの意見集団がいるとする
      • これは2次元空間で正三角形になっている
      • ところが全ての質問に回答しない人がいる
        • $(-, 0,0), (1, -, 0), (1, 0, -)$
      • これらは欠損値を平均で埋める処理によって
        • $(1/3, 0,0), (1, 1/3, 0), (1, 0, 1/3)$
        • になる
      • これ本来の二次元空間上にないよね
        • それがどの程度悪さをするのかはわからない
        • 今回のケースではそもそも明確に3つに別れていたのに平均値による欠損埋めによって中間的なデータが生成されてクラスタの明瞭な別れ方を妨げるようになった
        • 今回のケースに限っていうなら1件の欠損までは他のデータを使って埋まれば元通りに復元できるんだ
          • 十分データ量が多い状況においては「回答したものが同じである他のデータ」からk近傍法とかで復元できるはず
    • 欠損値を平均値で埋めるのがよくない可能性

しかしまぁとりあえずPolisの数学サーバに手を入れないと解決できないわな


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]