投票の多いPolisが一塊になる現象
2024-10-20 世論地図リリース時の懸念
なぜか?仮説
- 複数のトピックが混ざっている場合に、本質的に2次元で表現しきれない
- なら相関の高いいくつかの軸を取り出せばよい?
- 世論地図ではトピックごとにわけてあるから起こらない?
- 寄与率を見て適切に分割することが可能ではないか
- 軸をクラスタリングする
- N本の軸がある、2本ずつ取れば情報のロスはないが、数が多くなってしまう、実際にはあまりロスの増えない組み合わせがあるはず
- 問題を簡単にする
- N本の軸を2つのグループに分けて、それぞれでPCAをしたときに「失われる情報」である3次元以降の分散を最小化したい
- 最適化問題
- 既存のアルゴリズムに帰着しそう
- ユーザがコメントを追加できる場合、本質的に元データの次元がどんどん高くなっていく
- すべてに回答しないユーザの扱いの問題
- 数学的に可能性を感じているが解明できていない
- シンプルな事例として$(1, 0, 0), (0,1,0), (0,0,1)$の3通りの意見集団がいるとする
- これは2次元空間で正三角形になっている
- ところが全ての質問に回答しない人がいる
- $(-, 0,0), (1, -, 0), (1, 0, -)$
- これらは欠損値を平均で埋める処理によって
- $(1/3, 0,0), (1, 1/3, 0), (1, 0, 1/3)$
- になる
- これ本来の二次元空間上にないよね
- それがどの程度悪さをするのかはわからない
- 今回のケースではそもそも明確に3つに別れていたのに平均値による欠損埋めによって中間的なデータが生成されてクラスタの明瞭な別れ方を妨げるようになった
- 今回のケースに限っていうなら1件の欠損までは他のデータを使って埋まれば元通りに復元できるんだ
- 十分データ量が多い状況においては「回答したものが同じである他のデータ」からk近傍法とかで復元できるはず
- 欠損値を平均値で埋めるのがよくない可能性
しかしまぁとりあえずPolisの数学サーバに手を入れないと解決できないわな