2024-11-22 サイボウズラボ勉強会
次元削減の歴史(PCAからUMAPへ)
古典的MDSは主座標分析 (Principal Coordinate Analysis; PCoA) とも呼ばれ、さらに主座標分析において距離にユークリッド距離を用いた場合は主成分分析と等価になる。 --- 多次元尺度構成法 - Wikipedia
高次元泥団子との格闘
賛成反対データのUMAPの問題
matrix.dropna(thresh=3)(欠損してないデータが3件以上なものだけ残す)してたのだけど、ここをmatrix.dropna(thresh=8)に変えたところUMAPの結果は下記のようになった全地図の84次元のデータではなく1地図だけのデータで欠損値を含む人を全部捨ててUMAPしたら一応わかれはした
これもPolisクラスタ2つになる問題の否定的観察結果についての「クラスタが分かれなくなるのは投票ユーザ数が増えていくことによる現象ではなく、ユーザが新しい意見を投稿することによって意見空間が高次元化していくことが原因」という仮説を支持する
新しいプロジェクト(11/22公表予定→シン東京2050ブロードリスニング)
a cluster is defined to be a set of density-connected points which is maximal wrt. density-reachability.
KJ法との関連
自分の心のなかに、「これだけの紙きれの資料は、自分の考えによれば、内容的に市場調査・品質管理・労務管理と三つに大きく仕切るのが正しい」などというたぐいの、グループ分けについての独断的な原理をあらかじめ頭の中にもっているからである。その独断的な分類のワクぐみを適用し、そのできあいのワクの中にたんに紙きれの資料をふるい分けて、はめこんでいるにすぎないのである。これでは KJ法の発想的意義はまったく死んでしま う。