賛成反対データのumap

NISHIO Hirokazu [Translate]

賛成反対データのUMAP
賛成+1, 反対-1, 欠損0のベクトルのようなデータをUMAP, DBSCAN, HDBSCANするときには注意が必要
なぜならこの種のデータはしばしば「同一点に重なるデータ」があり、近傍k個のデータ点をとって密度を計算する系のアルゴリズムから見ると「とても密度の高いクラスタがある」と見えるから

いかにも意味のありげなクラスタができている図
元データは「3%が+1、3%が-1、残りが0」という100次元のベクトル5000個

このUMAPのplotのうち「非ゼロの値が1個しかない点」を赤にするとこうなる
「意味ありげなクラスタ」に見えたものの中に芯のように赤い点があるのがわかる

「非ゼロの値が2個以上のデータ」4920件に限定してUMAPしなおすとこうなる
さきほどの意味ありげなクラスタに見えたものがほとんど消えて、単なるアーティファクトだったことがわかる

個数を数えてみる
原点のデータが8個、たまたま2個重なってるデータがいくつか(12個だった)

この2個重なっている点だけを赤でplotしたものがこれ
アーティファクトのクラスターの芯になっていることがわかる

---

これは生成データでだけ起こるトリッキーな現象ではなく、現実のデータでも起こること
現実のデータから得られた下記のようなUMAPに対してDBSCANでのクラスタリングを試行錯誤していた

2次元データからDBSCANしてもあまりうまくいかなかったので、次元削減前の84次元空間で試していたが、パラメータによっては「中央付近の明らかにクラスタに見えるものを除外したクラスタ」ができて不穏だった

この原因が何かを探究する過程でわかったが「中央付近のクラスタに見えるもの」が欠損値の少ないデータの集まりで、周囲の複雑な意味ありげな形だったものは欠損値多めのデータだった
この結果を見て、欠損値多めのデータの密度が高いというところから上記のような現象に気づいた
元々このデータは matrix.dropna(thresh=3) してたのだけど、ここを matrix.dropna(thresh=10) に変えたところUMAPの結果は下記のようになった
複雑な形状はほとんどすべてアーティファクトだったというわけ

世論地図のUMAP

高次元データ分析勉強会

DBSCAN

2024-11-14-世論地図のUMAP

HDBSCAN

日記2024-11-11

UMAP

→polis_2.0×UMAP×HDBSCAN→

EVoC

→濃いクラスタ抽出×HDBSCAN×広聴ai×濃い意見グループ→

広聴AIと濃いクラスタ抽出

→ai_objectives_institute×bertopic×HDBSCAN×UMAP×aiと著作権に関するパブリックコメント×国連igf京都大会×東京都知事選挙2024×安野たかひろ×日テレnews×2024衆院選×ブロードリスニング×peter_eckersley×ブロードリスニング×polis_2.0→

Talk to the City

→UMAP×高次元空間でhdbscanしてからumap→

高次元空間でクラスタリングしてからUMAP

→UMAP→

Supervised UMAP

Parametric UMAP

→t-sne×UMAP×pca×mds×densmap×trimap→

Stop Misusing t-SNE and UMAP for Visual Analytics

→埋め込みベクトル×UMAP×クラスタリング×an_empirical_configuration_study_of_a_common_document_clustering_pipeline×tfidfvectorizer×bertopic×top2vec→

埋め込みベクトルをUMAPしてからクラスタリング

→UTAS-UMAP×東京大学谷口研究室・朝日新聞社共同調査×utas×UMAP×ppolis2024-05-27×ppolis×aiクラスタ解説×ブラックボックスと掘り下げ×polis的分析×fisherの正確確率検定×2024-10-31の図×2022年参院選のUMAP可視化→

pPolis2024-10-29

→apple×visualization_tool_for_embeddings×embedding_atlas×Nomic×UMAP×webgpu×webgl→

Embedding Atlas(Apple)

→plurality_tokyo_namerakaigi×サイボウズラボ勉強会×pol.is×community_notes×メカニズムデザイン勉強会×majority_judgement勉強会×pluralityとpolis勉強会×polis勉強会×quadratic_votingとplural_management勉強会×Talk to the City勉強会×世論地図勉強会×高次元データ分析勉強会×デジタル民主主義研究ユニット×ピボット×古典期アテネの民主主義のスケール×国民こそが唯一の正統な権威である×フランス革命×フランスでの女性参政権×一人一票×未成年者には投票権がない×成年被後見人の選挙権×ドメイン投票方式×デメニー投票×デーメニ投票×quadratic_voting×glen_weyl×qv×radical_markets×audrey_tang×vitalik_buterin×quadratic_funding×audrey_tangのqv×glen_weylのqv×quadratic_votingがシナジーの発見に有用×台湾総統杯ハッカソン×qvは投票しないことに意味のあるメカニズム×「投票しないことは良くないことだ」は根拠のない思い込み×vitalik_buterinらのquadratic_funding×a_flexible_design_for_funding_public_goods×akb48総選挙×gitcoin×gitcoin_grants×公共財×リソースの再分配×社会的意思決定×メカニズムデザイン×多数決×くじ引き×抽選制×抽籤制×プラトン×アリストテレス×ジェームズ・マディソン×ジョン・スチュアート・ミル×アレクシ・ド・トクヴィル×選挙は4年に一度5bit送信する遅い通信だ×ブロードリスニング×Polis×pol.isでのuberの議論×metaがファクトチェックを廃止×community_notesにおける行列分解を用いた信頼度スコアリング×多様な主体から支持されることを評価する仕組み×Talk to the City×日テレnews×2024衆院選×ブロードリスニング×シン東京2050ブロードリスニング×UMAP×世論地図×mielka×2024衆院選×japan_choice×meta-polisの構想×mashbean×協力の深さと広さのトレードオフ×plurality本×aiあんの×タウンミーティング×非同期化×空間と時間の制限から解き放つ×chatgptとaiあんののコミュニケーションの形の違い×ai政治家の3つのレベル×aiが間に入って非同期化×open_space_technology×アジェンダ設定の権限を人々に開放する×vitalik×主観主義×3つのイデオロギーの間に2つの対立軸がある×aiが仲介するコミュニケーション×bluemo×intersubjective_model_of_ai-mediated_communication:_augmenting_human-human_text_chat_through_llm-based_adaptive_agent_pair×時間の制約×心理的安全性×緩やかに繋ぐ×デジタル民主主義2030×同じ時間と場所を共有できない人に機会を用意×metapolis×スケーラビリティ×デジタル民主主義×コミュニティ×大規模コラボレーション×xy問題×熟議のための4つのステップ×リプライはスケールしない×リプライさせない×your_priorities×コトノハ→

デジタル民主主義をスケールさせるには？

→pol.is×意見分布の可視化×fisherの正確検定×polis:_scaling_deliberation_by_mapping_high_dimensional_opinion_spaces×polis勉強会×polis体験レポート:テロの原因究明をするか×polis体験レポート:同性婚を合法化すべきか×感情収集プラットフォーム×sentiment_gathering×sentiment_gathering_platform×理解されたいという欲求×西尾の体験_on_plurality_tokyo×pca×UMAP×k-means×leiden_graph_based_community_detection×hierarchical_clustering×短文×polisをもっとやりたい→

Polis

→Talk to the City×クラスタリング×bertopic×HDBSCAN×DBSCAN×UMAP×Spectral Clustering→

Talk to the Cityのクラスタリング

→UMAP×HDBSCAN→

UMAPとHDBSCANの著者は同じではない

→t-sne×laurens_van_der_maaten×UMAP×leland_mcinnes×ラベル数の動的変更→

Nomic

→2022年参院選のpolis的可視化×2022年参院選のUMAP可視化×utas×UMAP×Polis→

UTAS-UMAP

→11万人の意見クラスター分析×UMAP×one-hot表現×匿名の市民の意見ベクトルはそんなに明瞭に別れてない→

11万人のUMAP

→世論地図×UMAP→

世論地図3970人UMAP

→DBSCAN×コア点×直接到達可能性×密度連結性→

DBSCANにおけるクラスタの定義

→UMAP×DBSCAN×クラスタリング×aiによるクラスタ解説×世論地図3970人UMAP×kde×カーネル密度推定×まずは大雑把に×賛成反対密度表示×tSNEの結果のクラスタリングは慎重に→

UMAPの結果をクラスタリングするべきか

→HDBSCAN×mutual_reachability_distance×相互到達距離×core_distance×コア距離→

相互到達距離

→HDBSCAN→

Spectral Clustering

→k平均法×Spectral Clustering×クラスタリング×パーティショニング×DBSCAN×DBSCANにおけるクラスタの定義→

クラスタリングとパーティショニング

→Spectral Clustering×HDBSCAN→

SpectralClusteringとHDBSCANの違い

→DBSCAN×HDBSCAN×excess_of_mass×dbscan_revisited,_revisited:_why_and_how_you_should_(still)_use_dbscan×相互到達距離→

DBSCANとHDBSCANの違い

→HDBSCAN×最小全域木×dual-tree_boruvka→

Accelerated Hierarchical Density Clustering

→テキスト形式データからのブロードリスニング×HDBSCAN×aiにkj法を教える×グループ編成×意外性判定×表札作り×離れ猿×連想的雰囲気×当たり判定拡大×連想接続×新しい視点×濃い意見×意外な切り口→

新しい切り口を発見するためのブロードリスニング

→pca×UMAP×ヒモ状のアーティファクト×変分ベイズ→

対立次元

→UMAPの結果をクラスタリングするべきか×高次元泥団子×tsne×UMAP×ヒモ状のアーティファクト→

tSNEの結果のクラスタリングは慎重に

→東京大学谷口研究室・朝日新聞社共同調査×UMAP×fisherの正確確率検定×aiによるクラスタ解説×2022年参院選のpolis的可視化×pPolis2024-10-29×UTAS-UMAP→

2022年参院選のUMAP可視化

→UMAP×バネモデル×接続関係×二次元配置→

UMAPはバネモデルと解釈できる

→Polis×pca×Talk to the City×UMAP×tttc的クラスタ説明生成×地図×データの多いpolisは半分こになりがち×イデオロギー・ベクトルの可視化×11万人の意見クラスター分析→

Polis+TTTC的広域マップ

→Talk to the City×UMAP→

TTTCの「離れ小島クラスタ」問題

→サイボウズラボ勉強会×plurality_tokyo×plurality×ブロードリスニング×Polis×pluralityとpolis勉強会×polis勉強会×plurality_seoul×audrey_tang×gisele_chou×Talk to the City×ai_objectives_institute×deger_turan×aiと著作権に関するパブリックコメント×安野たかひろ氏が東京都知事選に出馬へ×マイナンバーカード×直接投票×オープンソース×デジタル公共財×人間増強×知的生産性の向上×都知事選でtalk_to_the_cityをする×tokyoai×主観か客観かではなく、一人の主観から大勢の主観へ×シビックテックによる、社会と民主主義のアップデート×手書きの図×polis:_scaling_deliberation_by_mapping_high_dimensional_opinion_spaces×polis体験レポート:同性婚を合法化すべきか×台湾の同性婚は親族にならない×vtaiwan×オープンガバメント×デジタル民主主義×透明性×参加型民主主義×アジェンダ設定の権限を人々に開放する×モデレーション×polisのモデレーション×aoiのtttcページにaudrey_tangのコメントがある×集団的議論×集団的意思決定×peter_eckersley×electronic_frontier_foundation×let's_encrypt×certbot×privacy_badger×brittney_gallagher×talk_to_the_cityでplurality本の内容を可視化×bertopic×BERTopic: Neural topic modeling with a class-based TF-IDF×UMAP×HDBSCAN×mashbean×初探_polis_2.0：邁向關鍵評論網絡×熟議×レジリエンス×双方向的マスコミュニケーション×国民ラジオ×一方向的マスコミュニケーション×聞く姿勢×デジタルネイティブは4年に1度のアップロード帯域で十分とは思わない×雪玉×polis_2.0×発想法×川喜田二郎×kj法×凝集型階層的クラスタリング×u理論→

Talk to the City勉強会

→bertopic×topic_model×class-based_tf-idf×クラスベースtf-idf×UMAP×HDBSCAN×ctm×vae×countvectorizer×トピックのクラスタリング→

BERTopic: Neural topic modeling with a class-based TF-IDF

→UMAP×dimension_reduction×t-sne→

Uniform Manifold Approximation and Projection

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at 7/14/2026, 4:14:27 AM[Edit]

Related Pages