クラスタ解説の埋め込みベクトルをconcatしてUMAP

NISHIO Hirokazu [Translate]

クラスタ解説の埋め込みベクトルをconcatしてUMAP
広聴AI
from https://docs.google.com/document/d/1plggszRTxEEYUcZuCLiHkPrBsMtxr3RQpctKtZe5y4M/edit?tab=t.0#heading=h.xqz9vh6im1kw
先週のクラスタリング精度アップの議論に関して
まず精度の尺度を作らないと議論にならない
過去の実験レポートを発掘した https://github.com/nishio/broadlistening-research/blob/main/publish/2025-02-11-02-NISHIO.md 
基本的にはUMAPしてからクラスタリングしてるのをやめるといいと思う
高次元空間上でHDBSCANするだけで大部分の問題は解決するはず
ただし高次元空間を人間は観察できないので散布図は出せない
An Empirical Configuration Study of a Common Document Clustering Pipeline
UMAPで2次元に落としてからクラスタリングすることは精度を落とすという研究
分析のための散布図を直接市民に提示するのではなく、分析結果をわかりやすく伝えるための図を生成する(クラスタリングした後で散布図を作るなど)というアプローチもあり
高次元でクラスタリングしてからUMAPした場合、クラスタが重なってしまう可能性が大いにある、実用的な見た目になるかどうかは実験してみるといいと思う
分かれない場合、たとえば個別意見の埋め込みベクトルにクラスタ解説の埋め込みベクトルをconcatしてUMAPするなどの方法で分離した描画が可能なはず

2025-10-20
高次元空間でクラスタリングしてからUMAPに対して
クラスタ1に(a,  0, 0, \cdots)をconcatする
できた
a=10
クラスタの情報が圧倒的になっている
a=1でもたいして変わらんな
「明瞭分離している」となったらUMAPが明瞭に離して描画するからか

a=0.5にしたらこう
明瞭分離でなくなると他のクラスタに巻き込まれるものが出てきて乱れるだけ
全体的な「綺麗に分離されてる」感は変わらない
定数aではなくクラスタの説明のembeddingをconcatする形ならもう少し配置に意味は出てくるだろうけど、その場合でも2次元的に見た配置はこの0.5のオフセットの場合と同じようにユーザから見て「不可解な飛地」ができるだけだろう

想像の確認のためにa=0.3
やっぱそうなるよねぇ
高次元空間でクラスタリングしてからUMAPに近づいていくだけ

2025-10-21
Supervised UMAPの結果を書いてなかった。結局クラスタの間の距離を増やすという数学的な扱いがこの手法とほぼ同じだから、結果も似たようなものになる感じ


2025-10-22
いっそAffinityBubble路線にする手もあるか…

Jigsaw Sensemakerとtttc-light-js勉強会

高次元空間でクラスタリングしてからUMAP

pSensemaker2025-10-21

AffinityBubble

Supervised UMAP

日記2024-10-08

広聴AI

→dd2030×デジタル民主主義×広聴AI×大規模熟議支援システム『いどばた』×安野たかひろ×チームみらい×安野貴博氏に聞く！デジタル民主主義×平デジタル大臣、安野さんについて語る×デジタル民主主義２０３０×digital_democracy_2030→

デジタル民主主義2030

→広聴AI→

公聴AI

広聴AIの方向性の議論2025-12-06

p広聴AI

→選挙は4年に一度5bit送信する遅い通信だ×デジタルネイティブは4年に1度のアップロード帯域で十分とは思わない×if文から機械学習への道×どんどん複雑な条件分岐になっていく×cultural_preferences_for_formal_versus_intuitive_reasoning×教師あり学習×ロジスティック回帰×決定木×家族的類似性×東洋人はロジスティック回帰で西洋人は決定木×ルールベースパラダイムが重み付き和パラダイムに負けたエポック×vibe_coding×一部が消えて一部残り新しく生まれる×captcha×人間でないユーザ×認知戦×輿論戦×法は社会のos×九電玄海原発、ドローン侵入か×ウクライナ向け「ストライクキット」3.3万台供給×共有地の悲劇×ossで共有地の悲劇が起こることにどう対処するか×大きな政府と小さな政府×「大きな政府/小さな政府」は誤った二項対立×オストロム×公共財×共有資源×cpr×common-pool_resource×connections_between_indivisuals_as_first-class_objects×intersecting_group×新しいものは登場前にその価値を見積もることができない×ブロードリスニング×ai_objectives_institute×talk_to_the_city×デジタル民主主義2030×広聴AI×ブロードリスニングが国会で野党が総理大臣に質問するために使われた事例×日本維新の会のブロードリスニング事例×polis×既存のsnsは個人に注目させるが、polisは個人ではなく集団に注目させる×citizens_foundation×your_priorities×リプライさせない仕組み×別席調停×左派がよい主張をしているなら、右派がやるべきことは同じくらいよい主張であり、戦うことではありません×いどばたシステム×bitcoinはお金、ethereumはコンピュータ×中央集権の3つの軸×polymarket×1人1票×quadratic_voting×quadratic_funding×vitalik_buterin×gitcoin_grants×retroactive_public_goods_funding×futarchy×an_introduction_to_futarchy×幅がある→

社会を人間による計算として考える:ドラフト

→インターネットと電気があり焚き火ができる施設×aiチャットログから有用な情報だけ保存×自然人村（東京・あきる野市）×青野原_野呂ロッジキャンプ場×プロジェクト個別ログページからプロジェクトページにリンクする×プロジェクトの片付け×政策プルリク活用プロジェクト×dd2030_slack×広聴AI×インタビューaiグランプリ2025-12-02×2025年のブロードリスニング×code_for_japan_summit_2025×p-mem/vt2025-11-22×脱線×日記2025-12-01×日記2025-12-03×日記2025-08-24×日記2024-12-02→

日記2025-12-02

→インタビューaiグランプリ×広聴AI×チームみらい2025参院選「しゃべれるマニフェスト」オープンデータ×チームみらいの社会実験「しゃべれるマニフェスト」から得られた知見×しゃべれるマニフェスト×チームみらいクラスタ密度ソート×チームみらい階層的クラスタリング×星さんのprでの議論のpolis×colin_megill×チームみらい問題意識の広聴ai×いどばた政策→

政策プルリク活用プロジェクト

→濃いクラスタ抽出×hdbscan×広聴AI×濃い意見グループ→

広聴AIと濃いクラスタ抽出

→11/18（火）×2024年振り返り×世論地図2024振り返り×世論地図×talk_to_the_city×ブロードリスニング×しゃべれるマニフェスト×チームみらい2025参院選「しゃべれるマニフェスト」オープンデータ×チームみらいの社会実験「しゃべれるマニフェスト」から得られた知見×devinを見る会×scott_wu来日×devin使ってみてどうだった？_～活用事例と導入時のポイント～×llmを使いこなすエンジニアの知的生産術(講演資料)×未踏ジュニア×一般社団法人未踏の理事を退任しました×広聴AI×jigsaw_sensemaker×tttc勉強会×advanced_voice×aipm2025-03-11×日記2025-04-05→

2025振り返り

→日記2025-10-31×いどばたビジョン×cartographer×広聴AI×farbrain×omorate→

Cartographerやfarbrainが改善するもの

→Jigsaw Sensemakerとtttc-light-js勉強会×分布を観察して気づくこと×d-agreeシステム×common_ground×uncommon_ground×意見の相違点×分断の可視化×polis型データ×ブロードリスニングの4つのデータ型×突きつけるブロードリスニング×ブロードリスニングが国会で野党が総理大臣に質問するために使われた事例×みらいaiインタビュー×cartographer×いどばたビジョン×Cartographerやfarbrainが改善するもの×farbrain×広聴AI×farbrainは広聴aiのリアルタイム化×協力の深さと広さのトレードオフ2025-11-01×広く集めたいのか多様な意見を集めたいのか→

思考の結節点2025-11-01

→広聴AI×抽出された知見×大量のオブジェクト×主観的興味深さ×今持っている知識の一歩先の知識しか受け止められない×ガウス過程回帰×利用と探索のトレードオフ×興味深さ×主観×cartographer×多様性ペナルティ×maximal_marginal_relevance×upper_confidence_bound×random_kitchen_sinks→

主観的興味深さ推定システム

→dd2030_slack×広聴AI×既知のものの除去を人間がやるべきではない×既存の概念とぶつける×既存のカテゴリーの隙間に落ちてるボール×年老いた組織×もう知ってる×組織を変えるオペレーション×認知コストの削減×自分の知識の境界をaiにインプットする必要がある→

すでに知っていることが可視化されても価値がない

→dd2030_slack×安野貴博×広聴AI×いどばたビジョン×いどばた政策×みらい_まる見え政治資金×polimoney→

dd2030slack-anno-2025-10-12

→広聴AI×youtube_data_api→

YouTubeコメント広聴AI

→意見のトレーサビリティ×広聴AI×両方向のトレーサビリティが必要×どこから来たのかのトレーサビリティ×どこへ行ったのかのトレーサビリティ×トレーサビリティ×双方向トレーサビリティ×双方向参照関係×意見の反映経路×寄与の可視化×根拠と接続→

意見のトレーサビリティに2方向ある

→日記2025-10-02×もっとインサイトが取れる仕組み×広聴AI×いどばたシステム×自由記述のアンケート×文脈欠落×「n=1の意見を深掘りしたい」は「速い馬が欲しい」×ミミズとショートケーキのたとえ×羊のたとえ×新しく作る人×変革する人×壊す人×シリアルアントレプレナー×存続することが目的化する×機能しなくなったものは破棄しなければならない×現状維持バイアス→

思考の結節点2025-10-02前半

→広聴aiのクリックでリンク先にジャンプする機能×広聴AIのissueの広聴AI分析×YouTubeコメント広聴AI×p広聴AI×広聴AI×p広聴ai2025-09-24→

p広聴AI2025-09-23

→広聴AI×ドッグフーディング×広聴aiのクリックでリンク先にジャンプする機能→

広聴AIのissueの広聴AI分析

→kozaneba×こざね法×表札をつけて束ねる×なめらかな畳まれ×大きな付箋×広聴AI×内部構造がわかりやすい×密度の高さを大きさに変換して可視化×kernel_density_estimation×p広聴AI×pkozaneba×pkozaneba2025-08-29→

pKozaneba2025-08-26~27

→ブロードリスニング×定性分析×ブロードリスニングの落とし穴×広聴AI×ノイジーマイノリティ×質的研究×量的研究×分断とサイレントマジョリティ×何を見るメガネなのか→

ブロードリスニングは定性分析

→talk_to_the_city×広聴AI×濃い意見グループ×予期しないつながり→

Talk to the Cityと広聴AIの仕組み

→広聴ai開発定例×チームみらい×チームみらい参院選2025広聴ai×AIあんの→広聴AI×朝日新聞ブロードリスニング×広聴ai開発定例:ビューの試行錯誤×チームみらい問題意識の広聴ai×広聴AI→

広聴AI開発定例:チームみらいの活動から見えてきたこと

→lucide×react×ツリーシェイク×広聴AI→

lucide-react

→広聴AI×a11y→

Chakra UI

→aiあんの×広聴AI×状況によってプロンプトを変える必要がある×チームみらい参院選2025広聴ai×チームみらい×参院選2025→

AIあんの→広聴AI

→ボイスチェンジャー×浮いてる葉っぱをすくってどける×ストレッチ×骨盤×中臀筋×内転筋×菱形筋×合宿×ラボ発表会7/16×選挙は期間限定のゼロサムゲーム×polimoneyに注釈機能をつける×広聴AI×散髪×luup×stfuawsc×japan_dashboard×左派がよい主張をしているなら、右派がやるべきことは同じくらいよい主張であり、戦うことではありません×死票リスク×日記2025-07-10×日記2025-07-12×日記2025-04-02×日記2024-07-11→

日記2025-07-11

→広聴AI×社会を人間による計算として考える:ドラフト×書いた方がいい記事×日記2025-07-04×pr活用を支える技術(資料)×thankyou-helper×ショート動画メーカー2×世界の成長から取り残されると困る人×デジタル大乗仏教×大乗仏教×雑な二分法×チームみらい×分断を減らす×ショート動画×日記2025-07-09×日記2025-07-11×日記2025-04-01×日記2024-07-10→

日記2025-07-10

→pluralityとサイボウズ(2023)×ブロードリスニング×都知事選2024×日テレnews×2024衆院選×ブロードリスニング×シン東京2050ブロードリスニング×デジタル民主主義2030×広聴AI×いどばたシステム×aiの進歩とplurality×plurality本発売×tokyo_plurality_week_2025×チームみらい×デジタル民主主義2030、新ボード体制のお知らせ×チームみらいのソフトウェア開発の4割はai×pluralityとは×singularityでいいのか？×効率と包摂のトレードオフ×100人100通りの働き方×サイボウズの自由すぎる働き方はこんなやり方で管理されていた×メディアとしてのグループウェア×anti-social_media×pro-social_media×政治的対立×polis×polis体験レポート:テロの原因究明をするか×kintone×みらいいどばた会議×デジタル民主主義×代表制民主主義×ヒエラルキー×ティール組織×組織統治メカニズム×ブロードリスニングが1年で標準戦略に×日記2025-07-16→

Pluralityとサイボウズv2

→広聴AI×ブロードリスニング→

広聴AI技術解説ブロードリスニングを支える技術

→チームみらい×広聴AI→

チームみらい広聴AI

→デジタル民主主義2030×チームみらい×安野たかひろ×鈴木健×安野チーム×いどばたシステム×広聴AI→

デジタル民主主義2030とチームみらい

→未踏ジュニア×plurality_tokyo_2023×ブロードリスニング×主観か客観かではなく、一人の主観から大勢の主観へ×激動の2024年5月下旬×tttc:_aiと著作権に関するパブリックコメント×funding_the_commons_tokyo_2024×ftc2024安野+audrey×plurality_in_japan×日テレnews×2024衆院選×ブロードリスニング×シン東京2050ブロードリスニング×デジタル民主主義2030×広聴AI×Talk to the City と広聴AIの歴史×ブロードリスニングが国会で野党が総理大臣に質問するために使われた事例×りっけんai井戸端会議×再生の道ブロードリスニング×ブロードリスニングが1年で標準戦略に×plurality本×協力の深さと広さのトレードオフ×偽情報×audreyとd/accとdifferential×民主主義は社会的技術×qarasu-14bに質問をする×reasoningモデル×無意識データ民主主義×未成年者には投票権がない×台湾のjoinで高校生の提案が制度改善につながった×親ソーシャルメディア×橋渡しする意見×ブリッジングボーナス×灘校土曜講座→

灘校土曜講座2025

→talk_to_the_city×広聴AI→

Talk to the City と広聴AIの歴史

→週記2025-04-15~2025-04-26×pnp×pbt×v-1グランプリ×bluemoさんにサイボウズでいどばたイベントをしてもらう企画×social_hack_day_#70×scott_wu_youtube_japan_2025-04-22×安野たかひろ参院選出馬検討×デジタル民主主義2030×広聴AI×tokoroten→

週記2025-04-26~2025-05-05

→日記2025-04-08×広聴AI×azure_blob_storage×azure_blob_service→

広聴AI2025-04-08

→aipm2025-03-11×広聴AI×frompdf2025-03-11×週記2025-03-24~2025-04-05→

週記2025-03-16~2025-03-24

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at 2/26/2026, 8:21:37 AM[Edit]

Related Pages