NISHIO Hirokazu[Translate]
クラスタ解説の埋め込みベクトルをconcatしてUMAP
先週のクラスタリング精度アップの議論に関して
まず精度の尺度を作らないと議論にならない
基本的にはUMAPしてからクラスタリングしてるのをやめるといいと思う
高次元空間上でHDBSCANするだけで大部分の問題は解決するはず
ただし高次元空間を人間は観察できないので散布図は出せない
An Empirical Configuration Study of a Common Document Clustering Pipeline
UMAPで2次元に落としてからクラスタリングすることは精度を落とすという研究
分析のための散布図を直接市民に提示するのではなく、分析結果をわかりやすく伝えるための図を生成する(クラスタリングした後で散布図を作るなど)というアプローチもあり
高次元でクラスタリングしてからUMAPした場合、クラスタが重なってしまう可能性が大いにある、実用的な見た目になるかどうかは実験してみるといいと思う
分かれない場合、たとえば個別意見の埋め込みベクトルにクラスタ解説の埋め込みベクトルをconcatしてUMAPするなどの方法で分離した描画が可能なはず

2025-10-20
クラスタ1に(a, 0, 0, \cdots)をconcatする
できた
a=10
クラスタの情報が圧倒的になっている
a=1でもたいして変わらんな
「明瞭分離している」となったらUMAPが明瞭に離して描画するからか

a=0.5にしたらこう
明瞭分離でなくなると他のクラスタに巻き込まれるものが出てきて乱れるだけ
全体的な「綺麗に分離されてる」感は変わらない
定数aではなくクラスタの説明のembeddingをconcatする形ならもう少し配置に意味は出てくるだろうけど、その場合でも2次元的に見た配置はこの0.5のオフセットの場合と同じようにユーザから見て「不可解な飛地」ができるだけだろう

想像の確認のためにa=0.3
やっぱそうなるよねぇ

2025-10-21
Supervised UMAPの結果を書いてなかった。結局クラスタの間の距離を増やすという数学的な扱いがこの手法とほぼ同じだから、結果も似たようなものになる感じ


2025-10-22
いっそAffinityBubble路線にする手もあるか…

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]