なぜHDBSCANの結果がUMAPで引き裂かれるのか?
しっかり語るには僕自身がしっかり見て実験をするべきだと思うが、Claude Codeが出してきた結果を見ると
そもそもクラスターをイメージするときに我々はつい2次元のクラスターを想像して、クラスターの中の点のほとんどは近傍がすべてクラスターの中の点であると思いがち
しかし実際のデータを見ると近い5近傍だけ見ても半数弱の点はクラスタ外の点と隣接している
30近傍まで広げると9割以上の点が近傍の1割以上をクラスタ外の点がしめる
つまり、クラスタは一つの単語ではなく細いそうめんなんだ
これが高次元空間に漂ってるのを、無理やり2次元にしようとすれば、それはちぎれたり交差したりもするよなぁ