"Accelerated Hierarchical Density Clustering"
https://arxiv.org/pdf/1705.07321
from HDBSCAN
この論文はHDBSCAN*アルゴリズムを高速化する手法を提案したものです。主なポイントは:
HDBSCANのアルゴリズムについて、論文では以下の3つの異なる視点から説明されています:
これら3つの説明は同じアルゴリズムの異なる側面を照らし出しており:
最終的に、これら3つのアプローチは同じアルゴリズムに収束し、異なる研究分野からの視点を統合することで、アルゴリズムのより深い理解を可能にしています。
それぞれの用語について解説します:
クラスターツリー
Robust Single Linkageアルゴリズム
従来のシングルリンケージの改良版 ノイズに対してより頑健 kとαという2つのパラメータを使用 各点の周りのk近傍を考慮して、より安定したクラスタリングを実現
コアポイント
密度ベースクラスタリングにおける重要な概念 ε半径の近傍内に最小数k個以上の点を持つ点 クラスターの「核」となる点を表す
ε到達可能性
2つのコアポイント間の関係を表す概念 両方の点がお互いのε近傍に含まれている場合、それらは「ε到達可能」 クラスター形成の基準として使用
相互到達可能距離
2点間の新しい距離メトリック コア距離(k番目に近い点までの距離)と実際の距離を組み合わせた指標 クラスターの密度変化を考慮した距離measure
シングルリンケージクラスタリング
最も近い点対間の距離を基準に階層的クラスタリングを行う手法 最小距離を使ってクラスターを併合 チェーニング効果(細長いクラスターができやすい)という特徴がある
トポロジカルデータ分析
データの位相的な性質を調べる数学的手法 データの形状や構造を位相空間の観点から分析 連続的な変形に対して不変な特徴を抽出
永続的ホモロジー
トポロジカル特徴の「寿命」を計測する手法 特徴がどの程度のスケールで存在するかを定量化 データの本質的な構造を見分けるのに役立つ
Lesnick複体
密度に基づいた単体複体の一種 Vietoris-Rips複体を基に、密度情報を組み込んだもの 計算効率の良い構造を持つ
単体複体
点、線、三角形などの単体の集まり トポロジカルデータ分析で使用される基本的な構造 データの位相的な構造を表現する手段
シーフ理論
位相空間上の連続的に変化する集合を扱う数学理論 クラスター構造の連続的な変化を記述するのに使用 より一般的な数学的枠組みを提供
永続的スコア
クラスターの重要性を測る指標 クラスターがどの程度の密度レベルで存在し続けるかを数値化 クラスター抽出の際の判断基準として使用
これらの概念は互いに関連し合っており、HDBSCANアルゴリズムの異なる側面を形作っています。統計的、計算的、トポロジカルな観点からアルゴリズムを理解する上で重要な役割を果たしています。