HDBSCAN - Hierarchical Density-Based Spatial Clustering of Applications with Noise. Performs DBSCAN over varying epsilon values and integrates the result to find a clustering that gives the best stability over epsilon. This allows HDBSCAN to find clusters of varying densities (unlike DBSCAN), and be more robust to parameter selection.
HDBSCAN is a clustering algorithm developed by Campello, Moulavi, and Sander. It extends DBSCAN by converting it into a hierarchical clustering algorithm, and then using a technique to extract a flat clustering based in the stability of clusters.
色々読んでからこれを再度読むとこれを書いた人がすごくよく理解していい図解をしていることがわかる
min_samplesを増やすことは密度推定にスムージングをかける効果がある
Accelerated Hierarchical Density Clustering
Density-based Clustering https://findresearcher.sdu.dk/ws/files/171664269/widm.1343.pdf この論文はHDBSCAN*アルゴリズムの高速化手法を提案していますが、特に興味深い点は以下の3つの異なる視点からアルゴリズムを説明していることです:
ユークリッド空間で単一リンケージクラスタリングを行うと、ノイズの多いポイントが島を横切る偽の橋を形成する可能性があるため、ノイズの影響を受けやすくなります。点をλ空間に埋め込むことにより、「反発効果」により、クラスタリングがノイズに対してはるかに堅牢になります。 --- Understanding HDBSCAN and Density-Based Clustering
特に位相的視点は本論文の新しい貢献であり、これによりマルチパラメトリックな拡張や、より一般的な数学的ツールの適用が可能になることが示唆されています。
この理論的な統合は、HDBSCAN*の理解を深め、さらなる改良への道を開くものとして重要な意義を持っています。また、異なる分野の研究者が協力してアルゴリズムを改善できる基盤を提供しています。
Understanding HDBSCAN and Density-Based Clustering
このブログ記事はHDBSCAN*アルゴリズムの直感的な理解を助けることを目的とした解説です。主なポイントは:
この記事は理論的な説明ではなく、直感的な理解を重視した実践的な解説となっています。特に、視覚的な例を多用してアルゴリズムの動作を説明している点が特徴です。
HDBSCANを解説 → Pythonでinstall、実行 #インストール - Qiita
from BERTopic: Neural topic modeling with a class-based TF-IDF HDBSCAN BERTopicでは、HDBSCANアルゴリズムを使って、埋め込み空間上のドキュメントのクラスタリングを行います。これは、BERTopicのトピックモデリングプロセスにおける重要なステップの1つです。
HDBSCANは、Hierarchical Density-Based Spatial Clustering of Applications with Noiseの略で、密度ベースのクラスタリングアルゴリズムです。以下のような特徴があります。
密度の違いを考慮できる HDBSCANは、密度の違いを考慮してクラスタリングを行うことができます。これにより、密度の高い領域と低い領域を自動的に分離し、よりコンパクトで意味のあるクラスタを見つけることができます。
ノイズに頑健 密度の低い領域にある点をノイズとして扱うことができるため、外れ値の影響を受けにくくなります。これは、トピックモデリングにおいて、無関係なドキュメントを適切に扱うために重要な性質です。
クラスタ数を指定する必要がない 多くのクラスタリング手法とは異なり、HDBSCANではクラスタ数を事前に指定する必要がありません。これは、最適なトピック数が不明な場合に特に有用です。
階層的クラスタリングが可能 HDBSCANは、クラスタの階層構造を捉えることができます。これにより、トピックの粒度を調整し、より詳細なサブトピックを見つけることができる可能性があります。
BERTopicでは、このHDBSCANアルゴリズムを用いて、埋め込み空間上のドキュメントをクラスタリングし、各クラスタを1つのトピックに対応づけます。これにより、意味的に関連するドキュメントが同じトピックにまとめられ、より解釈可能なトピックモデルが得られます。 HDBSCANの特性を生かすことで、BERTopicは、ノイズに頑健で、密度の違いを考慮した、柔軟なトピック抽出を実現しているのです。