NISHIO Hirokazu[Translate]
DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN
claude
この論文は2015年のSIGMODで発表された「DBSCAN Revisited」への反論を行っています。主な論点は以下の通りです:
1. DBSCANの理論的な実行時間の限界について:
SIGMODの論文はDBSCANがO(n log n)で実行できないことを証明したが、それは実用上「計算困難」という意味ではない
多くの代替手法がΘ(n²)やΘ(n³)である中で、DBSCANは依然として大規模データでも有効な手法である

2. 実験の問題点:
SIGMODの論文で使用されたパラメータ(特にε)が不適切に大きすぎた
より適切な小さいεを使用すると、インデックスを活用した元のDBSCANの方が高速に動作することを示した
データセットの前処理が不適切で、有意なクラスタリング結果が得られていない

3. DBSCANの利点:
ユークリッド距離以外の距離関数も使用可能
R*-treeなど様々なインデックス構造と組み合わせ可能
実際のアプリケーションで効率的に動作する

結論として、SIGMODの論文は理論的な下界を示した点では価値があるものの、「DBSCANは大規模データで使用すべきでない」という主張は適切ではなく、適切なパラメータとインデックスを使用すれば、DBSCANは依然として競争力のあるアルゴリズムであると主張しています。
"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]