2024-11-30
データ全体をクラスタに分類するのではなく、密度の高い塊を見つけて解説するスクリプト
背景
使い方と実装の解説
*.ipynb)になっているが、Pythonコード部分を切り出してPythonスクリプトとして使っても良いIn [4]の実行の後Num dense clusters 48と表示されているのが抽出された密度の高い塊の個数hdb = HDBSCAN(min_cluster_size=5, max_cluster_size=30, min_samples=2)min_samples=2は大きくするほど密度の計算にスムージングの効果が起きるので「ざっくりといえば全部一つの塊」みたいな出力になりやすくなるmin_cluster_size=5は「5件以上が密に集まっているところを抽出」の意味max_cluster_size=30は30件以上の大きなクラスタを分割して詳細に見る意図で付けたが、大きなクラスタが分割されて似た内容のクラスタがいくつもできるのでない方がいいかもしれないcluster_selection_method="leaf"を指定すると良い可能性もあるIn [6]で結果を保存した後、In [7]からAIによる解説を生成しているまたその表札の興味深さを100点満点で出力せよ。ありきたりなものを0点、新しい気づきのあったものを100点とする。の部分は今回の結果を見て、それほど有効ではなかったなと思っている他にない視点を導入しているクラスタとその独創的な点を列挙しなさいとプロンプトした方が面白くなりそうと感じている表記揺れ