NISHIO Hirokazu[日本語][English]

クラスベースTF-IDF

from BERTopic: Neural topic modeling with a class-based TF-IDF クラスベースTF-IDF クラスベースTF-IDFは、BERTopicで提案された新しいトピック表現の手法です。

通常のTF-IDFは、各ドキュメントにおける単語の重要度を計算します。これに対し、クラスベースTF-IDFでは、トピックごとにドキュメントをまとめて擬似的に1つのドキュメントとみなし、そのドキュメントクラスにおける単語の重要度を計算します。

具体的には、以下のように計算されます。

Wt,c = tft,c · log(1 + A/tft)

  • tft,c : トピックcに含まれるドキュメントにおける単語tの出現頻度
  • A : コーパス中の単語の平均出現頻度
  • tft : 単語tのコーパス全体の出現頻度

通常のTF-IDFが各ドキュメントを独立に扱うのに対し、クラスベースTF-IDFではトピックごとにドキュメントをグループ化して扱う点が特徴です。これにより、トピックを特徴づける単語の重要度をより直接的に計算できます。

BERTopicでは、このクラスベースTF-IDFをトピック表現の生成に用いることで、従来のクラスタ中心ベースのトピック表現よりも優れた結果が得られたとしています。トピックの解釈性向上に寄与する手法と言えます。


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]