NISHIO Hirokazu[Translate]
文書が階層的
書籍の各ページを対象文書とする場合
各対象に出現するキーワードはDFが大きいのでTFIDFは小さくなる
書籍を一つの対象文書とする場合
書籍内のいくつものページに出現するキーワードはTFが大きいのでTFIDFが大きくなる
つまり対象の輪郭によって逆方向の影響を受ける
対象の輪郭によらない尺度はないか?

{\displaystyle {\hat {f}}_{h}(x)={\frac {1}{nh}}\sum _{i=1}^{n}K\left({\frac {x-x_{i}}{h}}\right)}
適当なウィンドウで密度推定をした場合に、本当に一様に出現するものなら一様分布になるはず
そこからの分布の距離を見れば良いのではないか
しかも片方の分布が固定
大小関係を考えるだけならQを無視して良いので
\sum P(i) \log P(i)
あ、これ負のエントロピーでは
-\sum P(i) \log P(i)

接尾辞配列が作られているとする
あるキーワードの出現位置は、そのキーワードで始まる接尾辞の出現位置を見れば分かる
そこから密度推定ができないか?
もしくは密度推定を飛ばして直接エントロピーを計算できないか?
想定しているデータサイズ
書籍1000冊分+ブログなど、1GBいかないぐらい
雑な方法
文書全体を適当なサイズのビンに割っておいて、キーワードの出現数をビンごとに数える
ビンを10000としてキーワードを最長50文字、カウントを2バイトとしても大した量ではない
この数える過程はO(N)
最後にエントロピーでソートして結果を見る


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]