NISHIO Hirokazu[Translate]
長さをパラメータにしたDF
ある単語のDFが0.1だ、って時
10本の文書に1本出現する出現確率だと言ってるようなものなのだけど
出現する確率pって当然文書が長くなるほど高くなるわけで
pが単語wだけの関数だと思うのはおかしいと思う。
pを文書の長さnと単語wから推定するモデルを作ると良いのではないか??
"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]