NISHIO Hirokazu
[Translate]
長さをパラメータにしたDF
ある単語の
DF
が0.1だ、って時
10本の文書に1本出現する出現確率だと言ってるようなものなのだけど
出現する確率pって当然文書が長くなるほど高くなるわけで
pが単語wだけの関数だと思うのはおかしいと思う。
pを文書の長さnと単語wから推定するモデルを作ると良いのではないか??
Tweet
Related Pages
sample1
DF
→
大きすぎるリンクの問題
×
DF
→
小さいリンクの自動生成
→
出現集中
×
ポアソン分布
×
DF
×
IDF
×
tf-idf
×
この文書を代表するキーワードらしさ
×
単語分割
×
sentencepiece
×
sentencepieceのユニグラム言語モデル
×
viterbiアルゴリズム
×
suffix_array
×
キーワード抽出
×
接尾辞配列
→
未踏テキスト情報中のキーワードの抽出システム開発
→
キーフレーズ抽出
×
textrank
×
rake
×
出現集中
×
tf-idf
×
DF
×
scrapbox統計2019-2
×
RAKEのストップリスト生成
×
positionrank
×
embedrank
×
crf
→
キーフレーズ抽出2020-08
→
DF
×
document_frequency
×
tf-idf
→
IDF
→
ページ
×
DF
×
粒度
→
ページ単位DF
→
大きすぎるリンクの問題
×
DF
×
キーワード
×
キーワードの交差による絞り込み
→
DFが多すぎるキーワード
→
rake
×
ストップワード
×
DF
×
長いキーフレーズが選ばれるバイアス
→
RAKEのストップリスト生成
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:27:24 PM
[Edit]