NISHIO Hirokazu
[Translate]
DF
Document Frequency
ドキュメントの粒度
によって影響を受ける
極端な例として、一単語一ドキュメントとすれば、TFに一致する
「1回以上出現するなら1」とすることが多い
出現集中
では「2回以上出現するなら〜」の値も使う
つまりステップ関数を掛けてる
閾値に回数を使っているが、これは当然ドキュメントに含まれる単語数が増えるほど大きくなりやすい値
単語数で割って出現確率にする方が良いのでは…
Tweet
Related Pages
出現集中
小さいリンクの自動生成
未踏テキスト情報中のキーワードの抽出システム開発
長さをパラメータにしたDF
キーフレーズ抽出2020-08
IDF
ページ単位DF
DFが多すぎるキーワード
RAKEのストップリスト生成
→
キーワードのすべての出現をリンクにしてはいけない
×
「情報を共有/情報の共有」問題
×
出現集中
→
「キーワードのすべての出現をリンクにしてはいけない」は「特定文字列の〜」ではない
→
rake
×
キーフレーズ抽出
×
短文抽出
×
出現集中
×
crf
×
大域的な特徴
→
キーフレーズ抽出20200823
→
キーフレーズ抽出
×
名詞句アプローチ
×
動詞を許容するキーフレーズ
×
動詞を積極的にブラケティング
×
「情報の共有」を「情報共有」と関連づけたい
×
文中に出現しないキーフレーズ
×
単語出現頻度
×
ストップワード
×
共起
×
出現集中
×
tf-idf
×
IDF
×
rake
×
textrank
→
キーワード抽出
→
文章の粒度
×
情報の粒度
×
情報の粒度階層
×
川喜田二郎による情報粒度の実例
×
ドキュメントの粒度
×
粒度
→
エントリの粒度
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:39:01 PM
[Edit]