NISHIO Hirokazu
[Translate]
ページ単位DF
ページ
をドキュメントの一単位とみなした
DF
粒度
としてどれくらいが適切なのか、という話
例えば検索して「この本の中にそのキーワードがあります」となった場合、本を開いてからまた検索が必要になる
二度手間
だったら検索結果画面から飛んだ場合に、その本の中での検索画面になるべきだし、その最初の出現のページが開かれるべき
そう考えるとそもそも検索結果に書籍ではなくページがハッとすべきだったのでは?
Tweet
Related Pages
DF
キーフレーズ抽出2019-04-02
→
大きすぎるリンクの問題
×
DF
→
小さいリンクの自動生成
→
出現集中
×
ポアソン分布
×
DF
×
IDF
×
tf-idf
×
この文書を代表するキーワードらしさ
×
単語分割
×
sentencepiece
×
sentencepieceのユニグラム言語モデル
×
viterbiアルゴリズム
×
suffix_array
×
キーワード抽出
×
接尾辞配列
→
未踏テキスト情報中のキーワードの抽出システム開発
→
DF
→
長さをパラメータにしたDF
→
キーフレーズ抽出
×
textrank
×
rake
×
出現集中
×
tf-idf
×
DF
×
scrapbox統計2019-2
×
RAKEのストップリスト生成
×
positionrank
×
embedrank
×
crf
→
キーフレーズ抽出2020-08
→
DF
×
document_frequency
×
tf-idf
→
IDF
→
文章の粒度
×
情報の粒度
×
情報の粒度階層
×
川喜田二郎による情報粒度の実例
×
ドキュメントの粒度
×
粒度
→
エントリの粒度
→
大きすぎるリンクの問題
×
DF
×
キーワード
×
キーワードの交差による絞り込み
→
DFが多すぎるキーワード
→
rake
×
ストップワード
×
DF
×
長いキーフレーズが選ばれるバイアス
→
RAKEのストップリスト生成
→
行
×
リンク
×
文脈
×
ページタイトル
×
2-hopリンク
×
ページ
→
Scrapbox文中からのリンク
→
ネットワーク
×
関係
×
ツリー構造
×
関係の切り離し
×
ツリー強要
×
ページという有限化
×
一覧性の低下
×
有限化強要
×
一覧性
×
無制限
×
つながり
×
ページ単位
×
wiki
×
ブーリアン
×
制限
×
kj法
×
ふせんのサイズ
×
コンテンツサイズ制限
×
ツリー化
×
切り離し
×
ノード間リンク
×
ページ
×
有限化
×
リンク先展開
×
分量の制限
→
2018-11-02
→
slack
×
scrapbox
×
チャット
×
粒度
×
1日単位
→
SlackからScrapboxへ
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 4:36:19 PM
[Edit]