NISHIO Hirokazu[Translate]
キーフレーズ候補集合の作成
キーフレーズ抽出において、候補をどう作るかが問題
RAKEではストップワードをデリミタとして刻む
TextRankは最初に名詞と形容詞以外をフィルタしている
フレーズベースTF-IDFは最長名詞句だけを使う
すべての部分文字列を候補とする
かっこで囲まれている文字列はキーワード候補に入れたい

候補に対してスコアを計算し、大きなものを取るアプローチでキーフレーズを見つけようとする場合
EmbedRankでは元の文書との類似度が使われるので候補に文章自体が含まれるといけない


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]