RAKEのストップリスト生成
RAKEのストップリスト生成
- キーワードに隣接するがキーワードに含まれない単語がストップワードの良い候補である
- キーワードに含まれる頻度がキーワードに隣接する頻度よりも高い単語をストップリストから除外することによってプレシジョンもリコールも改善した
- F値は一番ストップリストの大きいものが一番良いし、もっと大きくすることでもっと良くなりそうな気配
- DFだけで作ったストップリストは逆に悪化する
- なお2000本のアブストラクトのうち1000件で学習して、DFがそれぞれ10以上、25以上、50以上、で試している
感想