NISHIO Hirokazu[Translate]
固有表現抽出とキーフレーズ抽出
系列ラベリングとして捉えた場合
固有表現抽出では「固有表現の先頭」と「固有表現が続いてる範囲」にラベルを付ける
キーフレーズ抽出RAKEのストップリスト生成のアルゴリズムでは単語が「キーフレーズの中にある回数」「キーフレーズの隣にある回数」をカウントする
系列ラベリングに対応づけると「キーフレーズ範囲」「キーフレーズの隣接」にラベルがつきそう
個人的には「右隣」「左隣」を区別した方が良さそうに思う

どちらのラベル付けが良いか?
キーフレーズ抽出に関しては後者のキーワード周囲にラベルする方が素直だと思う
人間が地の文と区別のつきにくい文を「キーワードだよ」と明示する時に何をするか?
例えば、カギかっこで囲う
逆に言えば他の条件が同じであってもカギかっこで囲われてる範囲はキーフレーズである確率が上がるのが自然
後者のラベリングだと"「"トークンが「キーワードの左隣ラベル」に自然に対応する
固有表現抽出が前者のラベリングをよく使うのにはどういう理由があるのだろう?
固有表現は連続することがある
周囲にラベルする方式だと無理

追記
2-1と3を比較してたけどもっと細かく段階がある
4なら連続するキーワードも識別できる
5は「の」のような「キーワードの端には出てこないが、キーワードの中にはしばしば出てくる単語」を区別できる


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]