NISHIO Hirokazu[Translate]
レアシンボル

出現頻度が0の未知語などを<unknown>などの未知シンボルにまとめることはよく行われる
そうする以外にあんまりいい方法がないし
とはいえ、学習データ中に2回しか出てこない単語とかも割と邪魔
単純にレア単語として1つのシンボルに置き換えてしまうと、それはそれで情報を捨てている気持ちになる
対処法
クラスタに分ける
機械的に分けるとは限らない、例えば人間が「ひらがな、カタカナ、漢字」と分ける
属性
クラスタと違って排反ではない
「木偏である」「常用漢字である」などの属性の束として表現する
skip-gramなどの方法で埋め込む

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]