NISHIO Hirokazu[Translate]
文字の特徴量
文字を単純に分散表現にしても、結局見たことのない文字が出てきたら未知語(未知文字)になっちゃう。
特徴量に変換してそこから分散表現を作れば未知の文字でも大丈夫なんじゃないか。

どんな特徴量が得られるか
アルファベットか
A-Zか
大文字か
記号か
全角か
ひらがなか
カタカナか
漢字か
部首

頻度の高いものがうまく表現できれば良いのか

word2vecでの正解率が高くなれば良い?



"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]