NISHIO Hirokazu[Translate]
埋め込みベクトルの良し悪し
埋め込みベクトルの良し悪しは何によって決まるのか

近い2単語について
同一: BをAにする(PythonとPyth0n)→元データのBをAに置換
同義: AとBは同じ意味である(ください 下さい)→元データはそのまま、単語とIDの対応づけをユニファイ
類義: 類義語である→これはそのままでOK
対義: AとBは対義語である→ベクトルに対義語用の1軸を追加して+1/-1を適当に振る
連接: AとBは”AB"の形で1つの意味の塊である→語彙の追加、入力読み込み時に工夫が必要

連接を教えることによって、語彙が増える。同一を教えると減る。
この教師データ自体は使いまわせる

学習プロセスにもちょっと手を加える必要があるし、ベクトルを使いまわしたいし、結局word2vec的なものを自作する必要があるのか


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]