NISHIO Hirokazu[Translate]
SentencePieceのユニグラム言語モデル
SentencePieceのユニグラム言語モデルについて
サブワード正則化: 複数のサブワード分割候補を用いたニューラル機械翻訳 工藤 拓 2008
例えば、文字列ABCがあって、語彙集合に各文字とABとが入っている場合にp(AB) > p(A)p(B)が成り立つなら"AB/C"の分割の方が"A/B/C"の分割よりもP(x)が大きくなる
で、この手法だとVを事前に与える必要があるため、十分に大きな語彙からスタートして刈り込んで行く

Subword regularization: Improving neural network translation models with multiple subword candidates. In Proc. of ACL.

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
Taku Kudo, John Richardson (Submitted on 19 Aug 2018)

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]