>入力テキスト: 日本語Wikipedia全て (約1,800万文)
>入力テキストにJuman++ (v2.0.0-rc2)で形態素解析を行い、さらにBPEを適用しsubwordに分割
>形態素解析を行わずに生文に対して sentencepiece などを用いることも考えられるが、構文解析時の解析単位が大きくずれてしまう恐れがある。