NISHIO Hirokazu[Translate]
書籍は目次と索引の言語モデルが特殊
書籍をコーパスにした時の問題点

書籍は
前書き
目次
本文
索引
という構造になっているが、目次と索引の言語モデルが明らかに独特
単純に8割1割1割で分割したらテスト用データに丸っと索引が入って絶対うまくいかない
とりあえず目視で本文の最初と最後を指定する
python
In [44]: re.findall("「はじめに」では", data) Out[44]: ['「はじめに」では'] In [45]: re.findall("楽しみにしています。", data) Out[45]: ['楽しみにしています。']

python
BEGIN_BODY = "「はじめに」では" END_BODY = "楽しみにしています。" assert len(re.findall(BEGIN_BODY, data)) == 1 assert len(re.findall(END_BODY, data)) == 1 data = data[data.index(BEGIN_BODY) : data.index(END_BODY) + len(END_BODY)]

とはいえ、第1章と第7章では扱っているトピックが違うのだから、出現する単語も違うわけで、本文を抽出してから単純に8割1割1割で分割してもやっぱダメじゃね?って気もする。
ページごとに分割した上で分けるべきかな〜


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]