書籍は目次と索引の言語モデルが特殊

NISHIO Hirokazu [Translate]

書籍は目次と索引の言語モデルが特殊
書籍をコーパスにした時の問題点

書籍は
前書き
目次
本文
索引
という構造になっているが、目次と索引の言語モデルが明らかに独特
単純に8割1割1割で分割したらテスト用データに丸っと索引が入って絶対うまくいかない
とりあえず目視で本文の最初と最後を指定する
pythonIn [44]: re.findall("「はじめに」では", data)
Out[44]: ['「はじめに」では']

In [45]: re.findall("楽しみにしています。", data)
Out[45]: ['楽しみにしています。']

pythonBEGIN_BODY = "「はじめに」では"
END_BODY = "楽しみにしています。"
assert len(re.findall(BEGIN_BODY, data)) == 1
assert len(re.findall(END_BODY, data)) == 1
data = data[data.index(BEGIN_BODY) : data.index(END_BODY) + len(END_BODY)] 

とはいえ、第1章と第7章では扱っているトピックが違うのだから、出現する単語も違うわけで、本文を抽出してから単純に8割1割1割で分割してもやっぱダメじゃね？って気もする。
ページごとに分割した上で分けるべきかな〜

#自然言語処理 #書籍コーパス

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at 7/14/2026, 5:42:09 AM[Edit]

Related Pages