NISHIO Hirokazu[Translate]
Scrapboxのtoken/page
Scrapboxをcl100k_baseでトークナイズするとどれくらいになるのか
元データはこのScrapbox 14178ページ
8192トークンに収まらないものは1%未満
OpenAIのEmbedding APIは8192トークンまで取れるので、ほとんどのページは丸ごと埋め込める
500トークンより短いものが過半数
それより長いものだけ500トークンずつに区切ることにした
:
total14178
< 819214092
< 5009344

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]