NISHIO Hirokazu
[Translate]
Scrapboxのtoken/page
Scrapboxを
cl100k_base
でトークナイズするとどれくらいになるのか
元データはこのScrapbox 14178ページ
8192トークンに収まらないものは1%未満
OpenAIの
Embedding API
は8192トークンまで取れるので、ほとんどのページは丸ごと埋め込める
500トークンより短いものが過半数
それより長いものだけ500トークンずつに区切ることにした
:
total
14178
< 8192
14092
< 500
9344
Tweet
Related Pages
Scrapboxでの知識醸造をLLMに教える
→
自分のScrapboxをChatGPTにつないだ
×
サイボウズラボ勉強会
×
llamaindex
×
langchain
×
embedding_api
×
埋め込みベクトル
×
コサイン類似度
×
aiパネルディスカッション
×
ブレインストーミング
×
toolformer
×
langchainのagent
×
オペレーティングシステム
×
llm_os
×
c言語
×
人間は周辺機器の一つに過ぎない
→
自分のScrapboxをChatGPTにつないだ話勉強会
→
gleninjapan
×
words_as_public_goods
×
embedding_api
→
Nattoku in Vector space
→
gpt3
×
トークナイザー
×
semantic_search
×
cl100k_base
→
GPT3では情報密度が逆転する
→
pvectorsearch
×
qdrant
×
scrapbox_chatgpt_connector
×
embedding_api
×
埋め込みapi呼び出しの並列化
×
url_fragment_text_directives
→
pVectorSearch2023-06-02
→
embedding_api
×
completion_api
×
chatgpt_api
×
chat_completion_api
→
OpenAI API
→
embedding_api
×
埋め込みベクトル
×
ベクトル検索
×
chatgpt_api
×
新しい知識を生み出す能力を向上させるような知識
×
具体的な言語化
×
知識を生み出す能力
×
aiパネルディスカッション
→
自分のScrapboxをChatGPTにつないだ
→
embedding_api
×
cl100k_base
×
tiktoken
×
pinecore
→
embeddingは$0.4 / 1M Token
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:38:48 PM
[Edit]