NISHIO Hirokazu
[Translate]
日本語Tokenizerの違いは下流タスク性能に影響を与えるか?
#NLP2023
PDF
形態素解析をした方が性能が良くなる
なんとなくそうなんじゃないかと思っていたが確証はなかった
しっかり実験して検証している、ありがたい
関連
GPT3では情報密度が逆転する
日本語の言語モデルは必要か?
https://twitter.com/hpp_ricecake/status/1636951339459829761?s=46&t=gkSZtjGEtUZPO0JCzBxCBw
Tweet
Related Pages
GPT3では情報密度が逆転する
日本語の言語モデルは必要か?
→
未踏会議
×
応募書類もぜひchatgptを使って書いてほしい
×
ai占い師
×
日本語の言語モデルは必要か?
→
未踏会議2023
→
日本語llm
×
GPT3では情報密度が逆転する
×
日本語言語モデルについて考えたこと
×
性能向上が頭打ちになるか、際限なく性能が向上するか
×
言語の力学
×
日本語の言語モデルは必要か?
×
英語公用語化論
→
日本語LLMに関する2つの問題
→
英語
×
低密度言語
×
scrapbox
×
日本語
×
中国語
×
高密度言語
×
english_is_a_low_density_language
×
GPT3では情報密度が逆転する
→
英語は低密度言語
→
llamaindex
×
gpt3
×
バルタサル・グラシアン
×
the_art_of_worldly_wisdom
×
GPT3では情報密度が逆転する
×
embeddingは$0.4_/_1m_token
×
langchain
→
AIバルタサル・グラシアン実験
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 6:21:13 PM
[Edit]