NISHIO Hirokazu[Translate]
日記2025-10-12

テキスト埋め込みの高次元空間における処理を考える

細粒度のクラスタリング
ローカルな距離なグローバルな距離より意味がある

100枚ランダム抽出してKJ法
embeddingで二次元配置したものと比較
同じであるなら自動化できる
違いがあるならそれは何か興味深い
100枚のデータに対してembeddingの距離ベースではなく賢いLLMに関係抽出をさせる
これを人間がやったものと比較したい
観察の方法をまず作る必要がある
Kozanebaをいじるか

k=100のk-meansを使うとどうなるか

コミュニティの規模が拡大すると生産性が下がるという感覚に関して6年前の「ゆとり」をみたら言語化が進んだ
ほとんどの人はリソースが1未満
「リソースが1未満」がある程度来ても平均が1を超えていれば耐えられる
じわじわと無自覚テイカーが増えていって平均が1を下回った段階で生産的ではなくなる
リソースの不足が発生するから
奪い合いの構図が生まれる
これも同じことだね

TODO
週記の切り替え✅
チームみらいデータセット、アナウンス✅
Playwright試したい

明日すること
KozabebaにText-Attributed Graphsを扱える機能追加をする
今は頂点にはシンプルなテキスト、辺にはテキストなしの状況

日記2025-10-11←日記2025-10-12→日記2025-10-13
"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]