NISHIO Hirokazu[日本語][English]

日記2025-10-12

テキスト埋め込みの高次元空間における処理を考える

細粒度のクラスタリング

  • ローカルな距離なグローバルな距離より意味がある

100枚ランダム抽出してKJ法

  • embeddingで二次元配置したものと比較
    • 同じであるなら自動化できる
    • 違いがあるならそれは何か興味深い 100枚のデータに対してembeddingの距離ベースではなく賢いLLMに関係抽出をさせる
  • 関係を見出す」はグループ編成である
  • これを人間がやったものと比較したい
    • 観察の方法をまず作る必要がある
    • Kozanebaをいじるか

k=100のk-meansを使うとどうなるか

アンチが来ない場所

TODO

  • 週記の切り替え✅
  • チームみらいデータセット、アナウンス✅
  • Playwright試したい

明日すること

  • KozabebaにText-Attributed Graphsを扱える機能追加をする
    • 今は頂点にはシンプルなテキスト、辺にはテキストなしの状況

日記2025-10-11←日記2025-10-12→日記2025-10-13 100日前 日記2025-07-04 1年前 日記2024-10-12


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]