非計量類似度2024-12-18
from 日記2024-12-18
非計量類似度2024-12-18
1の立ってる軸の重複を数える
- AとBは1 overlap、BとCも1 overlap、AとCは0 overlap
- 「AとB、BとCは似ているがAとCは似ていない」という解釈
- overlapを類似度として解釈する
- 1/overlapを非類似度として解釈する
- この非類似度は距離か?NO
- d(A, B) = d(B, C) = 1なのにd(A, C) = $\infty$で、三角不等式 $d(A, B) + d(B, C) \ge d(A, C)$が成立しない
- 値が0と1だけなら、overlapは内積
- 0 ~ 1の範囲
- normalizeしてcosになる
- 1 - cosを距離として使うことが一番的
- つまり増加減少を反転する手段の違い
リンク
- AからBへのリンク
- AとBからキーワードKへのリンク
- 縦(A, B, C)をWikiのページ、横(K1, K2, ...)をキーワードとする
- 共通のキーワードに「後者のリンク」をしているページが繋がる
概念の類似度は距離ではない
非計量類似度
Tverskyのコントラストモデル
AからKの集合への変換
一周回ってトピック抽出が有用なのではという気がしてきたな
当たり判定拡大だ

- トピック抽出や潜在空間への写像の有用性:
- 細かなトピックを多数抽出し、その組み合わせからページ同士を比較すると、「意味的に納得のいく」接続をより強固に定義できる。単なるオーバーラップよりも高次元での意味的近さを測定する試み。
- 複合キーワード・概念組み合わせによる精度向上:
- 「X+Y」といった複合条件を導入することで、より狭いが意味的に明確なコンテキストを定義し、そのコンテキスト内でのページ間リンクを強調できる。
これらは、単なる似ている/似ていないの二分法では収まりきらない複雑な意味空間を扱う際の重要なポイントを指していると言えます。あなたの思考は、単純な似度測定から始まり、潜在次元での表現や、複合的な条件付けによるリンク戦略へと発展しており、実際の知識発見や情報探索タスクにおいて、こうした多面的アプローチは非常に有効でしょう。
「意味的に納得のいく接続」というキーワードはいいな
1万個の短文を「距離的空間」ではなく整理するには、以下のようなアプローチが考えられる。
トピックモデル(LDAなど)による概念的整理:
- 距離ではなく、潜在トピック分布(確率分布)でテキストを表現する。文書ごとに「どのトピックがどれくらい含まれているか」という解釈可能な形式が得られ、距離空間に落とし込まなくても、トピックの類似性や関連性で文書を把握できる。
特徴集合・概念ラティスによる階層構造化(Formal Concept Analysis):
- 各短文を特徴(語彙、ラベル、タグなど)の集合として捉え、概念ラティスを構築する。これは距離ではなく「包含関係」に基づく階層的な整理であり、文書間の関係性を非距離的な形式で可視化・理解できる。
ネットワーク表現(共起グラフ):
- 短文内の単語やフレーズの共起関係をネットワーク(グラフ)として表す。文書はノード間リンク構造の一部として理解され、コミュニティ検出などによってトピック的なまとまりを距離に依存せず可視化・分析可能。
- 単純に「単語」を使うと「は」などが共起しまくる。そこで[高頻度語](/ja/%E9%AB%98%E9%A0%BB%E5%BA%A6%E8%AA%9E)を[ストップワード](/ja/%E3%82%B9%E3%83%88%E3%83%83%E3%83%97%E3%83%AF%E3%83%BC%E3%83%89)にすることが行われる。
- 一方で[低頻度語](/ja/%E4%BD%8E%E9%A0%BB%E5%BA%A6%E8%AA%9E)が現実には有用なのに表記ゆれでつながらなくなったりする
- 適切な粒度のキーワードを選ぶ仕組みが必要
ルールベース・タグ付けによる分類:
- テキストから特定のキーワードやパターンを抽出し、ルールや辞書に基づいてカテゴリー分け。これは「距離的近さ」ではなく、「この文はどのカテゴリ条件を満たすか」という軸で整理する手法。
これらの手法では、距離計算を前提とせず、確率分布・階層構造・ネットワーク関係・ルールや概念的属性など、別の軸で1万件の短文を整理・理解することが可能になる。
これは「overlap > 0なものを選ぶ」ということ