非計量類似度
概念の間の類似が距離ではないケース(AとBは似ていてBとCは似ているがAとCはまったく似ていないので三角不等式が成り立たない)に関する過去の研究にはどのようなものがある?

研究心理学や認知科学では、類似性が距離としての公理(対称性や三角不等式)を満たさないことが古くから指摘されている。代表例として、[Tversky](/ja/Tversky) (1977) の「[コントラストモデル](/ja/%E3%82%B3%E3%83%B3%E3%83%88%E3%83%A9%E3%82%B9%E3%83%88%E3%83%A2%E3%83%87%E3%83%AB)」では、AとBが似ており、BとCも似ていても、AとCが必ずしも似ているとは限らないことが示され、類似性は三角不等式に従わない場合があることが議論された。また、Tversky & Gati (1982)では、三角不等式違反を含む実験的証拠が報告され、これが人間の概念的類似判断における普遍的特徴と見なされた。
さらに、Gärdenfors (2000) の概念空間理論や、非ユークリッド的な類似モデル、非計量的多次元尺度法(Non-metric MDS)などでも、類似関係が計量的距離とは異なる性質を持つ点が取り上げられている。これらの研究は、心理的・概念的な類似の捉え方が単純な距離空間ではなく、文脈依存性や要素特徴の不均衡な重み付けなど、より複雑な構造を持つことを示唆している。
人間のそのような認知を前提とした場合に、自然言語データをベクトル空間に埋め込んで、その空間での距離に基づいてクラスタリングをすることは妥当ではない。この問題の解決方法は?
類似性を距離として直接扱う手法が不適切である場合、以下のような代替策が考えられる:
- 非ユークリッド的表現:双曲空間やリーマン多様体などの非標準的幾何構造を用いることで、三角不等式が必ずしも成り立たない関係を適切にモデル化する。
- 非距離的類似尺度の利用:Tverskyのコントラストモデルのような、人間の知覚的特徴に基づく類似度指標を直接導入することで、計量的距離とは異なる類似関係を反映できる。
- 学習ベースの類似モジュール:ニューラルネットワークに、与えられた文脈下での類似性関係を学習させ、埋め込み空間上の単純な距離演算以外の計算方法を用いてクラスタリングする。
これらの方法によって、自然言語データが単純な距離空間に還元できない場合でも、適切な類似性構造を捉えてクラスタリングが可能になる。

LLMなどを用いて2つのデータの間の[non-metric](/ja/non-metric)な類似度が計算できる場合、もしくは「もっとも類似度高いものを得る演算」が可能な場合、どのような具体的分析手法が可能であるか?
非距離的な類似度(あるいは「最も類似したものを取得する」オラクル的な操作)が可能な場合、以下のような分析手法が考えられる:
- 非計量多次元尺度法(Non-metric MDS):
- 計量性を前提としない類似度データから配置を得る手法で、概念間の関係を低次元空間に可視化し、構造を理解することができる。
- グラフベース手法:
- 類似度をエッジの重みとするグラフを構築し、コミュニティ検出やスペクトラルクラスタリングなどを用いる。これらは距離の三角不等式を要求せず、非対称性や非計量性を許容しやすい。
- 順位付け・Top-k探索:
- 「もっとも類似したもの」を直接生成可能な場合、ランキング(順位付け)分析やTop-k近傍探索などが可能になる。これにより、距離空間に還元せずとも、検索・推薦・分類などの応用が行える。
- ユーザフィードバックを用いた反復的再評価:
- LLMなどによる類似度判定を対話的に行い、フィードバックを用いて類似基準を調整・更新する。これは距離公理に捉われない柔軟な類似概念の微調整を可能にする。
要するに、非計量的類似情報を直接扱う手法として、非計量MDS、グラフ手法、順位付けベースの手法、フィードバックループを利用する動的な手法などが存在する。
3について詳しく
「もっとも類似度が高い項目を取得する」操作(Top-1あるいはTop-k検索)が可能な場合、距離を定量的に扱わずとも、ランキング情報や近傍関係自体を用いて分析ができる。具体的には以下のような手法・分析が考えられる。
まとめると、Top-kあるいは順位付け情報を用いることで、
- ランキングリストを比較し、全体構造を非計量的に把握する
- 近傍グラフ構造を形成し、クラスタリング的解析を行う
- オーディナル情報(順位関係)に基づく空間表現を求める
- 距離や計量性が仮定できない場合でも検索・探索を可能にする
といった分析手法が可能になる。
これらに関連した論文のおすすめを教えて
以下に関連研究の一例を示す。いずれも非計量的類似や順位・Top-k情報を用いた解析手法を理解するうえで参考になる。
非計量MDS (Non-metric Multidimensional Scaling):
- Kruskal, J. B. (1964). Nonmetric multidimensional scaling: a numerical method. Psychometrika, 29(2), 115–129.
- 非計量的類似度データから空間配置を得る古典的手法。
非距離的類似モデル (Tverskyのコントラストモデル):
- Tversky, A. (1977). Features of similarity. Psychological Review, 84(4), 327–352.
- 三角不等式を満たさない人間の類似知覚モデルの代表例。
オーディナル埋め込み (Ordinal Embedding):
- Jamieson, K., & Nowak, R. (2011). Low-dimensional embedding using adaptively selected ordinal data. 49th Annual Allerton Conference on Communication, Control, and Computing, 1077–1084.
- 順位付け(順位関係)のみを用いた埋め込み獲得の手法。
グラフベース手法(コミュニティ検出):
- Girvan, M., & Newman, M. E. J. (2002). Community structure in social and biological networks. PNAS, 99(12), 7821–7826.
- 非計量的な類似指標をエッジ重みとして用いるグラフクラスタリングの基盤研究。
Top-k探索・ランキング分析の情報検索入門:
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
- 検索・ランキング・Top-kクエリに関する基礎的な技法を幅広く解説。
これらの文献は、非距離的類似データや「最も似た対象を取得する」操作を用いて、空間表現やクラスタリング、可視化、探索的データ分析を行ううえで有用な理論的・実証的基盤を提供する。