人間は2~4次元を超えるとイメージすることが困難になる
次元が高くなった時に色々と意外な現象が起こる
高次元空間において、ほとんどすべての点は中心から遠い
サンプリングに必要なサンプル数が指数的に増える
3次元以上の場合はベクトルの長さの最頻値が0ではない。
1000000 サンプルのうちコサイン類似度が 1/2 を超える割合を求めると、
10 次元 では 0.06 (約 1/17)、
20 次元 では 0.01 (約 1/100)、
30 次元 では 0.0021 (約 1/480)、
40 次元 では 0.00042 (約 1/2400)
100 次元 では、1000000個サンプリングした中にコサイン類似度が 1/2 以上になる点はなかった
関連
ほとんどすべての停留点は鞍点である
特定の軸だけが大きいケースはほとんどない
盲点カード 19