NISHIO Hirokazu[日本語][English]

次元の呪い

image

  • 人間は2~4次元を超えるとイメージすることが困難になる

  • 次元が高くなった時に色々と意外な現象が起こる

  • 高次元空間において、ほとんどすべての点は中心から遠い

    • 1次元で原点から距離1以内にある点は、距離2以内にある点の半分
    • 2次元では1/4
    • 3次元では1/8
    • …と次元が上がるにつれて指数的に「近い点の割合」が小さくなる
  • サンプリングに必要なサンプル数が指数的に増える

    • 機械学習の場合に、次元を増やすことによってかえって精度が悪化する
    • 次元追加による精度向上よりもサンプル数不足の効果の方が圧倒的になるから

image カイ二乗分布 - Wikipedia

  • 3次元以上の場合はベクトルの長さの最頻値が0ではない。

    • 各軸が0が最頻値の標準正規分布に従うという条件
    • カイ二乗分布
    • これは「ほとんどの点は中心から遠い」と関連している
  • ほとんどすべてのベクトルは直交する

    • [コサイン類似度が高いベクトルはどれくらい似ているか(岩波データサイエンス刊行イベントより) - Mi manca qualche giovedi`?](http://d.hatena.ne.jp/n_shuyo/20160401/cosine_similarity)
    • 1000000 サンプルのうちコサイン類似度が 1/2 を超える割合を求めると、

    • 10 次元 では 0.06 (約 1/17)、

    • 20 次元 では 0.01 (約 1/100)、

    • 30 次元 では 0.0021 (約 1/480)、

    • 40 次元 では 0.00042 (約 1/2400)

    • 100 次元 では、1000000個サンプリングした中にコサイン類似度が 1/2 以上になる点はなかった

    • もちろん2次元では33%
  • 高次元においてコサイン類似度0.2は激レア

  • 関連

    • https://twitter.com/nishio/status/1258610796969340928?s=21
    • 多様性
    • 高次元空間でランダムな2つのベクトルを取った場合に、その2つがほぼ同じ方向である確率は、その2つがほぼ直交である確率に比べてとても小さい
    • 次元(評価軸の本数)が増えると、ある人のスキルが別の人のスキルに対して完全に優越する状態が起こる確率が下がる
      • 1次元で100%、2次元で50%、3次元で25%
      • image
  • 高次元空間において正規分布はほぼ超球面上の一様分布

  • ほとんどすべての停留点は鞍点である

    • 10次元で99.8%
  • 特定の軸だけが大きいケースはほとんどない

盲点カード 19


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]