NISHIO Hirokazu[Translate]
対立次元

対立次元
1: AとBが対立している
2: (A+B)とCが対立している
3: ((A+B)+C)とDが対立している
ここで次元数が足りなくて2次元のPCAではAとBが同一視されるようになる
非線形の次元削減(UMAPなど)では分かれるはず

実験してみた
py
A = np.array([-1, 0, 0]) B = np.array([1, 0, 0]) C = np.array([0, 2, 0]) D = np.array([0, 0, 4])
SD=0.1
次元の不足によってPCAでは一番分離の少ないAとBが混ざって一つになっている
UMAPでは明瞭に分かれている
SD=0.5
AとBのデータがそもそも分離しなくなってくることによってUMAPでもそれらが近接配置されている
SD=0.75
A, B, Cが分離できなくてひとつながりになってくる
SD=1
SD=1.5
渾然一体になっている
データが少ないからか?
10倍に増やしても無理

これらを区別するには変分ベイズが必要そう
でもそもそも現実のデータに関して正規分布と仮定して良いか微妙なので筋悪

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]