NISHIO Hirokazu[日本語][English]

注意機構は辞書オブジェクト

注意機構辞書オブジェクトか?

内積注意について考える $Attention(query, Key, Value) = Softmax(query \cdot Key) \cdot Value$

  • 高次元のベクトルにおいて、任意の2つのベクトルはだいたい内積が0に近い(次元の呪い)
  • Soft-argmax近似を使えば実質的にargmax
  • Key→Valueの関数がたとえ学習によって獲得することが困難であっても、記憶によって作ることができる
  • 実際の辞書オブジェクトはkeyの一致を判定するが、こちらは内積の近さ
    • ほとんど全ての内積が0だから空間がこんな感じでファジーに分割されるだろう
    • image

Key-Value Memory Networks for Directly Reading Documents


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]