アテンション(attention)とは、人間がある特定の事象や情報に焦点を当て、その他の事象や情報を無視する心理的プロセスを指します。一般的に、私たちの意識は限られたリソースであり、すべての情報に同時に注意を払うことはできません。そのため、私たちの脳は、瞬間的に重要と判断される情報に焦点を当てることで、情報過多の状況に対処します。
注意Aはクエリq、キーk、バリューvを用いて以下のように定義される
$A(Q, K, V) = \mathrm{softmax}(QK^T)V$
加算注意と内積注意
$A(Q, K, V) = \mathrm{softmax}({QK^T \over \sqrt{d_k}})V$