固定長の入力しか受け取れなかったCNNが不定長の入力を受け取れる注意機構で置き換えられた
なぜ不定長への拡張ができるのか?
CNNは、自分からの相対位置で、どの位置の値にどんな重みを掛けるかは行列の形でハードコードされていた
注意機構では、どんな重みを掛けるかは、その値によって決まる
だから個数を事前に定める必要がない
その代わり、単純な構成では位置の情報がないので入力列をシャッフルしても注意機構が返す値は同じ
TransformerではPositional Encodingを組み合わせる