注意機構を用いた要約生成
RNNではなく、固定長Cの順伝播ネットワークを使った
後の研究でRNNの方が精度が良いとされてるのでこれは最初に生まれた時はそうだったという歴史的な話に過ぎない
文脈長Cを用いて Y_< = Y_{[j-C,\, j-1]}とする
入力文Xに対して要約文出力Yがでる条件付き確率はこう書ける。
P(Y|X) = \prod_j P(y_i | X, Y_<)
P(y_i | X, Y_<) = \mathrm{softmax}(\tilde{o_j})\cdot y_j
\tilde{o_j} = \mathrm{nnlm}(Y_<) + \mathrm{enc}(X, Y_<)