rnn->seq2seq:rnn的输出是定长的,而seq2seq的输出是不定长的了:

在这里插入图片描述

编码器和解码器:

在这里插入图片描述
编码器和解码器是2个RNN。
在这里插入图片描述
背景变量C
encoder先把输入信息存入c,decoder再给弄出来。

参数怎么确定呢?

在这里插入图片描述

引入双向:

在这里插入图片描述
双向拼接的时候不是加,而是:连接两个向量。
在这里插入图片描述

在这里插入图片描述
输入的h0可以全部为零,但是输出的h‘0一般不随机,给一个第一个词的信息。

上述模型有一点是,输出解码时每一时刻的得到的都是C。

在这里插入图片描述
比如,对于如上的句子,我们希望的是在进行第一个输出时,对输入的第一个,第二个词的注意力多一些,在进行第二个输出时,对输入的第三个词的注意力多一些。
引入了注意力机制。

想法是引入一个矩阵,乘以C,作为每一时刻的C’。

Logo

更多推荐