动手学深度学习第十八课：seq2seq（编码器和解码器）和注意力机制

rnn->seq2seq：rnn的输出是定长的，而seq2seq的输出是不定长的了：编码器和解码器：编码器和解码器是2个RNN。背景变量Cencoder先把输入信息存入c，decoder再给弄出来。参数怎么确定呢？引入双向：双向拼接的时候不是加，而是：连接两个向量。。输入的h0可以全部为零，但是输出的h‘0一般不随机，给一个第一个词的信息。上述模型有一点是，输出解码时每一时刻的得到的都是C。

cc 提升ing 变优秀ing

2217人浏览 · 2020-10-23 21:43:54

cc 提升ing 变优秀ing · 2020-10-23 21:43:54 发布

rnn->seq2seq：rnn的输出是定长的，而seq2seq的输出是不定长的了：

在这里插入图片描述

编码器和解码器：

在这里插入图片描述
编码器和解码器是2个RNN。

背景变量C
encoder先把输入信息存入c，decoder再给弄出来。

参数怎么确定呢？

在这里插入图片描述

引入双向：

在这里插入图片描述
双向拼接的时候不是加，而是：连接两个向量。

。

在这里插入图片描述
输入的h0可以全部为零，但是输出的h‘0一般不随机，给一个第一个词的信息。

上述模型有一点是，输出解码时每一时刻的得到的都是C。

在这里插入图片描述
比如，对于如上的句子，我们希望的是在进行第一个输出时，对输入的第一个，第二个词的注意力多一些，在进行第二个输出时，对输入的第三个词的注意力多一些。
引入了注意力机制。

想法是引入一个矩阵，乘以C，作为每一时刻的C’。

兴智开发者社区

更多推荐

深度学习中分类和回归常见损失函数归纳小结

兴智开发者社区

最全攻略：利用LightSeq加速你的深度学习模型

前言LightSeq是字节跳动火山翻译团队开源的一款Transformer系列模型加速引擎，分为训练和推理两个部分。其中推理加速引擎早在2019年12月就已经开源，而训练加速引擎也在2021年6月开源。项目地址：GitHub - bytedance/lightseq: LightSeq: A High Performance Library for Sequence Processing and