【Mo 人工智能技术博客】seq2seq聊天机器人

seq2seq聊天机器人作者：魏祖昌一、背景介绍人工智能技术的进步，语音识别技术、自然语言处理等技术的成熟，智能客服的发展很好的承接当下传统人工客服所面临的挑战。智能客服能够24小时在线为不同用户同时解决问题，工作效率高等特点，这是传统人工客服不能替代的，它能为公司节省大量的人工客服成本。在这次疫情当中，由于总总原因，大家肯定多多少少都见识过各种各样的智能客服。本文就基于seq2seq来介绍一个聊

MoModel

1433人浏览 · 2020-05-26 12:04:42

MoModel · 2020-05-26 12:04:42 发布

seq2seq聊天机器人

作者：魏祖昌

一、背景介绍

人工智能技术的进步，语音识别技术、自然语言处理等技术的成熟，智能客服的发展很好的承接当下传统人工客服所面临的挑战。智能客服能够24小时在线为不同用户同时解决问题，工作效率高等特点，这是传统人工客服不能替代的，它能为公司节省大量的人工客服成本。在这次疫情当中，由于总总原因，大家肯定多多少少都见识过各种各样的智能客服。本文就基于seq2seq来介绍一个聊天机器人。

二、seq2seq

Seq2Seq即Sequence to Sequence，是一种时序对映射的过程，实现了深度学习模型在序列问题中的应用，其中比较突出的是自然语言中的运用。它主要由Encoder和Decoder两个部分组成，正如图一所示。

图一：论文中seq2seq结构（https://arxiv.org/pdf/1409.3215.pdf）
seq2seq模型的encoder非常简单（上图中ABC对应的部分），就是RNN，可以是多层（GRU，LSTM）。decoder在训练和测试的时候，稍微有点不同。decoder训练的时候输入由两部分组成，一部分是encoder的last state，另一部分是target序列，如上图中的第一个 WXYZ;其中两个表示的是序列开始符和结束符；decoder测试的时候输入也是由两部分组成，一部分是encoder的last state，另一部分是来自于上一个时刻的输出（上一个时刻的输出作为下一个时刻的输入），直到某个时刻的输出遇到结束符为止。
但是seq2seq有一个很明显的缺点，即无论之前的encoder的context有多长，包含多少信息量，最终都要被压缩成一个固定维度的vector。这意味着context越大，decoder的输入之一的last state 会丢失越多的信息。这就会导致当输入自然语言长度越长，模型丢失的信息就越多，表现的就越差。

三、attention

为了解决seq2seq中压缩称固定长维度的vector，使得上一层给下一层的信息是符合一定分布的，即有一定的权值，使得更有价值的消息能够传递下去。

图二：attention机制原理（https://arxiv.org/pdf/1409.0473))）

如上图所示，利用 $\overrightarrow{\alpha_{t}}$ 我们可以进行加权求和得到相应的context vector $\overrightarrow{c_{t}}=\sum_{j=1}^{T} \alpha_{t j} h_{j}$ 。这也是attention机制中的关键操作，计算encoder与decoder state之间的关联性的权重，得到Attention分布，从而对于当前输出位置得到比较重要的输入位置的权重，在预测输出时相应的会占较大的比重。

通过Attention机制的引入，我们打破了只能利用encoder最终单一向量结果的限制，从而使模型可以集中在所有对于下一个目标单词重要的输入信息上，使模型效果得到极大的改善。还有一个优点是，我们通过观察attention 权重矩阵的变化，可以更好地知道哪部分翻译对应哪部分源文字，有助于更好的理解模型工作机制，如下图三所示。