解读：ELMo模型

1. 前言ELMo模型是2018年3月份提出的，模型会根据上下文来推断每个词对应的词向量，能够根据语境来对多义词理解。2. ELMo模型双向LSTM语言模型：如果LSTM有L个输入节点，那么，BiLM会有2L+1和向量。BiLSTM向量的加权和：参考：Deep contextualized word representations...

rosefunR

13717人浏览 · 2020-09-05 00:07:55

rosefunR · 2020-09-05 00:07:55 发布

1. 前言

ELMo模型是2018年3月份提出的，模型会根据上下文来推断每个词对应的词向量，能够根据语境来对多义词理解。

2. ELMo模型

ELMo， Embedding from language models，是一种双向语言模型。

对于给定一个序列的 $N$ 个tokens， $t_1, t_2, t_3, ..., t_N)$ , 前向语言模型计算序列的概率：

$p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} \mid t_{1}, t_{2}, \ldots, t_{k-1}\right)$

反向LM（backward LM）和前向的LM相似，根据未来的内容来预测之前的token：

$p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} \mid t_{k+1}, t_{k+2}, \ldots, t_{N}\right)$

双向的模型BiLM结合了前向和反向LM，联合最大化log 似然函数：

$\begin{array}{l} \sum_{k=1}^{N}\left(\log p\left(t_{k} \mid t_{1}, \ldots, t_{k-1} ; \Theta_{x}, \vec{\Theta}_{L S T M}, \Theta_{s}\right)\right. \\ \left.\quad+\log p\left(t_{k} \mid t_{k+1}, \ldots, t_{N} ; \Theta_{x}, \overleftarrow{\Theta}_{L S T M}, \Theta_{s}\right)\right) \end{array}$

其中， $\Theta_{x}$ 是token 表示， $\Theta_{s}$ 是softmax 层表示。

双向LSTM语言模型：
在这里插入图片描述

如果LSTM有L个输入节点，那么，BiLM会有2L+1个向量表示。
在这里插入图片描述
为了结合下游模型，ELMo模型需要把 $R$ 中LSTM所有层的向量表示层一个向量。最简单的方法是，ELMo只选择最后一层：

$E\left(R_{k}\right)=\mathbf{h}_{k, L}^{L M}$

一般地，根据一个任务，对BiLSTM所有层进行计算权重：
在这里插入图片描述

其中， $\mathrm{s}^{\text {task}}$ 是softmax 归一化的权重，标量参数 $\gamma ^ {task}$ 可以让目标模型放大缩小整个ELMo向量。

在优化过程中， $\gamma$ 是一个重要的意义。

此外，如果每个biLM 层的经过激活函数后又不同的分布，可以对每个biLM 层应用 layer normalization.

2.1 BiLMs应用到有监督的NLP任务

对于一个NLP任务，给定一个预训练的BiLM和有监督的框架，
首先，考虑在最底层的有监督模型（没有biLM）,它们会共享一个公共的框架。给定序列 $t_1, ..., t_N)$ , 很标准组成一个内容独立的token 表示 $x_k$ . 应用ELMo时，把单词的表征和ELMo表征的向量进行拼接：
$\left[\mathrm{x}_{k} ;\right. ELMo \left._{k}^{\text {task }}\right]$