Transformer 多模态

Multimodal Transformer for Unaligned Multimodal Language Sequences摘要：人类语言往往是多模态的，包括自然语言，表情以及声学行为。但对时间语言序列进行多模态建模存在以下两个主要挑战：1.不同模态的数据在时间上是不对齐的，这里不对齐一是采样率不同，二是不同模态数据采集的起始时间未必对齐2.不同模态之间的长期依赖问题文章提出了Multim

LLeventt

5548人浏览 · 2021-03-18 22:24:32

LLeventt · 2021-03-18 22:24:32 发布

Multimodal Transformer for Unaligned Multimodal Language Sequences

https://github.com/yaohungt/Multimodal-Transformer

摘要：

人类语言往往是多模态的，包括自然语言，表情以及声学行为。但对时间语言序列进行多模态建模存在以下两个主要挑战：

1.不同模态的数据在时间上是不对齐的，这里不对齐一是采样率不同，二是不同模态数据采集的起始时间未必对齐

2.不同模态之间的长期依赖问题

文章提出了Multimodal Transformer(MulT)来解决上述问题。

模型分析：

整体结构如下图，多模态之间成对处理。

Crossmodal Attention

假设输入两个模态数据： $X_{\alpha} \in \mathbb{R}^{T_{\alpha} \times d_{\alpha}}$ 和 $X_{\beta} \in \mathbb{R}^{T_{\beta} \times d_{\beta}}$ ，其中 $T_{(\cdot)}$ 和 $d_{(\cdot)}$ 表示序列长度和特征维度，定义 $Q_{\alpha}=X_{\alpha} W_{Q}$ 作为Query， $K_{\beta}=X_{\beta} W_{K_{\beta}}$ 作为key， $V_{\beta}=X_{\beta} W_{V_{\beta}}$ 作为value，其中 $W_{Q_{\alpha}} \in \mathbb{R}^{d_{\alpha} \times d_{k}}, W_{K_{\beta}} \in \mathbb{R}^{d_{\beta} \times d_{k}}, W_{V_{\beta}} \in \mathbb{R}^{d_{\beta} \times d_{v}}$ 是权重。上述W权重是可训练的，这里我觉得W主要目的有两个，一个是转换向量空间，因为如果采用多头的注意力机制，需要映射到不同的学习空间；二是转化特征维度，使Q，K维度相同。接下来就是经典的注意力机制：

$\begin{aligned} Y_{\alpha} &=\mathrm{CM}_{\beta \rightarrow \alpha}\left(X_{\alpha}, X_{\beta}\right) \\ &=\operatorname{softmax}\left(\frac{Q_{\alpha} K_{\beta}^{\top}}{\sqrt{d_{k}}}\right) V_{\beta} \\ &=\operatorname{softmax}\left(\frac{X_{\alpha} W_{Q_{\alpha}} W_{K_{\beta}}^{\top} X_{\beta}^{\top}}{\sqrt{d_{k}}}\right) X_{\beta} W_{V_{\beta}} . \end{aligned}$

作者称上述公式为 a single head crossmodal attention，一个单一的跨模态注意力，如下图(a)所示。

接着，作者在跨模态注意力机制后加入残差连接和位置前馈子层，后者其实也是一种MLP，因为处理的attention输出是某个位置的，所以位置前馈子层的输入和输出的维度一样。

作者称，模型能够让一种模态从另一种模态接受信息，假设让模态V传递信息到模态L，记为 $V \rightarrow L$ ，经历以下步骤:

$\begin{array}{l} Z_{V \rightarrow L}^{[0]}=Z_{L}^{[0]} \\ \hat{Z}_{V \rightarrow L}^{[i]}=\mathrm{CM}_{V \rightarrow L}^{[i], \mathrm{mul}}\left(\mathrm{LN}\left(Z_{V \rightarrow L}^{[i-1]}\right), \mathrm{LN}\left(Z_{V}^{[0]}\right)\right)+\mathrm{LN}\left(Z_{V \rightarrow L}^{[i-1]}\right) \\ Z_{V \rightarrow L}^{[i]}=f_{\theta_{V \rightarrow L}^{[i]}}\left(\mathrm{LN}\left(\hat{Z}_{V \rightarrow L}^{[i]}\right)\right)+\mathrm{LN}\left(\hat{Z}_{V \rightarrow L}^{[i]}\right) \end{array}$