CTC算法详解

前言CTC全称Connectionist temporal classification，是一种常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题。在CRNN中，它实际上就是模型对应的损失函数。CRNN的模型结构如下图所示：其中的Feature sequence即为下文所说的x输入变量，Predicted sequence即为下文所说的y输出变量，此时x和y的长度

guozhihao12345

3600人浏览 · 2020-10-30 19:14:27

guozhihao12345 · 2020-10-30 19:14:27 发布

前言

CTC全称Connectionist temporal classification，是一种常用在语音识别、文本识别等领域的算法，用来解决输入和输出序列长度不一、无法对齐的问题。在CRNN中，它实际上就是模型对应的损失函数。CRNN的模型结构如下图所示：
preview

其中的Feature sequence即为下文所说的x输入变量，Predicted sequence即为下文所说的y输出变量，此时x和y的长度是不一样的，所以CTC主要做的工作就是x和y的对齐。

再进行进一步叙述前，这里需要做几点说明。不管是在语音识别还是文本识别领域，CTC通常接在RNN的后面，与RNN结合使用，就像CRNN中一样。所以后面除非特别说明，否则提到的CTC均是将RNN和CTC当整体看待。

RNN在CRNN模型中代表的就是BiLSTM，它接受经过CNN提取的特征向量，大小为 $[\mathrm{seq\_len},\mathrm{channels}]$ 。 $\mathrm{seq\_len}$ 即上文提到的特征图的宽度，由于高度为1，所以被去掉了， $\mathrm{channels}$ 即为特征图的通道数。为了便于理解，后面将 $\mathrm{seq\_len}$ 也记作 $\mathrm{time\_step}$ ，也可以简写为 $T$ ，即CTC中常涉及的概念——时间步。输出序列的大小为 $[\mathrm{time\_step},\mathrm{out\_size}]$ ，序列长度与输入一致。而每个分量（向量）的维度均为 $\mathrm{out\_size}$ ，在这里等于字符字典的个数，表示字典个数的概率分布。概率分布经过变换便可以得到最终的预测结果。

为方便叙述，假设输入的序列为 $x=\left[x_{1}, x_{2}, \ldots, x_{T}\right]$ ，对应的输出序列为 $y=\left[y_{1}, y_{2}, \ldots, y_{U}\right]$ ，在这里希望找到 $x$ 到 $y$ 的映射关系。

如果使用一般的监督学习算法，会面临诸多的问题，主要可以概括为以下几点：

$x$ 和 $y$ 的长度是可变的。
$x$ 和 $y$ 的长度比例也是可变的。
$x$ 和 $y$ 对应元素之间不能找到严格的对齐关系。

而CTC正是一种可以解决这些问题的算法。对于一个给定的输入 $x$ ，它可以计算对应所有可能的 $y$ 的概率分布。通过该概率分布，可以预测最大概率对应的输出或者某个特定输出的概率

由此可以引出损失函数的定义。对于一个给定的输入 $x$ ，转录层需要最大化对应 $y$ 的后验概率 $p(y\mid x)$ 。当然为了能够正常地训练模型， $p(y\mid x)$ 应该是可导的。由于训练模型通常以最小化损失函数为目标，所以将优化目标转为最小化 $p(y\mid x)$ 的负对数似然值，即：

$\sum\limits_{(x,y) \in D} - log(p(y\mid x))\\$

其中 $D$ 表示训练集。

而在预测阶段，每给定一个输入x，CRNN要找到最大概率对应的输出，即

$y^{*}=\underset{y}{\operatorname{arg\ max}}\ p(y \mid x)\\$

不难想到，如果序列长度稍长，所有概率分布的计算量是及其巨大的，因此这里需要一个速度更快的算法。

前面说过，对于给定的输入 $x$ ，转录层需要计算所有可能的 $y$ 的概率分布，而关键的问题在于如何处理 $x$ 与 $y$ 间的对齐问题。所以下面先分析CTC的对齐方式。

CTC的训练目标

CTC的训练过程，本质上是通过梯度 $\frac{\partial p(l|x)}{\partial w}$ 调整LSTM的参数 $w$ ，使得对于输入样本为 $\pi \in B^{-1}(l)$ 时使得 $p(l|x)$ 取得最大。

例如下面图14的训练样本，目标都是使得 $l=state$ 时的输出 $p(l=\text{state}|x)$ 变大。所以CTC额本质是替代softmaxloss的损失函数，并采用BPTT算法更新LSTM的参数。

图14

2. 对齐

要说明的是，CTC是不需要输入输出进行对齐的。但是对于给定的输入，为了计算对应 $y$ 的概率，仍需要对所有可能对齐的概率进行求和，因为可能同一个输出有多个输出路径对应。下面举例进行说明。

例如CRNN的输入 $x$ 是一张包含单词“cat”的图片，所以对应的输出序列应该为 $y = [c,a,t]$ 。那么一种对齐 $x$ 和 $y$ 的方式是先对输入的每个分量 $x_i$ 对应一个输出字符，然后将相邻的重复字符进行合并，具体如下图所示。

图1 单词cat对齐过程 [1]

当然这里很容易发现这种对应方式是不合理的。第一个问题是输入的图片可能根本不包含任何字符，即输出的结果应该为空，而强制每个输入分量 $x_i$ 对应一个字符显然得不到这样的结果。第二个问题是如果将所有相邻重复字符都进行合并处理的话，将不能产生连续相同字符，导致结果可能是错误的。比如如果将单词tooth进行合并处理，那么最终的输出将是toth而不是tooth。

所以考虑上述问题，CTC算法又引入了一个特殊的字符——占位符，记作 $\epsilon$ 或 $-$ 。它表示一个占位，不对应任何字符，因此在最终的输出时要将其删除。这样以后这里仍可以采用上述的对齐规则，并同时避免以上的问题，当然最后不要忘了在输出中去掉。单词hello的对齐过程如下图所示。

图2 单词hello对齐过程 [1]

可以看出，如果单词存在两个相同的字符，为了能够处理这种情况，需要在这两个字符间插入 $\epsilon$ 。这样就能区分诸如“toth”和“tooth”的对齐方式了。

这样的规则具有以下几种特征。第一，输入 $x$ 与输出 $y$ 的对齐是单调的，即当 $x$ 前进至下一个时间片对应的输入分量 $x_{i+1}$ 时， $y$ 既可以保持不动，也可以移动至下一个时间片对应的输出分量 $y_{u+1}$ 。第二，输入与最终的输出是一对多的关系，即多个输入分量可能只对应一个输出分量。

所以，输出 $y$ 的长度一定不大于 $x$ 。

3. 后验概率

回顾CTC的优化目标，对于一个给定的输入 $x$ ，需要最大化 $y$ 对应 $x$ 的后验概率 $p(y\mid x)$ ，所以显然需要先得到后验概率的值。通过上面定义的对齐规则，已经解决了最后序列合并的对齐问题。接下来说明具体如何根据每个时间片的概率，推算出最终输出序列的后验概率 $p(y\mid x)$ 。

具体地，对于一个输入 $x=\left[x_{1}, x_{2}, \ldots, x_{T}\right]$ ，每一时间步对应分量 $x_i$ 的特征维度，记为 $m$ 。 $x$ 经过BiLSTM输出 $z=\left[z_{1}, z_{2}, \ldots, z_{T}\right]$ ，每个分量 $z_i$ 的维度记为 $n$ ，表示 $n$ 个概率。 $n$ 实际上等于字符集合 $L$ 的个数，假如需要预测的字符对应的字段包含52个英文字母（包括大小写），考虑之前加入的占位符，则 $n$ 的值就是53。

对于每个分量 $z_i$ ，都选取一个元素，便可以组成一条输出路径，记为 $l$ ，输出路径的空间可表示为 $L^T$ 。

定义一个映射 $F$ ，表示对中间输出路径进行变换，得到最后的输出 $y$ 。注意这里的路径不是最终的输出 $y$ ，需要经过合并相邻字符以及删除占位符的处理，才会得到 $y$ ，所以相当于中间结果。下面举例说明。

假设识别的序列为"taste"， $T=12$ 时，那么以下几种路径均满足条件：

$\begin{align} F({l^1}) &= F( - - taas - t - - e - ) = taste\\ F({l^2}) &= F(tta - sss - tte - ) = taste\\ F({l^3}) &= F(tta - ss - t - - ee) = taste\\ F({l^4}) &= F( - - ttass - tee - ) = taste\\ \end{align} \\$

因此求taste最终输出对输入的后验概率时，就是求这四条路径对应概率之和。进一步推广，给定输入 $x$ ，中间结果对应的路径 $l$ ，最终输出 $y$ ，则 $y$ 对 $x$ 的后验概率可以表示为：

$p(y\mid x) = \sum\limits_{F(l) = y} p (l\mid x)\\$

假设不同时间步的输出变量相互独立，那么对于输出路径 $l$ 对 $x$ 的后验概率可表示为：

$p(l\mid x) = \prod\limits_{t = 1}^T {z_{{l_t}}^t} \\$

$l_t$ 表示路径 $l$ 在 $t$ 时间步时对应的输出字符，而 $z_{{l_t}}^t$ 表示在 $t$ 时间步时选取的字符为 $l_t$ 的概率。因此，综合上述两式可得：

$\\p(y\mid x) = \sum\limits_{F(l) = y} {\prod\limits_{t = 1}^T {z_{{l_t}}^t} } \\$

简单来说，公式表示的含义为 $y$ 对 $x$ 的后验概率等于所有对应路径的概率之和，而每条路径对 $x$ 的后验概率又等于组成该路径的字符出现概率的乘积。

由于连续重复字符以及占位符的存在，每一个特定的输出 $y$ 都会对应相当多的路径。如果这里逐一遍历进行求解，那么时间的复杂度可达到 $O({n^T})$ ， $n$ 为前面定义的字符集的个数， $T$ 为时间步总长。这是因为有 $T$ 个步长，而每个步长输出的字符又有 $n$ 种可能性。所以需要对算法进行改进，这里便借鉴了动态规划的思想。

4. 前向后向算法

对于一个最终输出序列 $y$ ，实际上也表示中间路径合并后的结果。定义 $y'$ 表示在序列 $y$ 所有相邻元素之间插入占位符后的序列。比如：

$y = state\\ y' = -s-t-a-t-e-\\$

依然拿上述例子进行说明，如下图所示。

图3 单词state的可取路径 [3]

从上图可以看出，四条中间路径 $l_1$ ， $l_2$ ， $l_3$ ， $l_4$ 合并处理后都可以得到state，并且他们都经过字符 $a$ 。如果将路径蓝色部分记为 $b$ ，红色部分记为 $r$ ，则不难推出：

$\begin{align} {l^1} & = b = {b_{1:5}} + {a_6} + {b_{7:12}}\\ {l^2} & = r = {r_{1:5}} + {a_6} + {r_{7:12}}\\ {l^3} & = {b_{1:5}} + {a_6} + {r_{7:12}}\\ {l^4} & = {r_{1:5}} + {a_6} + {b_{7:12}}\\ \end{align}\\$

由于4条路径都经过 $a$ ，所以都包含 $z_a^6$ 项，提取公因式进行合并，令

$\begin{alignat}{1} forward & = p({b_{1:5}} + {r_{1:5}}\mid x) & = z_ - ^1 \cdot z_ - ^2 \cdot z_s^3 \cdot z_t^4 \cdot z_t^5 + z_s^1 \cdot z_s^2 \cdot z_t^3 \cdot z_ - ^4 \cdot z_a^5\\ backward & = p({b_{7:12}} + {r_{7:12}}\mid x) & = z_ - ^7 \cdot z_t^8 \cdot z_ - ^9 \cdot z_ - ^{10} \cdot z_ - ^{11} \cdot z_e^{12} + z_a^7 \cdot z_ - ^8 \cdot z_t^9 \cdot z_e^{10} \cdot z_e^{11} \cdot z_ - ^{12} \end{alignat} \\$

则公式 $p({l^1},{l^2},{l^3},{l^4}\mid x)$ 可以写成：

$\\p({l^1},{l^2},{l^3},{l^4}\mid y) = forward \cdot z_a^6 \cdot backward \\$

当然，这只是包含4条路径的结果，实际上序列state应该对应更多的路径，如下图所示。

图4 单词state所有可能路径 [3]

所以上述公式可推广为：

$\sum\limits_{F(l) = y,l_6^k = a} p (l\mid x) = forward \cdot z_a^6 \cdot backward\\$

进一步地，这里可以定义 ${\alpha _t}({y'_k})$ ，表示时间步为 $t$ 时经过字符 $y_k'$ 的所有路径在 $1-t$ 时刻的概率和，即：

${\alpha _t}({y'_k}) = \sum\limits_{F(l) = y,{l_t} = {y'_k}} {\prod\limits_{t' = 1}^t {z_{{l_{t'}}}^{t'}} }\\$

不难分析， $t=1$ 时字符只能占位符或 $y_1$ ，所以可得：

$\begin{align} {\alpha _1}( - ) & = z_ - ^1\\ {\alpha _1}({y_1}) & = z_{{y_1}}^1\\ {\alpha _1}({y_1}) & = 0,t > 1 \end{align}\\$

进一步观察可以发现，由于 ${l_6} = a$ 的限制， $t=5$ 时对应的字符只能为 $a$ ， $t$ 或 $\epsilon$ 。所以可得递推公式：

$\alpha _6(a) = ({\alpha _5}(a) + {\alpha _5}(t) + {\alpha _5}( - )) \cdot z_a^6\\$

进一步推广可得一般式如下：

${\alpha _t}({y'_k}) = ({\alpha _{t - 1}}({y'_k}) + {\alpha _{t - 1}}({y'_{k - 1}}) + {\alpha _{t - 1}}( - )) \cdot z_{{y'_k}}^t\\$

类似地，这里可以定义 ${\beta _t}({y'_k})$ ,表示时间步为 $t$ 时经过字符 $y_k'$ 的所有路径在 $t-T$ 时刻的概率和，即：

${\beta _t}({y'_k}) = \sum\limits_{F(l) = y,{l_t} = {y'_k}} {\prod\limits_{t' = t}^T {z_{{l_{t'}}}^{t'}} } \\$

不难分析， $t=T$ 时字符只能占位符或 ${y_{|y'| - 1}}$ ，所以可得初始条件：

$\begin{align} {\beta _T}( - ) & = z_T^1\\ {\beta _T}({y_{|y|}}) & = z_{{y_{|y|}}}^T\\ {\beta _T}({y_{|y| - t}}) & = 0,t > 0 \end{align}\\$

类似地，可得 ${\beta _t}({y'_k})$ 的递推公式为：

$\\{\beta _t}({y_k'}) = ({\beta _{t + 1}}({y_k'}) + {\beta _{t + 1}}({y_{k + 1}'}) + {\beta _{t + 1}}( - )) \cdot z_{{y_k'}}^t\\$

由于 $p(y\mid x)$ 对 $y_k'$ 求导时，只与经过 $z_{y_k'}^t$ 的路径有关，所以在反向传播对 $p(y\mid x)$ 进行梯度计算时，便可以将公式进行简化：

$p(y\mid x) = \sum\limits_{F(l) = y,{l_t} = {y_k'}} p (l\mid x) = \sum\limits_{F(l) = y,{l_t} = {y_k'}} {\prod\limits_{t = 1}^T {z_{{l_t}}^t} } \\$

而由于

$\\{\alpha _t}({y'_k}) \cdot {\beta _t}({y'_k}) = \sum\limits_{F(l) = y,{l_t} = {y_k'}} {z_{{y_k'}}^t} \prod\limits_{t = 1}^T {z_{{l_t}}^t} \\$

所以将其带入可得：

$p(y\mid x) = \sum\limits_{F(l) = y,{l_t} = y_k'} {\frac{{\alpha _t({y_k'}) \cdot {\beta _t}({y_k'})}}{{z_{{y_k'}}^t}}} \\$

由上面的推导可知， ${\alpha _t}({y'_k})$ 和 ${\beta _t}({y'_k})$ 都可以利用动态规划的思想通过递推公式求出，而不用从头开始计算，复杂度从 $O({n^T})$ 变为了 $O(nT)$ ，大大简化了计算。而 $p(y\mid x)$ 只涉及乘法和加法运算，显然是可导的，所以就可以通过上式进行反向传播计算了。

5. 预测

前面提到，在预测阶段，给定一个输入 $x$ ，计算最大概率对应的输出序列。如果假设时间片之间相互独立，那么只需将每一时间片对应概率最大的字符作为预测值，然后组成序列，最后做去重等处理得到最终结果。不过这样并没有考虑多个序列经过对齐对应同一个输出结果。例如，假如 $[c,c,\epsilon]$ 和 $[c,c,c]$ 各自的概率都低于 $[c,o,c]$ ，而二者的概率之和高于后者。前者对齐后的结果均为 $[c]$ ，而后者对齐的结果仍为 $[c,o,c]$ ，显然输出 $[c]$ 比 $[c,o,c]$ 更合理些。

所以为了避免这一问题的发生，又引入了另一种算法，称为Beam Search。

里面有个参数 $B$ ，用来指定每次保留的前缀序列的个数。假如设置 $B=3$ ，则每次选取概率最大的3个前缀序列，比如 $t=1$ 时选取概率最大的3个字符， $t=2$ 时也选取概率最大的3个字符，这样便有9种组合方式。当然对齐之后可能会对应相同的输出，所以要将结果相同的前缀序列进行合并（概率也要相加），然后挑出概率最大的3个作为下一次的输出，以此类推。以序列 $[\epsilon,a,b]$ 为例，具体过程如下图所示。

图5 Beam Search示意图 [1]

这里要注意的是，当前缀序列的末尾字符与下一个字符相同时，合并可以产生两种有效输出。

比如上图中 $t=3$ 时前缀序列为 $a$ , 而合并的字符同样为 $a$ ，这样既可以输出 $a$ ，也可以输出 $aa$ ，二者都是可能的。因为在 $a=2$ 时，其中一个结果占位符 $\epsilon$ 在对齐时被移除了，但是在这里后面又遇到了相同的字符，按照前面定义的规则，此时合并的结果应该为 $aa$ 。 $[\epsilon,a,b]$ 的两种计算情况如下图所示。

图6 [\epsilon,a,b] 的预测过程 [1]

所以，这两种结果应作为两种序列分别进行概率计算。当然，为了能够计算这两种情况对应的概率，需要分别记录以 $\epsilon$ 结尾的前缀序列的概率，以及不以 $\epsilon$ 结尾的前缀序列的概率。

6. 总结

以上便是CTC计算的所有过程。最后，总结CTC的几个特点。

条件独立。回顾上面的计算过程，可以发现在进行路径概率计算时，CTC直接将每个时间片对应的概率值进行相乘，也就是说CTC默认每个时间片都是相互独立的。但是，在文本识别中，文本显然是包含上下文信息的，所以模型中才引入了RNN层。当然，结果表明这并没有妨碍到CTC在文本识别领域的优异表现。不过，假如能够在CTC中将输入数据的上下文信息考虑进去，效果应该能得到进一步的提升。