
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出了一种基于编码器-解码器框架的视听语音识别混合模型。编码器采用早期融合策略,通过双向LSTM联合处理音频和视频特征。解码器创新性地结合了CTC和Attention机制,实现多任务联合训练。实验表明,该模型在视听语音识别任务中表现优异,早期融合策略显著优于晚期融合。此外,引入外部字符级RNN语言模型进一步提升了识别准确率。这种混合架构充分利用了CTC的对齐鲁棒性、Attention的序列建模

在“大数据为王”的时代,Visual Speech Recognition for Multiple Languages in the Wild反其道而行,证明了**精心设计的模型结构**(辅助任务 + 时间掩蔽)比单纯堆砌数据更有效。仅利用公开数据集,就在英语、中文等多语种上击败了使用数万小时私有数据的工业界模型。

本文提出了一种基于编码器-解码器框架的视听语音识别混合模型。编码器采用早期融合策略,通过双向LSTM联合处理音频和视频特征。解码器创新性地结合了CTC和Attention机制,实现多任务联合训练。实验表明,该模型在视听语音识别任务中表现优异,早期融合策略显著优于晚期融合。此外,引入外部字符级RNN语言模型进一步提升了识别准确率。这种混合架构充分利用了CTC的对齐鲁棒性、Attention的序列建模

这篇文章是端到端唇读领域的经典之作。它没有使用复杂的 3D-CNN,而是巧妙地利用双流架构(Raw + Diff)结合 LSTM/BLSTM,在 2017 年就实现了从像素到语义的端到端识别。对于后续研究,其最大的借鉴意义在于:**如何显式地让网络同时关注“形状”和“运动”**。

本文深度解读了 2020 年唇语识别(Lip Reading/VSR)领域的经典论文《ASR is all you need: Cross-modal distillation for lip reading》。针对 VSR 任务中“高质量视听标注数据稀缺”的核心痛点,论文创新性地提出了一种跨模态知识蒸馏框架:利用在海量纯音频语料上预训练好的 ASR 模型(教师),通过“双重监督信号”(CTC 硬








