提娜米苏个人主页

@2302_76169191

提娜米苏

2025-05-29 16:40:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于混合CTC/Attention的视听语音识别模型:AUDIO-VISUAL SPEECH RECOGNITION WITH A HYBRID CTC/ATTENTION ARCHITECTURE

本文提出了一种基于编码器-解码器框架的视听语音识别混合模型。编码器采用早期融合策略，通过双向LSTM联合处理音频和视频特征。解码器创新性地结合了CTC和Attention机制，实现多任务联合训练。实验表明，该模型在视听语音识别任务中表现优异，早期融合策略显著优于晚期融合。此外，引入外部字符级RNN语言模型进一步提升了识别准确率。这种混合架构充分利用了CTC的对齐鲁棒性、Attention的序列建模

#语音识别 #人工智能

[论文笔记] Visual Speech Recognition for Multiple Languages in the Wild - 仅仅依靠公开数据如何实现 SOTA？

在“大数据为王”的时代，Visual Speech Recognition for Multiple Languages in the Wild反其道而行，证明了**精心设计的模型结构**（辅助任务 + 时间掩蔽）比单纯堆砌数据更有效。仅利用公开数据集，就在英语、中文等多语种上击败了使用数万小时私有数据的工业界模型。

#深度学习 #语音识别 #论文阅读

基于混合CTC/Attention的视听语音识别模型:AUDIO-VISUAL SPEECH RECOGNITION WITH A HYBRID CTC/ATTENTION ARCHITECTURE

#语音识别 #人工智能

[论文笔记] 基于 LSTM 的端到端视觉语音识别 (End-to-End Visual Speech Recognition with LSTMs)

这篇文章是端到端唇读领域的经典之作。它没有使用复杂的 3D-CNN，而是巧妙地利用双流架构（Raw + Diff）结合 LSTM/BLSTM，在 2017 年就实现了从像素到语义的端到端识别。对于后续研究，其最大的借鉴意义在于：**如何显式地让网络同时关注“形状”和“运动”**。

#lstm #深度学习 #计算机视觉 +2

[论文笔记] ASR is all you need: Cross-modal distillation for lip reading (2020)

本文深度解读了 2020 年唇语识别（Lip Reading/VSR）领域的经典论文《ASR is all you need: Cross-modal distillation for lip reading》。针对 VSR 任务中“高质量视听标注数据稀缺”的核心痛点，论文创新性地提出了一种跨模态知识蒸馏框架：利用在海量纯音频语料上预训练好的 ASR 模型（教师），通过“双重监督信号”（CTC 硬

#论文阅读 #语音识别 #深度学习 +1

到底了