
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
手机端多说话人语音识别方案摘要 针对移动端及端云协同场景(会议/访谈等),推荐分层选型: 快速上线:pyannote.audio 作基线,结合现有ASR; 实时流式:评估 NVIDIA NeMo 的 Sortformer; 纯端侧部署:优先 sherpa-onnx(支持int8及多端API); 中文生态:选用 WeSpeaker + VBx 或 FunASR; 前沿研究:关注 DiariZen 及
摘要: 论文《End-to-End Neural Speaker Diarization with Self-Attention》(SA-EEND)提出将原始EEND模型中的BLSTM编码器替换为自注意力机制,以更好地建模说话人分割任务中的全局和局部信息。SA-EEND通过逐帧多标签分类和置换不变损失进行训练,实验表明其在模拟和真实数据集上均显著优于BLSTM-EEND,尤其在重叠语音场景下表现更

摘要: 论文《End-to-End Neural Speaker Diarization with Permutation-Free Objectives》(EEND)提出了一种端到端的说话人日志(SD)方法,将传统聚类流程重构为多标签序列建模问题。EEND通过逐帧预测每个说话人的活动状态,直接处理重叠语音,并采用Permutation Invariant Training(PIT)解决标签排列歧

本文评测了当前主流的说话人分离模型性能,重点对比了pyannoteAI、DiariZen和Sortformer系列在不同场景下的表现。结果表明:pyannoteAI综合表现最佳(平均DER=11.2%),DiariZen是最强开源方案(DER=13.3%),而Sortformer v2在速度和流式处理上优势明显(RTF=214.3x)。研究发现当前模型的主要问题不是说话人混淆,而是语音漏检(占比约

本文介绍了Transformer模型的架构与核心组件。该模型完全基于注意力机制,摒弃了传统的CNN和RNN结构,具有更强的并行化能力和训练效率。模型采用编解码器结构,编码器由多头自注意力层、残差连接、层归一化和前馈网络组成。重点解析了自注意力机制的计算过程,包括查询、键、值的线性变换和缩放点积注意力公式。多头注意力通过分割嵌入维度到多个子空间并行计算,最后合并结果。模型还使用残差连接缓解梯度消失,

AED 是近十年(当前2025.10)ASR 任务中很重要的技术,思想来源于手写生成和机器翻译,利用注意力机制,帮助编解码器定位到对应的字符。LAS 代码可以参考。参考文献。

HMM算法学习笔记
Sequence Transduction with Recurrent Neural Networks(RNN-T) 论文笔记









