阿里:多模态大模型Qwen3-Omni发布
如何构建一个多模态系统以实现各模态之间性能整体提升?论文提出了Qwen3-Omni模型,通过联合多模态训练,消除了模态间的性能退化,并显著增强了一体化的转换能力。
📖标题:Qwen3-Omni Technical Report
🌐来源:arXiv, 2509.17765
🌟摘要
我们提出了 Qwen3-Omni,这是一种单模态模型,首次在文本、图像、音频和视频之间保持最先进的性能,相对于单模态模型没有任何退化。Qwen3-Omni 匹配 Qwen 系列中相同大小的单模态模型的性能,并且特别擅长音频任务。在 36 个视听基准测试中,Qwen3-Omni 在 32 个基准上实现了开源的最新技术 (SOTA),在 22 个基准上实现了整体 SOTA,优于强大的封闭源模型,例如 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcriptor。Qwen3-Omni 采用 Thinker-Talker Mixture-of-Experts (MoE) 架构,该架构统一了文本、图像、音频和视频的感知和生成,产生流畅的文本和自然的实时语音。它支持 119 种语言的文本交互、19 种语言的语音理解和 10 种语言的语音生成。该系统可以为 ASR 和口语理解处理每个实例多达 40 分钟的音频记录,从而实现跨语言的高质量视听体验。它展示了强大的指令跟随,并允许通过用户定义的系统提示对会话音调和角色进行细粒度定制。为了减少流合成中的第一个包延迟,Talker 使用多码本方案自回归预测离散语音编解码器。利用这些码本的表示能力,我们用一个轻量级的因果ConvNet替换了计算密集型的块扩散,从而能够从第一个编解码器帧流式传输。在冷启动设置(没有先验上下文)中,Qwen3-Omni 实现了 234 毫秒的理论端到端第一数据包延迟。为了进一步加强多模态推理,我们引入了一个 Thinking 模型,该模型明确地推理来自任何模态的输入。由于研究界目前缺乏通用的音频字幕模型,我们对 Qwen3-Omni-30B-A3B 进行了微调以获得 Qwen3-Omni-30B-A3B-Captioner,它为任意音频输入生成详细、低幻觉的标题。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner 在 Apache 2.0 许可下公开发布。
🛎️文章简介
🔸研究问题:如何构建一个多模态系统以实现各模态之间性能整体提升?
🔸主要贡献:论文提出了Qwen3-Omni模型,通过联合多模态训练,消除了模态间的性能退化,并显著增强了一体化的转换能力。
📝重点思路
🔸采用AuT(Audio Transformer)作为音频编码器,以12.5Hz的速率生成通用音频表示。
🔸设计了“Thinker”和“Talker”模块,让Talker仅基于音频和视觉特征进行生成,提升多模态协同生成的能力。
🔸使用GSPO(Gradually Shared Pretraining and Optimization)方法在各模态之间全面提升模型的能力和稳定性。
🔸在多轮对话中,Talker模块依赖丰富的历史文本和当前回合的文本流进行语音生成。
🔎分析总结
🔸早期的多模态整合在预训练阶段可以实现不同模态间的共训练而不降级语言能力。
🔸添加文本模态显著提高视觉和音频模块的性能,展示了跨模态的相互增强。
🔸Qwen3-Omni在声音理解和生成任务中表现出色,超越多种主流音频语言模型。
🔸在复杂推理任务上,该模型展现出强大的多模态集成能力,能有效处理音频和视觉信号的动态信息。
💡个人观点
论文分享了多模态系统的非退化训练方式,并开源了相应的多模态大模型。
🧩附录
更多推荐
所有评论(0)