阿里Qwen3-ASR-Flash深度解析:支持Prompt增强的语音识别大模型,性能超越GPT-4o
阿里发布语音识别大模型Qwen3-ASR-Flash,错误率低于GPT-4o和Gemini,支持11种语言及多种方言。最大特点是支持Prompt增强,通过文本输入提高专有名词识别准确率。模型仅通过API提供,按音频时长收费,基于未开源的Qwen3-Omni构建,展现了阿里在语音识别领域的技术实力。
前言
阿里发布了全新的语音识别大模型Qwen3-ASR-Flash,该模型是Qwen3系列模型中首个语音识别大模型,中英文语音识别错误率低于GPT-4o-transcribe和Gemini 2.5 Pro。不过,该模型目前仅通过API提供,不开源!
Qwen3-ASR-Flash模型的特点
Qwen3-ASR-Flash模型来源于Qwen3-Omni模型。没错,就是还未发布的全模态大模型Qwen3-Omni。2025年3月27日,阿里开源了旗下的首个端到端全模特大模型Qwen2.5-Omni-7B,该模型支持文本、图像、音频、视频(无音频轨)的多模态输入与实时生成能力,可同步输出文本与自然语音的流式响应(详情参考:https://www.datalearner.com/ai-models/pretrained-models/Qwen2_5-Omni-7B )。而此次官方的信息透露,Qwen3-Omni模型也训练好了,只是不确定是否还会开源~
本次发布的Qwen3-ASR-Flash模型是基于Qwen3-Omni构建的专注于语音识别的模型。按照3月份开源的模型,我们可以合理猜测Qwen3-ASR-Flash模型很大概率是7B规模的版本。
Qwen3-ASR-Flash模型的主要特点包括:
- 一个模型支持11种语言的识别(中英西法阿等);
- 支持在语音输入基础上,提供prompt的输入来增强识别语音结果;
- 支持识别歌声中的语音;
- 支持带着噪音的语音识别(吵架、汽车、背景音等);
- 支持非语音片段的识别:即可以忽略语音中静默片段和背景噪音等
Qwen3-ASR-Flash模型支持Prompt增强
Qwen3-ASR-Flash模型最大的特点是支持基于文本+语音的输入,文本即Prompt。
按照官方的描述,语音识别中有一个很难解决的问题是专有名词的识别。例如,一些特殊的地名、人名等专有名词,语音识别模型几乎很难识别准确。这种情况下,只要你在语音识别的同时,给模型一些关键词。模型就能准确的识别。
换言之,Qwen3-ASR-Flash 支持无需预处理上下文信息即可实现定制化语音识别结果。用户只需提供任何形式的“背景文本”,模型就能自动理解并据此调整识别结果(即“有偏转写”或“上下文引导识别”),从而更准确地识别特定词汇、术语或语境内容。
支持的背景文本格式如下:
✅ 简单关键词列表:["Qwen", "通义千问", "ASR", "Flash模型"]
✅ 完整段落或长文档:
“本次会议将讨论Qwen3-ASR-Flash在医疗和金融场景中的落地应用,重点包括方言识别鲁棒性和热词绑定能力。”
✅ 混合格式:
关键词 + 段落["热词:科创板、北交所"] + “近期资本市场改革加速,北交所流动性提升明显…”
✅ 无意义/无关文本(不影响识别):
“香蕉在跳舞,月亮吃火锅” ← 模型会忽略这类内容,不影响正常语音识别。
简单说:你想让模型“偏向”识别什么,就直接把相关文字“喂”给它 —— 不管多乱、多长、多杂,它都能聪明地抓住重点,还不被干扰。
例如,假设我们有一个场景如下:
某段音频正确识别结果应该为“投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bulge Bracket,BB …”。
那么,在不使用上下文增强的时候,识别结果如下:
投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bird Rock,BB ...
部分投行公司名称识别有误,例如 “Bird Rock” 正确应为 “Bulge Bracket”。
但是,如果使用上下文增强(即将文字关键词和音频一起输入),那么对投行公司名称识别正确。
投行圈内部的那些黑话,你了解哪些?首先,外资九大投行,Bulge Bracket,BB ...”
这种带Prompt的语音识别模型在实际中应用价值很多,举例如下:
- 专业领域优化:医疗、法律、金融等术语可通过提供术语表显著提升识别准确率。
- 品牌/产品名绑定:输入公司名、产品名,避免被误识别为同音常见词。
- 灵活易用:无需工程化预处理,业务人员可直接上传原始材料,降低使用门槛。
Qwen3-ASR-Flash模型的识别错误率低于GPT-4o和Gemini 2.5 Pro!
官方公布了Qwen3-ASR-Flash模型在不同语种上的语音识别错误率。下图展示了Qwen3-ASR-Flash模型在不同评测集上的测试结果:
如图所示,Qwen3-ASR-Flash模型在公开测试和内部测试中均表现出色,尤其在中文、带口音中文、英语及多语言场景下误差率显著低于主流竞品(如 Gemini-2.5-Pro、GPT4o-Transcribe、Paraformer-v2 和 Doubao-ASR)。其在复杂语音识别任务(如重口音、混合语言、歌曲识别)中也展现出强鲁棒性,整体性能领先。尽管在部分特定场景(如多语言支持)存在局限,但综合表现突出,体现了其在通用语音识别领域的强大能力。
以“Chinese”和“Chinese Accent”两类任务为例,Qwen3-ASR-Flash 的错误率分别为 3.97% 和 3.48%(公开测试),远低于其他模型(如 GPT4o-Transcribe 达 15.72% 和 17.07%)。这表明该模型对中文语音的建模能力强,尤其在处理方言或非标准发音时具备优异表现,适合中国本地化应用场景。
Qwen3-ASR-Flash支持的语种
官方给出的数据表示,Qwen3-ASR-Flash在单一模型内即可对多种语言、方言和口音实现高精度语音转写,具体支持的语言列表如下:
- 中文:涵盖普通话,以及四川话、闽南语、吴语、粤语等主要方言。
- 英语:支持英式、美式及其他多种地区口音。
- 其他支持语言:法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语、阿拉伯语。
总共11种语言~还是非常实用的。
Qwen3-ASR-Flash接口能力总结和价格
目前Qwen3-ASR-Flash模型仅支持API访问,没有开源。支持录音URL、本地文件和流式三种形式,输入的文件支持aac、amr、avi、aiff、flac、flv、m4a、mkv、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv。
不过需要注意的是,Qwen3-ASR-Flash模型为单轮调用模型,不支持多轮对话和自定义Prompt(包括System Prompt和User Prompt)。
此外,当前Qwen3-ASR-Flash模型的文本输入最多支持10K,音频最多支持10MB或者不超过3分钟,音频采样率16kHz。
官方给出了Qwen3-ASR-Flash模型的价格,文本部分不收费,按照输入的音频时长收费,目前价格是一分钟为0.00192美元,也就是一分钟大概2美分。这里有个技巧,如果你想减低成本,可以将原始音频进行加速,这样阿里就会少收你很多钱了!
Qwen3-ASR-Flash模型总结
阿里发布的Qwen3-ARS-Flash模型虽然没有开源,不过收费也是非常公道的,而且这个准确率很惊喜了!
不过,更让我们惊喜的应该是它背后的Qwen3-Omni模型,相比较Qwen2.5-Omni会不会有很大的提升,此外,会不会开源呢~十分值得期待。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

更多推荐
所有评论(0)