多语种、抗噪音、秒识别！讯飞实时语音转写大模型上线

2008-2015年之间，讯飞先后在语音合成、语音评测、语音识别等领域首次超过人类或人类专家水平，此后在机器翻译、机器阅读理解和常识推理等方向上持续突破，并且承担了语音及语言信息处理国家工程研究中心、国家新一代人工智能开放创新平台、认知智能全国重点实验室等平台，这些为讯飞在大模型时代进行语音技术探索奠定了坚实的基础。不仅在支持语种和方言数上业界领先，相比于传统“能转写”的方案，它还把“快、准、稳”

AI 研究所

711人浏览 · 2025-09-23 16:19:52

AI 研究所 · 2025-09-23 16:19:52 发布

从全球协作，到国际交流，再到知识普惠，实时语音转写已经成为信息传递的重要工具。它让跨越时空的交流更顺畅，让内容的获取更高效。

近期，讯飞实时语音转写大模型上线讯飞开放平台，面向向开发者和企业开放调用。不仅在支持语种和方言数上业界领先，相比于传统“能转写”的方案，它还把“快、准、稳”做到了新高度，堪称语音转写领域的“全能选手”。

语种覆盖广：支持37个语种、202种方言（全国地级市方言全覆盖）免切识别，可满足复杂的多样化语言场景需求；

识别准确率高：抗噪、抗口音干扰效果大幅提升，极大提高了语音识别准确度，转写准确率超98%；

角色分离准：对角色盲分效果重点提升，同时支持基于声纹分离发音人角色，效果突出；

响应速度快：对于音频流实现毫秒级识别，并返回带有时间戳的文字流，便于二次开发；

01 传统转写的“能力天花板”

科幻经典《银河系漫游指南》中，有一种能放进耳朵里、实现宇宙间万物生灵实时翻译的神奇生物——“巴别鱼”。如果说“巴别鱼”寄托了人类跨越语言鸿沟、实现无缝沟通的梦想，那么实时语音转写则让沟通更清晰、更高效。它像一个“隐形速记员”，把每一句对话即时定格为文字，让信息不再流失。

从最初的人工手动转写到如今的智能化、全流程自动化，实时语音转写技术虽在不断革新、应用的场景日益拓展，但人们在使用时常常遇到不少“麻烦”：

大型体育赛事转播中，受背景噪音干扰，观众看到的字幕可能是“模糊、断句不全”的结果；

跨国会议上，因未能及时手动切换翻译模式，在不同语种夹杂的自然表达中，关键信息就此丢失；

团队讨论时，实时语音转写技术虽然能转写出文字，但往往分不清是谁说的，复盘观点无异于一场“考古工作”；

在线教育场景里，如果老师带有浓重口音或方言，字幕往往出现明显延迟甚至错误，学习体验瞬间被打断；

对追求高效的现代企业而言，如何在“实时性、稳定性与多语言覆盖”之间找到平衡，始终是一道难题。

02 大模型赋能，让转写从‘能用’到‘好用

大模型技术的浪潮给语音带来了新的机会，在语音识别方面，提升了语言模型覆盖能力和上下文相关词识别效果，突破复杂场景效果上限；在多语种方面，提升了语料稀缺语种识别效果，以及跨语言声音复刻能力。实时语音转写，也得以有了一次彻彻底底的“进化升级”。

讯飞开放平台上线的实时语音转写大模型，不仅解决了“能识别”的问题，更解决了“识别得够快、够准、够普适”的问题。

37个语种、202种方言免切识别

从需要用户“迁就”机器，变成了机器主动“理解”用户。用户无需任何手动操作，日语、韩语、俄语、法语、希腊语、西班牙语、孟加拉语等语种及四川话、粤语、客家话、闽南话、上海话等方言，模型都能实时、无缝地精准转写，告别因模式切换带来的信息丢失。

在与竞品的实际测试中，讯飞实时语音转写大模型效果优势明显。与传统实时转写相比，中文通用场景中，会议场景的转写准确率提升15%-20%。

角色分离，精准识人

角色盲分效果进行了重点提升，即便在多人自由讨论、无任何预设的场景，也可实时将不同发言人标记为“发言人1”“发言人2”“发言人3”......会议纪要从此告别混乱，每一条观点都能清晰溯源；同时，支持基于声纹注册来分离发音人角色。只需提前录入关键参会人员的声纹，模型在转写时就能直接输出他们的真实姓名或身份。

高识别率，高准确率

实时转写的应用场景（如会议、户外、车载）常存在噪声、回声、远场、多说话人等干扰，基于讯飞提出的声纹与空间信息双重解耦的说话人分离技术、语音识别大模型声学与语言自适应方案，实时语音转写大模型在复杂声学环境下的抗噪、抗口音干扰效果大幅提升，在真实多变的场景中确保语音识别的准确率。

早在2024年，讯飞就已突破了多人混叠场景下的极复杂场景语音转写技术，即使在三人混叠说话的场景也能实现86%的语音识别准确率。

03 多元化场景应用，沟通效率转化为生产力

任何一项技术的价值，都要通过具体的场景落地来验证。当实时语音转写大模型被应用到真实的业务流程时，会发生怎样的化学反应？

全球化协作，再无障碍

无论是远程跨国会议，还是线下交流，团队成员可以自由地使用母语或夹杂外语进行讨论。会后，一份自动区分发言人的结构化纪要即刻生成，沟通效率呈指数级提升。

智能客服，洞察入微

面对多语种客户，系统不仅能准确记录通话内容，更支持自动质检、情绪分析及客户画像生成，可以更好地提升客户满意度，挖掘服务短板与销售商机。

内容创作，拥抱世界

为视频、直播一键生成多语言字幕，内容出海的成本大大降低。一个精彩的创意，可以瞬间触达全球观众。

04 二十余年技术沉淀，产品背后的硬实力

要将场景价值从“承诺”兑现为稳定可靠的“产品能力”，背后需要有扎实的技术作为支撑。深耕语音领域二十余年，讯飞已推出了多项相关的能力和解决方案，并有了大规模的落地实践。

2024年1月，星火语音大模型正式推出，首批37个主流语种的语音识别效果超过OpenAI Whisper V3。

6月，凭借“多语种智能语音关键技术及产业化”项目荣获国家科学技术进步奖一等奖，讯飞成为过去十年人工智能领域首个一等奖获得者。

9月，讯飞在国际权威赛事、语音领域公认“最难语音识别任务”——CHiME-8中夺冠，有效解决了人数估计、语音重叠、远场混响、人员移动及对话风格随意等难题。

10月，星火语音大模型的多语种多方言免切换语音识别能力，首次全部覆盖了全国地级市共202种方言。

目前，讯飞的实时语音转写技术已在讯飞翻译机、办公本、讯飞听见等多款智能软硬件产品中搭载，同时服务于2025世界人形机器人运动会、成都大运会等重要赛事。在AI技术生态建设方面，讯飞开放平台已形成了包括实时语音转写大模型在内，以语音为核心的大模型矩阵，覆盖多种场景，面向海内外开发者开放调用。

未来，讯飞将持续优化语种覆盖、准确率与低延迟表现，携手开发者与企业，构建一个信息沟通高效、无障碍的世界。

此外，录音文件转写大模型也已上线讯飞开放平台，可满足用户的非实时音频处理的需求，适用于语音质检、会议访谈等场景。

北京朝阳AI社区

更多推荐

基于分布式模型预测控制的多智能体点对点过渡轨迹生成研究（Matlab代码实现）

随着多智能体系统（MAS）在无人机编队、自动驾驶车队、机器人协同操作等领域的广泛应用，如何实现高效、安全、协同的点对点轨迹生成成为核心挑战。分布式模型预测控制（DMPC）通过将集中式优化问题分解为局部子问题，结合预测模型与分布式通信机制，为大规模多智能体系统的轨迹规划提供了有效解决方案。本文系统梳理了DMPC在多智能体点对点过渡中的关键技术，包括模型构建、约束处理、协调机制及优化算法，分析了其可扩

北京朝阳AI社区

周鸿祎说：AI 的未来，不是大模型，而是一群能干活的智能体。做产品的人都应该好好思考这句话

北京朝阳AI社区

Agentic AI的未来发展：提示工程架构师的技术路线图

传统AI（如ChatGPT、Stable Diffusion）是任务驱动的工具：输入一个明确的指令（如“写一篇关于AI的文章”），输出一个对应的结果。它没有“自主意识”，也不会主动调整目标。而Agentic AI（如AutoGPT、BabyAGI）是目标驱动的智能体自主性（Autonomy）：无需人类干预，主动设定子目标并执行；规划性（Planning）：能将复杂目标拆解为可执行的任务序列（如“规