你是否想过,未来的智能音箱或手机语音助手,不仅能准确识别你的每一句话,还能听出你语气中的疲惫、兴奋或是焦虑?在你口述一段会议录音后,它不仅能生成文字稿,还能自动提炼摘要、分析每个人的发言情绪?
这些场景的实现,依赖于一种能深度理解和处理人类语音的大型AI模型。然而,与当前能“看懂”图像的大模型飞速发展不同,语音大模型领域的发展一直显得有些“各自为战”,进展缓慢。
该领域长期被碎片化的技术路线、不透明的训练数据和缺失的统一评测标准所困扰,导致各种模型难以公平比较,严重阻碍了技术的进步。许多研究虽然发布了模型,但其成功的关键——训练数据和方法细节——却常常被“雪藏”起来。

在这里插入图片描述

为了打破这一僵局,北京深度逻辑智能科技有限公司推出了LLaSO——首个完全开放、端到端的语音大模型研究框架。它像一个“全家桶”,打包提供了高质量的数据、统一的评测基准和强大的基础模型,旨在为整个行业铺平道路,加速创新。

在这里插入图片描述

●论文地址:https://arxiv.org/abs/2508.15418v1
●代码地址:https://github.com/EIT-NLP/LLaSO
●模型地址:https://huggingface.co/papers/2508.15418

语音大模型的困境:标准不一的“华山论剑”

为什么语音大模型的发展会遇到瓶颈?这就像一群顶尖厨师,虽然各有绝活,但因为菜谱、厨具和评价标准完全不同,大家根本不知道谁的厨艺更胜一筹,也难以学习借鉴。该领域主要面临几大核心挑战:
1.技术路线分歧:在如何让AI同时理解语音和文字上,目前的技术路线非常多,但没有一个公认的、效果最好的标准范式。
2.数据私有化:许多领先模型都依赖私有的海量数据进行训练。这使得其他研究者无法复现其结果,也难以判断模型的优越性是来自算法创新还是数据“堆料”。
3.任务范围局限:现有数据集大多只关注“语音转文字”等基础任务,而忽略了语音中更丰富的信息,例如情感、口音、语调和说话意图。
4.交互模式单一:大多数模型仅支持“用文字下指令,让模型分析音频”的单一模式,很少能处理更复杂的纯语音对话。
这些问题共同导致了研究的碎片化,使得系统性的技术突破变得异常困难。

LLaSO框架:用“三件套”打造统一标准

在这里插入图片描述

图一:llaso语料库的制作流程

为应对上述挑战,研究者构建了LLaSO框架,它由三个核心的公开资源组成:
1.LLaSO-Align(对齐数据集):一个包含1200万样本的庞大语料库。它的核心任务是“语音转文字”,通过海量数据让模型学会将语音信号和文字的语义精准对应起来,这是模型“听懂”话语的基础。
2.LLaSO-Instruct(指令数据集):一个拥有1350万样本的多任务指令库。它不再局限于简单的语音转文字,而是涵盖了20种不同的任务,不仅能识别文字,还能识别说话人的情感、口音、年龄,甚至判断话语的意图。这正是打造下一代智能助理和高效会议纪要工具的关键。更重要的是,它系统性地支持三种交互模式,包括纯语音对话。

在这里插入图片描述

图二:LLaSO语料库的任务组成

3.LLaSO-Eval(评估基准):一个包含超过1.5万个样本的“标准化考场”。所有模型都可以在这个统一的基准上进行测试,得分高低一目了然,确保了评估的公平性和可复现性。

在这里插入图片描述

图三:LLaSO-Base在LLaSO-Eval基准测试上的表现结果

这三大组件共同构成了一个完整的训练、微调和评估流水线,为语音大模型研究提供了前所未有的开放性和便利性。

LLaSO-Base:一个强大且可复现的参考模型

为了验证LLaSO框架的有效性,研究团队还训练并发布了一个名为LLaSO-Base的参考模型。该模型拥有38亿参数,其设计目标并非追求性能的极致,而是为了提供一个完全依赖LLaSO公开数据、可被轻松复现的强大基线。
●模型架构:LLaSO-Base采用了已被验证的成功架构,由三部分组成:一个语音编码器(听觉)、一个投影器(转换)和一个大型语言模型(大脑)。
●训练过程:训练分为“对齐”和“指令微调”两个阶段,先让模型学会语音和文字的对应关系,再通过海量指令任务教会模型如何“思考”和执行复杂任务。

在这里插入图片描述

图四:LLaSO模型架构示意图

LLaSO-Base 模型实验结果分析

我们在一系列严格设计的实验中,将 LLaSO-Base 与多个业界领先的语音语言模型(LSLMs)进行了直接对比。所有实验均在我们构建的标准化评估基准 LLaSO-Eval 上完成,确保了比较的公平性和结果的可复现性。

  1. 实验设置与评估基准
    为确保评估的全面性,我们选取了10个主流的语音语言模型作为基准,包括Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的评估均在统一的LLaSO-Eval 测试集上进行。

在这里插入图片描述

图五:详细描述了 LLaSO-Eval 评估基准的构成。

该基准包含15,044 个样本,覆盖了 20 种不同任务。
这些任务被系统地划分为三大类别,以实现对模型能力的深度剖析:
●语言学任务 (Linguistic): 核心是自动语音识别 (ASR),评估模型最基础的语音转文本能力 。

●语义任务 (Semantic): 核心是音频问答 (AQA),评估模型对音频内容的高层次理解、推理和生成能力 。

●副语言学任务 (Paralinguistic): 进一步细分为“以说话人为中心”(如性别、年龄、口音识别)和“以内容为中心”(如意图预测、实体提取)两类,旨在评估模型对言外之意的捕捉能力 。

  1. 评估指标说明
    我们的评估体系采用了多种指标,以确保对模型各方面性能的精确衡量 :

●WER/CER (词/字错误率): 用于 ASR 等转录任务,数值越低,表示准确率越高。

●Accuracy (准确率): 用于分类任务(如性别、口音识别),数值越高,性能越好。

●MAE (平均绝对误差): 用于数值预测任务(如年龄识别),数值越低,预测越精准。

●GPT-4o Score (GPT-4o 评分): 针对 AQA 等开放式生成任务,我们使用 GPT-4o 对模型输出的相关性和准确性进行 1-5 分的打分,分数越高代表表现越好。

●Abstention Rate (拒绝回答率): 衡量模型在面对不熟悉或困难任务时的“回避”倾向。此比率越低,说明模型的指令遵循能力和鲁棒性越强。

  1. 总体性能对比:LLaSO-Base 表现全面领先

在这里插入图片描述

图六: 直观地展示了所有模型在 LLaSO-Eval 上的总体性能得分(经过归一化处理)。

从图中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。这一成绩显著优于其他所有竞争模型,例如表现次之的Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。这一结果强有力地证明了 LLaSO-Base 的综合实力。研究发现,像 LLaSO-Base 这样在更多样化的任务上进行训练的模型,其综合性能远超那些主要针对 AQA 等少数任务进行优化的模型(如 Llama-Omni 和 Mini-Omni)。这凸显了我们所提倡的广泛任务覆盖训练策略的有效性。

  1. 详细任务性能分析

在这里插入图片描述

图七: 深入比较了各模型在语言学 (ASR) 和语义 (AQA) 任务上的具体表现 。

●在 ASR 任务上,LLaSO-Base 展现了压倒性优势。其 WER 和 CER 分别低至 0.08 和 0.03,是所有模型中最低的,这意味着它拥有最精准的语音转录能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等强劲对手,也存在明显差距 。

●在 AQA 任务上,竞争十分激烈。Kimi-Audio 在标准“文本指令+音频输入”模态下表现突出,获得了 3.35 的高分 。LLaSO-Base 在此项上得分 2.58,表现稳健 。但值得注意的是,在更具挑战性的“音频指令+文本输入”模态下,

LLaSO-Base 的得分 (2.70) 展现了更强的模态适应性,超过了多数模型 。

在这里插入图片描述

图八:呈现了在 18 个细分的副语言学任务上的对比结果,这是对模型能否理解 “弦外之音” 的终极考验。

在这些更复杂的任务上,LLaSO-Base 几乎在所有任务上都取得了顶尖或接近顶尖的成绩。
●以说话人为中心的任务:在说话人性别识别 (SGC) 和口音分类 (AC) 任务上,LLaSO-Base 的准确率名列前茅,展现了对说话人特征的敏锐洞察力 。

●以内容为中心的任务:LLaSO-Base 的优势更为显著。在音素识别 (PR) 任务中,其 PER 仅为 0.03;在语音命令识别 (SCR) 任务中,WER/CER 低至 0.04/0.02 。这两项指标均以数量级的优势领先于所有其他模型,展示了其在精细语音内容分析上的卓越能力。

●指令遵循能力:更重要的是,LLaSO-Base 在这些任务中的拒绝回答率极低。相比之下,Llama-Omni 和 Mini-Omni 等模型在许多副语言学任务上直接选择“拒绝回答”(表格中标记为 “Reject”),这表明它们缺乏处理此类任务的能力。LLaSO-Base 的稳定响应证明了其强大的指令遵循能力和任务泛化性。

5.模态泛化与任务覆盖度分析

在这里插入图片描述

图九:模型在不同输入模态下的性能稳定性

●模态泛化能力 (Figure 9): 该图分析了模型在不同输入模态(纯音频、文本+音频、音频+文本)下的性能稳定性。结果显示,大多数模型在切换到不熟悉的模态时性能会下降。虽然 LLaSO-Base 也存在性能波动,但其在标准模态下的峰值性能远高于其他模型,这是其总体得分领先的关键。同时,研究也发现,采用“交错或并行解码”策略的模型(如 Mini-Omni、GLM-4-Voice)通常表现出更好的稳定性。

在这里插入图片描述

图十:模型训练正相关关系

任务覆盖度的重要性 (Figure 10): 该图清晰地揭示了模型训练任务数量与其性能和拒绝回答率之间的正相关关系。

LLaSO-Base 经过 20 个任务的训练,其总体性能和指令遵循能力(低拒绝回答率)均处于领先地位 。而那些训练任务较少的模型,性能普遍偏低,且更容易“拒绝”回答,这进一步验证了 LLaSO 框架设计理念的正确性与前瞻性。

总结与展望

LLaSO的出现,为相对混乱的语音大模型领域树立了一个开放、统一的基础标准。通过首次发布涵盖数据、基准和模型的完整开源资源,LLaSO极大地降低了研究门槛,使开发者能在一个公平、透明的平台上进行比较和创新。
我们有理由相信,这个“全家桶”式的开源项目将催化语音大模型领域的下一波浪潮,为开发者们铺平了道路,让打造出真正懂你心声的AI语音应用成为可能。

Logo

加入「COC·上海城市开发者社区」,成就更好的自己!

更多推荐