我自己的原文哦~             https://blog.51cto.com/whaosoft/14174584

#LLaDA-MoE

扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。 

万万没想到,做奥数题都能拿金牌的模型,却不会「倒着背诗」。

图片

说完全不会,倒也不严谨。因为如果允许模型「深度思考」,给诗的每个字都编上号,然后倒着排一下,这诗也能背出来。然而,这与人类倒背文本的方式并不一样 —— 人类记忆诗词时,往往不是逐字死记,而是以句子、意境、节奏为单位,而倒背时则是在脑中「反向调用」这些单元。

图片

图片

研究者们在 2023 年的一篇论文中就提到了这个现象,并将其命名为「Reversal Curse(反转诅咒)」。类似的表现还包括模型学习了「A is B(如巴黎是法国的首都)」之后,却无法自然地推出「B is A(如法国的首都是哪里)」。

这个问题之所以被拎出来讨论,是因为它会在一些需要模型同时理解前后文或逆向推理的场景中影响性能。

两年过去,AI 大模型能力突飞猛进,但这一问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归(AR)生成范式所造成的 —— 模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 token 之间的双向依赖关系。

而且,自回归的天然缺陷还不止这一个 —— 长文本的计算成本高、生成速度慢是常被诟病的问题,而且它缺乏直接修正错误的能力,还会导致错误产生连锁反应。

面对这些问题,大量研究者选择继续改进自回归,但也有人另辟蹊径,尝试新的建模范式。

蚂蚁集团和中国人民大学高瓴人工智能学院组成的联合研究团队选择的就是后者,他们探索的语言建模方向是「扩散(diffusion)」。

在他们之前,也有不少研究者在这一方向发力。但今年 2 月份,他们首次将扩散语言模型(dLLM)扩展至 8B 参数规模,推出了性能对标 LLaMA 3 的 LLaDA 模型。

图片

自回归模型的生成方式。

图片

LLaDA 模型的生成方式。

LLaDA 一经发布就引起了广泛关注,因为它通过非自回归的掩码扩散机制,首次在大规模语言模型中实现了与自回归模型相当的语言智能(如上下文学习、指令遵循、多轮对话等),挑战了「语言模型必须自回归」的主流认知。

在过去的几个月里,LLaDA 系列一直在快速迭代,衍生出了对齐能力更强的 LLaDA1.5、多模态版本的 LLaDA-V,以及刚刚在外滩大会上亮相的 LLaDA-MoE。

图片

其中,LLaDA-MoE 尤为引人注目。它由蚂蚁集团通用人工智能研究中心和人民大学联合研发,是业界首个从零训练的原生 MoE 架构扩散语言模型,在 20T 的数据上完成了训练,验证了此类模型大规模训练的可扩展性和稳定性。

在效果上,它不仅超过了此前发布的稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,更是以 1.4B 激活参数比肩稠密自回归模型 Qwen2.5-3B,并保有数倍的推理速度优势。

可以说,LLaDA-MoE 是 dLLM 发展历程中的又一个重要里程碑。

据悉,该模型将在近期完全开源,以推动全球 AI 社区在扩散语言模型上的技术发展。

这个模型具体表现如何?背后有哪些技术?为什么这类模型能 work?在发布会之后的一次访谈中,蚂蚁通用人工智能研究中心主任蓝振忠、中国人民大学高瓴人工智能学院副教授李崇轩透露了很多细节,我们将在本文中一一介绍。

图片

左:李崇轩;右:蓝振忠。

LLaDA-MoE

业界首个从零训练的原生 MoE 架构扩散语言模型

经过 3 年多的迭代,dLLM 的发展已经进入成熟期。尤其在 LLaDA 模型发布之后,大家真正看到了这一类模型的可用性。很多研究已经把 LLaDA 作为基础或主干模型来进行进一步微调或扩展。

不过,要想提升模型能力上限,dLLM 同样必须进一步 scaling。而从自回归的发展路径来看,这一目标可以借助 MoE 来实现。

对于蚂蚁和人大的联合团队来说,这又是一条未知的路,因为现有的扩散语言模型探索都是基于稠密架构,与 MoE 相关的预训练、后训练甚至推理都存在大量未知的难题。而且 MoE 本身就比较难训练,在扩散这个新架构上做 MoE 则更加困难。

不过,蓝振忠表示,真正去做了之后,他们发现这些「风险」其实都是可管理的。这很大程度上是因为,他们有一些关键的工程、资源积累可以依托:

首先是一些已经在自回归模型上验证过的 MoE 训练经验和技术积累 —— 无论是业界开源的还是蚂蚁自身的经验,其实很多都可以拿来复用,这帮助他们解决了一些诸如负载均衡、噪声采样 shift 之类的问题。

其次是高质量的数据基础。团队直接复用了蚂蚁百灵大模型积累的 20T 数据,节省了大量人力物力。

最后是完善的工程基础设施。蚂蚁自研的 ATorch 训练框架已经具备专家并行(EP)等一系列并行加速技术,能够为大规模 MoE 训练提供强有力的技术支撑。同时,蚂蚁算力集群的稳定性确保了 20T 数据量级别的工业级训练能够高效稳定完成。

正是基于这些关键积累,团队最终成功打造出了 LLaDA-MoE。这是一个总参数量为 7B 的模型,激活参数量为 1.4B。目前,LLaDA-MoE 有两个版本:基础模型版 LLaDA-MoE-7B-A1B-Base 和指令微调版 LLaDA-MoE-7B-A1B-Instruct。

图片

HuggingFace 链接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub 链接:https://github.com/ML-GSAI/LLaDA

在各项 benchmark 测试中,LLaDA-MoE 超越了现有的开源稠密 dLLM 模型,如 LLaDA1.0/1.5 和 Dream-7B,在代码、数学、Agent 这类相对结构化的任务上优势明显。此外,模型效果也追平了 Qwen2.5-3B 这个用同样数据量训练的稠密自回归模型,由此实现了 1.4B 激活参数,达到 2 倍多参数稠密模型的等效比。这说明 MoE 架构性能放大器的作用在 dLLM 上也成立。团队表示,他们后续将继续挖掘等效比这个 scaling law,探索更高稀疏比、更大尺寸的 MoE 扩散语言模型,以进一步释放 LLaDA-MoE 的规模化潜力。

图片

图片

图片

同时,他们还在 dLLM 推理加速方面持续投入,针对 dLLM 的并行特性,从算子融合、计算图优化、并行加速、缓存管理、并行解码等多个方面进行了全面优化,相比开源 SOTA 的 NVIDIA fast-dLLM 推理引擎实现了显著加速。相关代码与技术报告也将于近期开源、公布,以助力 dLLM 技术的快速发展。

扩散语言模型

为什么能 work? 

在蓝振忠、李崇轩看来,dLLM 能走到今天,有一定的必然性,因为无论从底层理论还是实践经验来看,这个方向都有着巨大的潜力。

首先,从理论上来看,李崇轩指出:从概率建模的角度来看,大语言模型的关键并不是必须依赖自回归展开,而是能否有效地表示和学习高维复杂的联合概率分布,即通过最大似然估计或最小化 KL 散度来逼近真实语言分布。

自回归的优势在于通过链式法则把难以直接建模的联合概率分解为逐步的条件概率,从而简化了训练和优化过程,但这种方式并不是唯一的。扩散模型提供了另一条路径:它不依赖固定的从左到右生成顺序,而是通过迭代的去噪过程逐渐逼近数据分布,这种过程同样能够刻画高维概率,只是采取了「由粗到细」的动态修正方式。

李崇轩特别指出,很多人们认为是自回归独有的性质,比如指令跟随、In-context Learning、压缩能力和可扩展性,其实更深层次上都源于最大似然估计这一共同的学习准则,而不是自回归本身。

例如,条件概率建模赋予模型指令跟随和对话能力,信息论意义上的最大似然保证了压缩特性,而优化的简洁性和与 Transformer 架构的兼容性则保证了可扩展性。这些性质同样可以在扩散模型里出现。

图片

与此同时,自回归范式也存在固有局限:完成时间与输出长度成正比、只能单向展开、缺乏直接修正错误的能力。而扩散模型在这些方面提供了潜在优势,它天然支持并行解码、双向建模和迭代修正:

  • 并行解码意味着生成过程不必逐 token rollout,而是可以在有限步数内同时更新多个位置,使得推理迭代次数与输出长度不再严格挂钩,在长文本场景下更具效率潜力。此外,这种并行性还有望带来算力利用率的提升。传统自回归推理由于串行瓶颈,往往导致 GPU 大量算力处于空闲状态;而扩散模型的并行更新方式则能够在每一次迭代中充分调动大规模矩阵运算,更好地发挥硬件性能,从而在单用户使用时也能保持较快的响应速度,避免了自回归推理那种因为缺乏并发而浪费算力的情况。
  • 双向建模让模型能够同时利用前后文信息来重构序列,从而提升全局一致性和逻辑连贯性,在图文并茂等没有严格从前到后顺序的多模态场景中也更加自然。
  • 迭代修正则带来灵活的交互方式:当输出中某一部分有错误或需要修改时,扩散模型可以只针对局部片段重新采样,而不必推倒重来。这种能力尤其适合代码生成、文档编辑等需要频繁调整的场景。

图片

此外,有证据表明,在同样的数据量下,扩散语言模型的学习效果比自回归模型更好。具体表现为,在有限数据场景中,自回归模型往往在几轮数据复用之后便迅速进入收益递减阶段,而扩散模型则能够持续从重复数据中榨取增量信息(dLLM 的数据利用效率可以达到 AR 的 3 倍以上);即便在极端重复的条件下,dLLM 依然能够不断提升在下游任务中的能力。

这种「榨干」数据的能力和 dLLM 的双向建模机制密切相关。传统的自回归模型采用严格的因果性建模方式,每个 token 的预测只能基于前面的 token,这种单向的信息流限制了模型对数据中复杂依赖关系的捕获。而 dLLM 通过掩码机制实现了真正的双向建模,允许模型在任意顺序下理解和生成文本。

从技术层面看,扩散模型的训练目标本身就要求对每个数据点进行多种不同的掩码配置和比例的处理。这意味着每次重复同一份数据时,模型实际上是在学习该数据的不同「视角」—— 不同的掩码模式暴露了数据中不同的上下文依赖关系。相比之下,自回归模型在重复训练时只是在强化相同的从前到后的预测模式。

这种数据效率优势在当前 AI 发展阶段具有特殊意义。随着高质量预训练数据逐渐稀缺,而计算资源变得相对充裕,用更多计算换取更好的数据利用率成为了一个合理的权衡。扩散语言模型虽然在训练和推理时需要消耗更多 FLOPs,但这种「超密度计算」带来的智能提升可能是值得的。

在 LLaDA 系列模型的研究中,蚂蚁和人大的联合团队已经验证了扩散语言模型的一些理论优势和工程可行性,让这个充满「不确定」的方向逐渐变得清晰、明朗起来。但要想充分兑现这一方向的潜力,他们还有很多问题需要克服,比如如何把理论上的速度优势在工程中真正实现,如何把模型 scale 到更大规模,如何设计类似 KV cache 的缓存机制,如何解决可变长度问题等。随着 LLaDA 系列模型的开源,这些问题有望借助社区的力量来共同解决。

「这个方向需要更多聪明的人参与进来,就像自回归模型的发展依靠了全世界的贡献,扩散语言模型的发展同样需要借助社区的力量。」蓝振忠在采访中说到。

跳出常规思维

探索智能上限

在谈到打造 LLaDA-MoE 的难点时,李崇轩提到:其实最难的一点是「下决心」,因为这件事没有人做过,「大家不知道能不能成」。

谈到这个「下决心」的过程,蓝振忠表示:「如果你不去探索那些在别人眼中可能充满风险的领域,我们就只能永远跟随他人已经确定的路径前行。我们要提升智能的上限,就不能一直 follow。」

当然,这种冒险是建立在理性判断的基础上。正如前文所言,在理论研究和实践的过程中,团队逐渐确信:扩散语言模型是一个有希望落地且风险可控的方向,而且在提升智能上限方面非常有潜力。因此,当他们真正决定投入资源去构建 LLaDA-MoE 时,这不仅是一次技术上的尝试,更是一次主动打破路径依赖、以不确定性换取未来上限的战略性选择。

能做出这种战略选择,对蚂蚁来说不是偶然。对这种前瞻性方向的判断和大力投入,在蚂蚁也有先例,比如百灵大模型的开源,推理框架 AReaL、多智能体框架 AWorld 的布局等等。

此外,蓝振忠所领导的通用人工智能研究中心还在向其他前沿方向发力,比如动态 MoE 架构的创新、混合线性架构的探索等。

这些方向全都围绕一个「北极星」指标 —— 通用人工智能(AGI)。他们希望通过不断的创新,把智能推到一个新高度。

我们也希望看到他们在这一方向取得更多进展。

参考链接

​https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac​#244d8f03a866808fb358d7a97bbd26f2

..

#writing-tools-for-agents

如何为LLM智能体编写工具?Anthropic官方教程来了

好工具,才有好智能体。

智能体(Agent)时代,工具已不再只是传统 API 或函数接口的简单封装,而是决定智能体能否高效完成任务的关键。

为了让智能体真正释放潜力,我们需要重新思考工具开发的方式。传统软件开发依赖确定性逻辑,而智能体是非确定性的,它们在相同输入下可能产生不同输出,这意味着为智能体设计工具需要新的范式。

而新的范式不仅仅是如何开发工具,更在于如何让工具真正发挥最大效能。毕竟,AI 智能体的强大程度取决于我们为其提供的工具,但问题是:如何让这些工具发挥最大效能?

来自 Anthropic 的一篇文章为大家指出了一条可行路径。

原文链接:https://www.anthropic.com/engineering/writing-tools-for-agents

以下是博客内容:

在这篇文章中,Anthropic 介绍了一些在多种 agentic AI 系统中被证明最有效的性能提升技巧。

阅读本文后,你可以做到:

  • 构建并测试工具原型;
  • 如何创建并运行全面的评估;
  • 与智能体协作(如 Claude Code),自动提升模型性能。

图片

工具的定义

在计算机中,确定性系统在给定相同输入时,每次都会产生相同的输出;而非确定性系统,比如智能体,即便在相同的初始条件下,也可能生成不同的响应。

在传统的软件开发中,我们是在确定性系统之间建立契约。例如,一个关于天气的函数调用 getWeather ("NYC"),无论调用多少次,都将以完全相同的方式返回纽约的天气。

而基于大模型的工具是一种全新的软件形式,它体现的是确定性系统与非确定性智能体之间的契约。

举个例子:当用户问「我今天要带伞吗?」时,智能体可能会调用天气工具、也可能直接基于常识回答,甚至先提出一个澄清性问题(比如确认具体地点)。有时,智能体还可能出现幻觉,或者根本没弄明白该如何使用工具。

这意味着,我们在为智能体编写软件时,必须从根本上重新思考方法:不能再把工具和 MCP 服务器当作普通函数或 API 来写,而是需要专门为智能体设计。

那如何设计工具呢?

如何编写工具?

首先,快速搭建工具原型并在本地进行测试。

接着,进行全面评估来衡量后续改动带来的影响。

在与智能体协作的过程中,你可以不断重复评估与改进这一循环,直到智能体能够在现实任务中表现出强劲的性能。

构建原型

在该教程中,我们以基于 Claude 的智能体构建为例。

如果你使用 Claude Code 来编写工具,最好向 Claude 提供相关的文档,例如工具依赖的软件库、API 或 SDK(包括可能用到的 MCP SDK)。

另外,适合 LLM 阅读的文档通常可以在官方文档网站上以 llms.txt 文件的形式找到,大家可以自行下载。

你也可以将工具封装在本地 MCP 服务器或桌面扩展程序 (DXT) 中,即可在 Claude Code 或 Claude Desktop 应用中连接并测试这些工具。

值得一提的是,如果你要将本地 MCP 服务器连接到 Claude Code,请运行 claude mcp add <name> <command> [args...]。

此外,要将本地 MCP 服务器或 DXT 连接到 Claude Desktop 应用,请分别前往「设置”>“开发者” 或 “设置”>“扩展程序”」。你也可以将工具直接传入 Anthropic API 调用进行编程测试。

这些做完之后,还要自行测试以发现不足之处。

运行评估

接下来,你需要通过评估来衡量工具的效果。

图片

评估可以分为几个部分进行,首先是生成评估任务。

在你完成早期原型后,Claude Code 可以检验你的工具,并生成数十组提示与响应对。

这些提示应当源自真实的使用场景,并基于真实的数据源和服务(例如内部知识库和微服务)。

  • 本文建议避免使用过于简单或太过于表面的沙盒环境,因为那样无法在足够复杂的条件下对工具进行压力测试。
  • 那些高质量的评估任务往往需要多次工具调用,甚至可能多达数十次。

那什么是好的任务评估呢?大家可以参考如下示例:

  • 安排下周与 Jane 会面,讨论我们最新的 Acme Corp 项目。附上我们上次项目规划会议的记录,并预订会议室。
  • 客户 ID 9182 报告称,他们单次购买被扣款三次。查找所有相关日志条目,并确定是否有其他客户受到同一问题的影响。
  • 客户 Sarah Chen 刚刚提交了取消订单的申请。准备一份留任方案。确定:(1) 他们离开的原因;(2) 哪种留任方案最具吸引力;以及 (3) 在提出方案之前我们应该注意的风险因素。

还有一些较弱的任务:

  • 安排下周与 jane@acme.corp 的会议。
  • 在付款日志中搜索 purchase_complete 和 customer_id=9182。
  • 查找客户 ID 为 45892 的取消请求。

每个评估 prompt 都应与可验证的响应或结果配对。你设置的验证器可以简单到只是在基本事实和采样响应之间进行精确的字符串比较,也可以高级到请大模型来判断响应。避免使用过于严格的验证器,因为这些验证器会因为格式、标点符号或有效的替代措辞等虚假差异而拒绝正确的响应。

对于每个提示 - 响应对,你还可以选择指定智能体在解决任务时调用的工具,以衡量智能体在评估过程中是否成功掌握了每个工具的用途。但是,由于正确解决任务可能存在多种有效途径,因此请尽量避免过度指定或过度拟合策略。

接着是运行评估。

本文建议通过直接调用 LLM API 以编程方式运行评估。

还可以采用简单的智能体循环(例如用 while 循环交替包装 LLM API 与工具调用):每个评估任务对应一个循环。每个评估智能体应被分配一个任务提示和相关工具。

如果你使用 Claude 运行评估,可以直接启用 interleaved thinking(交错思维)。这样一来你就能探究智能体为何调用或不调用某些工具。

在评估过程中,除了准确率,本文还建议收集智能体的其他指标,例如:

  • 单次工具调用和任务的总运行时间;
  • 工具调用总次数;
  • 总 token 消耗;
  • 工具错误情况。

图片

接下来是结果分析。

通常来讲,有时智能体在反馈和回答中遗漏的内容,往往比它们提到的内容更重要。LLM 并不总是准确表达出它们的真实含义。

你需要观察智能体在什么地方会卡住或感到困惑。我们需要根据反馈,定位工具的薄弱环节。

与此同时,我们需要回顾原始对话记录(包括工具调用和工具响应),以捕捉那些没有明确出现在智能体 CoT 中的行为。记住评估智能体并不一定真正知道正确答案或最佳策略。

另外,还需要分析你的工具调用指标:

  • 冗余调用过多 → 可能说明需要重新设计分页或 token 限制参数;
  • 无效参数导致的错误过多 → 可能说明工具需要更清晰的描述或更好的使用示例。

用户还可以与智能体协作。

你甚至可以让智能体直接帮你分析结果并改进工具。

只需将评估智能体的对话记录拼接起来,然后粘贴到 Claude Code 中即可。Claude 擅长分析对话记录,并能一次性重构大量工具。

如何编写高效工具?有哪些原则

选择合适的工具

并不是说工具越多,结果就越好。我们观察到一个现象:工具只是简单封装了现有软件功能或 API 接口,而很多时候调用这些工具是否真正适合智能体还未知。

原因在于,智能体与传统软件有着不同的可供性(affordances),也就是说,它们感知并使用工具的方式与传统软件截然不同。

  • 举个例子:LLM 智能体的上下文有限(即一次能处理的信息量有限),而计算机内存廉价且几乎无限。
  • 在地址簿中查找联系人这个任务上,传统软件可以高效地逐个存储并处理联系人,检查完一个再检查下一个。

然而,如果一个 LLM 智能体使用的工具返回了所有联系人,并且必须逐个 token 地读完,那么它就会把有限的上下文空间浪费在无关信息上。(想象一下,在地址簿里找联系人时,你得从头到尾一页一页翻阅,这其实就是一种暴力搜索。)

更好、更自然的方式(无论对智能体还是对人类而言)都是直接跳到相关页面(比如按字母顺序定位)。

因此,本文建议先构建少量经过深思熟虑的工具,针对高价值的工作流,并与评估任务保持一致,然后再逐步扩展。在地址簿的例子中,你可以实现一个 search_contacts 或 message_contact 工具,而不是简单地提供一个 list_contacts 工具。

此外,工具还有整合能力,能在底层同时处理多个离散操作(或 API 调用)。

 例如,工具可以:

  • 在返回结果时附加相关元数据;
  • 或者在一次调用中完成经常需要串联的多步任务。

以下是整合功能的一些示例:

  • 与其分别实现 list_users、list_events 和 create_event 工具,不如实现一个 schedule_event 工具,它可以查找空闲时间并能直接安排其他任务。
  • 与其实现一个 read_logs 工具,不如实现一个 search_logs 工具,它只返回相关的日志行以及必要的上下文。
  • 与其实现 get_customer_by_id、list_transactions 和 list_notes 工具,不如实现一个 get_customer_context 工具,它能一次性汇总某个客户的所有近期且相关的信息。

所以说,你构建的每个工具都应当具有清晰且独立的目标。工具应当使智能体能够像人类一样,在获取相同底层资源的情况下,去分解并解决任务,同时还能减少原本会被中间结果消耗掉的上下文空间。

过多的工具或功能重叠的工具,反而会分散智能体的注意力,阻碍其选择高效的策略。

因此,谨慎且有选择性地规划哪些工具需要构建(或不需要构建),往往会带来更大的回报。

为工具设置命名空间

AI 智能体可能会接入数十个 MCP 服务器和数百个不同的工具,其中还包括其他开发者编写的工具。

当工具在功能上出现重叠,或者用途模糊不清时,智能体就可能会混淆该用哪个工具。

命名空间(即给相关工具加上统一前缀分组)可以划清不同工具之间的边界;有些 MCP 客户端会默认采用这种方式。

例如,可以按服务进行命名空间划分(如 asana_search、jira_search),也可以按资源划分(如 asana_projects_search、asana_users_search),这样能够帮助智能体在合适的时机选择正确的工具。

本文发现,前缀式命名和后缀式命名在工具使用评估中的效果并不相同。本文建议根据你的评估结果来选择合适的命名方式。

假如不这样做的话,智能体可能会:

  • 调用错误的工具;
  • 或者用错误的参数调用正确的工具;
  • 又或者调用的工具太少;
  • 甚至错误地处理了工具响应。

从工具中返回有意义的上下文

同样,工具实现应注意仅向智能体返回高信号信息。它们应优先考虑上下文相关性而非灵活性,并避免使用低级技术标识符(例如:uuid、256px_image_url、mime_type)。诸如 name、image_url 和 file_type 之类的字段更有可能直接影响智能体的下游操作和响应。

智能体处理自然语言名称、术语或标识符的能力也显著优于处理隐晦的标识符。实践发现,仅仅将任意字母数字 UUID 解析为语义上更有意义且更易于解释的语言(甚至是 0 索引的 ID 方案)就能显著提高 Claude 在检索任务中的准确率,从而减少幻觉。

在某些情况下,智能体可能需要灵活地与自然语言和技术标识符输出进行交互,哪怕只是为了触发下游工具调用(例如,search_user (name=’jane’) → send_message (id=12345))。你可以通过在工具中公开一个简单的 response_format 枚举参数来启用这两种功能,从而允许智能体控制工具返回「简洁」还是「详细」的响应(如下图所示)。

你可以添加更多格式以获得更大的灵活性,类似于 GraphQL,也可以精确选择要接收的信息。以下是一个用于控制工具响应详细程度的 ResponseFormat 枚举示例:

enum ResponseFormat {
   DETAILED = "detailed",
   CONCISE = "concise"
}

以下是详细工具响应的示例(206 个 token):

图片

以下是一个简洁工具响应(72 个 token)的示例:

Slack 线程和线程回复由唯一的 thread_ts 标识,这些 thread_ts 是获取线程回复所必需的。thread_ts 和其他 ID(channel_id、user_id)可以从「详细」工具响应中检索,以便后续需要这些 ID 的工具调用。「简洁」工具响应仅返回线程内容,不包含 ID。本例中使用约 1/3 个 token 作为「简洁」工具响应。

你的工具响应结构(例如 XML、JSON 或 Markdown)也会对评估性能产生影响:没有一刀切的解决方案。这是因为 LLM 是基于下一个 token 预测进行训练的,并且往往在使用与其训练数据匹配的格式时表现更佳。最佳响应结构会因任务和智能体而异,建议根据自身的评估选择最佳响应结构。

优化工具响应以提高 token 效率

优化上下文质量至关重要。但优化工具响应中返回给智能体的上下文数量也同样重要。

Anthropic 建议,对于任何可能消耗大量上下文的工具响应,结合分页、范围选择、过滤和 / 或截断功能,并设置合理的默认参数值。对于 Claude Code 来说,工具响应限制默认是 25000 个 token。未来智能体的有效上下文长度会随着时间的推移而增长,但对上下文高效工具的需求会始终存在。

如果你选择截断响应,请务必为智能体提供实用的指导。你可以直接鼓励智能体采用更高效的 token 策略,例如,在知识检索任务中进行多次小规模、有针对性的搜索,而不是进行单一、广泛的搜索。同样,如果工具调用引发错误(例如,在输入验证期间),你可以对错误响应进行提示式设计,以清晰地传达具体且可操作的改进措施,而不是使用晦涩难懂的错误代码或回溯。

以下是截断工具响应的示例:

图片

以下是一个无用的错误响应示例:

图片

以下是一个有用的错误响应示例:

图片

快速构建工具描述

现在来谈谈改进工具的最有效方法之一:快速构建工具描述和规范。由于这些内容会加载到智能体的上下文中,因此它们可以共同引导智能体实现有效的工具调用行为。

在编写工具描述和规范时,请思考如何向团队中的新成员描述你的工具。考虑到可能隐式引入的上下文 —— 专用查询格式、专业术语的定义、底层资源之间的关系 —— 并将其明确化。通过清晰描述(并使用严格的数据模型强制执行)预期的输入和输出,避免歧义。特别是,输入参数的命名应清晰明确:不要使用名为 user 的参数,而应尝试使用名为 user_id 的参数。

通过评估,你可以更有信心地衡量快速构建的影响。即使对工具描述进行微小的改进,也能带来显著的提升。在对工具描述进行精准改进后,Claude Sonnet 3.5 在 SWE-bench Verified 评估中取得了最佳性能,大幅降低了错误率,并提高了任务完成率。

展望未来

为了构建高效的智能体工具,我们需要重新调整软件开发实践,从可预测的确定性模式转向非确定性模式。

通过本文中描述的迭代式、评估驱动的流程,现在已经出现了使工具成功的一致模式:高效的工具应具有清晰明确的定义,能够合理地利用智能体上下文,能够在不同的工作流程中组合使用,并支持智能体直观地解决现实世界中的任务。

Anthropic 预计,智能体与世界交互的具体机制将不断演变 —— 从 MCP 协议的更新到底层 LLM 本身的升级。通过系统化的、评估驱动的方法来改进智能体工具,我们可以确保随着智能体能力的提升,它们所使用的工具也能随之发展。

..

#Youtu-GraphRAG

腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破

图检索增强生成(GraphRAG)已成为大模型解决复杂领域知识问答的重要解决方案之一。然而,当前学界和开源界的方案都面临着三大关键痛点:

  • 开销巨大:通过 LLM 构建图谱及社区,Token 消耗大,耗时长,经济与时间成本高昂。
  • 效果瓶颈:对复杂问答的解析精度有限,面临显著的效果瓶颈。
  • 适配成本高:缺乏跨任务泛化能力,遇新领域需重新调整全链路,迁移成本高。

针对这些难题,腾讯优图实验室正式开源 Youtu-GraphRAG 框架,通过创新的算法优化,实现了成本和效果的双重突破!

  • 论文标题:Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning
  • 论文链接:https://arxiv.org/pdf/2508.19855

成本和效果的双重突破

在六个跨领域多语言基准测试中,Youtu-GraphRAG 展现出卓越性能:

  • 大幅成本优化:相比同类最佳方案,构图成本节省 30%+;
  • 显著精度提升:在复杂推理任务中获得最高 16%+ 的准确率提升;

这些结果标志着 GraphRAG 技术向落地可用的发展阶段迈进了重要的一步。

图片

图片

图片

技术架构:三大创新构建垂直统一的完整方案

图片

Youtu-GraphRAG 通过 Schema 连接两个智能体,在图构建、索引和检索上实现垂直统一和认知闭环,以领先的落地级图构建与推理能力推动 GraphRAG 进入新的阶段。

1. Schema 引导的层次化知识树构建

通过引入有针对性的实体类型、关系和属性类型,为图构建智能体提供精确约束,实现了跨领域知识的自主演化和高质量抽取。四层架构设计包括:

  • 属性层:存储实体的属性信息
  • 关系层:构建实体间的关系三元组
  • 关键词层:建立关键词索引体系
  • 社区层:形成层次化的高维度社区结构

2. 结构语义双重感知的社区检测

巧妙融合结构拓扑特征与子图语义信息,在复杂网络中提炼高维度知识加强推理总结能力,社区生成效果显著优于传统 Leiden 和 Louvain 算法。利用大模型进行社区摘要生成,实现更高层次的知识抽象。

图片

3. 智能迭代检索机制

深度理解图 Schema,将复杂查询针对性地转换为符合图特征且可并行处理的子查询,通过迭代检索进一步提升思维链追溯与反思能力。

图片

When & Why? 三大核心应用场景

多跳推理与总结

完美解决需要多步推理的复杂问题,如深度关联分析、因果推理等场景。

知识密集型任务

高效处理依赖大量结构化知识的问题,如企业知识库问答、技术文档深度解析。

跨域扩展应用

轻松支持学术论文、个人知识库、私域 / 企业知识库等多个领域,最小化人工干预成本。

交互界面

图片

图片

快速启动:四步开箱智能复杂问答

第一步:获取项目代码

git clone https://github.com/TencentCloudADP/youtu-graphrag
cd youtu-graphrag

第二步:环境配置  

1. 首先访问提供模型服务的平台,获取远程调用模型的凭证 API key。

2. 按照.env.example 格式创建配置文件,创建并复制 API key,`Youtu-GraphRAG` 项目的 `.env` 文件中的 llm 部分中设置。

cp .env.example .env
# 配置 OpenAI 格式的 LLM API
# LLM_MODEL=deepseek-chat
# LLM_BASE_URL=https://api.deepseek.com
# LLM_API_KEY=sk-xxxxxx

第三步:一键部署  

docker build -t youtu_graphrag:v1 .
# 启动 docker 容器
docker run -d -p 8000:8000 youtu_graphrag:v1

第四步:体验交互  

curl -v http://localhost:8000

访问 http://localhost:8000 即可体验完整的图增强推理服务,包括:

  • 可视化知识图谱展示
  • 交互式智能问答
  • 实时推理路径追踪

企业级优势特性

统一配置管理

  • 集中化参数管理:所有组件通过单一 YAML 文件统一配置
  • 多环境无缝支持:轻松实现跨领域迁移部署

高性能架构

  • 并行子问题处理:采用并行机制处理分解后的问题
  • 迭代推理演进:逐步构建答案,提供清晰的推理轨迹
  • 企业级扩展性:专为私域及企业级部署而设计

社区贡献与数据集

我们提供公平匿名数据集  AnonyRAG  ,有效防范大语言模型预训练过程中的知识泄露问题,深度检验 GraphRAG 框架的检索性能。

我们致力于构建一个开放、灵活的知识图谱检索与推理框架。无论你是研究者、工程师,还是对知识图谱与 RAG 有兴趣的开发者,都可以在以下方向贡献:

新种子 Schema 开发:

设计并提交高质量的种子 Schema,帮助 GraphRAG 更好地理解不同数据类型。

示例:为医疗领域构建患者、药物、治疗方案的种子 Schema

自定义数据集集成:

在尽量减少对 Schema 的人工干预下,尝试集成新的开放数据集或行业数据集。

示例:

  • 集成 WikiData、PubMed、arXiv 等开放数据集
  • 集成企业内部文档或日志数据,并验证 Graphrag 的兼容性

特定领域的最佳实践应用案例

展示 GraphRAG 在某一领域的最佳实践,让社区更直观地了解其应用潜力。

示例:

  • 金融领域:构建基于 Graphrag 的风险事件知识图谱
  • 教育领域:集成课程大纲、作业与考试题库,辅助智能问答
  • 科研领域:集成论文数据集,支持跨学科知识发现

..

#AI Agents与Agentic AI的范式之争?

2022年11月,ChatGPT的横空出世彻底改写了AI发展的轨迹。

如今打开Google Trends,“AI Agents”与“Agentic AI”的搜索曲线自2022年底起便一路飙升,成为继生成式AI之后最受关注的两大方向。

图 1:谷歌全球搜索趋势图。该图显示,自 2022 年 11 月 ChatGPT 首次推出以来,人们对 “AI Agents”(人工智能代理)和 “Agentic AI”(智能体人工智能)的关注度持续上升。

但这两个频繁被提及的概念究竟有何区别?为何谷歌要在2025年专门推出A2A协议为其制定标准?

Cornell大学团队近期发表的《AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges》一文,为我们梳理了这一关键演进脉络,更构建了一套完整的理论框架,或许能解答关于下一代智能系统的核心疑问。

图 2:本研究的思维导图,用于探究人工智能代理(AI Agents)与智能体人工智能(Agentic AI)的相关概念、应用场景及面临的挑战。每个彩色分支代表一个关键的对比维度,分别是:架构(Architecture)、运行机制(Mechanisms)、适用范围 / 复杂程度(Scope/Complexity)、交互方式(Interaction)以及自主性(Autonomy)。

一、从MYCIN到ChatGPT:60年AI智能体的演进之路

要理解AI Agents与Agentic AI的差异,首先需要回溯智能体技术的发展历程。早在ChatGPT出现前,AI领域就已围绕“自主智能体”展开探索,但其形态与如今截然不同。

20世纪70年代,专家系统MYCIN横空出世,作为早期智能体的代表,它能通过知识库和推理引擎模拟医生诊断细菌感染,却只能遵循预设规则,无法应对未见过的病例。同一时期的DENDRAL系统虽能预测分子结构,本质仍是“规则执行者”。这些早期系统共同构成了“前LLM时代”的智能体雏形——依赖符号推理、缺乏学习能力,更谈不上自主适应环境。

此后数十年,多智能体系统(MAS)与BDI(信念-愿望-意图)架构逐步发展。Ferber在1999年提出的MAS框架,首次将智能体定义为具备自主性、感知力与通信能力的实体,可用于分布式问题解决;BDI架构则让智能体能够基于目标制定计划,如应用于空中交通管制模拟的系统。但这些进步仍未突破“预编程”的桎梏,智能体的行为边界始终被人类设定的规则所限制。

2022年11月成为关键转折点。ChatGPT的发布不仅引爆了生成式AI的热潮,更让智能体技术迎来“范式跃迁”。文章指出,ChatGPT代表的生成式AI是智能体发展的“ precursor(先驱)”——它首次展现了LLM强大的语言理解与内容生成能力,但本质仍是“被动响应者”,只能根据用户提示产出内容,无法主动规划任务、调用工具。

正是在生成式AI的基础上,AI Agents与Agentic AI逐步分化。2023年,AutoGPT、BabyAGI等框架出现,标志着AI Agents正式落地:它们将LLM与外部工具(API、搜索引擎、代码执行环境)结合,能自主完成多步骤任务,比如规划产品市场分析时,会依次调用网页搜索、数据汇总、报告生成工具。而到2023年底,CrewAI、MetaGPT等系统的出现,又推动技术进入Agentic AI阶段——多个专业智能体协同工作,像人类团队一样分工拆解复杂目标,甚至能动态调整任务分配。

谷歌2025年提出的Agent-to-Agent(A2A)协议,更是为Agentic AI制定了首个行业标准。该协议包含五大核心原则:充分发挥智能体能力、基于现有标准构建、默认保障交互安全、支持长期任务运行、确保模态无关性(文字、图像、语音等均可交互),试图解决不同框架下智能体的互操作问题。

二、AI Agents:单智能体的“工具革命”,从响应到执行的跨越

在明确演进脉络后,我们首先聚焦AI Agents的核心定义与技术细节。文章将其定义为“由LLM和LIM驱动的模块化系统,用于特定任务自动化”,它的出现填补了生成式AI“只会说不会做”的空白。

图 3:本研究的方法流程示意图,展示了从人工智能代理(AI Agents)基础到智能体人工智能(Agentic AI)的演进过程,后续还呈现了二者的架构演进、应用场景、局限性及未来解决方案策略。

1. 三大核心特征:定义AI Agents的边界

AI Agents之所以能区别于传统自动化脚本,关键在于三大特征:

图 4:人工智能代理(AI Agents)核心特征示意图,展示了其在智能体设计与运行行为中的三大核心特征,分别是自主性(autonomy)、任务特异性(task-specificity)和反应性(reactivity)。

  • 自主性:部署后无需持续人工干预,能自主感知环境输入、推理决策并执行动作。比如客服AI Agents,在接入企业知识库后,可独立处理用户的订单查询、退换货申请,无需人工转接;
  • 任务特异性:聚焦单一、明确的任务领域,而非通用能力。例如邮件筛选AI Agents仅负责分类邮件优先级、提取关键信息,不会涉及日程规划等其他任务;
  • 反应性与适应性:能响应动态环境变化,部分系统还可通过反馈优化行为。以个性化推荐AI Agents为例,它会根据用户的点击、购买记录实时调整推荐内容,甚至通过用户对推荐结果的反馈(如“不感兴趣”)进一步优化算法。

2. 技术基石:LLM与LIM的“双引擎驱动”

AI Agents的能力核心,离不开LLM与LIM的协同:

  • LLM:推理与决策中枢。以GPT-4、PaLM为代表的LLM,不仅能理解自然语言,还具备规划、推理能力。在AI Agents中,LLM承担“大脑”角色——解析用户目标(如“生成Q3销售报告”)、分解步骤(“1. 调取销售数据库;2. 计算各区域业绩;3. 生成可视化图表;4. 撰写分析结论”)、调用对应工具,并整合结果生成最终输出;
  • LIM:视觉感知的延伸。CLIP、BLIP2等LIM模型让AI Agents具备了“看图说话”的能力,能处理图像、视频等视觉输入。文章中提到的果园巡检AI Agents就是典型案例:无人机搭载LIM模型,可实时识别 diseased fruits(病果)和damaged branches(断枝),并自动触发警报,通知工作人员进行靶向处理。

Anthropic的“Computer Use”项目更是将这种“双引擎”能力推向极致。该项目中的Claude模型,能像人类一样操作电脑:通过视觉识别屏幕内容、控制鼠标键盘、打开软件应用,既能完成填写表单、复制数据等重复性任务,也能进行软件测试(打开代码编辑器、运行命令、调试错误),甚至能自主进行在线研究并整理信息。其核心逻辑是“目标-行动-观察”的循环:接收任务目标→决定下一步操作→执行并观察结果→重复直至任务完成。

3. 工具集成:打破LLM的“知识牢笼”

LLM的静态知识(如GPT-4的知识截止到2023年)和幻觉问题,是AI Agents必须解决的痛点。而工具集成正是关键解决方案。

文章将工具集成的过程分为“调用-结果整合”两步:当AI Agents遇到内部知识无法解决的问题(如“查询今日纽约股市收盘价”),会生成结构化的工具调用请求(如JSON格式的API调用指令),通过协调层执行;工具返回结果后,AI Agents会将其重新输入LLM的上下文窗口,结合原有推理继续完成任务。

ReAct框架是这一过程的经典实现。它将“推理(Reasoning)”与“行动(Action)”交替进行:LLM先通过Chain-of-Thought(思维链)分析任务,决定需要调用的工具;执行工具调用后,再根据返回结果调整推理方向,避免盲目行动。例如ChatGPT的网页搜索功能,当用户询问“2024年诺贝尔物理学奖得主”时,它会先判断内部知识不足,调用搜索工具获取信息,再基于搜索结果生成准确回答,而非依赖旧知识或编造内容。

AutoGPT、GPT-Engineer等框架则进一步拓展了工具集成的边界。AutoGPT在处理“产品市场分析”任务时,会依次调用网页搜索工具(获取竞品信息)、Excel工具(整理数据)、报告生成工具(撰写分析);GPT-Engineer则能结合代码执行环境,根据用户需求(如“开发一个简易待办清单APP”)自动生成代码、测试运行并修复bug,最终输出可直接使用的软件产品。

图 6:展示人工智能代理(AI Agent)执行实时新闻搜索、摘要生成及答案生成的工作流程。

三、Agentic AI:多智能体的“协作革命”,从个体到系统的突破

如果说AI Agents是“单智能体的工具革命”,那么Agentic AI就是“多智能体的协作革命”。文章将其定位为“范式 shift(转变)”,核心在于通过多智能体协作,解决AI Agents无法应对的复杂任务。

图 7:人工智能代理(AI Agent)与智能体人工智能(Agentic AI)的对比示意图,整合呈现了二者的概念差异。左侧为执行单一任务的人工智能代理(AI Agent);右侧为多智能体协作的智能体人工智能(Agentic AI)系统。

1. 概念跃迁:从“孤立执行”到“协同决策”

Agentic AI与AI Agents的本质区别,在于“系统级智能”的引入。文章以智能家居系统为例,清晰对比了二者差异:

  • AI Agents的典型代表是智能恒温器:仅负责维持设定温度,最多学习用户的作息习惯调整能耗,无法与其他设备协同;
  • Agentic AI则是整个智能家居生态:天气预测智能体发现即将出现热浪,会通知能源管理智能体提前用太阳能预冷房屋(避开电价高峰);同时,日程管理智能体发现用户即将外出,会联动安防智能体启动监控、关闭非必要电器。多个智能体通过共享信息、协同决策,实现“舒适、安全、节能”的全局目标。

Feature

AI Agents

Agentic AI

定义

执行特定任务的自主软件程序。

多个AI代理协同工作以实现复杂目标的系统。

自主级别

在特定任务中具有高度自主性。

广泛的自主性,能够管理多步骤、复杂的任务和系统。

任务复杂性

通常处理单个特定任务。

处理需要协调的复杂、多步骤任务。

协作

独立运营。

涉及多智能体信息共享、协作与合作。

学习和适应

在特定领域内学习和适应。

在更广泛的任务和环境中学习和适应。

应用程序

客户服务聊天机器人、虚拟助手、自动化工作流程。

供应链管理、业务流程优化、虚拟项目经理。

这种跃迁的关键在于三大能力:

  • 动态任务分解:由“规划智能体”将用户的高-level目标(如“完成科研项目申报”)自动拆分为子任务(“1. 检索相关文献;2. 撰写研究方案;3. 制作PPT;4. 检查格式合规性”);
  • 多智能体分工:每个子任务分配给对应专业智能体(文献检索智能体、写作智能体、设计智能体、合规检查智能体),避免单一智能体“身兼数职”导致的效率低下;
  • 协同与适应:通过共享记忆(存储任务进度、上下文信息)和通信协议,智能体间可实时同步状态。若某一智能体任务失败(如文献检索智能体无法获取某篇论文),系统会自动重新分配任务(如切换其他数据库检索),而非整体停滞。

图 8:展示从传统人工智能代理(AI Agents)到现代智能体人工智能(Agentic AI)系统的架构演进过程。该架构以感知(Perception)、推理(Reasoning)和行动(Action)为核心模块起步,逐步扩展至包含专业智能体(Specialized Agents)、高级推理与规划(Advanced Reasoning & Planning)、持久记忆(Persistent Memory)及协调层(Orchestration)在内的高级组件。此图还进一步呈现了多智能体协作(Multi-Agent Collaboration)、系统协调(System Coordination)、共享上下文(Shared Context)和任务分解(Task Decomposition)等涌现性特征,这些特征均被包裹在虚线边界内,该边界象征着分层模块化特性,以及向分布式、自适应智能体人工智能(Agentic AI)的智能化转型。

2. 架构创新:协调层与共享记忆的“双支柱”

Agentic AI要实现高效协作,离不开两大核心架构组件:

  • 协调层(Orchestration Layer):通常由“元智能体(Meta-Agent)”担任,负责任务分配、进度监控、冲突解决。以ChatDev(用于软件开发的Agentic AI系统)为例,它模拟企业部门架构,设置“CEO智能体”(制定开发目标)、“CTO智能体”(技术方案设计)、“工程师智能体”(编写代码)、“测试智能体”(检测bug),由“CEO智能体”作为元智能体协调各角色,确保开发流程顺畅;
  • 共享记忆(Persistent Memory):分为情景记忆(任务执行历史)、语义记忆(领域知识)、向量记忆(用于快速检索相似信息),解决多智能体的“信息同步”问题。例如科研协作Agentic AI系统中,文献检索智能体获取的论文摘要会存入共享记忆,写作智能体可直接调用,无需重复检索;同时,写作智能体对文献的解读标注,也会更新到共享记忆,为后续PPT制作智能体提供参考。

图 9:人工智能代理(AI Agents)与智能体人工智能(Agentic AI)在八个核心功能领域的分类应用展示。

3. 典型案例:从科研到医疗的场景落地

文章列举了多个Agentic AI的实际应用,展现其在复杂场景中的优势:

  • 多智能体科研助手:以AutoGen框架为例,用户提出“撰写AI在农业中的应用综述”后,系统会分配:1. 检索智能体:调用学术数据库获取近5年论文;2. 总结智能体:提取每篇论文的核心观点;3. 整合智能体:按主题分类观点,构建综述框架;4. 写作智能体:撰写正文;5. 引用智能体:自动格式化参考文献。整个过程无需人工干预,效率远超单一AI Agents;
  • 智能机器人协调:在果园采摘场景中,Agentic AI系统包含:无人机测绘智能体(生成果园地图、标记成熟果实位置)、采摘机器人智能体(按地图定位采摘)、运输机器人智能体(将果实运至存储点)、路径规划智能体(实时优化机器人路线,避开障碍物)。若某台采摘机器人故障,系统会自动将其任务分配给附近机器人,确保采摘进度不受影响;
  • 医疗决策支持:在ICU场景中,Agentic AI系统由多个专业智能体构成:1. 监测智能体:实时分析患者生命体征,预警 sepsis(败血症)风险;2. 病史智能体:调取电子病历,汇总患者既往病史、用药记录;3. 治疗智能体:结合临床指南(如《拯救脓毒症运动》),推荐抗生素方案、输液量;4. 协调智能体:整合各智能体信息,检查方案一致性(如避免药物过敏),最终向医生提交决策建议。这种多智能体协作,既减少了医生的认知负担,也降低了单一智能体误判的风险。

图 10:人工智能代理(AI Agents)在企业场景中的应用:(a)客户支持与企业内部搜索;(b)电子邮件筛选与优先级排序;(c)个性化内容推荐与基础数据报告生成;(d)自主日程助手。每个示例均体现了模块化人工智能代理(AI Agent)在集成应用中的价值 —— 可在业务工作流与用户交互系统中,实现自动化处理、意图理解及自适应推理功能。

图 11:智能体人工智能(Agentic AI)在多领域的应用示例:图 11 展示了智能体人工智能(Agentic AI)系统的四个实际应用场景。(a)自动化基金申请书撰写 —— 通过多智能体协同,实现结构化文献分析、合规性匹配及文档格式规范。(b)苹果园协同多机器人采摘 —— 借助共享空间记忆,以及负责测绘、采摘、运输的任务专用智能体,实现多机器人协同作业。(c)医院重症监护室(ICU)临床决策支持 —— 通过诊断、治疗方案制定、电子健康记录(EHR)分析的同步智能体,提升医疗安全性与工作流效率。(d)企业环境下的网络安全事件响应 —— 由智能体分别处理威胁分类、合规性分析及缓解方案制定。在所有场景中,中央协调器负责管理智能体间通信,共享记忆确保上下文信息留存,反馈机制则驱动系统持续学习。这些应用案例凸显了智能体人工智能(Agentic AI)在科学、农业、医疗、信息技术安全等领域的复杂动态环境中,具备可扩展、自主化任务协同的能力。

四、挑战与破局:从技术瓶颈到未来 roadmap

尽管AI Agents与Agentic AI发展迅速,文章也毫不避讳地指出了当前面临的核心挑战,并提出了针对性解决方案。

1. 两大范式的共性与差异化挑战

  • AI Agents的痛点
  • 因果推理缺失:LLM擅长识别相关性,但无法区分因果。例如,某AI Agents发现“医院就诊人数增加”与“感冒发病率上升”相关,却无法判断是感冒导致就诊增加,还是就诊人数多导致交叉感染;
  • LLM固有缺陷:幻觉(生成虚假信息)、知识滞后(无法获取实时数据)、提示敏感性(微小提示变化导致结果大幅差异);
  • 长期规划能力弱:在多步骤任务中易“卡壳”,如生成报告时某一步工具调用失败,无法自主恢复,只能停滞。
  • Agentic AI的新增挑战
  • 误差传递:一个智能体的错误会扩散至整个系统。例如,若验证智能体误判某篇论文为“相关”,后续总结、写作智能体都会基于错误信息工作;
  • 协调瓶颈:智能体间目标对齐难、通信易产生歧义。比如,规划智能体拆分的“撰写报告”任务,写作智能体可能理解为“1000字摘要”,而用户实际需要“5000字详细分析”;
  • 涌现行为不可预测:多智能体交互可能产生未预期结果。例如,某Agentic AI系统中,两个智能体为争夺同一API资源,陷入“无限请求”循环,导致系统崩溃;
  • 可解释性差:多智能体的决策链复杂,难以追溯某一结果的具体来源。比如,医疗Agentic AI推荐某治疗方案,医生无法确定是监测智能体的预警,还是病史智能体的记录起了关键作用。

图 12:挑战示意图:(a)人工智能代理(AI Agents)的主要局限性,包括因果推理缺陷(causality deficits)与浅层推理(shallow reasoning);(b)智能体人工智能(Agentic AI)系统中更为突出的协同与稳定性挑战。

2. 针对性解决方案:技术与架构的双重突破

针对上述挑战,文章提出了十大核心解决方案:

  • 检索增强生成(RAG):为AI Agents提供实时、准确的外部知识,减少幻觉。例如,客服AI Agents通过RAG调用企业最新产品手册,确保回答与当前产品信息一致;Agentic AI中,多个智能体可通过RAG共享同一知识库,避免信息不一致;
  • ReAct框架:强化AI Agents的“推理-行动-观察”循环,提升任务执行的鲁棒性。例如,数据汇总AI Agents在调用数据库后,会先验证数据准确性,再进行后续分析;
  • 因果建模:帮助AI Agents与Agentic AI区分相关性与因果性。通过引入因果图、贝叶斯网络,让智能体理解“为什么”发生,而非仅观察“发生了什么”;
  • 共享记忆架构:解决Agentic AI的信息同步问题,确保所有智能体基于同一上下文工作;
  • 元智能体协调:由专门的协调智能体监控任务进度、解决冲突,避免Agentic AI的协调混乱;
  • 工具验证机制:在AI Agents调用工具后,增加结果校验步骤。例如,代码生成AI Agents运行代码并检查报错,自动修正错误;
  • 程序式提示工程:自动化生成提示,减少AI Agents的提示敏感性。通过模板化、变量化的提示设计,确保相似需求产生一致结果;
  • ** reflexive(反思)机制**:让AI Agents与智能体具备自我批判能力。例如,法律AI Agents在起草合同后,会重新检查条款是否符合法律规定;Agentic AI中,验证智能体可审核其他智能体的输出,确保准确性;
  • 监控与审计 pipeline:为Agentic AI建立完整的决策日志,记录每个智能体的操作、调用的工具、输出结果,便于追溯问题根源;
  • 治理架构:通过角色权限控制、安全 sandbox(沙箱),防范Agentic AI的安全风险。例如,限制敏感智能体(如医疗决策智能体)的操作范围,避免越权行为。

图 13:展示了十种不断发展的架构与算法机制(如检索增强生成(RAG)、工具增强、动态记忆、因果建模、协调机制及反思性自我评估),这些机制被视为核心推动因素,能够突破以往的应用局限,助力解决当前在可靠性、可扩展性与可解释性方面存在的问题。尽管这些技术此前已应用于孤立的智能体系统,但在本文中,它们被重新置于新的语境下,以满足现代人工智能代理(AI Agents)与智能体人工智能(Agentic AI)的需求,从而在日益复杂且动态的环境中,实现具备协同性、适应性与可验证性的行为。

3. 未来 roadmap:从模块化到协同进化

文章最后为两大范式规划了未来方向:

  • AI Agents的进化重点:提升主动推理能力(从“用户指令驱动”到“场景驱动”,如自动识别用户需要生成报告并启动任务)、深化工具集成(支持更复杂的工具链,如结合机器人硬件)、强化因果推理与持续学习;
  • Agentic AI的突破方向:规模化多智能体协作(支持上千个智能体同时工作)、领域定制化(针对医疗、金融等场景优化协调机制)、伦理治理(明确智能体责任归属,防范偏见放大);
  • 颠覆性探索:文章提及的“Absolute Zero(AZR)框架”或许是下一代技术的关键。该框架试图让智能体“零数据学习”——无需外部数据集,通过自主生成任务、验证结果、优化策略实现进化。例如,科研Agentic AI系统中的智能体,可自主提出假设、设计实验、模拟结果、修正假设,实现“自我驱动”的科研探索。

图 14:人工智能代理(AI Agents,左侧)与智能体人工智能(Agentic AI,右侧)未来发展路线图的思维导图可视化。

五、结语:智能体的终极目标,是成为人类的“协同伙伴”

回顾全文,AI Agents与Agentic AI的差异并非“谁更先进”,而是“适用场景不同”:AI Agents适合解决单一、明确的自动化任务,是提升效率的“工具”;Agentic AI则擅长应对复杂、动态的系统性目标,是辅助决策的“团队”。

从MYCIN到ChatGPT,从单一规则执行者到多智能体协作系统,AI智能体的发展始终围绕一个核心目标——缩小“机器能力”与“人类需求”的差距。如今,AI Agents已能高效处理客服、数据汇总等标准化任务,Agentic AI更在科研、医疗、机器人协调等复杂场景中展现出巨大潜力,但这并非终点。文章强调,未来智能体技术的终极方向,是从“自动化工具”进化为“人类协同伙伴”——既能自主完成重复性工作,又能理解人类意图、适应动态需求,甚至在高风险领域(如手术机器人、自动驾驶)与人类共同决策。

要实现这一目标,仍需突破三大关键瓶颈: 一是因果推理的深度化。当前AI Agents与Agentic AI仍依赖统计相关性,难以真正理解“因果关系”,这在医疗诊断、金融风险预测等场景中可能导致致命错误。未来需将因果推断与LLM更深度融合,让智能体不仅能“预测结果”,更能“解释原因”; 二是可解释性的透明化。Agentic AI的多智能体协作链复杂,决策过程常呈“黑箱”状态,这在法律、医疗等需追溯责任的领域难以落地。后续需建立“决策日志+因果追溯”机制,让每个智能体的操作、信息来源、推理逻辑都可审计; 三是伦理与安全的体系化。随着Agentic AI自主性提升,可能出现“目标偏离”(如为完成任务忽视伦理准则)、“安全漏洞”(如被恶意攻击操控某一智能体)等风险。谷歌A2A协议虽迈出了安全标准的第一步,但仍需行业共同制定伦理框架,明确智能体的行为边界、责任归属与风险防控机制。

不可否认,AI Agents与Agentic AI已开启下一代AI的新篇章。当AutoGPT能自主完成市场分析,当CrewAI能协同撰写科研论文,当果园中的多智能体机器人实现高效采摘,我们看到的不仅是技术的进步,更是人类与AI协作模式的重构——人类从“执行者”转变为“决策者”,将重复劳动交给AI,专注于创意、战略等更高价值的工作。

正如文章结尾所言,这份研究不仅是对当前技术的梳理,更是为未来智能体系统绘制的“路线图”。无论是AI Agents的工具集成优化,还是Agentic AI的多智能体协同创新,最终都将指向一个更高效、更安全、更具人文关怀的AI时代。而谷歌A2A协议的提出、AZR框架的探索,也让我们有理由相信,在科研与产业界的共同推动下,“AI智能体成为人类协同伙伴”的目标,将从理论走向现实。

参考

  • 论文标题:AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges
  • 论文链接:https://arxiv.org/pdf/2505.10468

..

#AI 硬件,将带来下一个「苹果」还是昙花一现?

引言:苹果再次发布新款 iPhone,此次升级性能更快、功能更强,但有不少人士认为不断堆叠的升级让人感到乏味,智能手机似乎已走到「卷无可卷」的尽头。而在此背景下,各大科技巨头开始押注 AI 硬件,从 AI 眼镜到其它可穿戴设备,市场试图开辟全新的交互方式。

目录

01.智能手机之后,AI 硬件的「iPhone 时刻」何时到来?

Meta、OpenAI、苹果和谷歌在 AI 硬件上的布局中,谁的策略最可能形成生态优势?无屏幕、靠摄像头和麦克风的便携 AI 设备,会成为人们随身必备的新入口吗?...

02. 眼镜会说话,戒指能监测,项链还会陪伴,AI 硬件新物种来了吗?

AI 硬件还能玩出哪些「奇形怪状」?这些新奇形态是否可以真正走进我们的生活?...

02. 外挂注定失败,AI 硬件唯有「无感」才有未来?

 AI 是「外挂」,还是会成为每台设备的「隐形能力」?用户真的能感受到差别吗?无感交互真的能让我们「忘记手机」,还是只是技术噱头?...

01  智能手机之后,AI 硬件的「iPhone 时刻」何时到来?

1、随着智能手机进入「卷无可卷」的时期后,业界对「下一代硬件设备」有了更深入的思考和商业尝试。

2、a16z 联合创始人 Marc Andreessen 认为,消费科技领域的下一个重大飞跃将来自一款极具变革性的设备,它将使如今的智能手机显得「老旧而原始」。发明这种产品的公司可能成为「下一个苹果」。[2-1]

① Andreessen 补充道,取代智能手机所需的创新可能需要「三年甚至二十年」,他没有提到任何具体的技术,但他暗示涉及基于眼睛的界面、语音操作系统或环境计算的技术可能成为下一个大热门。

3、各大科技巨头也已开始提前布局「下一个苹果」赛道。Meta 首席执行官扎克伯格在 2025 年第二季度财报会议上直言,「未来如果你没有佩戴带 AI 功能的眼镜,你就可能处于相当大的认知劣势」。[2-2]

① Meta CTO Andy Bosworth 也指出,未来 5 年内会出现多档次的 AI 眼镜,既有高端的超清体验,也有低分辨率的随时可用设备,它们不会完全替代智能手机,但能让更多人在新场景下获取信息。[2-3]

4、OpenAI CEO 奥特曼与前苹果设计师 Jony Ive 合作,计划于 2026 年推出一款「新一代 AI 计算机」级别的便携设备。这款设备无需屏幕,仅凭摄像头和麦克风实时感知环境,通过与智能手机和其他设备联动来提升 AI 交互效率。[2-4]

① OpenAI 计划尽快将这些设备推向市场,内部目标是迅速出货上亿台。

5、苹果将智能眼镜列为重点项目,计划在 2026 年推出带有摄像头、麦克风和 Siri 语音分析功能的 AR/AI 眼镜。[2-5]

6、而谷歌则宣布推出新一代智能助手 Gemini for Home,通过 Gemini Live 提供实时推理、更丰富的语言理解和专家建议,该设备将逐步取代 Nest 音箱和智能显示器上的 Google Assistant。[2-6]

① 谷歌也宣布了正在开发新的 Android XR 眼镜,可用于向好友发送消息、提供逐向导航以及实时对话字幕。

7、这些业务布局说明各大巨头都将 AI 能力作为底层基础设施,融合在生态系统之中,力图引领下一代「个人计算平台」的演进。

02 眼镜会说话,戒指能监测,项链还会陪伴,AI 硬件新物种来了吗?

1、近年来 AI 硬件赛道的「盘子」在持续扩增,2023 年全球可穿戴技术市场规模约为 1200 亿美元,有机构预计几年后将达到约 1580 亿美元。[2-7]

表:国外 AI 硬件主要交互形态产品以及特点[2-7]-[2-35]

图片

2、而在 AI 硬件的众多形态下,AI 眼镜的关注度显然极高,其商业化也在逐步实现中。IDC 数据显示,预计到 2025 年,全球智能眼镜市场出货量将达到 1205 万台。[2-8]

① Rokid 创始人兼 CEO 祝铭明认为,未来 10 年可穿戴眼镜的核心突破点一定是 AI,穿戴眼镜要做到「四好」——好眼镜、好耳机、好相机、好 AI。[2-9]

② 他指出,AI+AR 眼镜行业最终将走向类似手机行业的寡头格局,同时由于其个性化需求,最终市场上可能会有 10-20 家主流厂商存在。[2-9]...

...

#SQAP-VLA

让机器人“大脑”更轻更快:SQAP-VLA首次实现VLA模型量化与剪枝协同加速

视觉-语言-动作(Vision-Language-Action, VLA)大模型被誉为xx智能的“大脑”,它让机器人能够理解人类指令并与物理世界交互,展现了惊人的潜力。然而,这些模型巨大的计算和内存开销,使其难以部署在资源有限的机器人上,极大地阻碍了技术的落地应用。如何为这些“大脑袋”瘦身提速,是当前机器人领域的核心挑战之一。

来自南京大学和亚利桑那大学的研究者们带来了一项开创性工作 SQAP-VLA,首次成功地将模型量化(Quantization)和令牌剪枝(Token Pruning)这两种主流压缩技术协同地应用于VLA模型,解决了两者长期存在的“不兼容”难题。

该研究提出了一个 无需训练 的推理加速框架,通过对量化和剪枝流程进行协同设计,不仅实现了高达 ×1.93 的推理加速,还将GPU内存占用降低了约一半。更令人惊喜的是,在大幅提升效率的同时,模型的平均任务成功率甚至还提升了高达 4.5%,实现了“又快又好”的罕见效果。

  • 论文标题:SQAP-VLA: A Synergistic Quantization-Aware Pruning Framework for High-Performance Vision-Language-Action Models
  • 作者:Hengyu Fang, Yijiang Liu, Yuan Du, Li Du, Huanrui Yang
  • 机构:南京大学,亚利桑那大学
  • 论文地址:https://arxiv.org/abs/2509.09090

研究背景:VLA模型部署之痛

VLA模型(如RT-2)的出现,标志着xx智能领域的一次飞跃。它们能够将视觉感知、语言理解和动作执行统一在一个庞大的模型中,使得机器人可以完成“把桌上的红苹果递给我”这类复杂的指令。但这种强大能力的背后,是巨大的模型参数量和计算量,这对于追求低延迟、低功耗的移动机器人平台而言,几乎是不可逾越的鸿沟。

模型压缩是解决这一问题的关键技术,其中最主流的两种方法是:

  1. 量化(Quantization):将模型中常用的32位浮点数(FP32)用更低位的整数(如4位INT4)来表示,从而大幅减少模型大小和内存占用,并利用硬件特性加速计算。
  2. 令牌剪枝(Token Pruning):对于Transformer模型,输入的图像和文本会被转换成一系列“令牌”(Token)。令牌剪枝旨在移除那些对最终决策不那么重要的冗余令牌(如图像中的背景区域),从而减少计算量。

然而,研究者们发现了一个棘手的问题:这两种方法 互不兼容。单独使用量化或剪枝都能带来一定的效果,但如果试图将它们简单地叠加——例如,在一个已经量化到低位的模型上进行令牌剪枝——模型性能会急剧下降甚至崩溃。

本文通过实验揭示了其根本原因:量化过程会严重破坏模型的注意力机制。如下图所示,在原始的FP16模型中,注意力热力图(Attention Heatmap)的焦点是清晰、集中的;而经过4-bit量化后,注意力分数变得分散和偏移。由于传统的剪枝方法高度依赖注意力分数来判断令牌的重要性,因此在量化模型上,它们就“失明”了,无法再有效地区分重要和不重要的令牌。

图片

如何解决这一不兼容性,让量化和剪枝能够“强强联合”,是实现VLA模型极致效率的关键。

本文方法:SQAP-VLA协同压缩框架

SQAP-VLA(Synergistic Quantization-Aware Pruning)框架的核心思想是 协同设计(Co-design)。它不再将量化和剪枝视为两个独立的步骤,而是让剪枝过程“感知”到量化的影响,同时优化量化过程使其对剪枝更“友好”。

图片

剪枝友好的量化 (Pruning-Friendly Quantization)

首先,为了让量化后的模型尽可能保持原始的注意力结构,框架采用了一种先进的量化技术。研究发现,模型激活值中普遍存在“离群点”(Outliers),即少数通道的值特别大,这给量化带来了巨大困难。通过引入一个可学习的旋转矩阵,可以将这些离群点的能量均匀地分散到各个通道,从而消除激活值的极端尖峰,使模型更容易被精确量化。

图片

一个更“平滑”的激活值分布,使得量化后的模型能够更好地保留原始模型的特性,为后续的剪枝打下了坚实的基础。

量化感知的令牌剪枝 (Quantization-Aware Pruning)

这是框架的核心创新。既然量化后的注意力分数已经不可靠,那就需要设计全新的、更鲁棒的剪枝准则。SQAP-VLA提出了一个包含三种策略的剪枝“组合拳”:

  1. 不敏感保留 (Insensitive Preservation) :这是一种反向思维的策略。它不再寻找“重要”的令牌,而是保留那些对模型输出影响 最小 的令牌。其背后的逻辑是,这些“不敏感”的令牌受量化噪声的扰动也最小,因此在量化模型中它们反而是更可靠的特征。
  2. 机器人感知投影 (Robot-Aware Projection) :这是一种基于先验知识的策略。对于机器人任务而言,机器人自身的状态(如机械臂的位置、夹爪的开合)是至关重要的。因此,该策略会强制保留与机器人本体相关的令牌,确保核心信息的完整性。
  3. 空间感知采样 (Spatial-Aware Sampling) :为了避免剪枝后丢失对场景的全局理解,该策略会确保被保留的令牌在空间上是均匀分布的,从而维持一个对整体场景的粗粒度感知。

通过这三种策略的结合,SQAP-VLA能够在注意力分数失真的情况下,依然精准地筛选出对任务最有价值的令牌组合。

实验结果

该框架在标准的VLA模型上进行了测试,结果十分亮眼。

性能与速度的双赢

如下表所示,在多个机器人操作任务中,SQAP-VLA(W4A4,即4-bit量化)不仅在任务成功率上全面超越了所有基于FP16的剪枝方法,甚至超越了未作任何压缩的FP16基线模型。这表明,协同的量化与剪枝不仅没有造成性能损失,反而起到了类似正则化的作用,提升了模型的泛化能力

图片

在计算效率方面,如下图所示,SQAP-VLA通过量化和剪枝的结合,实现了高达 ×1.93 的端到端推理加速,同时将GPU峰值内存从超过16GB降低到了约8GB,这对于在真实机器人上部署至关重要。

图片

消融实验的有力证明

详尽的消融实验验证了框架设计的有效性。结果表明,单独进行量化或剪枝都会导致性能下降,而当两者通过SQAP-VLA协同工作时,性能得到了显著提升。同时,三种剪枝策略的逐步引入也证明了每一个策略都对最终的成功率做出了积极贡献。

总结与贡献

本文直面VLA大模型落地应用的核心痛点——计算和存储效率,提出了 首个 能够将量化和令牌剪枝进行有效协同的推理加速框架 SQAP-VLA

其核心贡献在于:

  1. 首次揭示并解决了VLA模型中量化与令牌剪枝的“不兼容”问题,为大模型的高效压缩提供了全新的视角。
  2. 提出了量化感知的剪枝新准则,摆脱了对传统注意力分数的依赖,使得在低位宽模型上进行剪枝成为可能。
  3. 实现了无需额外训练的、即插即用的高效压缩,在大幅提升推理速度、降低资源消耗的同时,甚至还带来了任务成功率的提升。

CV君认为,这项工作为庞大的xx智能模型走向实际应用铺平了道路。它不仅提供了一个可以直接使用的、效果显著的工具,更重要的是,其“协同设计”的思想,以及对量化和剪枝相互作用机理的深刻洞察,对整个大模型压缩领域都具有重要的启发意义。这标志着我们在构建更轻、更快、更强的机器人“大脑”方面迈出了坚实的一步。

#MIDAS

快手可灵团队提出:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入,缺乏真正的交互能力。

为了解决这些问题,快手可灵团队(Kling Team) 提出了一种名为 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通过自回归视频生成结合轻量化扩散去噪头,实现了多模态条件下实时、流畅的数字人视频合成。该系统具备三大核心优势:

64× 高压缩比自编码器,将每帧压缩至最多 60 个 token,大幅降低计算负荷;

低于 500ms 端到端生成延迟,支持实时流式交互;

4 步扩散去噪,在效率与视觉质量间取得最佳平衡。

该项研究已被广泛实验验证,在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色,为数字人实时交互提供了全新解决方案。

  • 论文标题:MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
  • 论文地址:https://arxiv.org/pdf/2508.19320
  • 主页地址:https://chenmingthu.github.io/milm/

核心创新

1. 多模态指令控制机制

MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器,将不同模态编码到共享潜在空间,形成全局指令令牌,构建 frame-by-frame 的 chunk 注入,引导自回归模型生成语义和空间一致的数字人动作与表情。

图片

2. 因果潜在预测 + 扩散渲染

模型可嵌套任意类似大语言模型的自回归架构,逐帧预测潜在表示,再由一个轻量级扩散头进行去噪和高清渲染。这种设计既保证了生成的连贯性,也大幅降低了计算延迟,适合实时流式生成。

3. 高压缩率自编码器(DC-AE)

为实现高效的自回归建模,团队设计了压缩比高达 64 倍的 DC-AE,将每帧图像表示为最多 60 个令牌,支持分辨率最高达 384×640 的图像重建,并引入因果时序卷积与 RoPE 注意力机制保障时序一致性。

图片

4. 大规模多模态对话数据集

为训练模型,研究者构建了一个约 2 万小时的大规模对话数据集,涵盖单人、双人对话场景,涵盖多语言、多风格内容,为模型提供了丰富的语境与交互样本。

方法概要

  • 模型架构:采用 Qwen2.5-3B 作为自回归主干网络,扩散头基于 PixArt-α /mlp 结构。
  • 训练策略:引入可控噪声注入,通过 20 级噪声桶和对应嵌入,缓解自回归模型在推理阶段的曝光偏差问题。
  • 推理机制:支持分块流式生成,每块 6 帧,可实现 480ms 级别的低延迟响应。

图片

效果展示

1. 双人对话生成

系统可实时处理双人对话音频流,生成与语音同步的口型、表情和倾听姿态,支持自然轮流对话:

,时长00:55

双工对话示例

2. 跨语言歌唱合成

在没有显式语言标识的情况下,模型精准实现中文、日文、英文歌曲的唇形同步,生成视频可达 4 分钟无显著漂移: 

,时长03:59

多语言歌唱合成效果

3. 通用交互世界模型

通过在 Minecraft 数据集上训练,MIDAS 可响应方向控制信号,展现出良好的场景一致性与记忆能力,验证了其作为交互式世界模型的潜力: 

,时长00:07

Minecraft 环境下的交互生成示例

总结

MIDAS 在双边对话、多语言生成等任务中,MIDAS 均实现实时生成(<500ms 延迟), 并且扩散头仅需 4 步去噪,在效率与质量间取得最佳平衡,支持长达几分钟的连续生成,且质量衰减显著低于基线方法。

MIDAS 不仅为实时数字人生成提供了端到端的解决方案,更探索了多模态自回归模型在交互式媒体生成中的潜力。其模块化设计允许灵活扩展至更多模态与控制信号,为虚拟人直播、元宇宙交互、多模态 AI 智能体等应用奠定了技术基础。

团队表示,未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力,并推进系统在真实产品环境中的部署。

.

#U-ARM

成本不足60美元!开源:让机器人模仿学习更亲民的通用遥操作界面

在机器人学习领域,通过人类演示来教导机器人(即模仿学习)是最有效的数据收集方式之一。而“主从遥操作”(leader-follower teleoperation)系统,即操作员通过一个主端控制器(leader arm)来直接控制一个从端机器人(follower robot),是实现直观、高质量示教的关键。然而,现有遥操作设备面临一个巨大的挑战:要么像ALOHA系统一样,性能强大但成本高达数万美元,要么像VR手柄一样,成本低廉但控制精度和通用性不足,这极大地阻碍了机器人模仿学习研究的普及和发展。

为了打破这一僵局,来自上海交通大学等机构的研究者们提出了 U-ARM,一个 成本不到60美元 的、开源的、通用的主从遥操作界面。U-ARM旨在通过极低的成本和高度的适应性,为广大研究者提供一个能够快速搭建机器人数据收集流程的工具,从而“民主化”机器人操作和模仿学习的研究。

  • 论文标题:U-ARM : Ultra low-cost general teleoperation interface for robot manipulation
  • 论文机构:上海交通大学,EvoMind Tech,IAAR-Shanghai
  • 论文作者:Yanwen Zou, Zhaoye Zhou, Chenyang Shi, Zewei Ye, Junda Huang, Yan Ding, Bo Zhao
  • 论文地址:https://arxiv.org/pdf/2509.02437v1
  • 项目地址:https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm

U-ARM 系统设计

U-ARM的核心设计理念是“超低成本”与“广泛通用性”的结合。它由一个3D打印的主控制器、一个计算单元和目标机器人组成,通过ROS 2进行通信。

图片

硬件设计:极致的成本控制与通用性

U-ARM的硬件设计是其最大的亮点。

  • 超低成本:整个系统的物料清单(BOM)成本被严格控制在 50-60美元 之间。这得益于其完全采用廉价的、市面上容易采购的组件,如3D打印结构件、步进电机(仅用作编码器)和Arduino控制板。相比之下,同类功能的开源项目GELLO成本约270美元,而商业系统ALOHA则高达24000美元。

图片

  • 模块化与通用性:U-ARM并非单一设计,而是提供了 三种不同的机械配置(两种6自由度,一种7自由度)。这三种配置分别模仿了市面上绝大多数商业机械臂的关节排列方式(如下图所示),从而使其能够“通用”地适配包括xArm, UR, Franka, Dobot在内的多种主流机械臂。用户只需根据自己的机器人型号,选择并3D打印对应的U-ARM配置即可。

图片

图片

下表列出了不同U-ARM配置所兼容的部分商业机械臂型号。

图片

  • 电机改造与阻尼控制:为了降低成本,U-ARM没有使用昂贵的力控电机,而是将廉价的步进电机拆除其内部齿轮箱,仅保留编码器用于测量关节角度。同时,通过巧妙地调整关节连接处的螺丝松紧度,实现了可调节的物理阻尼,这既防止了机械臂在重力作用下自由晃动,又保证了操作的顺滑手感。

图片

算法设计

U-ARM的软件同样简洁高效。系统启动时,操作员只需将U-ARM主控制器移动到与从端机器人初始姿态相近的位置,系统便会自动完成校准。在操作过程中,通过简单的关节角度映射、滤波和插值,即可实现对从端机器人的流畅控制。

实验评估

为了验证U-ARM的有效性和通用性,研究者们在仿真和真实世界中都进行了一系列实验。

仿真测试

在SAPIEN仿真环境中,U-ARM成功地被用于控制三种结构完全不同的虚拟机械臂(ARX-X5, Xarm, Panda)完成相同的桌面操作任务,直观地证明了其设计的通用性。

图片

真实世界任务对比

在真实世界中,研究者们使用U-ARM和另一个低成本方案——任天堂Joy-Con手柄,对同一台Xarm6机械臂进行遥操作,完成了五个不同的桌面抓取和放置任务。

图片

结果令人振奋:

图片

如上表所示,在所有任务中,U-ARM的 平均任务完成时间比Joy-Con快了39%,同时任务成功率与之相当。这表明,U-ARM的“主从跟动”设计在执行大范围、流畅的机械臂运动时,比控制末端执行器的Joy-Con更加直观和高效。尽管在需要极高精度的任务(如易拉罐堆叠)上成功率略低,但考虑到其巨大的效率提升,这是一个完全可以接受的权衡。

总结与贡献

U-ARM项目为机器人社区带来了巨大的价值。其核心贡献在于:

  1. 开源了一个超低成本的遥操作硬件方案:将搭建一套功能强大的主从遥操作系统的成本从数千甚至数万美元降低到了50美元级别。
  2. 实现了设计的通用性:通过三种可配置的模块化设计,使其能够适配市面上绝大多数主流机械臂,解决了现有设备“一臂一机”的局限性。
  3. 验证了卓越的性能:实验证明,U-ARM在数据收集效率上远超其他低成本方案,同时能达到与昂贵商业系统相当的任务成功率。

最重要的是,作者 完全开源了所有的CAD模型、软件代码和数据集,为全球的研究者、学生和爱好者提供了一个前所未有的低门槛平台,让他们能够轻松地进入机器人操作和模仿学习的研究领域,极大地推动了整个社区的创新和发展。

..

#MobileLLM-R1

Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

与其他全开源模型相比,性能提升2-5倍。

小参数模型也进入了 R1 时代,这次开源出新技术的是 Meta。

本周五,Meta AI 团队正式发布了 MobileLLM-R1。

图片

HuggingFace 链接:https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e

试用链接:https://huggingface.co/spaces/akhaliq/MobileLLM-R1-950M

这是 MobileLLM 的全新高效推理模型系列,包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

它们不是通用的聊天模型,而是监督微调 (SFT) 模型,专门针对数学、编程(Python、C++)和科学问题进行训练。

除了模型本身之外,Meta 还发布了完整的训练方案和数据源,以确保可重复性并支持进一步的研究。

值得注意的是,该系列参数最大的 MobileLLM-R1 950M 模型仅使用约 2T 高质量 token 进行预训练,总训练 token 量少于 5T,但在 MATH、GSM8K、MMLU 和 LiveCodeBench 基准测试中,其性能与使用 36T token 进行训练的 Qwen3 0.6B 相当或更佳。

图片

与现有的完全开源模型相比,尽管参数规模明显更小,MobileLLM-R1 950M 模型在 MATH 基准上的准确率也比 Olmo 1.24B 模型高出约五倍,比 SmolLM2 1.7B 模型高出约两倍。此外,MobileLLM-R1 950M 在编码基准测试中的表现远超 Olmo 1.24B 和 SmolLM2 1.7B ,在完全开源模型中创下了新的最高水平。

Token 效率的比较如下:

图片

后训练比较:

图片

模型架构:

图片

图片

MobileLLM-R1 的发布引起了机器学习社区的讨论。人们欢迎通义、Meta 等顶尖大模型团队基于小体量模型的探索。这一方向的训练成本较为低廉,可以更加方便尝试各类最新论文提出的技术,更重要的是,模型体量的下降也意味着它可以覆盖更多端侧设备,实现更大面积的落地。

随着训练成本普遍下降,我们将会得到更好的模型。

背后三位华人作者

在 MobileLLM-R1 系列发布的同时,背后的作者们也正式亮相,他们表示,该工作的研发时间有一年之久。该项目由华人领衔。

Zechun Liu

Zechun Liu 是 Meta AI 的研究科学家,专注于大模型和基础模型的高效部署与优化。

她的研究涉及大语言模型的预训练与后训练,神经网络架构设计与搜索,量化、剪枝与稀疏性,知识蒸馏以及高效的视觉 - 语言模型等,目标是在计算资源有限的环境中实现高性能模型的推理和部署。

2016 年,她在复旦大学获得本科学位,2019 年至 2021 年在卡内基梅隆大学担任访问学者,导师为 Marios Savvides 教授和 Eric Xing(邢波)教授。2021 年 6 月获得香港科技大学的博士学位,师从 Kwang-Ting Tim CHENG 教授。

Zechun Liu 在顶级会议和期刊上发表了 20 多篇论文,其论文引用量达到了数千次。

Ernie Chang

Ernie Chang 是 Meta AI 的研究科学家,专注于自然语言处理、多模态学习和高效模型部署等领域。

图片

他于 2023 年 2 月加入 Meta,参与了多个前沿项目的研究和开发。

在他的研究中,Ernie Chang 参与了多个重要的项目和论文。例如,他是《Agent-as-a-Judge: Evaluate Agents with Agents》一文的共同作者,该论文提出了一种新的评估方法,通过代理模型对其他代理模型进行评估,从而提高评估效率和准确性。

此外,他还参与了《MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》的研究,该研究致力于优化小语言模型,以适应移动设备上的应用需求。

Ernie Chang 的研究兴趣包括多语言处理、多模态系统等。

Changsheng Zhao(赵常盛)

Changsheng Zhao 是 Meta AI 的研究科学家,专注于自然语言处理、深度学习和大语言模型的高效部署与优化。

他本科毕业于北京大学,后在哥伦比亚大学攻读硕士学位,毕业后去了三星美国研究员担任研究员,2021 年加入 Meta。

图片

在 Meta,Changsheng Zhao 参与了多个前沿研究项目,主要集中在模型量化、神经网络架构和多模态系统等领域。 部分代表性工作包括:

  • ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization:探讨极低比特量化在大语言模型中的缩放定律,帮助平衡模型大小与准确率。
  • Llama Guard 3-1B-INT4:参与开发 Meta 的开源 Llama Guard 模型变体,这是一个紧凑高效的 1B 参数 INT4 量化版本,于 2024 年 Meta Connect 活动中开源,用于 AI 安全和内容过滤。

..

#A Survey of Reinforcement Learning for Large Reasoning Models

清华、上海AI Lab等顶级团队发布推理模型RL超全综述,探索通往超级智能之路

超高规格团队,重新审视RL推理领域发展策略。

在人工智能的发展中,强化学习 (RL) 一直是一种非常重要的方法。

自 1998 年 Sutton 提出强化学习概念以来,就明确了只要给出明确的奖励信号,智能体就能学会在复杂环境中超越人类。

在 2013 年,DeepMind 就展示过一个小实验:用 RL 训练的智能体,只凭屏幕上的像素和得分反馈,就能学会玩上世纪的街机游戏《打砖块》。几年后,AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号,超越了世界顶尖棋手,在围棋、国际象棋和将棋上达到「人类难以企及」的水平。

进入大模型时代后,RL 又找到了新的舞台。它最初被用于让模型更符合人类偏好,比如通过人类反馈强化学习(RLHF),让模型的回答更有用、更诚实、更安全。

最近几年,一个新的趋势正在出现:研究者们希望通过 RL 不仅让模型「更听话」,还真正学会「推理」。

这类被称为大推理模型(LRM)的系统,会通过可验证的奖励来提升推理能力,例如数学题答对率或者代码能否通过测试。像 OpenAI 的 o1 和 DeepSeek-R1 就展示了这种方法的潜力:模型在经过 RL 训练后,能够更好地规划、反思,甚至在出错时自我纠正。这意味着,推理能力也许和参数规模、训练数据一样,可以通过「扩展」不断增强。

然而,要让 RL 在大推理模型中真正实现大规模应用,还存在许多挑战:奖励设计是否合理,算法是否高效,数据和算力能否支撑等等。

过去两个月里,来自清华大学和上海人工智能实验室等的研究者们组织并总结了推理模型的最新 RL 研究,形成了一份非常全面的调查综述,回顾最新进展,讨论面临的问题,并展望未来的发展方向。

  • 论文标题:A Survey of Reinforcement Learning for Large Reasoning Models
  • 论文链接:https://arxiv.org/abs/2509.08827

本文综述了近年来强化学习在大语言模型推理能力方面的最新进展。

RL 在推动 LLM 能力边界上取得了显著成果,尤其在数学、编程等复杂逻辑任务中表现突出。因此,RL 已逐渐成为将 LLM 演化为具备更强推理能力的大推理模型(LRM)的核心方法。

随着该领域的快速发展,如何进一步扩展 RL 在 LRM 上的应用,已面临基础性挑战 —— 不仅涉及算力资源,也包括算法设计、训练数据与基础设施建设。为此,研究者们认为此时有必要回顾这一领域的发展历程,重新审视其未来方向,并探索提升 RL 可扩展性以迈向通用人工超级智能(Artificial SuperIntelligence, ASI)的策略。

本文重点梳理了自 DeepSeek-R1 发布以来,RL 在 LLM 与 LRM 推理能力上的应用研究,涵盖其基础组件、核心问题、训练资源及下游应用,以此识别未来的研究机遇与发展路径。本文综述或许能够推动 RL 在更广泛推理模型中的研究与应用。

综述概览

本文介绍了面向大推理模型的强化学习的基础组件,以及尚待解决的问题、训练资源和应用场景。本综述的核心重点在于:聚焦语言智能体(language agents)与环境之间的大规模交互,以及这一过程在长期演化中的关键作用。

图片

大模型发展时间线。展示了采用强化学习训练的具有代表性的推理模型的发展历程,其中包括开源和闭源的语言模型、多模态模型以及智能体模型。

推理模型的两个重要里程碑(OpenAI o1 和 DeepSeek-R1 )表明,通过带有可验证奖励(RLVR)的训练,例如数学题答案正确率或代码单元测试通过率,可以让模型掌握长链推理能力,包括规划、反思和自我纠错。

OpenAI 报告指出,o1 的性能会随着额外的 RL 训练(训练时算力增加)以及推理阶段投入更多 “思考时间”(推理时算力增加)而持续提升 ,揭示了除了预训练之外的一条全新扩展路径。DeepSeek-R1 则在数学任务中采用基于规则的显式准确率奖励,在编程任务中采用编译器 / 测试驱动的奖励,展示了大规模 RL(尤其是 Group Relative Policy Optimization, GRPO)在基础模型上即可引导复杂推理能力的可能性。

图片

语言模型中 RL 方法的演变,展示了从 RLHF (2022) 到 DPO (2023) 再到 RLVR (2025) 以及未来开放式 RL 系统的进展。每个阶段都展示了任务解决能力和能力提升的增加。

这种转变将推理重新定位为一种可以显式训练和扩展的能力。LRMs 在推理过程中会分配大量计算资源去生成、评估和修正中间推理链 ,且其性能随着计算预算增加而提升。这种动态机制提供了一条与预训练时的数据规模和参数规模扩展互补的能力增长路径,同时利用奖励最大化目标,在存在可靠验证器的领域中实现自动可检验奖励。此外,RL 还能通过生成自监督训练数据来克服数据限制。因此,RL 越来越被视为在更广泛任务上实现通用人工超级智能(ASI)的潜在技术路径。

然而,面向 LRMs 的 RL 扩展也带来了新的挑战,不仅限于计算资源,还涉及算法设计、训练数据和基础设施。如何以及在哪些方面扩展 RL 才能实现更高水平的智能并产生现实价值,仍是悬而未决的问题。因此,研究者们认为,现在正是重新审视这一领域发展、探索增强 RL 可扩展性策略的关键时机。

本文的综述工作如下:

  • 在 LRM 语境下引入 RL 建模的基本定义,并梳理自 OpenAI o1 发布以来的前沿推理模型发展。
  • 回顾 RL for LRM 的核心组成部分,包括奖励设计、策略优化和采样策略,并对不同研究方向和技术方案进行比较。
  • 讨论 LRM 强化学习中的基础性与争议性问题,例如 RL 的角色、RL vs. SFT、模型先验、训练方法以及奖励定义,并指出这些问题需要深入探索以推动 RL 的持续扩展。
  • 总结 RL 的训练资源,包括静态语料库、动态环境和训练基础设施,并指出这些资源尽管可复用,但仍需进一步标准化和发展。
  • 综述 RL 在广泛任务中的应用,涵盖编程任务、智能体任务、多模态任务、多智能体系统、机器人任务以及医学应用。
  • 最后,探讨未来 RL for LLM 的研究方向,包括新算法、新机制、新功能以及其他潜在研究路径。

图片

图片

综述目录

强化学习在大推理模型上的应用,标志着人工智能发展的一次重要转折。它不仅仅是让语言模型「对齐」人类的偏好,更是在推动它们真正掌握推理和逻辑思考的能力。通过可验证的奖励机制、先进的优化算法以及大规模的训练基础设施,研究者们正在打造能够进行多步推理、跨领域解决问题的智能系统。

当然,这一方向仍面临不少挑战:如何设计合适的奖励信号、如何在庞大的算力和数据需求下实现高效扩展、以及如何确保这些模型在实际应用中可靠。尽管如此,近年的快速进展已经证明了这一方法的潜力。可以预见,未来基于 强化学习的推理能力还将持续提升,并有望孕育出能够真正理解和解决复杂问题的智能系统,从而在科学研究、工程应用乃至日常生活的方方面面,带来深远的影响。

更多详细信息请参阅原论文。

..

#AdsQA

不止看懂,更能看透!清华、北大等提出首个广告视频理解基准

大型语言模型(LLM)在通用人工智能(AGI)的道路上高歌猛进,但要实现真正的智能,就必须从理解客观物理世界,走向理解复杂的人类社会意图。当前的视频理解模型或许能准确识别“一个人在喝可乐”,但能否看懂这则可乐广告背后的营销逻辑、说服策略和情感共鸣?

为了探索并推动大模型在这一深层认知能力上的边界,来自清华大学、北京大学、中科院、上海人工智能实验室等顶尖机构的研究者们,创造性地将目光投向了信息密度极高、充满巧思的“广告视频”领域。他们推出了 全球首个广告视频问答基准——AdsQA,并配套提出了一个基于强化学习的“反思”模型 ReAd-R。这项发表于ICCV 2025的工作,旨在检验并提升大模型超越表面物理内容、感知营销逻辑、说服策略和用户参与等高阶信息的能力。在与包括GPT-4o在内的14个顶级模型的同台竞技中,ReAd-R取得了SOTA性能。

  • 标题:AdsQA: Towards Advertisement Video Understanding
  • 作者:Xinwei Long, Kai Tian, Peng Xu, Guoli Jia, Jingxuan Li, 等
  • 机构:清华大学、北京大学、中国科学院、哈佛大学、上海人工智能实验室
  • 论文地址:https://arxiv.org/abs/2509.08621
  • 项目地址:​​ https://github.com/TsinghuaC3I/AdsQA​​
  • 会议:ICCV 2025

研究背景:让大模型从“看热闹”到“看门道”

目前,大模型在数学、编程等领域专用知识的学习上已取得显著进展。然而,如何让模型理解视频中超越物理表象的抽象内容,如创意、策略和情感,仍然是一个巨大的挑战。广告视频,作为人类商业智慧和艺术创意的结晶,无疑是检验这一能力的绝佳“试金石”。

一则好的广告,不仅展示产品,更是在讲述故事、传递价值观、运用心理学策略来吸引和说服观众。因此,理解广告视频,要求模型具备从视觉、听觉信息中提炼营销逻辑、分析说服技巧、洞察目标受众等多层次、跨模态的推理能力。这项工作正是要推动AI从“看懂画面”的感知智能,迈向“看透意图”的认知智能。

核心贡献:AdsQA基准与ReAd-R模型

本文的贡献主要分为两部分:一个精心构建的全新基准数据集,以及一个为此任务量身打造的先进模型。

贡献一:AdsQA,首个广告视频问答基准

研究者们构建了名为AdsQA(Advertisement Video Question Answering)的大规模、高质量基准。它具备以下特点:

  • 规模庞大:包含 1,544个广告视频,从中截取了10,962个剪辑,总时长达22.7小时
  • 任务富有挑战性:围绕广告理解的核心,设计了5个层层递进的挑战性任务,分别是:
  1. 广告主题 (Ad Topic) :广告的核心内容是什么?
  2. 营销目标 (Marketing Target) :广告的目标受众是谁?
  3. 营销策略 (Marketing Tactic) :广告运用了何种说服技巧?(如明星代言、情感共鸣、幽默等)
  4. 关键信息 (Key Information) :广告传递的最核心信息是什么?
  5. 创意点 (Creative Point) :这则广告的创意亮点在哪里?

图片

  • 数据多样:涵盖了食品、科技、美妆、汽车等9大领域、33个子领域的广告,确保了基准的广泛性和多样性。

图片

图片

贡献二:ReAd-R,基于强化学习的“反思”模型

为了攻克AdsQA提出的挑战,研究者们提出了一个名为ReAd-R(Reflect on Advertisement videos via Reward)的强化学习模型。其设计灵感来源于Deepseek-R1,核心在于一个“生成-评估-优化”的闭环。

图片

如上图所示,ReAd-R的工作流程如下:

  1. 生成 (Generate) :给定一个问题和视频,策略模型(Policy Model)会首先对问题进行“反思”(Reflect),然后生成多个不同的候选答案。
  2. 评估 (Evaluate) :一个独立的、经过训练的奖励模型(Reward Model)会对这些候选答案进行打分,评估其质量优劣。
  3. 优化 (Optimize) :最后,利用策略梯度(Policy Gradient)等强化学习算法,根据奖励模型给出的分数来更新策略模型。这个过程会激励策略模型未来生成更高质量、更能获得高奖励的答案。

通过这种奖励驱动的优化,ReAd-R学会了如何生成更深刻、更贴合广告内在逻辑的答案,而不仅仅是描述表面现象。

实验与结果分析基准评测

研究者在AdsQA基准上对 14个业界顶尖的大模型 进行了全面的评测,其中包括GPT-4o、Gemini-1.5-pro、Claude-3-Opus等强大的闭源模型,以及Qwen2、LLaMA3等领先的开源模型。

图片

实验结果如上表所示,本文提出的 ReAd-R模型在所有五个任务上均取得了最佳性能,以显著优势超越了所有竞争对手,达到了新的SOTA水平。这证明了其“反思+奖励驱动优化”框架的有效性。

消融研究

消融实验进一步验证了ReAd-R模型中关键组件的贡献。结果表明,移除奖励模型或反思过程都会导致性能下降,证明了每个部分都是模型取得成功的关键。

图片

案例分析

下图的案例生动地展示了ReAd-R的强大能力。对于“广告的创意点是什么”这类开放性问题,ReAd-R能够给出深刻且结构化的分析,准确捕捉到广告通过对比手法突出产品优势的核心创意,而其他模型可能只能给出表面的、泛泛的回答。

图片

总结与贡献

这项工作为多模态大模型的研究开辟了一个全新的、富有挑战性的方向。其核心贡献在于:

  1. 开创性地将广告视频作为评估LLM深度理解能力的测试平台,推动AI从感知物理世界向理解商业、社会意图迈进。
  2. 贡献了首个广告视频理解基准AdsQA,包含海量数据和精心设计的5个挑战性任务,为社区提供了一个宝贵的资源。
  3. 提出了先进的ReAd-R模型,其基于强化学习的“反思-生成-优化”框架被证明在深度视频理解任务上极为有效,并取得了SOTA性能。

CV君认为,AdsQA不仅是一个基准,更是一个风向标。它引导着AI研究从简单的“看图说话”,走向更深层次的“洞察人心”。这项工作对于营销分析、媒体内容审核、创意生成等下游应用具有巨大的潜在价值,也为通往更通用人工智能的道路铺设了坚实的一步。

..

#UQ: Assessing Language Models on Unsolved Questions

大模型碰到真难题了,测了500道,o3 Pro仅通过15%

基准测试是检验大模型能力的一种方式,一般而言,一个有用的基准既要足够难,又要贴近现实:问题既能挑战前沿模型,又要反映真实世界的使用场景。

然而,现有测试面临着「难度–真实性」的矛盾:侧重于考试的基准往往被人为设置得很难,但实际价值有限;而基于真实用户交互的基准又往往偏向于简单的高频问题。

在此背景下,来自斯坦福大学、华盛顿大学等机构的研究者探索了一种截然不同的方式:在未解决的问题上评估模型的能力。

与一次性打分的静态基准不同,该研究不断收集未解决的问题,然后通过验证器辅助筛选与社区验证机制,实现对模型的持续异步评估。

具体而言,本文提出了 UQ(Unsolved Questions),这是一个由 500 道题组成的测试集,涵盖计算机理论、数学、科幻、历史等主题,用于考察模型在推理、事实准确性以及浏览等方面的能力。UQ 在设计上兼具难度大与贴近真实两大特点:这些问题大多是人类遇到但尚未解决的难题,因此攻克它们可直接产生现实价值。

  • 论文标题:UQ: Assessing Language Models on Unsolved Questions
  • 论文地址:https://arxiv.org/pdf/2508.17580v1
  • 项目地址:https://uq.stanford.edu/

总结而言,本文贡献如下:

  • 提出了 UQ 数据集及其收集流程:结合规则过滤器、大语言模型评审以及人工审核,以确保最终问题的质量;
  • UQ-Validators:复合验证策略,利用生成器–验证器之间的能力差距来构建无真值验证系统(一般而言模型验证能力优于生成能力),并对候选答案进行预筛选,以便后续人工审核;
  • UQ-Platform:一个开放平台,让专家能够共同验证问题与答案,从而实现持续的、异步的、社区驱动的评估。

实验中,表现最好的模型仅在 15% 的问题上通过了 UQ 验证,而初步人工核查已经在这些通过验证的答案中识别出一些正确解答。

图片

数据集介绍

UQ 数据集由 500 道具有挑战性的未解决问题组成,问题来源问答社区 Stack Exchange,并且是经过三轮筛选得到的。

图片

在筛选流程上,本文首先人工选择了 80 个 Stack Exchange 社区(例如 Math Overflow、Physics),并抓取其中未解答的问题,得到大约 300 万个原始候选问题。

随后,进入多阶段筛选流程。筛选的每一阶段都会逐步缩小问题池:基于规则的筛选将问题缩减至 33,916 个(占原始问题池的 1.13%);基于大语言模型的筛选进一步缩减至 7,685 个(占原始的 0.26%);最终通过人工审核(如剔除残留的重复、过于简单、偏题或违反规则的问题),得到一个精心整理的 500 道题集(占原始的 0.02%)。

随着问题在筛选流程中逐步推进,它们的难度和质量也在逐渐提升。尤其是基于大语言模型的筛选,显著提高了问题的难度。

图片

数据集组成如下所示,主要包含科学类问题,其次是技术类与生活艺术类。本文还发现不同领域的问题能探测模型的不同能力:例如数学问题通常需要开放式证明,而科幻奇幻类问题则偏重浏览检索能力(如根据片段情节识别书籍名称)。

一旦某个问题被判定为已解决,研究者就会在后续版本中将该问题移除,并用新的未解决问题替换。

图片

UQ 验证器

虽然 UQ 数据集非常具有价值,但要将其用作模型性能的基准,仍需配套的评分指标。然而,由于缺乏标准答案,无法像考试基准那样进行自动验证。

因此,本文转向无监督验证器,即无需标准答案。由于未解问题往往极具挑战性,这些验证器的主要目标并非证明某个候选答案正确,而是排除错误的候选答案;因此,本文刻意使用 validator(验证器)一词,而非 judge 或 verifier。

需要特别指出的是,由于缺少标准答案,这类验证器本身可能经常出错,但它们仍能在后续人工审核中发挥辅助作用。

据了解,本文之所以开发无需标准答案的验证器,核心动机在于这样一个假设:对难题候选答案进行验证可能比生成这些答案更容易。实验中采用了这样的流程,让一系列能力递增的模型(例如 o3-mini → o4-mini → o3)回答这 500 道题,记录它们的答题准确率;接着,让每个模型在不接触标准答案的情况下,验证其他所有模型给出的答案;最后,用真实答案对这些验证结论进行打分,计算验证准确率。

图 5 左显示:随着模型能力的提升,它们在验证准确率上的进步速度明显快于答题准确率。

图片

实验中使用的验证器 pipeline:

图片

实验及结果

实验评估了 5 个模型,包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

表 1 结果显示,与原始基线相比,验证策略能够实质性地提高验证的准确率和精度。例如,对 Claude 3.7 Sonnet 而言,准确率从 21.6% 提升到 73.2%,精度从 13.26% 提升到 20%,但往往是以召回率下降为代价。

图片

为了确认最终得到的最佳 UQ 验证器对人类评审者有帮助,该研究邀请若干评审员对 25 个验证问题进行评分,判断其给出的判断理由链是否在逻辑上成立。表 2 显示,人类评审与验证器的一致率及理由链的准确性都很高,表明该验证器能为人类评审者提供有效支持。

图片

将大语言模型用于答案验证时,另一个挑战是它们常常表现出明显的评估偏见。当研究者把前沿模型直接应用于本场景时,发现所有模型在评估自身或同系模型(即同一开发者的模型)时,都出现了过度乐观现象:预测出的模型性能远高于实际性能,如图 7 所示。

  • Gemini 明显偏向自身,相对于其他模型给出显著更高的评分;
  • Claude 对所有答案模型(不仅仅是自身)都表现出过度乐观;
  • OpenAI 的 o 系列模型则对其他 o 系列同门模型给出过高评价。

随着模型能力递增(o3-mini → o3),这种偏见虽有所降低,但并未彻底消除。

本文进一步发现,采用复合验证器能够显著削弱答案验证中的自我偏见与过度乐观。

图片

最后,本文还发现,一个更强的答案生成模型并不一定就是更强的答案验证模型。

本文通过基线提示法和 3 轮迭代验证流程绘制了模型在 500 个 HLE 问题上的验证准确率与答案准确率关系图。虽然更好的答案性能通常预示着更好的验证性能(整体呈上升趋势),但并非绝对。

例如:在没有流程验证时,o3 作为答案模型弱于 Gemini 2.5 Pro,但作为验证模型却更强;采用流程验证后,o3-mini 与 Claude 3.7 Sonnet 之间观察到同样的逆转趋势。此外,尽管 Claude 3.7 Sonnet 在答案准确率上显著落后于 Gemini 2.5 Pro,但其基于流程验证的表现却超越了 Gemini 2.5 Pro 的基线验证性能。

图片

了解更多内容,请参考原论文。

#AI Agent

抢先实测美团首个AI Agent,让我体验一把「懒人点餐」的快乐

AI点餐时代来了?

这一年,AI Agent 的热度一路走高。

从大洋彼岸的 OpenAI、谷歌等 AI 巨头,到国内的各类创业公司,大家都在摸索如何让 AI 真正帮人干活。相比需要学习复杂操作的传统应用,Agent 的最大魅力就在于无界面交互,只需一句自然语言指令,就能触发一整套自动化行动。

在这股浪潮中,美团也交出了自己的答卷。9 月 12 日,美团首个 AI Agent 产品「小美」正式开启公测。

图片

与外卖 App 不同,小美没有繁杂的界面,只需说一句话,它就能帮你点咖啡、找餐厅,甚至为你规划好一整周的早餐菜单。

图片

更重要的是,它还能持续学习你的口味偏好,为老人、小孩等特定人群提供更贴心的方案。

我们第一时间拿到了内测码,接下来就奉上一手实测,看看美团首个 AI Agent「小美」的体验究竟如何。

一手体验

点餐这事儿,大家都再熟悉不过了。

打开美团 App,进入外卖页面,搜个关键词,浏览商家列表,再点进具体餐厅看菜单,挑菜、加购、确认配送地址、支付…… 一顿操作下来,至少要跑完六七个步骤。虽然我们对此已习以为常,但整个流程依然耗费不少精力。

而到了「小美」这里,这个链路就被大大简化了。

就以点咖啡为例。当我们正马不停蹄冲向公司,或者在会议间隙,抑或是着急码字没时间打开 App 操作下单时,只需对小美语音输入提示词:我对咖啡因过敏,帮我找一家离我最近的瑞幸咖啡,点一杯饮品,不要咖啡。

「小美」会通过后台分析定位用户所在位置,获取符合条件的外卖门店,最终为我们推荐了楼下瑞幸咖啡店的柠檬茶。

图片

点击「修改订单」按钮,我们便可以修改配送地址、添加备注,甚至调整茶饮的温度和糖度等。如果我们还想加单,选择「继续添加商品」即可。

搞定上述一切后,戳右下角的 OK,就进入支付界面。

整个操作丝滑流畅,它能根据用户的口味偏好和地理位置,实现从选品到支付的全自动操作,相当省时省力。

图片

每天吃啥是个世纪难题,现在对着小美下个模糊指令:中午不知道吃什么,帮我随便点个减脂餐。

基于这一指令,小美会先进行深度思考,分析用户减脂需求核心指标,筛选低升糖、高蛋白餐品组合,再评估配送时效与餐品保鲜度、对比用户历史订单偏好。综合以上各种要素,列出了三种减脂餐选项。

每种减脂餐都显示了价格、食材、门店、评分、送达时间、起送价以及精美的图片,看哪个顺眼直接选,小美马上给出配送订单,检查信息无误后即可支付。

,时长00:23

小美还有推荐、预订功能。比如设定一个场景:周一我要去青岛崂山,让它帮我在石老人浴场附近推荐并预订一个品牌连锁酒店的大床房,价格在每晚 500 元以内。

领到任务后,小美在目标地点附近搜罗了一圈,找到三家酒店,分别是最近距离的如家、性价比之选的汉庭以及品质优选全季酒店。推荐的每家酒店都标注了与石老人浴场的距离,入住与退房时间和各个房型的图片。

图片

我们选择其中一家酒店并提出更多要求,比如窗子朝南的大床房,小美会查看酒店信息以及网友评论,在预算内给出更多选择,并温馨提醒可以和前台说明想要朝南的房间。

我们又让小美推荐个望京小街附近适合散步的地方。它的思路非常清晰,通过分析用户的核心需求,筛选出公园、林荫道等多种场所,还评估安全因素如是否有照明、监控、人流量情况,以及是否有座椅、厕所、饮水点等便利设施,最后结合实时天气推荐遮阳或避雨路线。

图片

经过多番考量,小美挑选了距离最近、有文艺氛围、综合体验高的三处公园,在我们做出选择后,它就开始介绍大望京公园的概况以及当前的天气、人流量,并给出相应建议,甚至它还能提供导航路线图。

图片

[ 上下滑动查看更多 ]

此外,它还能主动规划好一周早餐,并设置智能计划。比如我们让它规划下周工作日的早餐,8 点送到公司楼下外卖柜,并列出每天早餐分别订的哪家的什么餐食。

小美可以识别我们的规律性习惯,订哪家餐厅的哪个餐食整得明明白白,还能在关键时间点如每周开始前,主动触达用户进行确认,大大提升了我们处理周期性或规律性事务的效率。

图片

[ 上下滑动查看更多 ]

一言以蔽之,小美通过简化传统点餐流程,利用语音指令和智能推荐,能够根据用户需求快速找到合适的餐品,并自动完成下单,大大提升了用户点餐效率和个性化体验。不仅如此,小美还具备跨场景服务能力,例如酒店预订和出行推荐。

不过小美在一些方面仍有待改进。比如在点外卖时,它可以自动使用我们在美团 App 上已领取过的优惠券或红包,但目前暂未上线自动膨胀功能,据了解开发团队正在全力优化。

再者使用场景也相对局限,尚无法处理如电影票订购、安排一次周末家庭聚会等复杂模糊的需求。此外,尽管用户可通过语音与小美进行互动,但小美还无法进行语音回复,在一定程度上影响了对话体验的流畅性。

未来,小美或许应在个性化和主动服务能力上进行优化,进一步提升处理更复杂和模糊需求的能力,同时改进对话的自然流畅度,使其与用户的互动更加接近真实对话。

技术解读

AI Agent 在多个行业的应用中都面临着不同的技术难题。

金融行业要求模型具备对复杂数据的高精度分析能力,医疗行业需要 AI 在专业性和安全性上经得起考验,教育行业则强调持续的个性化反馈和学习规划。

相比之下,本地生活领域的挑战在于用户需求极度碎片化、实时性要求高、商户数据庞大且更新频繁,这让 AI Agent 的落地始终充满不确定性。

小美之所以能够快速、稳定地处理各种本地生活需求,自然离不开美团自研的 Longcat 模型。

作为一款 MoE 模型,Longcat 总参数量达到 5600 亿,能根据任务动态激活 186 亿至 313 亿个参数,平均约 270 亿,这意味着它能在保持大模型表现力的同时,推理效率更高,计算成本更低。更重要的是,它并非单纯的通用模型,而是结合了本地生活场景的数据进行专项优化,因而能够更精准地理解用户需求,并生成贴合场景的个性化响应。

落到用户体验上,小美带来的最大改变是交互路径被极度简化。用户无需面对复杂的界面或多层级的选择,只要一句自然语言指令就能直达结果。这种丝滑感的背后,依赖的是美团内部接口调用能力,省去了中间层的冗余步骤,让服务过程保持最原生的状态。

举个例子。当用户通过小美点餐时,它并不是进行一次模糊搜索,而是基于海量商家数据与用户偏好进行深度匹配,从而保证推荐结果的准确性和个性化。再比如餐厅预定,小美直接调用美团的内嵌系统获取实时信息,避免了用户反复确认的麻烦,体验上的即时性和便捷性更为突出。

支撑这一切的核心,是美团长期积累的本地生活垂直数据。与金融或医疗等行业的 AI Agent 更多依赖高专业度的数据集不同,本地生活场景需要应对的是动态更新的商户信息、用户口味的细分差异以及地域化消费习惯。正是这些真实而庞杂的数据,为小美提供了最真实、最准确的商家和行业画像,也让推荐和执行更加可信和高效。

当然,本地生活行业的复杂性也决定了 AI Agent 的落地不会一蹴而就。

小美虽然已经展示出令人期待的能力,但仍处在快速迭代中。研发周期短带来了敏捷上线的优势,也意味着产品还处在不断试探与成长的阶段。用户在体验过程中可能会遇到个别场景覆盖不足或响应策略有待优化的情况,这是行业特性所决定的必然现象。

结语

「小美」的推出,是美团在 AI Agent 赛道上的一次战略性落子。

与单纯的聊天机器人不同,它更强调能把事办好的执行力,试图把庞大的本地生活服务网络与新一代智能体形态结合起来。这种模式背后,是美团希望通过技术重构服务触点,让 AI 成为消费者与城市生活之间的智能接口。

「小美」的愿景是成为「每个人都能拥有的生活小秘书」,这一定位既凸显了产品差异化,也释放出一个信号:AI Agent 的价值,不在于陪伴对话,而在于深度嵌入现实生活、提升服务效率。它能否跑通商业模式、赢得用户习惯,还有待时间检验,但其战略意义已然显现。

放眼整个行业,AI Agent 正处于应用落地的关键窗口期。

前段时间,CB Insights 发布了《Top 20 AI Agent Startups by Revenue》榜单,首次按照年收入规模评选出全球营收表现最突出的 AI Agent 初创企业。

图片

榜单显示,截至 2025 年 7 月,进入前 20 的公司平均成立时间不足 5 年,其中一半成立于近三年,但营收表现十分亮眼。头部企业如 Cursor 年营收已达 5 亿美元,Glean、Mercor、Replit 等也都突破 1 亿美元。整体市场预计到 2025 年底将达到 130 亿美元,较 2024 年几乎翻番。

我们从中也可以看到,海外 AI Agent 创业公司更多聚焦在效率与生产力提升上,而国内则更强调消费与生活场景。

未来,谁能率先打造出真正「有用、可依赖」的智能体,谁就有可能定义下一代超级入口。在这一进程中,「小美」无疑是一场具有实验性质的探索。

如果你希望抢先体验「小美」,可以在评论区留言,以获得邀请码。

#Cursor

为这一个Tab键,我愿意单独付费:Cursor用在线强化学习优化代码建议,护城河有了?

Cursor Tab 是 Cursor 的核心功能之一,它通过分析开发者的编码行为,智能预测并推荐后续代码,开发者仅需按下 Tab 键即可采纳。

Meet Cursor Tab and Never Look Back: The Future of AI-Assisted Coding - Neon

然而,它也面临着一个 AI 普遍存在的难题:「过度热情」。有时,它提出的建议不仅毫无用处,甚至会打断开发者的思路。

问题的关键,不只是让 AI 写出更优秀的代码,更是要教会它「察言观色」:在最恰当的时机提供帮助,在其他时候则保持安静。

基于此,Cursor 采用在线强化学习技术训练出一个全新的 Tab 模型。该模型将每一次用户交互(接受/拒绝建议)都视为一个强化信号,直接用于模型的在线优化。在每天超过 4 亿次请求的巨大流量驱动下,模型得以进行高频度的、基于真实世界反馈的持续学习。

图片

Cursor 已将这个新的 Tab 模型设为默认版本。与旧模型相比,新模型提供的建议数量减少了 21%,但所提供建议的接受率却提升了 28%。此举旨在提升用户的编码体验,Cursor 也计划在未来继续深化这些方法的研究。

Cursor 的策略独特且高效:它每天多次向用户部署新模型(每隔 1.5-2 小时),利用实时数据进行快速训练和优化。

这与主流做法形成了鲜明对比。多数厂商仍在静态数据集上进行长周期训练,依赖人工标注,数月才发布一次新模型。Cursor 的模式则建立了一个超高频的实时反馈循环,是对传统模型开发流程的彻底颠覆。

这似乎又一次向我们证明了,谁掌握了数据入口,谁就掌握了 AI 进化的主动权。

该功能在 AI 社区也得到了非常积极的反馈,有用户表示这是 Cursor 当前「护城河」,并愿意为 Cursor Tab 单独付费。

图片

还有开发者认为,它能大幅提升了生产力,不像 agent 那样只有噱头,而是「比其他任何功能都更能改善工作流程」。

图片

另外,一条被「强化学习之父」Richard Sutton 转发的评论表示,Cursor 的这个做法意义重大,它首次大规模证明了「实时在线学习」的巨大威力,并且指明了 AI 未来的一个重要发展方向,尽管目前还不够完美。

图片

Cursor 通过一篇博客介绍了他们如何利用这些数据,通过在线强化学习技术来优化其 Tab 模型。

  • 博客地址:https://cursor.com/cn/blog/tab-rl

「干扰性建议」的挑战

要实现高接受率,不仅需要提升模型本身的智能水平,更关键的是要判断何时应提供建议,何时应保持静默。在某些场景下,上下文信息不足以准确判断用户的意图。即便模型具备完美的知识和推理能力,也无法预知用户的确切操作。在这些情况下,不提供任何建议是更优的选择。

为提升建议的接受率,一种直接的思路是训练一个独立的分类模型来预测建议是否会被采纳。据 Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此种策略。它通过一个逻辑回归模型计算「上下文过滤分数」,该模型接收 11 个特征作为输入,涵盖了编程语言、前次建议的采纳情况、光标前的字符序列等。尽管该模型的确切预测目标未知,但外界普遍猜测其旨在预测建议被用户接受的概率。当该分数低于 15% 时,系统便会跳过此次建议。

该方案虽然可行,但 Cursor 的团队希望寻求一种更通用的机制,以便能复用 Tab 模型自身学到的强大代码表征能力。他们希望从根源上让 Tab 模型避免生成质量不高的建议,而非仅仅在事后进行过滤。因此,他们最终选择了策略梯度方法。

策略梯度方法

策略梯度是一种通用的优化框架,其目标是调整「策略」(在此即 Tab 模型),以最大化「奖励」(Reward)。奖励是一个被赋予策略所执行的每一个动作的数值。通过策略梯度算法,可以持续更新策略,使其在未来能够获得更高的平均奖励。

该类算法的核心思想是:允许策略进行探索性的随机尝试,观察不同行为所带来的奖励高低,然后对获得高奖励的行为进行正向强化,对导致低奖励的行为进行负向强化。

为了运用策略梯度方法优化 Tab,团队定义了一个精巧的奖励函数:鼓励被采纳的建议,同时惩罚那些被展示但未被采纳的建议。

例如,假设目标是当建议的接受率不低于 25% 时才进行展示。那么,可以为被采纳的建议设定 0.75 的奖励,为被拒绝的建议设定 -0.25 的奖励,而未展示建议的情况奖励为 0。如果一个建议的真实接受概率为 p,那么展示该建议的期望奖励就是

图片

。该值仅在 p>0.25 时为正。因此,一个旨在最大化奖励的策略,将学会在其预估接受率超过 25% 时才给出建议。

在实际应用中,Cursor 使用的奖励函数更为复杂,还考虑了建议的长度、代码跳转以及展示更多建议的可能性等因素。但其核心理念是一致的:并非直接对接受率进行建模,而是学习一个能够达成特定接受率目标的策略。

可以推断,模型在其内部表征中自发学习到了对接受概率的评估(或至少是评估其是否超过 25%),而这个过程完全交由优化器自行探索。

同策略(On-Policy)数据的重要性

为了计算策略的更新方向,该方法依赖于一个名为「策略梯度定理」的重要理论。该定理指出,如果一个由参数

图片

定义的策略

图片

描述了在状态

图片

下采取动作

图片

的概率分布,并且总奖励为

图片

,那么奖励函数关于参数

图片

的梯度可以表示为: 

图片

这个定理的实用价值在于其右侧的期望值是可以通过采样来估计的。具体来说,可以通过记录用户实际看到的建议来获得状态-动作样本

图片

;利用 PyTorch 等深度学习框架计算对数策略的梯度

图片

;再根据用户是否采纳建议来确定奖励

图片

。这样,便可以得到一个梯度的无偏估计,并借助随机梯度下降算法来优化策略。

然而,该方法有一个关键前提:用于计算梯度的动作样本,必须来自于当前正在优化的策略。一旦策略被更新,旧的数据便不再是「同策略(On-Policy)」数据。

为了获取最新的有效样本,就必须将新模型部署给用户并收集其行为数据。这意味着需要一套高效的基础设施,以快速部署新的模型检查点,并缩短从用户产生数据到数据进入下一轮训练流程的时间。

目前,Cursor 推出一个检查点并收集所需数据需要 1.5 到 2 小时。尽管这在人工智能行业已属高效,但仍有进一步优化的空间。

Cursor 这次更新让你心动了吗?

..

#FireRedTTS-2

小红书智创音频技术团队:SOTA对话生成模型来了,轻松做出AI播客!

小红书智创音频技术团队近日发布新一代对话合成模型 FireRedTTS-2。该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果。在多项主客观测评中,FireRedTTS-2 均达到行业领先水平,为多说话人对话合成提供了更优解决方案。

  • 论文标题:FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
  • 技术报告:https://arxiv.org/pdf/2509.02020 
  • Demo 链接:https://fireredteam.github.io/demos/firered_tts_2/ 
  • 代码链接:https://github.com/FireRedTeam/FireRedTTS2 

效果 Demo

一开口就像真人,播客生成不在话下。先来听一段 “Taylor Swift 恋爱消息” 的播报,你能分出这是真实录音还是 AI 合成吗?

以下视频来源于

小红书技术REDtech

,时长03:27

答案揭晓!上方视频的声音并非真人,而是由基于数百万小时语音数据训练的 FireRedTTS-2 合成的播客音频。它对重音、情绪、停顿等细节把握到位,听感自然流畅。相比闭源的豆包,FireRedTTS-2 的播客生成自然度可与之媲美;更重要的是,它还支持豆包不具备的音色克隆能力:只需提供对话中每个发音人的一句语音样本,模型即可模仿其音色与说话习惯,自动生成后续整段对话。在开源对话生成模型中(如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD),FireRedTTS-2 在多说话人音色切换的稳定性与韵律自然度方面处于行业领先,为 AI 播客等对话合成应用提供了工业级解决方案。

以下视频来源于

小红书技术REDtech

,时长02:15

随着多模态大模型的快速发展,全行业对数据的需求与日俱增,尤其在语音识别与对话交互领域,训练需要大规模的多音色、跨语言音频数据。FireRedTTS-2 不仅支持随机音色生成,还开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言。因此,它既能满足创新玩法的探索,也可作为高效的生产力工具,为下游任务生成高质量的对话 / 非对话音频数据。下方视频展示了不同随机音色、不同语言的生成效果。

以下视频来源于

小红书技术REDtech

,时长00:45

对话合成背景

近来,多说话人对话合成被广泛应用于播客生成等下游应用场景。在实现方式上,传统方法通常先按说话人将对话切分,逐句独立合成后再拼接。这样的做法不仅繁琐,还容易导致句间韵律断裂,尤其在句子衔接处尤为不自然。

尽管目前出现了一些方法可以建模整段对话,但它们往往要求输入完整对话文本,并一次性输出包含所有说话人的整段语音,难以支持逐句生成。这不仅增加了后续编辑与处理的难度,也因其不够灵活而不利于在交互式对话场景中应用。此外,这类方法的合成质量仍不稳定,常见问题包括发音错误、句子间说话人身份混淆以及合成的语音韵律不够自然。

FireRedTTS-2 系统简介

为解决当前对话合成系统存在的灵活性不足、合成质量欠佳等问题,FireRedTTS-2 升级了 TTS 系统的两大核心模块:

  • 离散语音编码器(Speech tokenizer):12.5Hz 低帧率,具有更强语义信息,且支持流式解码
  • 文本语音合成模型(Text-to-speech model):支持逐句生成,合成稳定且质量高

图片

离散语音编码器

离散语音编码器将连续语音信号压缩为离散标签序列,便于大语言模型处理。FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出:即 1 秒仅对应  12.5 个标签。对于对话建模,这缩短了语音序列长度、即提升了速度,又缩小了与文本序列的长度差距,降低了大语言模型的建模难度。为增强语义表达,编码器在训练时引入预训练模型提取的语义特征,并对离散标签进行语义监督,使标签携带更丰富的语义信息,帮助模型更容易学会从文本到语音的映射。除此之外,它还支持流式解码,可实时输出音频,便于无缝接入各类流式交互应用。

在训练策略上,离散语音编码器先在约 50 万小时的多样化语音数据上训练,以提升泛化能力;再在其中约 6 万小时的高质量语音上继续训练,优化重建音质。

文本语音合成模型

为提升对话合成的灵活性,FireRedTTS-2 采用文本 - 语音混排的格式,支持逐句生成,便于后续编辑与多场景适配。混排格式将对话文本与语音组织为:“[S1] 说话人 1 文本 + 语音 [S2] 说话人 2 文本 + 语音 [S3] 说话人 3 文本 + 语音…”,其中 [S1]、[S2]、[S3] 为说话人标签,用于区分不同角色。

在模型架构上,为更充分地利用对话上下文,FireRedTTS-2 采用 “双 Transformer ” 的设计:

  • 1.5B 参数的 Backbone Transformer 负责建模混排序列中语音的粗粒度信息
  • 0.2B 参数的 Decoder Transformer 补充语音中的声学细节

相比常用的 Delay pattern 方法,该架构充分利用了上下文中的文本与语音,可以生成更自然、连贯的对话语音;同时支持低首包延迟,配合离散语音编码器的流式解码,实现更快起播。

FireRedTTS-2 采用两阶段训练:先在 110 万小时单句语音上预训练,夯实合成基础;再用 30 万小时对话语音继续训练,覆盖 2–4 人对话场景。由此可稳定生成高质量对话语音,准确处理说话人切换,保持上下文一致与自然韵律。面向应用场景, FireRedTTS-2 仅需少量数据即可实现微调,快速完成音色定制。

FireRedTTS-2 效果比较

为评估对话合成效果,FireRedTTS-2 与 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他系统在自建的中英文对话测试集上进行了比较:

  • 客观上,比较了对话合成的正确率(CER/WER)、对话间说话人保持能力(SIM)、以及与真实录音之间的差距(MCD)
  • 主观上,FireRedTTS-2 与其他系统进行了偏好打分(CMOS)

图片

结果显示,FireRedTTS-2 在主客观指标上均为最优,显著降低发音错误,避免说话人混淆,具有更真实的韵律表现,为对话合成提供了更优解。

图片

同时,FireRedTTS-2 只需约 50 小时的特定播客说话人录音即可完成音色定制,使对话合成的自然度逼近真人。在自建中文对话测试集上,我们开展了客观(CER)与主观(自然度偏好)评测:微调后 CER 仅为 1.66%;主观听评中,28% 的测例被认为比真实播客录音更自然,另有 28% 难以区分二者。总体来看,56% 的测例表明其自然度已达到或超过真实录音。

总结与展望

FireRedTTS-2 针对当前对话合成的两大痛点:无法逐句生成(灵活性差)与合成质量不稳定(发音错误、说话人切换混乱、韵律不自然),升级了两项关键模块。

  • 离散语音编码器:低帧率、语义信息丰富,缩短语音序列、降低长对话建模难度并提升稳定性;支持流式解码,适配实时场景。
  • 文本语音合成模型:采用文本 - 语音混排输入,支持逐句生成;双 Transformer 架构充分利用文本与历史语音上下文,合成更自然、连贯的对话语音;具备低首包延迟,配合编码器的流式解码实现快速起播。

从结果上看,FireRedTTS-2 在各项主客观指标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统,为对话生成提供了更优的解法。未来团队将持续优化 FireRedTTS-2,拓展支持的说话人人数与支持的语种,并解锁可控音效插入等更多玩法。

#EvolKV

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算,性能就能超越使用完整 KV cache 的模型,这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

图片

图源:https://x.com/rohanpaul_ai/status/1966820906916815156

键值缓存(KV cache)已经成为大模型快速运行的核心技术,它就像一个「记忆库」,能够保存之前计算过的结果并重复使用,这样就不用每次都重新计算同样的内容。

但是,这个记忆库有个问题:输入的文本越长,需要的存储空间就越大,而且模型处理长文本时会变得非常慢。

为了应对这些挑战,现有的 KV cache 压缩方法主要依赖基于规则的启发式方法。当前的方法可以归类为三种范式:

跨所有层的固定位置信息保留

基于注意力权重的均匀层级分配淘汰机制

具有预定义深度衰减的金字塔策略

虽然这些方法在降低内存占用方面有效,但它们未能考虑两个关键问题:

  • transformer 层在信息处理中的不同功能角色
  • 缓存与任务性能之间的动态关系

仅依赖基于规则的 KV cache 预算分层分配,可能导致任务相关信息无法被最优地保留。

针对这些限制,来自中国科学院大学、中国科学院自动化研究所的 Bohan Yu 和苏黎世联邦理工学院的 Yekun Chai 受到(Chai 等,2022)的启发,采用进化算法直接基于任务性能搜索最优的 KV cache 分配。

图片

  • 论文标题:EvolKV: Evolutionary KV Cache Compression for LLM Inference
  • 论文链接:https://arxiv.org/pdf/2509.08315

他们引入了 EvolKV,这是一个进化框架,能够自适应地在 transformer 层之间分配 KV cache 预算,如图 1 所示。它将每层 KV cache 预算制定为优化变量,将其分为组,并采用进化算法迭代搜索能够直接最大化下游任务适应度得分的组别配置。通过将任务驱动优化与层特定缓存剪枝相结合,EvolKV 实现了与不同层的不同贡献相匹配的细粒度、性能感知分配。

图片

与刚性启发式方法相比,EvolKV 为以下游任务目标为导向的逐层 KV cache 预算分配提供了一个灵活而有效的机制。首先,它将层 / 组级缓存预算制定为可学习参数,其中,作者将层分组为优化单元以实现高效搜索。然后,它们使用黑盒进化优化方法直接最大化下游任务的性能。

通过这种方式,他们的方法能够实现任务感知的细粒度缓存分配,自动适应每个组或层的功能贡献。具体而言,它能够适应多样化的评估标准,如准确率和 F1 分数,并在没有预定义假设的情况下发现非均匀分布(即偏离启发式固定长度或金字塔模式的模式)。

作者在 Mistral 7B-Instruct 和 Llama-3-8B-Instruct 上进行了全面实验,在四个不同的基准测试(十一项任务)上评估 EvolKV,涵盖长上下文检索、长上下文推理和数学任务。结果表明,任务优化的 KV cache 分配产生了一致的改进:

  • 在 Needle-in-a-Haystack 基准测试中,EvolKV 比最佳基线提高了多达 13%
  • 在 RULER 基准测试中,EvolKV 比最强基线提升了多达 3.6%
  • 在 LongBench 评估中,它在广泛的目标 KV cache 预算范围内(从 128 到 2048)始终优于所有基线方法,并且在仅使用完整模型 1.5% 的 KV cache 预算的情况下,其性能显著超过了完整模型。
  • 对于 GSM8K,在 128 KV cache 预算下,EvolKV 比最强基线在准确率上提高了多达 7 个百分点,保持了完整模型性能的 95.7%,而最强基线在 512 KV cache 预算下仅保持了 84.5%。

EvolKV 详解

EvolKV 是一个动态的、任务驱动的进化框架,通过利用下游任务的性能反馈来自适应地为每一层分配 KV cache 预算。图 2a 展示了 EvolKV 与其他方法之间预算分配的比较。

图片

进化压缩的优化目标

进化算法的工作原理是产生候选解决方案并评估它们的适应度,然后根据适应度反馈不断改进搜索策略,逐步引导整个群体朝着更好的解决方案发展。在本文中,EvolKV 将下游任务的性能反馈当作适应度分数,并利用进化算法来指导每一层的 KV cache 压缩。

具体来说,在一个有 L 个 transformer 层的语言模型中,作者用 k_i ∈ N 来表示第 i 层的 KV cache 预算,其中∀i ∈ {1, . . . , L}。给定进化算法为下游任务 f (・) 产生的一组候选压缩方案

图片

,他们的目标是找到最优方案 S*,这个方案既要最大化任务性能,又要尽量接近目标平均 KV cache 预算 c:

图片

其中 f (S) 是使用压缩方案 S ∈ 

图片

时获得的下游任务性能,超参数 λ > 0 用来平衡原始性能和缓存效率。由于下游性能指标种类繁多且数值范围不同(比如准确率、F1 分数、ROUGE 分数),作者采用了一个直接与任务性能进行权衡的缓存效率项,以确保可比性。

缓存效率项 CACHESCORE (S, c) ∈ [0, 1] 的工作机制是:如果某个方案的平均每层缓存预算

图片

图片

超过了目标预算 c,就给它较低的分数;对于那些保持在目标范围内的方案,则应用平滑折扣:

图片

其中 γ ∈ (0, 1] 是平滑因子。因此,这个目标函数偏好那些提供强大任务性能且将平均 KV cache 预算保持在接近或低于期望预算的压缩方案。

KV Cache 预算的分组

为了提高优化效率,作者引入了组大小参数 n_g,将 KV cache 预算 K = {k_1, k_2, . . . , k_L} 划分为 J = ⌈L/n_g⌉个组,记为 G = {g_1, g_2, . . . , g_J}。每个组 g_j 包含连续的缓存预算子集,定义为 g_j = 

图片

 ∀_j ∈ {1, 2, . . . , J}。

为简化起见,作者假设层总数 L 能被组大小 n_g 整除,即 L = J・n_g。在这种表述下,候选压缩方案

图片

在组级别应用,记为

图片

。基于下游任务性能为每个组选择的最优方案记为

图片

。这种分组表述显著减少了搜索空间,并在进化搜索过程中促进了更稳定的优化动态。

进化压缩的迭代过程

本文中的 KV cache 预算优化以分组方式进行,如算法 1 所示,从底层到顶层依次进行。在优化每个组时,先前优化组的 KV cache 预算被固定为各自的最优方案

图片

,而其余组保持其初始值。如果候选方案 S_g 获得比当前最佳方案更高的适应度分数 r,则相应地更新当前组的 KV cache 预算。这个过程反复进行,直到所有组都被优化。

图片

KV 缓存预算补全

为了确保评估的公平性,作者对总大小偏离目标的 KV cache 预算优化结果进行补全。具体而言,他们首先计算实际总 KV cache 预算

图片

与目标总预算 T = c・L 之间的差异,记为∆_cache = T − A。然后根据各层在 A 中的原始占比,将这个差异按比例重新分配到各层。补全后的 KV cache 预算为 B = {b_1, b_2, . . . , b_L},其中

图片

,i ∈ {1, 2, . . . , L}。

实验结果

在 LongBench 上的结果

表 1 报告了在 Mistral-7B-Instruct 上使用 16 个 LongBench 子数据集的评估结果,所有训练样本已被移除。在所有评估的 KV cache 预算中,EvolKV 始终获得最高的平均性能,优于所有基于规则的基线方法。此外,在包括 MultiFieldQA-en、2WikiMultihopQA、MuSiQue、TriviaQA 和 PassageRetrieval-en 在内的几个子数据集上,EvolKV 不仅与未压缩的完整模型保持竞争力,甚至在某些 KV cache 预算下超越了完整模型。

图片

表 2 展示了 Llama-3-8B-Instruct 上的类似结果,同样排除了训练样本。EvolKV 在所有 KV cache 预算下都表现出了优异的性能。值得注意的是,在缓存预算为 128 时,EvolKV 在 TREC 子集上比最强基线高出 7.69 个百分点,突出了其对多样化下游任务的强适应性。

图片

在 GSM8K 上的结果

图 3b 展示了 EvolKV 为 Llama-3-8B-Instruct 优化的 KV cache 预算分配。表 3 报告了 Llama-3-8B-Instruct 和 Mistral-7B-Instruct 两个模型对应的测试集准确率。在所有配置中,EvolKV 在两个模型上都始终优于基线方法。具体而言,在 Llama-3-8B-Instruct 上,它相比最强竞争对手取得了显著改进,在 KV 缓存预算为 128、256 和 512 时,准确率分别至少提升了 7.28、2.05 和 7.58 个百分点。值得注意的是,EvolKV 使用减少的缓存预算(c = 512)就达到了完整模型性能的 95.7%,显著优于所有基线方法,其中最佳基线结果仅达到 84.5%。

图片

图片

在 NIAH 和 RULER 上的结果

作者在 NIAH 上评估了 EvolKV 以及所有基线模型的长上下文检索能力。图 7 展示了这部分评估的结果:与基线方法相比,EvolKV 在 Llama3-8B-Instruct 上取得了超过 4 个百分点的改进,在 Mistral-7B-Instruct 上取得了超过 13 个百分点的显著提升。这些结果表明,EvolKV 有效地探索并利用了模型在长上下文检索中的潜在层级 KV cache 分配。

图片

作者在 RULER 基准测试上进一步评估了 NIAH 中优化的 KV 缓存分配。如表 4 所示,EvolKV 在平均得分上始终优于所有基线方法,在 Mistral-7B-Instruct 上提升了多达 0.99 分,在 Llama-3-8B-Instruct 上提升了 3.6 分。这些结果进一步证明了 EvolKV 强大的泛化能力、长上下文检索和推理能力,因为优化的 KV 预算可以有效地迁移到其他基准评估中,这表明 EvolKV 揭示了潜在的层级分配策略。

图片

更多细节请参见原论文。

...

#LLaSO

LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准

在大型语言模型(LLM)的浪潮下,多模态 AI 取得了飞速发展,尤其是在视觉语言(LVLM)领域,已经形成了成熟的研究范式。然而,与之形成鲜明对比的是,大型语音语言模型(LSLM)的发展却显得零散且步调缓慢。

该领域长期被碎片化的架构、不透明的训练数据和缺失的评估标准所困扰,导致研究之间难以进行公平比较,严重阻碍了技术的可复现性和社区的系统性进步。许多研究虽然发布了模型权重,但其赖以成功的关键 —— 训练数据和配置细节 —— 却常常被 “雪藏” 起来。

为了打破这一僵局,北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。

图片

LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。

  • 论文标题:LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model论文地址:https://arxiv.org/abs/2508.15418v1
  • 代码地址:https://github.com/EIT-NLP/LLaSO
  • 模型地址:https://huggingface.co/papers/2508.15418

LSLM 领域的技术挑战与研究痛点

相比视觉语言模型(LVLM)领域已形成 CLIP 编码器 + LLaVA 范式的成熟生态,LSLM 研究面临四大核心挑战:

1. 架构路径分化严重

当前 LSLM 架构主要包括外部特征融合、跨模态注意力机制、隐式对齐等多种技术方案,缺乏如 LVLM 领域般的统一范式。不同研究团队采用差异化架构,导致技术进展难以积累和比较。

2. 训练数据严重私有化

主流 LSLM 如 Qwen-Audio、Kimi-Audio 等均依赖私有数据训练,数据规模、质量、构成等关键信息不透明。这使得:

  • 可复现性差:其他研究者无法复现相同结果
  • 性能归因模糊:难以判断性能提升源于架构创新还是数据优势
  • 研究门槛高:新入场者需要大量资源构建私有数据集

3. 任务覆盖局限性明显

现有数据集主要聚焦语义理解任务,对语音中的副语言学信息(paralinguistic information)如情感、口音、韵律、说话人特征等覆盖不足,限制了模型的全面语音理解能力。

4. 交互模态单一化

大多数 LSLM 仅支持 "文本指令 + 音频输入" 的单一交互模式,缺乏对 "音频指令 + 文本输入" 和纯音频交互等复杂模态组合的系统性支持。

LLaSO 框架:三大核心组件构建完整生态

图片

图一:llaso 语料库的制作流程

LLaSO 框架通过三个核心开源组件解决上述挑战:

LLaSO-Align:大规模语音 - 文本对齐数据集

  • 数据规模:1200 万语音 - 文本对齐样本
  • 数据来源:聚合对话、有声书、多口音语音等多样化来源
  • 技术目标:通过自动语音识别(ASR)任务建立语音表示与文本语义空间的精确对齐
  • 质量控制:采用多重过滤机制确保数据质量和说话人多样性

LLaSO-Instruct:多任务指令微调数据集

  • 数据规模:1350 万多任务指令样本
  • 任务覆盖:涵盖语言学、语义学、副语言学三大类共 20 项任务 
  • 语言学任务:ASR、翻译、总结等基础语言理解
  • 语义学任务:问答、推理、内容分析等高级认知
  • 副语言学任务:情感识别、口音检测、说话人分析等
  • 模态支持:系统性支持三种交互配置 
  • 文本指令 + 音频输入(Text-Audio)
  • 音频指令 + 文本输入(Audio-Text)
  • 纯音频指令与输入(Audio-Audio)

图片

图二:LLaSO 语料库的任务组成

LLaSO-Eval:标准化评估基准

  • 样本规模:15,044 个测试样本
  • 数据隔离:与训练集严格分离,确保评估公平性
  • 评估维度:覆盖所有 20 项任务的 comprehensive evaluation
  • 可复现性:提供统一评估协议和自动化评估工具

图片

图三:LLaSO-Base 在 LLaSO-Eval 基准测试上的表现结果

这三大组件共同构成了一个完整的训练、微调和评估流水线,为 LSLM 研究提供了前所未有的开放性和便利性。

LLaSO-Base:技术验证与性能基准

为验证框架有效性,逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。

模型架构设计

采用经典三阶段架构:

  • 语音编码器:Whisper-large-v3,负责语音特征提取
  • 模态投影器:多层感知机(MLP),实现语音 - 文本特征空间映射
  • 语言模型 backbone:Llama-3.2-3B-Instruct,提供语言理解和生成能力

两阶段训练策略

  • 对齐阶段:冻结编码器和 LLM,仅训练投影器,使用 LLaSO-Align 数据建立 modality alignment
  • 指令微调阶段:联合训练投影器和 LLM,使用 LLaSO-Instruct 数据学习 complex instruction following

图片

图四:LLaSO 模型架构示意图

LLaSO-Base 模型实验结果分析

我们在一系列严格设计的实验中,将 LLaSO-Base 与多个业界领先的语音语言模型(LSLMs)进行了直接对比。所有实验均在我们构建的标准化评估基准 LLaSO-Eval 上完成,确保了比较的公平性和结果的可复现性。

实验设置与评估基准

为确保评估的全面性,我们选取了 10 个主流的语音语言模型作为基准,包括 Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的评估均在统一的 LLaSO-Eval 测试集上进行。

图片

图五:详细描述了 LLaSO-Eval 评估基准的构成。

该基准包含 15,044 个样本,覆盖了 20 种不同任务。这些任务被系统地划分为三大类别,以实现对模型能力的深度剖析:

  • 语言学任务 (Linguistic): 核心是自动语音识别 (ASR),评估模型最基础的语音转文本能力 。
  • 语义任务 (Semantic): 核心是音频问答 (AQA),评估模型对音频内容的高层次理解、推理和生成能力 。
  • 副语言学任务 (Paralinguistic): 进一步细分为 “以说话人为中心”(如性别、年龄、口音识别)和 “以内容为中心”(如意图预测、实体提取)两类,旨在评估模型对言外之意的捕捉能力 。

评估指标说明

我们的评估体系采用了多种指标,以确保对模型各方面性能的精确衡量 :

  • WER/CER (词 / 字错误率): 用于 ASR 等转录任务,数值越低,表示准确率越高。
  • Accuracy (准确率): 用于分类任务(如性别、口音识别),数值越高,性能越好。
  • MAE (平均绝对误差): 用于数值预测任务(如年龄识别),数值越低,预测越精准。
  • GPT-4o Score (GPT-4o 评分): 针对 AQA 等开放式生成任务,我们使用 GPT-4o 对模型输出的相关性和准确性进行 1-5 分的打分,分数越高代表表现越好。
  • Abstention Rate (拒绝回答率): 衡量模型在面对不熟悉或困难任务时的 “回避” 倾向。此比率越低,说明模型的指令遵循能力和鲁棒性越强。

总体性能对比:LLaSO-Base 表现全面领先

图片

图六: 直观地展示了所有模型在 LLaSO-Eval 上的总体性能得分(经过归一化处理)。

从图中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。这一成绩显著优于其他所有竞争模型,例如表现次之的 Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。这一结果强有力地证明了 LLaSO-Base 的综合实力。研究发现,像 LLaSO-Base 这样在更多样化的任务上进行训练的模型,其综合性能远超那些主要针对 AQA 等少数任务进行优化的模型(如 Llama-Omni 和 Mini-Omni)。这凸显了我们所提倡的广泛任务覆盖训练策略的有效性。

详细任务性能分析

图片

图七: 深入比较了各模型在语言学 (ASR) 和语义 (AQA) 任务上的具体表现 。

  • 在 ASR 任务上,LLaSO-Base 展现了压倒性优势。其 WER 和 CER 分别低至 0.08 和 0.03,是所有模型中最低的,这意味着它拥有最精准的语音转录能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等强劲对手,也存在明显差距 。
  • 在 AQA 任务上,竞争十分激烈。Kimi-Audio 在标准 “文本指令 + 音频输入” 模态下表现突出,获得了 3.35 的高分 。LLaSO-Base 在此项上得分 2.58,表现稳健 。但值得注意的是,在更具挑战性的 “音频指令 + 文本输入” 模态下,

LLaSO-Base 的得分 (2.70) 展现了更强的模态适应性,超过了多数模型。

图片

图八:呈现了在 18 个细分的副语言学任务上的对比结果,这是对模型能否理解 “弦外之音” 的终极考验。

在这些更复杂的任务上,LLaSO-Base 几乎在所有任务上都取得了顶尖或接近顶尖的成绩。

  • 以说话人为中心的任务:在说话人性别识别 (SGC) 和口音分类 (AC) 任务上,LLaSO-Base 的准确率名列前茅,展现了对说话人特征的敏锐洞察力 。
  • 以内容为中心的任务:LLaSO-Base 的优势更为显著。在音素识别 (PR) 任务中,其 PER 仅为 0.03;在语音命令识别 (SCR) 任务中,WER/CER 低至 0.04/0.02 。这两项指标均以数量级的优势领先于所有其他模型,展示了其在精细语音内容分析上的卓越能力。
  • 指令遵循能力:更重要的是,LLaSO-Base 在这些任务中的拒绝回答率极低。相比之下,Llama-Omni 和 Mini-Omni 等模型在许多副语言学任务上直接选择 “拒绝回答”(表格中标记为 "Reject"),这表明它们缺乏处理此类任务的能力。LLaSO-Base 的稳定响应证明了其强大的指令遵循能力和任务泛化性。

模态泛化与任务覆盖度分析

图片

图九:模型在不同输入模态下的性能稳定性

  • 模态泛化能力 (Figure 9): 该图分析了模型在不同输入模态(纯音频、文本 + 音频、音频 + 文本)下的性能稳定性。结果显示,大多数模型在切换到不熟悉的模态时性能会下降。虽然 LLaSO-Base 也存在性能波动,但其在标准模态下的峰值性能远高于其他模型,这是其总体得分领先的关键。同时,研究也发现,采用 “交错或并行解码” 策略的模型(如 Mini-Omni、GLM-4-Voice)通常表现出更好的稳定性。

图片

图十:模型训练正相关关系

  • 任务覆盖度的重要性 (Figure 10): 该图清晰地揭示了模型训练任务数量与其性能和拒绝回答率之间的正相关关系。

LLaSO-Base 经过 20 个任务的训练,其总体性能和指令遵循能力(低拒绝回答率)均处于领先地位 。而那些训练任务较少的模型,性能普遍偏低,且更容易 “拒绝” 回答,这进一步验证了 LLaSO 框架设计理念的正确性与前瞻性。

开源策略的技术价值与社区影响

对学术研究的推动作用

1. 可复现性保障:完整开放的训练数据和代码实现

2. 公平比较基础:统一评估基准消除 evaluation bias

3. 研究门槛降低:研究者可专注于算法创新而非数据收集

4. 技术积累加速:基于统一框架的增量改进更易实现

对工业应用的促进效应

1. 开发成本降低:相比私有数据方案节省数千万数据构建成本

2. 技术风险可控:开源方案的透明性降低技术选型风险

3. 定制化便利:开放架构支持针对性的领域 adaptation

4. 生态建设基础:为 LSLM 生态标准化提供参考实现

技术局限与未来方向

当前局限性

1. 模型规模:38 亿参数相比 GPT-4 级别模型仍有性能 gap

2. 多语言支持:主要针对英文和中文,其他语言覆盖有限

3. 实时性能:大模型推理延迟对实时应用仍有挑战

4. 长音频处理:对超长音频序列的处理效率有待优化

发展方向

1. 模型 scaling:探索更大规模模型的性能上限

2. 效率优化:模型压缩、量化等技术降低部署门槛

3. 多模态扩展:集成视觉信息实现 Audio-Visual-Language understanding

4. 领域适应:针对医疗、教育、客服等垂直领域的专用优化

结论

LLaSO 作为全球首个完全开源的 LSLM 研究框架,通过提供大规模数据、统一基准和参考实现,为语音语言模型研究建立了透明、可复现的技术基础设施。其开源策略不仅降低了研究门槛,更重要的是为 LSLM 领域建立了统一的技术标准,有望推动该领域从 "各自为战" 向 "协同创新" 转变。

随着框架的广泛采用和社区贡献,LLaSO 有望成为 LSLM 研究的 "ImageNet 时刻",为构建真正理解人类语音 nuance 的 AI 系统奠定坚实基础。

...

#AncientDoc

首个中国古代文献理解系统基准 发布,复旦与字节共护文化瑰宝

在多模态大模型席卷各大任务场景的今天,中国古籍这一承载数千年文明的珍贵载体,依然面临着“看得清、读得懂、问得明”的重重挑战。扫描图像只能停留在表层数字化,传统 OCR 方法对竖排异体字束手无策,现代大模型则常在语义推理、知识理解、语言风格迁移等方面“失语”。缺乏系统基准、缺乏任务统一、缺乏标准数据,是古籍文档智能理解领域始终未能突破的关键瓶颈。

为破解这一难题,复旦大学与字节跳动联合研发并发布首个面向中国古籍的多任务视觉语言模型评测基准——AncientDoc!该基准围绕五大核心任务全面展开,涵盖页面级OCR识别文言到白话翻译因果/立意类推理问答历史知识类问答、以及风格识别与语言变体问答,实现了古籍场景下从“识字”到“问答”的完整链路覆盖,正式为模型提出“能不能真正理解古籍”的挑战命题。

AncientDoc 数据涵盖来自《汉典》与高质量古籍扫描图像的 3000 多页页面,按领域细分为诗文评、儒家、楚辞、艺术、类书、天文算法等 14 类古籍大类,并对每一页图像精心构造 任务型 QA 对话对,结合 GPT-4o/人类专家双重校验机制,确保任务准确性与上下文一致性。同时,基准评测设计多维度指标体系,包括 字符级 CER / F1 / Precision / Recall、BERTScore、CHRF++、GPT-4o 模拟人类评分 等,不仅实现模型之间公平可比,还首次引入大模型评分体系协助质量判断,创新性提出“古籍场景下的 AI 主观评分标准”。

基于 AncientDoc,团队系统评估了多个主流视觉语言模型(VLM),包括 GPT-4o、Qwen2.5-VL 系列、InternVL、Doubao、Gemini 等。评测显示,不同模型在不同任务上能力分化明显,Qwen2.5-VL-72B 在推理类问答和风格理解中表现出色,Gemini2.5-Pro 在翻译任务中独占鳌头,而 GPT-4o 则展现出强大的综合能力。该结果也首次揭示了“古籍 AI 任务不等于通用 VQA”,为今后模型精调、能力补强提供了重要基准参考。

  • 论文地址:https://arxiv.org/pdf/2509.09731
  • 项目地址:https://bytedance.github.io/AncientDoc/

首个系统性、多分类的中文古籍数据集1.权威古籍源头,构建真实数据集

AncientDoc 的构建源于复旦大学与字节跳动团队对中国古籍数据系统化整理与任务导向式构建的长期合作探索。为确保数据的广泛性与权威性,AncientDoc 样本来自全球著名图书馆(如 Harvard Library)等机构提供的高质量古籍数字化资源,涵盖从战国至清代的各大历史时期,保留了丰富的字体风格、版式结构与语体特征。

2. 数据筛选有据,构建高质量古籍样本集

高质量的数据集是推动科研突破的基石。为了让模型真正理解古籍文本,我们在数据筛选环节秉持“来源可靠、标准严苛、分析多维”的原则,从源头到终端环节层层把关,力求打造一个既真实反映古籍复杂性、又具备研究价值的样本集。

在筛选标准上,我们确立了四大维度:

  • 版式优先:选择竖排繁体字版式,以真实再现古籍的阅读顺序,确保模型必须面对复杂的排版结构和阅读习惯;
  • 清晰与磨损并存:既涵盖清晰标准的楷书,也保留部分墨迹模糊、纸张损坏的样本,以模拟真实世界古籍数字化的困难场景,检验模型在低质输入下的鲁棒性;
  • 语义密度优先:重点收录诗文、注释、百科全书、医典、史传等高信息密度的文献,以便支持翻译、推理、知识问答等高阶任务;
  • 可标注性强:确保页面完整、扫描清晰、页码齐全,为后续 OCR 转写、翻译对齐和问答标注提供便利。

除了严格筛选,我们还从多维度开展了系统性分析,以确保数据集具备代表性:

  • 年代分布:数据总量近 3000 页,横跨战国、汉、唐、宋、元、明、清等重要时期,形成完整的历史脉络。其中明代(1148 页)和清代(778 页)文献保存最为丰富,占比约 65%,充分反映了古籍保存与流传的实际情况。

图1 古籍朝代分布图

图1 古籍朝代分布图

  • 类别分布:覆盖 14 大类,包括儒家典籍、兵家文献、医家论著、天文算法、艺术鉴赏、别集、总集、谱录、诗文评注等,全面呈现了古代社会知识谱系与思想图景。

图2 古籍类别分布图

图2 古籍类别分布图

  • 书写风格:约 97% 的页面为楷书,保证了整体的可读性;同时保留约 3% 草书样本,考验模型在字体变体与艺术性书写下的适应能力。

3. 精准标注为基,打造多任务问答高质语料

高质量的问答标注体系,是让模型真正具备“读懂古籍、回答问题”的关键所在。在 AncientDoc 的构建过程中,我们并未止步于单纯的文本采集,而是设计了一套覆盖多任务、层层把关的标注流程,确保每一条问答数据都经得起学术与技术双重考验。

首先,为了保证标注效果与效率,我们选择了“模型预标注 + 人工精修”的双重策略。在预标注阶段,借助最新一代的大规模多模态模型(Qwen2.5-VL-72B),自动生成 OCR 转写、白话翻译以及多类型问答样本,快速完成初稿构建。相比传统人工全流程标注,这一方式极大提升了效率与规模,让我们能够在近 3000 页古籍中高效构建10000+高质量问答对。

但我们深知,古籍的复杂性绝非单靠模型即可完全驾驭。因而,在人工精修环节,标注专家团队逐条审阅模型输出,重点在三方面进行校正与优化:

  1. 结构修正:针对 OCR 输出中的排版顺序、断句混乱、注释混淆等问题,逐一进行重排与标点修正;
  2. 语义优化:对翻译结果中存在的歧义、误释进行细致调整,确保原文思想在现代语境下清晰可达;
  3. 跨任务一致性:核对同一页面在 OCR、翻译与问答任务中的逻辑统一,避免“同源数据,不同答案”的问题。

其次,我们的问答标注覆盖五大核心任务,形成全方位的多层次知识体系:

  • OCR问答:精确还原一整页文本的内容,考验模型的识别与阅读顺序把握;
  • 翻译问答:将文言转换为白话,以便非专业读者也能读懂古籍;
  • 推理问答:围绕人物思想、历史因果提出问题,检验模型的深层逻辑能力;
  • 知识问答:涉及历史人物、制度、医学术语等事实性问题,确保模型具备扎实的文化知识储备;
  • 语言变体问答:关注修辞手法、风格流派、文学体裁,评估模型在语言艺术层面的理解与表达。

在整个 QA 标注过程中,我们秉持“有据可查、精益求精”的原则。所有生成的问题与答案,不仅符合古籍原文的上下文逻辑,还经过多轮人工核查,确保语言表达自然、事实准确无误。标注团队甚至针对一些模糊案例进行了专题讨论,力求在“学术严谨性”与“数据任务适配性”之间找到最佳平衡。

最终,AncientDoc QA 标注体系成功实现了大规模、多任务、高质量三大目标。它不仅让模型能够从“看懂字”进化到“读懂意”,更为未来基于古籍的智能问答、知识挖掘和文化传承研究,提供了坚实的语料基础。可以说,这一体系真正奠定了古籍智能化理解的里程碑。

图4 古籍任务展示

图4 古籍任务展示

4. 多维指标设计,全面评估模型古籍理解力

在 AncientDoc 的构建与评测中,我们深知只有科学合理的评价体系,才能真正衡量模型的能力边界。因此,我们在评价指标的设置上突破了单一维度的传统做法,提出了“硬指标 + 软评分 + 人工一致性校准”三位一体的体系,确保模型在识别、理解、推理、生成的全过程中都能被精准刻画。

1. 基础识别指标:字准字全,不容差池
在页级 OCR 任务中,我们采用了最严格的字符级评估体系:

  • CER(字符错误率):衡量模型识别的精确程度;
  • Char Precision / Recall / F1:全面考察字符输出的完整性、覆盖度与平衡性。
    这一系列指标不仅能检测模型是否“认对了字”,还能检验其在大篇幅文本中是否保持了顺序与完整性,为后续理解打下坚实基础。

2. 语言理解指标:既要“信达”,更要“雅俗共赏”

对于翻译、推理、知识问答与文体分析等高阶任务,我们引入了CHRF++与BERTScore 两大主流指标。前者注重 n-gram 层面的匹配,能捕捉翻译与生成结果中的细粒度差异;后者则依托深度语义表示,强调语义层面的一致性,能够更好地评估模型是否真正“理解了意思”。

3. 智能评分体系:让机器评价更接近人类
考虑到古籍任务的特殊性,单纯依赖硬指标往往存在局限。例如,在翻译任务中,词序颠倒可能导致分数下降,但实际语义并未偏差。为此,我们引入了大模型评分机制:让 GPT-4o、Qwen2.5-VL-72B、Gemini 等先进模型对候选答案打分,并通过与人工评分对比,筛选出最接近人类标准的评分模型。实验结果表明,GPT-4o 的评分结果与人工高度一致,因此我们最终采用 GPT-4o 作为“软指标仲裁者”,在 0–10 分区间内进行细粒度打分。

4. 多角度对齐:科学与公平并重
为了验证模型评分的可靠性,我们还设计了包括 Pearson、Spearman、Kendall 等相关系数,以及 MSE、MAE、Bias 等偏差度量的对齐分析。从结果来看,多维统计验证了 GPT-4o 评分与人工结果的高度一致性,进一步提升了评价体系的可信度。

通过以上多层次的指标设计,AncientDoc 不仅能全面诊断模型的 OCR 能力,还能系统评估其在语义理解、逻辑推理与知识迁移方面的表现。它让古籍智能理解的评测从“认字”走向“读懂”,从“答对”走向“答好”,真正实现了科学性与实用性的统一。

基于AncientDoc的主流模型评测结果

在完成高质量数据与科学指标的构建后,我们进一步开展了系统性的实验评估,旨在全面揭示当下主流视觉语言模型在古籍场景下的真实表现。实验部分不仅是对 AncientDoc 数据集价值的最好证明,更是对现有多模态模型能力边界的一次深度检验。

1.实验对象:覆盖主流,开放闭源齐上阵

为了确保评估的全面性,我们精心挑选了多个代表性模型,既包括 GPT-4o、Gemini2.5-Pro、豆包(Doubao-V2)等闭源最强模型,也涵盖 Qwen2.5-VL、InternVL2.5/3、LLaVA-OneVision 等开源系列,参数规模从 2B 到 70B+ 不等。这样的设计不仅展现了不同体量模型的性能差异,也揭示了开源与闭源在古籍任务中的对比格局。

2.实验任务:五大维度,全面覆盖

所有模型均在 AncientDoc 五大核心任务上接受检验:

  • 页级 OCR:检测模型是否能完整、顺序正确地转写整页古籍;
  • 白话翻译:考察其将古文转化为现代汉语的能力;
  • 推理问答:评估模型对隐含信息的逻辑推演能力
  • 知识问答:测试其对历史事实、概念背景的掌握;
  • 文体问答:检验其在风格、修辞、体裁层面的理解水平。

3.实验结果:优势对比,格局初现

在 页级 OCR 上,Gemini2.5-Pro 以最低 CER 和最高字符 F1 领先,展现出强劲的识别稳定性;但 Qwen2.5-VL-7B 在 GPT-4o 评分中甚至超越了更大规模的 72B 模型,显示小体量模型在 OCR 任务上的高效性。

图5 页面级OCR评测

图5 页面级OCR评测

在白话翻译上,Gemini2.5-Pro 与 Qwen 系列表现最优,充分体现了其对古文语义的深刻建模能力;而部分模型(如 LLaVA 系列)则存在明显短板,凸显古籍语料对模型的特殊挑战。

图6 白话翻译评测

图6 白话翻译评测

在推理问答任务中,Qwen2.5-VL-72B 以显著优势夺得最高分,说明大规模模型在语境理解与因果推理上更具潜力。

图7 推理问答评测

图7 推理问答评测

在知识问答上,GPT-4o 与 Doubao-V2 分别在语义一致性和评分表现上占优,体现了闭源模型在知识储备上的优势,而开源模型仍有差距。

图8 知识问答评测

图8 知识问答评测

在 语言变体问答 上,GPT-4o 与 Gemini2.5-Pro 展现了极佳的风格识别能力,而 InternVL2.5 系列则凭借训练中引入的古籍相关语料表现亮眼,成为开源阵营的“黑马”。

图9 语言变体问答评测

图9 语言变体问答评测

4.深度分析总结:分析结果,定位潜在优化方向

实验结果揭示了一个耐人寻味的现象:大模型在高阶任务(如推理、知识问答)中展现明显优势,但在 OCR 这种偏“基础技能”的任务上,小规模模型反而更稳定高效。这说明在古籍任务中,模型的规模和表现之间并非单调关系,而是依赖于任务特性与训练数据的契合度。

通过系统实验,我们不仅首次全面揭示了主流模型在古籍领域的表现差异,更证明了 AncientDoc 在任务设计、指标设置与结果分析上的科学性和前瞻性。它既为研究者提供了一个权威评测平台,也为未来模型优化与数据增强指明了方向,真正奠定了古籍智能理解研究的实验基准。

..

#SimpleVLA-RL

突破 VLA 模型训练瓶颈,RL实现端到端在线训练

想让机器人灵活干活,视觉-语言-动作(VLA)模型是关键,但现在的训练方法太 “娇气” 了!靠监督微调(SFT)训练,不仅要海量人类操控轨迹数据(采集贵到离谱还难扩规模),遇到没见过的任务或环境,性能直接 “翻车”。

好在大推理模型领域给了新灵感——强化学习(RL)光靠任务结果就能提升推理能力,那能不能用在 VLA 模型上?可难题也不少:传统机器人 RL 要手工调奖励,没法大规模用;VLA 还得和环境反复交互,比 LLM 生成文本麻烦多了。

别慌,SimpleVLA-RL 框架来救场了!它基于 veRL 优化,专门适配 VLA 的轨迹采样、并行训练,效果直接拉满:在 LIBERO、RoboTwin 等基准测试里拿了 SOTA,少数据也能训出强模型,甚至让机器人自己琢磨出 “推代替抓” 的新操作(也就是 “Pushcut” 现象),彻底给 VLA 训练打开新路子!

论文题目:SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

论文链接:https://arxiv.org/pdf/2509.09674

作者单位:Tsinghua University, Shanghai AI Lab, Shanghai Jiao Tong University, Peking University, The University of Hong Kong

研究背景与核心问题

视觉-语言-动作(VLA)模型是机器人操控领域的关键范式,能整合视觉感知、语言理解与动作生成,实现复杂物理环境中的任务执行。当前主流训练流程为 “大规模预训练 + 监督微调”,但该范式存在两大核心瓶颈:

  1. 数据稀缺性:SFT 需大规模人类操作机器人轨迹数据,而这类数据的采集需精心设计实验场景、多样化操控对象及专业操作员,成本极高且规模受限,严重制约模型 scalability。
  2. 泛化能力弱:SFT 依赖场景与任务特定数据,面对分布偏移(如未见过的任务、环境或对象)时性能大幅下降,尤其在长时序、组合型任务中表现突出。

同时,大推理模型领域的突破(如 DeepSeek-R1)证明,强化学习(RL)仅通过结果奖励就能显著提升逐步推理能力。这引发核心疑问:RL 能否同样增强 VLA 模型的长时序逐步动作规划能力? 但 VLA 应用 RL 面临独特挑战——传统机器人 RL 依赖手工设计的过程奖励(扩展性差),且 VLA 需与环境多轮交互,比 LLM 的文本生成更慢、成本更高。

图1|SimpleVLA-RL 概述。

SimpleVLA-RL 是一种用于视觉语言动作(VLA)的高效强化学习框架,它在数据稀缺的情况下改进了长期规划,在模拟和现实世界任务中超越了从示例中学习(SFT),揭示了一种“推切”新动作现象,并增强了空间/对象/目标的泛化能力。

主要贡献

构建 VLA 专属高效 RL 框架:基于 veRL 扩展,加入 VLA 交互式轨迹采样、多环境并行渲染及 “训练 - 推理 - 渲染” 一体化设计,解决 VLA 与环境交互慢、成本高的问题,支持规模化训练。

刷新多基准 SOTA 性能:结合探索增强策略,在 LIBERO、RoboTwin 1.0&2.0 上均超越现有基线,如 LIBERO 平均成功率从 91.0% 提至 99.1%,RoboTwin 2.0 从 38.3% 提至 68.8%,长时序任务表现突出。

突破数据与泛化瓶颈:单条任务演示数据下,LIBERO 平均成功率从 48.9% 提至 96.9%;在空间、对象、任务泛化测试中,避免 SFT 的 “灾难性遗忘”,未见任务性能提升。

实现高效 Sim-to-Real 迁移:仅用仿真数据训练,真实世界机械臂任务平均成功率从 17.5% 提至 38.5%,验证真实部署能力。

发现 “Pushcut” 新现象:RL 训练使模型自主探索出 “推” 等超越人类演示的新策略,为 VLA 行为创新提供方向。

核心方案:SimpleVLA-RL 框架设计

SimpleVLA-RL 基于Volcano Engine Reinforcement Learning框架扩展,针对 VLA 模型特点优化,实现端到端在线规则化 RL 训练,核心设计包含四部分:

交互式 VLA 轨迹采样(解决 VLA 与 LLM 的轨迹生成差异)

VLA 与 LLM 的轨迹生成逻辑存在本质不同:LLM 通过文本 token 随机采样生成多样性,且无需环境交互;VLA 需动态更新视觉观测与机器人状态,依赖闭环交互。为此,SimpleVLA-RL 采用:

  • 动作 token 化策略:选择与 PPO 类 RL 算法兼容性最好的 “动作 token 分布生成” 方案,VLA 模型输出动作 token 概率分布,通过随机采样生成多样化轨迹。
  • 环境交互逻辑:每一步生成长度为 k 的 “动作块”(, ,..., ),机器人执行后环境返回新状态 ,模型基于新状态生成下一个动作块,直至任务完成或达到最大步数。

结果奖励建模(简化奖励设计,提升扩展性)

摒弃传统 RL 复杂的过程奖励(如 “距离目标的距离”),采用二元结果奖励:任务成功则整个轨迹奖励为 1,失败则为 0;梯度计算时,奖励均匀分配到轨迹中的每个动作 token。该设计的优势在于:

  • 无需任务特定奖励调参,可跨环境通用;
  • 避免过程奖励的 “非迁移性” 问题,聚焦任务最终目标。

探索增强策略(解决 VLA 模型探索不足问题)

VLA 模型易因训练轨迹同质化收敛到狭窄的解决方案,SimpleVLA-RL 通过三项修改提升探索效率:

  • 动态采样:排除所有轨迹全成功或全失败的样本组,仅保留 “混合结果组”(0 < 成功轨迹数 < 组内总轨迹数),确保优势估计非零,避免梯度消失。
  • 调整 GRPO 裁剪范围:将传统 GRPO 的裁剪区间 [0.8,1.2] 扩展为 [0.8,1.28],允许低概率但潜在有效的动作 token 概率提升,减少探索限制。
  • 提高采样温度:将 rollout 阶段的温度参数从 1.0 提升至 1.6,鼓励模型生成更多样化轨迹。

训练目标(基于 GRPO 优化,降低复杂度)

采用修改后的 Group Relative Policy Optimization(GRPO)目标函数,核心优化:

  • 移除 KL 散度正则项:无需参考模型,减少内存消耗并避免限制新行为探索;
  • 目标函数公式:  其中,为重要性采样比,为归一化优势(基于组内轨迹奖励的均值和标准差计算),确保训练稳定且探索有效。

图2|SimpleVLA-RL概述。

实验验证:性能与优势证明

SimpleVLA-RL 基于 OpenVLA-OFT( autoregressive VLA 模型)实现,在三大基准测试(LIBERO、RoboTwin1.0、RoboTwin2.0)及真实世界任务中验证,核心结果如下:

基准测试性能:刷新 SOTA

  • LIBERO(单臂操控基准):在 Spatial、Object、Goal、Long 四个任务集上,SimpleVLA-RL 将 OpenVLA-OFT 的平均成功率从 91.0% 提升至 99.1%,其中长时序任务 LIBERO-Long 提升 12.0 个百分点(86.5%→98.5%),超越 π₀(85.2%)、UniVLA(92.0%)等 SOTA 模型。
  • RoboTwin1.0(双臂操控基准):四个任务平均成功率从 39.8% 提升至 70.4%,其中 “Blocks Stack” 任务提升 33.1 个百分点(7.1%→40.2%)。
  • RoboTwin2.0(高多样性双臂基准):覆盖短 / 中 / 长 / 超长时序 12 个任务,平均成功率从 38.3% 提升至 68.8%,超越 π₀(49.2%)和 RDT(33.3%);即使是需多轮交互的超长时序任务(如 “Put Bottles Dustbin”),也提升 18.7 个百分点。

数据效率:突破数据稀缺瓶颈

在 “单轨迹 SFT”(每个任务仅 1 条演示数据)场景下:

  • OpenVLA-OFT 的 LIBERO 平均成功率仅 48.9%,长时序任务 LIBERO-Long 仅 17.3%;
  • 应用 SimpleVLA-RL 后,平均成功率提升至 96.9%(超过 “全轨迹 SFT” 的 91.0%),LIBERO-Long 提升至 91.7%;
  • 与 “全轨迹 SFT+RL”(99.1%)的差距仅 2.2 个百分点,证明 RL 可大幅降低对大规模演示数据的依赖。

泛化能力:跨场景 / 对象 / 任务的鲁棒性

在 LIBERO 的 “9 个已见任务训练 + 1 个未见任务测试” 实验中,SimpleVLA-RL 与 SFT 表现出显著差异:

  • SFT:在已见任务成功率达 90% 以上时,未见任务出现 “灾难性遗忘”,部分任务成功率降至 0%(如 LIBERO-Goal 的 3 个未见任务);
  • SimpleVLA-RL:所有未见任务成功率均提升,其中 LIBERO-Object 的 “Unseen Task 2” 提升 36.5 个百分点,LIBERO-Spatial 的 “Unseen Task 1” 从 43.3% 提升至 71.8%,证明 RL 能学习通用技能而非过拟合特定数据。

图3|LIBERO的泛化分析:goal不可见(上),object不可见(中),空间不可见(底部)。

真实世界部署:高效 Sim-to-Real 迁移

仅使用仿真数据训练(无真实数据),在 AgileX Piper 机械臂上测试 4 个真实任务:

  • OpenVLA-OFT 的平均成功率仅 17.5%,“Pick Bottle” 任务完全失败;
  • SimpleVLA-RL 将平均成功率提升至 38.5%,“Stack Bowls” 提升 32 个百分点(38.0%→70.0%),“Pick Bottle” 实现 14% 成功率,证明 RL 能增强仿真模型的真实环境适配性。

关键发现:“Pushcut” 现象与失败模式“Pushcut”:RL 诱导的新行为发现

在 RoboTwin2.0 的 “Move Can Pot” 和 “Place A2B Right” 任务中,SFT 模型仅复现演示数据中的 “抓取 - 移动 - 放置” 策略,而 SimpleVLA-RL 训练后的模型自主发现更高效的 “推” 策略(如直接将罐子推到目标位置)——这种 “突破演示数据模式” 的现象被定义为 “Pushcut”。其本质是:结果奖励允许模型探索所有能完成任务的路径,而非局限于人类演示的单一方式。

图4|“pushcut”的图示。通过RL在RoboTwin2.0任务中的紧急推送行为。

失败模式:初始模型能力的阈值效应

实验表明,SimpleVLA-RL 的有效性依赖初始模型能力:

  • 初始成功率为 0:即使施加 RL,性能仍维持 0%(如 “0 轨迹 SFT” 的所有任务),因无成功轨迹生成,奖励全为 0,无法更新梯度;
  • 初始成功率低(<10%):RL 提升有限,如 “100 轨迹 SFT” 的 “Pick Dual Bottles” 任务,仅从 1.2% 提升至 4.3%;
  • 初始成功率较高(>28%):RL 提升显著,如 “1000 轨迹 SFT” 的平均成功率从 28.2% 提升至 50.4%。 这说明:VLA 模型需具备 “基础任务能力”(阈值以上),RL 才能通过探索进一步优化性能。

分析与总结

1. 与现有工作的差异

  • LLM RL:现有工作聚焦推理任务(如数学、代码),依赖文本 token 生成;SimpleVLA-RL 针对机器人交互场景,需环境动态反馈与连续动作生成。
  • VLA 模型:主流 VLA 采用 “预训练 + SFT” 的模仿学习范式,依赖大规模轨迹数据;SimpleVLA-RL 是早期系统性探索 VLA 在线 RL 的工作,且首次验证 RL 在真实机器人任务中的有效性。
  • VLA RL 相关工作:现有工作(如 GRAPE、ConRFT)多依赖人类偏好或密集奖励,SimpleVLA-RL 采用简单规则化结果奖励,更易扩展且无需额外标注。

2. 研究结论

SimpleVLA-RL 通过 “交互式轨迹采样 + 结果奖励 + 探索增强” 的设计,解决了 VLA 模型训练的三大核心问题:

  1. 降低对大规模演示数据的依赖,提升数据效率;
  2. 增强模型在分布偏移场景下的泛化能力;
  3. 实现高效的 Sim-to-Real 迁移,提升真实世界任务性能。 同时,“Pushcut” 现象证明 RL 能让 VLA 模型超越人类演示的局限,探索更优策略,为未来自主、自适应机器人模型的研发提供了新范式。

Logo

更多推荐