51c大模型~合集179
然而,在更具挑战性的评估和实际使用中,准确度会固定在 100% 以下,因为有些问题的答案由于各种原因(例如信息不可用、小型模型的思维能力有限或需要澄清的歧义)而无法确定。OpenAI 举了个例子,当向不同的广泛使用的聊天机器人询问 Adam Tauman Kalai(论文一作)的博士论文标题时,它们自信地给出了三个不同的答案,但没有一个是正确的。例如,当被要求回答毛利语问题时,一个不懂毛利语的小型
自己的原文哦~ https://blog.51cto.com/whaosoft/14165452
#我们找到了AI幻觉的罪魁祸首
OpenAI罕见发论文
AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。
大模型会有幻觉,这几乎已经成为一个常识,让每一个严肃使用大模型的人都不得不谨慎小心。OpenAI 也指出:「ChatGPT 也会产生幻觉。GPT-5 的幻觉明显更少,尤其是在执行推理时,但幻觉仍然会发生。幻觉仍然是所有大型语言模型面临的一大根本挑战。」
尽管现在学术界已经提出了各种各样用来降低模型幻觉的方法,但目前尚未出现能彻底「根治」模型幻觉的良方。
那么,大模型究竟为什么会出现幻觉呢?今天,OpenAI 罕见发表论文,系统性地揭示了幻觉的根源。
首先,定义幻觉。OpenAI 给出的简单定义是:「模型自信地生成不真实答案的情况。」
至于原因,简单来说就是:标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。
- 论文标题:Why Language Models Hallucinate
- 论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
下面我们就来具体看看 OpenAI 究竟发现了什么。
什么是幻觉?
幻觉是语言模型生成的看似合理但却错误的陈述。
即使看似简单的问题,它们也可能以出人意料的方式出现。OpenAI 举了个例子,当向不同的广泛使用的聊天机器人询问 Adam Tauman Kalai(论文一作)的博士论文标题时,它们自信地给出了三个不同的答案,但没有一个是正确的。
当询问他的生日时,它给出了三个不同的日期,同样都是错误的。
为了测试而学习
OpenAI 表示,幻觉持续存在,部分原因是当前的评估方法设置了错误的激励机制。虽然评估本身不会直接导致幻觉,但大多数评估模型性能的方式会鼓励模型进行猜测,而不是诚实地面对不确定性。
可以把它想象成一个多项选择题测试。如果你不知道答案,但随意猜测,你可能会很幸运地猜对。留空则必定得零分。同样,当模型仅根据准确度(即完全答对问题的百分比)进行评分时,它们会被鼓励进行猜测,而不是承认「我不知道」。
再举一个例子,假设一个语言模型被问及某人的生日,但它不知道。如果它猜测「9 月 10 日」,那么它有 1/365 的概率猜对。说「我不知道」则必定得零分。在数千道测试题中,猜测型模型最终在记分牌上的表现要优于谨慎且承认不确定的模型。
对于只有一个「正确答案」的问题,可以考虑三类答案:准确答案、错误答案以及模型不愿冒险猜测的弃权答案。
OpenAI 表示,弃权答案是谦逊(humility)指标的一部分,而谦逊是 OpenAI 的核心价值观之一。
大多数分数指标会根据准确度对模型进行优先排序,但错误答案比弃权答案更糟糕。OpenAI 的模型规范指出,指出不确定性或要求澄清会更好,而不是自信地提供可能不正确的信息。
以 GPT5 系统卡中的 SimpleQA 评估为例。
在准确度方面,更早期的 OpenAI o4-mini 模型表现略好。然而,其错误率(即幻觉率)明显较高。在不确定的情况下进行策略性猜测可以提高准确度,但也会增加错误和幻觉。
在对数十次评估的结果进行平均时,大多数基准测试都会剔除准确度指标,但这会导致对错之间的错误二分法。
在像 SimpleQA 这样的简单评估中,一些模型的准确度接近 100%,从而消除了幻觉。然而,在更具挑战性的评估和实际使用中,准确度会固定在 100% 以下,因为有些问题的答案由于各种原因(例如信息不可用、小型模型的思维能力有限或需要澄清的歧义)而无法确定。
尽管如此,仅以准确度为衡量标准的评估指标仍然占据着排行榜和模型卡的主导地位,这就会鼓励开发者构建能够猜测而不是退缩的模型。
正因为此,即使模型变得更加先进,它们仍然会产生幻觉。原因之一便是它们倾向于自信地给出错误答案,而不是承认不确定。
更好的评估方法
对此,OpenAI 指出了一个简单的解决办法:对自信错误(confidential error)的惩罚力度大于对不确定性的惩罚力度,并对恰当表达不确定性的行为给予部分加分。
这个想法并不新鲜。一些标准化测试长期以来一直使用对错误答案进行负面评分或对留空问题给予部分加分的方法来阻止盲猜。一些研究团队也探索了考虑不确定性和校准的评估方法。
但 OpenAI 表示,仅仅增加一些新的不确定性感知测试是不够的。广泛使用的、基于准确度的评估方法需要更新,使其评分能够阻止猜测。
如果主要评估指标依然继续为模型幸运的猜测给予奖励,模型就会继续学习猜测。修改评估指标可以扩大降低幻觉技术的采用范围,包括新开发的和先前研究的技术。
幻觉是如何从下一个词预测中产生的
前面已经讨论过为什么幻觉如此难以摆脱,但这些高度具体的事实性错误究竟从何而来?
毕竟,大型预训练模型很少出现其他类型的错误,例如拼写错误和括号不匹配。
OpenAI 表示,区别必定在于数据中存在哪些模式。
语言模型首先通过预训练进行学习,这是一个预测海量文本中下一个词的过程。
与传统的机器学习问题不同,每个语句没有「真 / 假」标签。该模型只看到流畅语言的正面示例,并且必须去近似整体分布。
当没有任何被标注为无效的示例时,区分有效语句和无效语句会更加困难。但即使有标签,一些错误也是不可避免的。
为了理解原因,可以考虑一个更简单的类比。在图像识别中,如果数百万张猫狗照片被标记为「猫」或「狗」,算法可以学会可靠地对它们进行分类。但想象一下,如果用宠物的生日来标记每张宠物照片。由于生日本质上是随机的,无论算法多么先进,这项任务总是会产生错误。
同样的原则也适用于预训练。拼写和括号遵循一致的模式,因此这些错误会随着规模的扩大而消失。但像宠物的生日这样任意的低频事实,无法仅凭模式预测,因此会导致幻觉。
OpenAI 的分析解释了哪些类型的幻觉会由下一个词预测产生。理想情况下,预训练后的后续阶段应该能够消除这些幻觉,但由于上一节中描述的原因,这并未完全实现。
总结
OpenAI 表示:「我们希望本文中的统计学视角能够阐明幻觉的本质,并驳斥一些常见的误解」:
有人宣称:幻觉可以通过提高准确度来消除,因为 100% 准确的模型永远不会产生幻觉。
发现:准确度永远不会达到 100%,因为无论模型规模、搜索和推理能力如何,有些现实世界的问题本质上是无法回答的。
有人宣称:幻觉是不可避免的。
发现:幻觉并非不可避免,因为语言模型在不确定时可以放弃回答。
有人宣称:避免幻觉需要一定程度的智能,而这只有大型模型才能实现。
发现:小型模型更容易了解自身的局限性。例如,当被要求回答毛利语问题时,一个不懂毛利语的小型模型可以直接回答「我不知道」,而一个认识一些毛利语的模型则必须确定其置信度。正如论文中所讨论的,「校准」所需的计算量远小于保持准确。
有人宣称:幻觉是现代语言模型的一个神秘缺陷。
发现:我们可以理解幻觉产生以及在评估中获得奖励的统计学机制。
有人宣称:要测量幻觉,我们只需要一个好的幻觉评估。
发现:已有研究者发表了一些幻觉评估。然而,一个好的幻觉评估与数百种传统的基于准确度的评估相比几乎没有效果,这些评估会惩罚谦逊并奖励猜测。相反,所有主要的评估指标都需要重新设计,以奖励不确定性的表达。
OpenAI 表示:「我们最新的模型幻觉率更低,并且我们将继续努力,进一步降低语言模型输出的置信错误率。」
顺带一提,据 TechCrunch 报道,OpenAI 正在重组其模型行为(Model Behavior)团队,这是一支规模虽小但颇具影响力的研究人员团队,他们决定着该公司的 AI 模型与人互动的方式。现在,该团队将向 OpenAI 的后期训练主管 Max Schwarzer 汇报。
而该团队的创始负责人 Joanne Jang 则将在公司启动一个新项目,名为 oai Labs。据她的推文介绍:「这是一个以研究为导向的团队,专注于发明和设计人们与 AI 协作的新界面原型。」
参考链接
https://openai.com/index/why-language-models-hallucinate/
https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/
https://x.com/joannejang/status/1964107648296767820
.
#Memory³
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
谁率先让模型拥有「记忆」,谁就掌握主动权。
「记忆」会是引爆新一轮 AI 浪潮的最后一块拼图吗?
如果时间往前推半年或四五个月,业界对于这一问题可能都是疑惑、不解:彼时 DeepSeek 将大模型推理能力推至高潮引起的余波仍在蔓延,Manus 在全球范围内开启通用 AI Agent 新叙事,人们正沉浸在技术和应用双面开花带来的热闹、狂欢中……「记忆」,有什么好说的?
然而时至今日,推理已然成为各大模型标配,「百 Agent 混战」的背后,「通用 Agent」一席仍旧空缺。技术演进曲线的放缓和爆发式应用到来的「遥遥无期」,开始让业界意识到,下一轮 AI 智能提升的关键在于,让 AI 能够像人类一样持续学习积累经验、适应新任务而不遗忘旧知识,同时实现长上下文的高效理解。
换句话说,就是让大模型拥有像人类一样的「记忆」能力。或许有人会问,当前大模型似乎依靠长文本、外部数据库已经有「记忆」?
是,也不是。如果按照业界呼唤的「类人记忆」这一范畴来看,现在我们所讨论的「记忆」,是指大模型能够具备人类对记忆的组织、检索、应用方式,是一种相较于当前大模型「短期记忆」的「长期记忆」或「终身记忆」。
其实,从国内外大模型从业者的一些操作中也可以感知到「记忆」在业界的「变热」,尤其是刚刚过去的 8 月:
8 月 12 日,Anthropic 宣布旗下聊天机器人 Claude 具有记忆功能,对话中可根据搜索过去对话,在新的聊天中寻找及引用相关资讯,让双方能够无缝地持续讨论,「不必每次都从头开始」。
随后 13 日,谷歌宣布 Gemini 也已配备记忆能力,且支持跨越多次对话,从用户交流中提炼关键细节和偏好,并在下一次交互时主动调用,让对话更自然、更连贯。
8 月 14 日,字节跳动 Seed 团队发布 M3-Agent 系统,首次让 AI 具备了类似人类的长期记忆和推理能力,且不再仅限于文本,已然扩展到视频、音频等多模态中。
8 月 20 日,OpenAI CEO Sam Altman 在发布 GPT-5 后,谈及 GPT-6 的设计愿景时提到,他希望未来的 ChatGPT 版本能够让用户定义语气和个性,而其中关键就在于「记忆」,这将是 GPT-6 的重点所在。
其实早在去年 2 月的时候,OpenAI 已经在 ChatGPT 上线记忆功能。
而今年 4 月,马斯克的 xAI 也宣称 Grok 已经能够记住多轮对话内容。
最新的消息是,又有一个玩家「跑步入场」——Mistral AI,宣布开始引入「记忆」系统,已与 20 多个由 MCP 提供支持的企业平台集成,试图通过记忆来记住重要的事情……
越来越多的玩家开始入局、押注「记忆」。基于此,xx与业界从业者进行了交流,我们发现:围绕「记忆」的研究将是接下来大模型的新方向,而谁能率先让大模型拥有像人类一样的「记忆」能力,谁就掌握了主动权。
「记忆」能力,是此刻 AI 技术侧和应用侧的双重诉求
虽然国内外 AI 厂商最近纷纷扎堆推出「记忆」相关产品,但实际上,在学术界,意识到应该将 AI 与记忆相结合的研究要开始得更早一些。
记忆张量 CTO 李志宇告诉xx,大概是从 2023 年年底开始的。
记忆张量是一家聚焦 Agent Memory 的初创企业,推出了业界首个记忆操作系统,也是业界最早关注到这一领域的研究团队之一。2024 年 7 月,中国科学院院士鄂维南牵头主导,杨泓康、熊飞宇、李志宇等人参与研发的记忆分层大模型 ——Memory³(忆立方)正式发布,该模型开创性地将参数拆解为隐性记忆、显性记忆和外置记忆库,以优化推理效率并降低幻觉问题。一经发布,便引起关注,并在后续被 Meta、Google 等团队跟进。而大多数参与成员则是记忆张量的初始团队成员。
李志宇告诉xx,虽然早早开始推进「记忆」相关研究,但其实内心也并非那么笃定。
怎么理解?
回顾那一时间段,业界正沉浸在 Scaling Law 是 LLM 第一性原理的叙事中,各大模型厂商忙着堆算力、堆数据,来换取大模型性能提升,但现实是算力匮乏,大厂可以依靠资金与资源上的累积来「大力出奇迹」,但这对许多开发基座模型的团队来说就是一个巨大成本负担,根本比不过。
基于此,团队开始思考能不能从基础理论角度把大模型再「拆开」,看看是否还有可提升空间?「如果某一时刻,当下的 Scaling Law 失效,另一条 Scaling 路线又会是什么?」
一番研究后发现,其实没必要把所有知识(记忆)都压缩进大模型参数空间,只需把公共常识或推理能力压缩进去,而对于那些细碎知识,保证让它在需要用这条具体记忆时能够去检索、使用、与模型一起做推理就够了。团队便试着将模型参数记忆按照显性记忆、隐性记忆和外部记忆做分层建模,以便获得更好的性能提升。
结果很明显,「赌」对了,这是一条具有开创意义的道路,之后团队便继续沿着这一路线进行大模型「记忆」能力的探索……
而腾讯 AI Lab 专家研究员王琰开始感知到大模型「记忆」能力的重要,也是在 2023 年年底,不同的是,他是从应用侧感知到的。
腾讯 AI Lab 是腾讯推出的企业级 AI 实验室,成立于 2016 年 4 月,致力于推动 AGI 发展,研究方向涵盖 NLP、语音、CV、游戏等多个领域。据了解,AI Lab 是业界最早进行利用 RAG 提升模型「记忆」能力的研究团队之一,相关研究曾获得 2021 年 ACL 杰出论文奖。
王琰告诉xx,当时他正在开发一款游戏 Agent,其中最重要的一个功能是「陪伴」,比如玩家玩了一年的游戏,那 Agent 就应该记得玩家这一年在游戏里所发生的事情,这就意味着 Agent 需要「终身记忆」。但明显,当时模型的「记忆」能力根本达不到这一诉求。
那时大模型应用主要集中在对话产品,一种主流观点认为,长文本(Long Context)就是一切,或将是通往 AGI 的最佳路径。「如果我们有无限长的 Long Context,我们就能解决任何问题」,是大多数业内人士所坚信的。
但在游戏 Agent 的研究实践上,让王琰意识到不是这么回事。
Long Context 生成方面的研究主要集中在长度外推和扩充窗口长度上,其主要思想是在模型的 KV states 中尽可能多且有效地储存上文信息,并让模型在推理时候尽可能准确用好这些信息。
但这种理念仅适用于对话场景,因为对话场景的 state(状态)不会改变,可 Agent 不同,Agent 场景的一个特点就是场景周围环境随时变化,即 state 随时变化,如果这种变化以 Long Context 形式注入,Context Window 分分钟就要「爆炸」。
当然,扩 Context Window 也是一种有效办法,可更长的上下文意味着更大的显存消耗,「这是个根本无法承受的成本。」
意识到这一点,王琰开始探索新方法。2024 年 1 月,新方法初见成效。
这是一种全新思路:将上文信息储存在模型参数,而非 KV cache 中,来降低对 KV states 的依赖。这些用来储存上文信息的参数被集中在一个临时的 Lora 模块(Temp-Lora)中,推理过程不断拿模型生成的 token 训练这一模块,以实现历史信息存储。
结合他在游戏 Agent 的开发上来看,这是一个参数化记忆,用一个 Lora 模块来记载 Agent 与玩家过去的交互历史,让模型实现类似「终身记忆」的能力。
很明显,在获悉早期从业者之所以进行「记忆」能力相关研究的「缘起」后,对于当下各大模型厂商不断重申「记忆」的重要性也就不难理解:这是技术侧和应用侧的双重诉求。
从技术层面来看,如果说 2023 年年底,只是少数人担心 Scaling Law 会失效,那么现在不管是 OpenAI 还是其他 AI 大厂都已经清楚认识到,过去几年通过堆算力、参数量来获得性能提升的「边际效应」已经明显下降,即便再去堆成倍的算力,都拿不到 10% 甚至 5% 的能力突破,仅仅依靠「大」已经无法把模型性能,或者在应用场景的能力进行比较好的提升。他们同样也想要去寻找新的技术范式。
「技术本身的瓶颈导致大家开始寻找新方向。」李志宇说道。
他认为,从这个角度来看,如果用人类来类比大模型,人与动物的不同在于,一是人会制造和使用工具,这对应的是(模型)MCP 这一层的能力。另外一点是,人能够总结、思考和反馈,并且形成记忆,然后让「记忆」在人类整个文明传承过程当中,被不断建模、重构以获得进一步性能提升。如今看来,模型工具层面已经做完了,而且更多是横向过程(MCP 层级),接下来大家想要突破的可能就是「记忆」这个口子了。
从应用层面来看,当前 AI Agent 已是大模型主流叙事,数量上「百 Agent」竞相狂奔的盛景已是事实。能力上,大家对于模型本身的要求越来越高,不再是最开始仅作为单一工具去解决瞬时问题,而是把 AI 当成合作伙伴或秘书去解决更为长期的问题,这就需要它能够记住之前的交互与反馈。
「这种情况下,模型终身记忆,而且是不依赖 Context Window 的终身记忆就成为非常重要的事情了。」王琰说道。
Agent 想要取得突破性进展,「记忆」是必不可少的一个环节。
技术尚未收敛,路径抉择不一
当前,随着市场上开始重视模型「记忆」能力的大模型厂商越来越多,「记忆」前面的限定词也变得五花八门,「终身记忆」「持久记忆」「全局记忆」「个性化记忆」等术语不断涌现。
在李志宇看来,这是因为单纯谈「记忆」本身对于普通用户的理解成本较高,所以各大厂商在命名时会在前面加限定词,一定程度上也代表了各自的技术侧重点不同。
比如,OpenAI 提及的是「全局记忆」,更像是对应于 Anthropic 提出的「局部记忆」概念的映射。前者认为记忆应该无处不在,在用户可能用到的地方随时随地出现,所以「全局记忆」是从覆盖面上考虑的,而「终身或持久记忆」是基于时间线角度的考量。归根究底,「记忆」能力的重点在于如何把大模型记忆本身或 AI 应用的记忆本身这件事情做好。
目前来看,当前业界对于大模型「记忆」能力的研究主要有这样几种路线。
一是参数化记忆,是架构层面,基于基座模型本身的驱动融合记忆创新,去解决记忆问题。目标是让模型从参数层面自己能够区分哪些是需要被作为「记忆」去检索和建模,然后在推理过程中融合到前向推理过程中。
参数化记忆也分两种,一种是直接基于目前模型主流的 Transformer 架构展开研究,比如 Temp-Lora 方法,就是用 Lora 模块来记录过去的对话历史。
另外一种是采用非 Transformer 架构。比如,谷歌推出 Titans 架构,提出三级记忆(短期 / 长期 / 持久记忆),用「惊讶度」机制动态更新记忆;Meta 的研究突破在于将 Transformer 中的前馈网络(FFN)替换为记忆层,并保持其他部分不变;国内的非 Transformer 架构 RWKV 等。
李志宇认为,这一路线的好处在于整体理论上限非常高,(做得好的话)可能突破现有的模型「记忆」,对于时间、人物、连续性的感知问题都能够有较好解决方案。但问题也很明显,「研发成本非常高,短期内落地难度比较大。」
王琰持相似看法。在他看来,当前市场上有多种非 Transformer 模型架构宣称自己有「长期记忆」能力,但问题在于这种「长期」局限于架构,就像人脑容量一样,是有上限的。这就导致这些所谓的「长期记忆」模型在长期记忆上「打不过」只有短期记忆的 Transformer,因为 Transformer 可以通过堆硬件来解决,实现「长期记忆」。
二是上下文记忆(上下文工程),即将模型需要知道的信息以 prompt 方式放在 Context Window 中,当模型开始推理之前可以先浏览一遍获取相应信息。Manus 是一家典型将上下文工程做到极致的公司,近期研究中不断强调在 Agent 交互过程中更好地做 KV cache 管理(KV cache 管理本质上就是一种记忆管理形式),尽可能让不同 Agent 之间能够复用一些「记忆」。
但局限性也很明显,上下文工程是基于人类智慧来指挥,那当模型推理出错时就容易混淆,到底是上下文工程出错还是模型本身出错?当前并没有一个自动化机制来评判,所以最后上下文工程容易变成纯粹的工程事情。
三是外部数据库 / RAG,即将信息存储在模型外部数据库中(如向量数据库),在需要时通过 RAG 将最相关内容取回,注入到当前 Context Window 中,为模型提供决策依据。
从研究上来看,现有 RAG 最终目的是让模型每次搜索都一定返回正确结果,可即便是人类用搜索引擎也会经常修改关键词,所以难以保证搜索时能够找到自己想要的内容。为此,就不得不修改检索算法,但这也并非易事,甚至需要扩大团队规模来专门做这件事,最后往往变成大家都在做 RAG,并非模型本身,本末倒置。而且这显然也无法通过训练来实现模型整体性能提升,所以虽然看似工程上广泛使用,但上限低。
很明显,每一条路线都有各自优势与局限性,短期内并没有一个最优解,有些玩家甚至选择的不是单一路线,而是探索多种路线的融合。
王琰认为,这是由于当前技术路线还未收敛,按照各自路线进行探索与改进,都会带来一定程度上模型「记忆」能力的提升。因为大家诉求一致,「能够用尽量少的代价来记忆得尽量牢。」王琰说道,根据这一诉求,未来模型「记忆」能力无非就是在围绕记忆的压缩比与保真度这两个事情在做。
同样,李志宇也这样认为,当前有关模型「记忆」的研究还处于早期阶段,各种路线的解题思路其实都是围绕如何用空间换时间,或者如何在有限的空间内提高模型整体的推理和应用效率。
据了解,目前王琰及其所在团队正全力攻关具有 Inference Time Training 能力的新型模型架构,即在推理过程中不断的把过去历史储存到模型的参数区中,也就是参数化记忆。
而相较于常规路线划分,李志宇更倾向于把上下文工程与 RAG + 外部数据库这种形式归为一类,因为它们更多是从应用层面解决记忆机制实现问题,且本质都是一种「外挂记忆」,上限比较明显。
路线上则选择了一条折中方式,即将目前基模能落地的一部分加上应用工程创新能落地的一部分,两者相互结合,打造出一套能够解决问题的记忆框架,这也正是当前记忆张量在做的事情,并推出面向大模型的开源记忆操作系统 MemOS。
谁能凭借「记忆」再造一个「DeepSeek」?
虽然关于模型「记忆」能力的路线划分复杂、多样,但其实从玩家来看,当前业界主要有两类玩家。
一类是像 OpenAI、Anthropic、Google 这类 AI 厂商,他们有自己 ToC 向 Chat 服务,在这一类的服务里面,他们更多是想通过引入「长短期记忆」能力来达成个性化服务目标。
当然,可能各个厂商所要达成个性化能力本身会有差异,像是 OpenAI 强调「全局记忆」,Anthropic 强调的是「局部记忆」按需使用,但本质诉求更多是想借助「记忆」的个性化能力来留住用户。
另一类是「记忆」的中间件服务商,类似于 Mem0 或者记忆张量的 MemOS ,以及 Zep 等开源的记忆框架,它们更多是扮演大模型到应用层的中间件角色,面向更为广泛的开发者,希望开发者和相关应用产品能够体会到,类似于 OpenAI 在自己产品里面展现的「记忆」能力增强所带来的体验和性能变化。
而围绕着两类玩家在模型「记忆」能力上的诉求不同,他们各自的商业模式也或将发生变化。
比如对于 OpenAI 这样的大厂来说,他们的目标是让用户在自家的 APP 类产品上高频使用、形成越多越多的「记忆」,继而在自家 APP 上沉淀、形成粘性,之后一旦用户绑定,可能就很难再挪到其他地方去。从这个角度来说,他们希望用户能相对独立、在自家场景池子里沉淀出「独家记忆」。
而对于初创企业来说,他们希望更多的开发者或企业能够快速去具备「记忆」能力,同时让大家形成一个可共享的记忆中枢,随着越来越多的 APP 联合去做记忆的共享、中枢的管理,就会形成对原有中心化的「去中心化」,同时也会形成一个新的中心化记忆平台。
这种记忆平台或许能够立体刻画这个用户的所有事情,比如对用户在工作场景、生活场景的经历、偏好等,有一个立体记忆能力,而这种记忆是能够增强他在使用任何与 AI 相关 APP 上的体验。
Mistral AI 的最新动作,无疑是这类玩家的一个典型代表,宣布免费、大幅扩展其企业级业务平台 Le Chat,并已经和 20 多家平台集成。而这一动作也被视为是在试图通过提供先进的「记忆」功能和广泛的第三方集成,来打破已有的 AI 市场竞争格局……
由此看来,AI 战场已经升级,在新一轮围绕「记忆」能力构建的竞赛中,各类玩家是一个互相角力的状态,战况胶着,谁都有可能「跑」出来。而前面也已经提到,「记忆」能力,是模型技术层面和应用层的双重诉求,一旦取得突破性进展,那么无疑将再现「DeepSeek 时刻」「Manus 时刻」。
而从当前 AI「记忆」能力的发展状况来看,目前留给各大玩家的时间也不是「很多」。
按照李志宇的理解,如果将模型「记忆」能力按照抽取、存储、更新、调度、应用、治理六个维度划分,那我们可能距离真正能够在大范围去用,并且大家能够感受到它给我们生活带来无处不在变化的话,可能还需要一到两年的时间。
而如果想要达到治理层面,也就是解决模型「记忆」本身的幻觉问题、隐私保障,甚至立法等问题的话,至少可能还要三到五年的时间。
未来,到底是谁将再现「DeepSeek 时刻」,目前看来是「乾坤未定,一切皆有可能是黑马」。
.
#Fantastic Pretraining Optimizers and Where to Find Them
斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
自 2014 年提出以来,Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位,帮助模型在海量数据下保持稳定并实现较快收敛。
随着模型规模迅速扩大,预训练已成为计算密集型任务的典型代表,在大模型研发中往往是最主要的计算开销。在这种背景下,优化器的设计直接关系到收敛速度与计算成本。
研究者们探索了多种改进方向,其中最快的优化器往往采用矩阵型预条件子(如 Muon、Soap、Kron),相较于经过严格调优的 AdamW,可以带来约 30–40% 的迭代级别加速。
斯坦福大学 Percy Liang 团队的研究指出,尽管存在许多声称能提供显著加速(1.4 至 2 倍)的替代方案,AdamW 依然是预训练的稳健首选,但矩阵型方法在特定数据–模型比例下展现出明显优势。
- 论文标题:Fantastic Pretraining Optimizers and Where to Find Them
- 论文地址:https://www.arxiv.org/pdf/2509.02046v1
- Github:https://github.com/marin-community/marin/issues/1290
- 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ
研究者认为,这种现象可能源于两个关键的方法论缺陷:
- 问题 1:不公平的超参数调优。
基线模型通常调优不足:在常用的 AdamW 基线中,仅仅是调优学习率这一个参数,就能在 1.3 亿参数规模的模型上实现 2 倍的加速。
固定共享的超参数并不能保证比较的公平性:例如,与标准的权重衰减值 0.1 相比,Lion 优化器更偏好较高的权重衰减值(如 0.6)。
左:常用的 AdamW 基线存在调优不足的问题。 在 Brown 等人 [2020] 提出、并被后续多项研究采用的 GPT-3 训练方案中,仅仅针对一个 1 亿参数的模型调整学习率这一个超参数,便可实现高达 2 倍的加速,这凸显了进行恰当超参数优化的重要性。右:在不同优化器之间固定超参数并不能保证比较的公平性。 在以往的研究中,像学习率和权重衰减这类共享超参数通常被设为常量。然而,即使是概念上相似的优化器,其对应的最优超参数也可能大相径庭。
- 问题 2:测试规模不足
大多数测试仅使用小型模型(参数远小于 10 亿)或遵循 Chinchilla 论文提出的 1 倍数据配比。那么,在更大规模的模型或更高的数据配比下,结果会如何呢?
此外,训练早期的检查点也可能产生误导,在学习率衰减阶段,不同方法的损失曲线可能会发生交叉,从而导致最终排名反转。因此,必须在(不同的)设定下进行训练结束时的最终评估。
左:加速效果随模型规模的增大而衰减。 尽管一些优化器在参数量小于 10 亿的模型上相比 AdamW 能展现出较高的加速比(1.3-1.4 倍),但当模型规模增至 12 亿参数时,其加速比会衰减至仅 1.1 倍。右:基于矩阵的优化器性能稳定优于基于标量的优化器。 该图展示了三种基于标量的优化器(AdamW, Nesterov AdamW, Mars)和三种基于矩阵的优化器(Kron, Soap, Muon)在不同 Chinchilla 数据配比下训练时的损失曲线。基于矩阵的优化器相比基于标量的优化器实现了一致的加速效果。此外,在过训练(overtrained)的情况下,这三种基于矩阵的优化器最终会收敛到相似的损失值。
为了验证这一假设,研究人员进行了系统性的比较研究,涵盖了十一种不同的深度学习优化器。他们在多种模型规模(从 1 亿到 12 亿参数)和数据–模型比例(参照 Chinchilla 最优比例的 1 倍至 8 倍)下,为每一种优化器都进行了严谨、独立的超参数调优。
本研究所使用的优化器。
研究发现:
- 独立调优至关重要:一个优化器的最优超参数配置往往无法直接迁移到另一种优化器上。如果缺乏独立调优,不仅比较结果缺乏公平性,而且新优化器相较于精心调优过的 AdamW,实际加速效果远低于其声称的数值。
- 短期评估具有误导性:仅在短时间训练窗口内评估优化器性能是不可靠的。随着训练的进行和学习率衰减,不同优化器的性能排名可能会发生逆转,其损失曲线甚至会多次交叉。
- 矩阵方法性能领先:所有速度最快的优化器都采用了基于矩阵的预条件子,而非传统的逐元素标量缩放。Muon、Soap 和 Kron 等方法,相比严格调优后的 AdamW,能够实现 30–40% 的单步训练速度提升。
有趣的是,最优选择也与具体场景相关:在标准 Chinchilla 数据比例下,Muon 表现最佳;而当数据量相对于模型规模的比例提升至 8 倍以上时,Soap 则成为更优的选择。
方法
研究设计了一套严谨的方法论来评估这些优化器,该方法分为三个主要阶段。首先是通用设置阶段,明确了实验环境。研究使用了四种不同规模的 Transformer 模型,参数量从 130M 到 1.2B,序列长度均为 4096,并详细列举了各模型层数、隐藏维度等具体配置。
所研究的各个模型规模的详细架构超参数。
数据方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 数据集,并使用 LLaMA-3 分词器进行分词,确保了训练数据的丰富性。评估的优化器涵盖了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了当前深度学习优化领域的主流和前沿方法。
阶段 I: 全面参数扫描
研究旨在解决基线优化器超参数调整不当导致其性能被低估的问题。研究采用了坐标下降法,对所有优化器的超参数(包括学习率、权重衰减、预热步数、β₁、β₂、ε、最大梯度范数和批次大小)在预设网格上进行了详尽搜索。
这一阶段的实验设置涵盖了 130M、300M 和 500M 模型在 1 倍 Chinchilla 数据量下的训练,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 数据量下的训练。
研究发现,对每个优化器进行严格的超参数调整至关重要,因为不同优化器之间的最优超参数配置差异显著,盲目迁移超参数会导致不公平的比较。
此外,研究也观察到,与经过精心调整的基线 AdamW 相比,实际的加速效果普遍低于此前一些研究所声称的水平。
阶段 II: 敏感超参数识别
研究根据第一阶段的结果,识别出那些最优值会随模型规模变化的敏感超参数,例如学习率和预热长度。随后,这些敏感超参数在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 数据量下进行了进一步的网格搜索。
第一阶段与第二阶段的主要结果。上图: 我们绘制了第一阶段和第二阶段实验中,模型在 C4/EN 数据集上的验证集损失。图中的每一个点都对应于每种优化器在相应的 Chinchilla 数据配比下所能达到的最优损失值。下图: 我们针对部分优化器,绘制了它们在 HellaSwag 基准上的性能。这些优化器包括:AdamW 基线、性能排名前 2 的基于标量的优化器,以及性能排名前 3 的基于矩阵的优化器。性能数据来自于它们各自最优的运行批次。
通过结合前两个阶段的结果,研究获得了 12 种不同设置下的近乎最优超参数集及其对应的损失。为了量化不同优化器相对于 AdamW 的加速效果,研究拟合了 AdamW 损失随数据预算变化的缩放定律,并以此计算出达到相同损失所需的 AdamW 数据量与优化器实际所需数据量之比,作为加速比。
研究发现,基于矩阵的优化器虽然表现普遍优于基于标量的优化器,但其加速比在实际测试中均未超过 1.4 倍。许多替代优化器在小规模模型或有限数据比例下看似具有优势,但随着模型规模扩大,这些加速优势逐渐消失甚至反转,AdamW 依然是最稳健的预训练首选。
阶段 III: 案例研究
该阶段旨在对更大规模的实验进行深入探索。研究首先检验了超参数的拟合程度,通过拟合形式为
的平滑定律,预测了在模型规模 N 和数据规模 D 下的最优设置。
为了验证这些缩放定律,研究对 1.2B 模型在 1 倍 Chinchilla 数据量下进行了全面扫描,结果显示预测的配置与实际最优配置之间的性能差异极小,证明了预测的有效性。
随后,研究进行了两项案例研究:一是训练 1.2B 模型在 1 至 8 倍 Chinchilla 数据量下,以检验优化器加速效果随模型规模扩展的变化;二是在 16 倍 Chinchilla 数据量下训练 130M 和 300M 模型,以观察在极端数据量与模型比例下的优化器表现。
案例分析。左图: 在 12 亿参数模型上,AdamW、NAdamW、Muon 和 Soap 四种优化器的验证集损失缩放情况。结果显示,Muon 和 Soap 相比 AdamW 仍有显著的加速效果,但相比 NAdamW 已无明显加速优势。中图: 采用与图 3 相同的方法估算加速比。我们观察到,Muon 和 Soap 的加速比随模型规模增大而衰减,最终降至仅 1.1 倍。右图: 在 3 亿参数模型和 16 倍 Chinchilla 数据配比的设定下,实验结果表明,当数据与模型的比例进一步增大时,Soap 的性能优于 Muon。
这一阶段的结果进一步揭示了 Muon 优化器的潜在局限性:尽管 Muon 对高达 1.2B 参数的模型仍有加速效果,但加速比会下降到 1.2 倍以下。在高数据与模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超过了 Muon。研究推测,在数据与模型比例很高时,Soap 和 Kron 所维持的二阶动量变得更为有效。
更多细节请阅读原论文。
.
#Robix
字节跳动Seed推出「机器人大脑」:让机器人学会思考、规划与灵活互动
近日,字节跳动 Seed 团队发布了最新的机器人研究成果——Robix,一个旨在提升机器人思考、规划与灵活交互能力的「机器人大脑」。
标题:Robix: A Unified Model for Robot Interaction, Reasoning and Planning
ArXiv:https://arxiv.org/abs/2509.01106
项目主页:https://robix-seed.github.io/robix/
长期以来,通用机器人在处理复杂、长程任务时,往往因依赖 “模块化” 拼接的设计而显得僵化。Robix 的核心亮点在于其一体化架构:将推理、任务规划与人机交互无缝整合到单个端到端多模态模型中。
根据报告与演示视频,搭载 Robix 的机器人已展现出一系列过去难以实现的复杂交互能力:
- 在做饭时,它不仅能根据菜名(如「鱼香肉丝」)准备食材,还能主动发现缺少配料并询问是否需要补齐;
- 在用户中途改变主意时,它可立即停止当前操作并灵活执行新指令;
- 在你随手涂鸦时,它能识别出画中的物体,并自然地给予回应与赞赏;
……
以下演示视频将直观展示 Robix 在真实互动场景中的工作方式。
,时长04:12
核心思想:
从「指令执行器」到「统一思考者」
在将 AI 从数字世界带入物理现实的过程中,研究者们面临着巨大的挑战。一个真正的通用机器人,需要的远不止是执行「拿起杯子」这样的孤立指令。它必须在开放、动态的环境中,应对一系列复杂难题:
- 理解模糊指令:如何领会「等大家吃完再收盘子」这样带有隐含条件的指令?
- 处理实时反馈:当用户突然说「那个杯子别动」时,如何实时中止并调整计划?
- 动态推理决策:在动态环境中,基于实时感知进行推理,并在物理约束下做出合理决策。
为此,Robix 采用了层次化机器人系统 (Hierarchical Robot System) 架构,将「大脑」与「小脑」解耦,实现「宏观思考,微观执行」:
- 高阶认知层 (High-level Cognitive Layer):扮演「决策大脑」的角色,负责处理复杂的任务。它需要理解人类的指令,进行多模态推理,并制定出适应性的任务规划。Robix 正是为这一层而设计的。
- 低阶控制层 (Low-level Controller Layer):扮演「行动小脑」的角色。它不负责「做什么」的决策,而是忠实地执行来自大脑的原子命令,如「拿起那个红色的苹果」、「向左移动 5 厘米」等。这一层通常由一个视觉 - 语言 - 动作(VLA)模型来实现。
通过这种分工,机器人系统既能在高层次上灵活地与环境和人类互动,又能在低层次上保证动作的精准执行,从而在真实场景中展现接近人类的适应性。
Robix 是一个统一的视觉语言模型,充当机器人系统的「大脑」。它能够接收来自摄像头的第一视角信息和用户的自然语言指令,通过推理思考,生成既能与人沟通的自然回复,也能驱动机器人执行的原子级动作指令。
Robix 技术报告指出,现有多模态模型在迈向通用机器人「大脑」的过程中仍面临两大瓶颈:一是xx推理能力不足,难以将语言和视觉中的抽象概念(如空间关系、物体属性)准确映射到物理世界并应用于推理与规划;二是灵活交互能力缺失,无法在端到端框架中将推理、规划与自然语言交互无缝结合。这些局限严重制约了多模态模型在真实环境中支撑通用机器人智能的潜力。
为此,Robix 采用统一视觉语言模型架构,通过持续预训练增强xx推理能力,并在内部原生整合推理、任务规划与人机交互三大核心功能,从而在端到端流程中实现连贯的复杂指令理解、长程任务规划与自然对话交流,有效提升机器人系统的通用性和稳定性。在此基础上,Robix 进一步展现出更强的交互智能:不仅能够在指令模糊或多解时主动发起澄清,还能在任务执行过程中实时响应中断并进行动态重规划,同时结合上下文与常识进行推理与决策,从而展现出超越以往模块化系统的灵活性与智能性。
现场实测:
Robix 具备基础世界知识,工作交流两不误
技术报告中的概念可能有些抽象,但通过演示视频里揭秘机器人行动前的「内心戏」,我们可以清晰地看到 Robix 是如何工作的。
1. 不仅听懂「话」,更能领会「意」(常识推理)
在演示中,当用户提出要做一道「鱼香肉丝」时,Robix 的表现远超一个搜索引擎。
- 知识调用:它首先根据内置的知识,回答出做这道菜通常需要木耳、胡萝卜、青椒以及葱姜蒜等配料。
演示视频截图 03:24
- 视觉结合:接着,它观察桌上现有的食材,识别出其中有任务所需的胡萝卜和青椒。
演示视频截图 03:36
- 主动规划:最关键的是,在备好现有蔬菜后,它能意识到任务并未完全满足,并主动提出帮助:「我把需要用到的蔬菜都放进去了。不过看起来你好像还缺木耳呢,需要我帮你找找吗?」
演示视频截图 03:44
2. 随时变通,从容应对「我改主意了」 (实时打断)
真实的人机交互充满了不确定性。在清理桌面的任务中,用户多次打断了 Robix 的操作。
当 Robix 正要将一罐可乐放入收纳盒时,用户突然说:「等等,我讨厌喝可乐,你把它扔了吧。」
Robix 立刻理解了这条与原计划完全不同的新指令,中止了「放入收纳盒」的动作,转而执行「扔进垃圾桶」。这种无缝的计划切换能力,是机器人在家庭环境中服务的关键。
演示视频截图 00:49
3. 从「被动响应」到「主动交互」(主动对话)
除了响应用户的指令,Robix 还能主动对话。
在清理任务的结尾,Robix 观察到桌子上只剩下一串葡萄。它没有被动等待新指令,而是主动进行任务总结并发起对话,询问用户:「桌子上就剩下这些葡萄了,要不要帮你打包?」,以此来确认下一步的行动。
演示视频截图 01:15
4. 「眼观六路」,理解真实的三维空间 (空间理解)
Robix 对空间的理解不是平面的,而是立体的。当面对一桌琳琅满目的物品时,用户提出了一个非常考验空间感的问题:「离你较远的这一排,从左往右数的第三个是什么物体?」
Robix 清晰地推理出桌上有远近两排物体,并准确地在远排从左到右定位到第三个物体,回答出:「这是一瓶矿泉水」。这背后是其训练数据中包含的大量多视角对应、深度估计、空间关系等 3D 空间理解任务的支撑。
演示视频截图 02:47
5. 不止是「工具人」,还能成为「聊天搭子」(通用交互)
除了完成任务,Robix 还展现了广泛的通用交互能力。
- 视觉识别:它可以准确读出手机屏幕上的时间「16:17」,也能识别白纸上手写的汉字「测试用,勿动」。
- 开放式对话:当用户展示一幅自己画的简笔画时,Robix 不仅能认出是「一头大象」,还能自然地给出「我觉得你画得非常棒!这头大象看起来很可爱,线条也很流畅」这样的评价,展现了成为一个有趣互动伙伴的潜力。
演示视频截图 02:30
揭秘背后:
Robix 的「养成三部曲」
如此流畅智能的表现,背后是一套严谨而创新的三阶段训练策略。
第一步:打好基础 —— 学习物理世界的规则
为了让模型具备机器人的「物理直觉」,构建对物理世界的基本认知,研究团队在通用视觉语言模型(Qwen2.5-VL)的基础上,用约 2000 亿 token 的海量数据进行「补课」,重点强化三大机器人核心能力:
- 3D 空间理解:通过多视角对应、3D 边界框检测、深度排序与估计等任务,让模型理解三维世界。
- 视觉定位:通过边界框和中心点标注,让模型能准确地「看到」并定位用户指令中提到的物体。
- 任务推理:基于海量机器人和第一视角数据集,训练模型判断「任务是否完成」、「这个动作可行吗」、「下一步该做什么」。
Robix 通过在海量数据上持续预训练构建对物理世界的基本认知
第二步:学会互动 —— 情景模拟中的「社交演练」
真实世界中复杂的人机交互数据非常稀缺。为此,团队设计了一套创新的「交互合成」流水线,将现有的机器人操作数据转化为包含七种复杂人机交互场景的数据集,包括:多阶段指令、约束指令、开放式指令、随时打断、无效 / 非法指令、模糊指令和人机闲聊。这相当于让 Robix 在模拟环境中经历了各种「极限拉扯」,学会了如何灵活应对。
Robix 训练数据构造「流水线」,涵盖了多种复杂的人机交互场景
第三步:自我完善 —— 纠正「思想与行动的偏差」
SFT 之后的模型有时仍会犯一些逻辑错误,比如「想法与行动不一致」(心里想着扔纸巾,手上却要去拿杯子)。为了解决这个问题,团队引入了强化学习,设计了一个特殊的「思想 - 行动一致性」奖励函数 ,这个机制就像一位严格的导师,不断纠正 Robix 的逻辑偏差,让 Robix 的思考逻辑更严谨,行动更可靠。
评估结果:
Robix 在xx推理、任务规划与人机交互方面表现出色
研究团队通过一系列离线基准和在线真实任务测试,对 Robix 进行了全面的评估。
1. 基础感知与推理能力评估
在 31 个公开基准测试中,预训练后的 Robix-Base 模型在 3D 空间理解、视觉定位和任务推理等xx推理能力上表现出明显提升。
Robix 展现出比较强的xx推理和多模态理解能力
- 3D 空间理解:在 8 个空间推理基准测试中,Robix-7B 和 Robix-32B 在其中 7 个任务上均优于其基座模型 Qwen2.5-VL,平均准确率分别提升 6.5 和 5.1 个绝对点;同时在 5 个任务中超过了业界代表性闭源多模态模型 Gemini-2.5-Pro,展现出优异的空间理解能力。
- 视觉定位:在 8 个视觉 Grounding 基准测试中,Robix 均取得明显提升,其中 Robix-32B 在多个任务中优于闭源大规模模型。尤其是在多物体定位的 LVIS-MG 基准上,Robix-7B 和 Robix-32B 的 F1 分数较 Qwen2.5-VL-7B/32B 分别提升 39.6 和 25.0 个绝对点,显示出强大的目标定位能力。
- xx任务推理:在团队构建的 Agibot-ER 真实世界xx任务推理基准上,Robix-7B 和 Robix-32B 的准确率相比 Qwen2.5-VL-7B/32B 分别提升 12.8 和 7.2 个绝对点,体现了其在任务级推理上的优势。
2. 离线交互任务评估
为系统评估模型的长程任务规划和任务泛化能力,研究团队构建了三个离线评估集:AGIBot OOD(Out-of-Distribution)、Internal OOD 和 Internal ID(In-Distribution)。它们涵盖整理桌面、超市购物、制作三明治、洗衣服等二十余种日常任务类型,同时包含多阶段任务、约束性指令、交互式中断等多类指令形式,用于全面测试模型在复杂环境下的推理、规划与交互表现。
在离线交互数据测试中,Robix 展示了优异的复杂指令理解、任务规划和 OOD 泛化能力
- 整体表现:Robix-32B-RL 在所有评估集上排名第一,优于目前的开源和闭源模型基线,展现出优异的推理、规划与交互能力。
- 跨领域泛化:在两项跨领域(OOD)任务测试中,Robix-32B 的准确率分别领先 Gemini-2.5-Pro 11.8 和 3.0 个百分点,凸显较强的泛化能力。
- 思维链推理:显式思维链显著增强了模型在 OOD 任务泛化与复杂指令理解上的表现。去除思维链的基线模型在 Internal OOD 基准上准确率下降 7.2 个点,在 Open Instruction 任务中更是下降 26.7 个点。
- 强化学习增益:RL 阶段带来进一步提升。相比仅经 SFT 训练的版本,Robix-7B 与 Robix-32B 在 Internal OOD 基准上的准确率分别提升 8.3 和 3.3 个点,验证了 RL 在增强xx推理能力方面的有效性。
3. 真实世界在线评估
研究团队进一步将 Robix 部署到真实机器人系统(字节跳动 Seed 自研 ByteMini 双臂机器人)上,并在厨房、超市等贴近日常生活的场景中设置了五项在线评测任务:
- Table Bussing(桌面清理):清理使用过的餐具、器皿和食物。
- Checkout Packing(结账打包):在结账环节整理购买的商品并将其放入袋子或盒子中。
- Dietary Filtering(饮食筛选):根据饮食限制(如无咖啡因)选择或排除食物与饮品。
- Grocery Shopping(杂货店购物):根据用户指令推荐并选购杂货商品。
- Tableware Organization & Shipment(餐具整理与运输):分类、打包餐具并将其运送到指定位置。
Robix + UMI 测试结果
在由人类标注员通过 UMI 设备充当低层控制器的测试中,Robix-32B 的平均任务完成率达到 92.6%,略高于 Gemini-2.5-Pro 的 91.0%,并显著优于 GPT-4o (64.3%) 和 Qwen2.5-VL-32B (28.0%)。
Robix + GR-3 联合评测结果
在与 Seed 自研的 VLA 模型 GR-3 结合进行端到端测试时,Robix-32B 的平均任务完成率达到 92.5%,同样优于 Gemini-2.5-Pro (88.2%) 和 GPT-4o (64.4%)。
研究人员进一步分析发现,基线模型性能下降的一个重要原因在于 VLM–VLA 的「指令对齐」问题。具体而言,高阶 VLM 生成的文本指令在语义上正确,但低阶 VLA 模型无法识别。例如,VLA 可以识别「奥利奥」,却无法理解「饼干盒」。此外,响应延迟也是大型商业模型在真实场景中面临的实际挑战,其响应时间有时超过 30 秒,难以满足实时交互需求。
总结与展望
Robix 的研究为通向更通用、更智能的xx智能体提供了一条可行路径。通过将推理、规划与交互融为一体,它使机器人更接近「善解人意」的智能伙伴。
当然,通往通用机器人的道路仍然漫长。研究团队也坦言,Robix 在高度动态场景中依旧存在局限,且亟需更强大的长期记忆机制。但可以肯定的是,Robix 已经为这一目标奠定了坚实基础。我们有理由相信,在不远的将来,一个既能高效完成任务、又能自然交流的智能机器人,将真正走入人类生活。
.
#Claude不让我们用!国产平替能顶上吗?
这几天,全球 AI 代码生成的竞争格局,迎来了新的拐点。
在编程领域,曾被视为王者的 Anthropic,似乎正在一步步失去昔日的锋芒,地位开始动摇。
这一方面源于 OpenAI GPT-5 系列模型的强势崛起,在与 Claude Code 的对战中大有「后来者居上」之势,AI 大神 Karpathy 现身说法并开始安利 GPT-5 Pro 的强大代码能力。
另一方面则是 Anthropic 自身的一系列迷之操作,先是放任并承认自家模型(包括 Claude Opus 4.1 和 Opus 4)降智,本周又宣布向包括中国在内的部分地区限制其 AI 产品和服务的使用。
在这个微妙的时间节点,多家国产大模型厂商向 Anthropic 发起了一波正面狙击。月之暗面发布了 Kimi-K2-0905 版本、阿里发布了超万亿参数的 Qwen3-Max-Preview。
前者作为 Kimi-K2 系列模型的最新版本,将上下文长度扩展到了 256k,针对前端开发等实际编程任务做了优化,长代码生成中的正确性、稳定性和逻辑一致性较以往版本有了提升。后者是阿里迄今最大的模型,同样提升了通用知识、数学推理、编程等多种任务的表现。
可以看到,国产大模型厂商近来集中在代码生成任务上发力。Kimi-K2-0905 强调了工具调用能力,并提升了模型与 Agent 框架(如 Roo Code)的集成性。
在使用该模型调用外部工具时,格式正确率现在可以达到 100%,不再需求人工修正。它还完全兼容 Anthropic API,方便接入与迁移。对 WebSearch Tool 的支持,可以通过实时信息检索提升任务效果。
随着 0905 版本的发布,近 30 天 Kimi-K2 系列模型在 Hugging Face 中的下载量超过了 39 万。
对于最新的 Kimi-K2-0905,有人直言「终于不用再为处理复杂的长任务而感到挫败了。」
此消彼长,随着国产大模型在代码生成领域持续发力,全球竞争的格局也许真的要变一变了。
能力、价格双优势,让国产大模型更能打
作为 Kimi K2 系列中最新的版本,Kimi-K2-0905 与其他国产大模型厂商的新模型(如 Qwen3-Max-Preview)一样,向曾经的王者 Claude 的传统优势区间发起挑战,强调智能编程领域的性能提升。
从技术细节上来看,Kimi-K2-0905 沿用了目前主流的 MoE 架构,参数规模为万亿级别,在推理时实际被激活的参数为 320 亿。
参数概览
从该模型与 Claude Sonnet 4 在 SWE-bench Verified 等真实编程基准的对比中发现,Kimi-K2-0905 在部分测试中(如多语言环境、命令行 / 终端交互)甚至超过了这个竞争对手。
实战表现究竟如何?我们用它做了个经典小游戏。
指令很简单:「制作一个和微信打飞机类似的网页小游戏,需要美观,好玩,功能齐全。」
Kimi-K2-0905 生成游戏代码(部分截图)
在网页端实现的效果堪称惊艳,不仅实现了浩瀚星空的背景,高速移动的拖影,概率出现的回血道具,还有不同颜色的敌人爆炸效果,甚至玩得好的话还有连击加分。
我们试着玩了好一会儿,困难模式真的挺难的。
根据知名博主「karminski - 牙医」的测试,Kimi-K2-0905 前端水平有了显著的提升,空间理解能力和召回能力都有所增强。
在需要生成超过一千行代码的「鞭炮连锁爆炸测试」中,Kimi-K2-0905 表现优秀。
原贴地址:https://x.com/karminski3/status/1963834619276709933?s=46
Kimi-K2-0905 此次还在 API 定价上打出了竞争性优势。
据我们了解,Kimi 开放平台上架的 kimi-k2-0905-preview 模型 API,定价与上一代一致,计费方案为缓存未命中时每百万输入 tokens/4 元,缓存命中时每百万输入 tokens/1 元,每百万输出 tokens/16 元。详细的定价策略参考下图:
以美元计价的价格与国内价格比较接近。
相较于 Anthropic 堪称夸张的定价,Kimi 等国产编程模型称得上是「开源 Claude 平替」,并且能够实现全方位兼容 Anthropic API 和 Claude Code,延续开发者曾经的使用习惯。
尤其是在 Anthropic 对国内和其他地区「断供」的大背景下,让现有项目和工作流平稳落地的重要性不言而喻。
结语
在 AI 编程领域,国内的 AI 厂商都有自己的理解。大概分为两个方向,一部分厂商在产品和用户体验侧发力;另一部分则是打磨基础模型。
例如腾讯和字节对自家编码产品的更新主要集中在产品侧,字节更新 Trae Solo 版本、腾讯发布 CodeBuddy IDE 等等,都是试图超越 Cursor 核心竞争力的尝试。
与之对应,以月之暗面为代表的 AI 新势力,选择了一条更为直接的发展道路:通过技术创新与极限性能打磨,力求在大模型核心能力上与国际一线厂商(如 Anthropic)一较高低。
无论是上下文窗口的持续扩展,还是针对真实编程任务、Agent 工具调用等的专门优化,国内玩家正在取得逼近甚至超越海外同类产品的表现。
同时,主流 AI 编程工具,如 Cursor、Windsurf、Trae、Cline 等,以及第三方 Agent 产品,如 flowith 和 Genspark 等,也都在主动接入国内优秀的大模型,中国 AI 新势力已深度融入主流开发与应用生态。
如今,国产大模型不仅能在性能参数上赶超国际领先者,也能在实际开发体验上获得更多认可。这样的「正反馈循环」一旦形成,则有望快速积累开发者口碑,创建更繁荣的应用生态,进一步撬动更广阔的市场。
.
#xx的技术发展路线!
每次再聊xx智能时,总能看到很多paper一直说 “突破、创新”。但很少完整地把整个技术路线串起来,让大家清晰地知道xx是怎么发展的?碰到了哪些问题?未来的走向是怎么样的?
机器人操作如何让机械臂精准 “模仿” 人类?多模态融合怎样让智能体 “身临其境”?强化学习如何驱动系统自主进化?遥操作与数据采集又怎样打破空间限制?这些xx智能的关键内容需要我们认真梳理下。
今天我们将会为大家带来领域里比较丰富的几篇研究综述,带你拆解这些方向的发展逻辑。
机器人操作相关
参考论文:The Developments and Challenges towards Dexterous and Embodied Robotic Manipulation: A Survey
论文链接:https://arxiv.org/abs/2507.11840
作者单位:浙江大学、浙江省协同感知与自主无人系统重点实验室
背景与主题:类人灵巧机器人操作是机器人领域关键目标与挑战,人工智能(AI)推动机器人操作快速发展,聚焦其从机械编程到xx智能、从简单夹爪到多指灵巧手的演进。
综述内容:概述机器人操作演进,明确关键特征与主要挑战;聚焦当前xx灵巧操作阶段,突出灵巧操作数据采集(模拟、人类演示、遥操作)和技能学习框架(模仿学习、强化学习 )的最新进展;基于现有数据采集范式和学习框架,总结并讨论灵巧机器人操作发展的三大关键挑战。
核心技术方向:Dexterous Manipulation(灵巧操作)、Multi - fingered Hands(多指手)、AI - Enabled Robotics(人工智能赋能机器人)、Data Collection(数据采集)、Imitation Learning(模仿学习)、Reinforcement Learning(强化学习 )。
图1|与物理世界交互时面临的挑战。机器人必须面对越来越复杂的被操作对象以及多样的操作类型 。
xx导航相关
参考论文:A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI
论文链接:https://arxiv.org/abs/2505.01458
作者单位:香港城市大学、慕尼黑工业大学、鲁汶大学、汉堡大学
背景与主题:导航与操作是xx智能核心能力,现实训练存在高成本、数据难等问题,Sim-to-Real迁移为关键方案却受域差距制约。本文以物理模拟器为核心,探讨其如何解决机器人导航与操作训练难题,梳理领域从传统方法到数据驱动的演进。
图2|该时间线展示了自 2019 年以来xx智能领域在导航(上部)和操作(下部)研究方面的演变历程。
综述内容:
- 聚焦于xx智能中机器人的导航和操作任务,以及用于支持这些任务训练的物理模拟器。
- 概述机器人导航与操作的发展历程:导航从显式记忆转向隐式记忆(潜表征、基础模型等),操作从强化学习(RL)拓展至模仿学习(IL)、扩散策略(DP)及 VLA 模型,明确各阶段特征与瓶颈;
- 聚焦物理模拟器的作用与分类:分析模拟器在缩小 “Sim-to-Real 差距” 中的核心价值,按应用场景将导航模拟器分为室内(如 Habitat、AI2-THOR)、室外(如 CARLA、AirSim)和通用型(如 ThreeDWorld、Isaac Sim),按技术特性将操作模拟器分为经典物理引擎(如 MuJoCo、PyBullet)和可微分物理引擎(如 Dojo、Genesis),对比其物理建模精度与视觉渲染能力。
- 梳理关键支撑资源与方法:总结导航(如 HM3D、VLN-CE)和操作(如 GraspNet-1Billion、CALVIN)领域的基准数据集,分析导航任务的评估指标(如成功率 SR、路径效率 SPL)与操作任务的感知表示(如 SO (3)/SE (3) 等变表示)、策略学习(如 RL/IL、VLA 模型)方法,最后指出当前领域在高质量数据集、静态学习框架鲁棒性、端到端学习泛化性上的三大挑战及未来研究方向。
图3|6种导航模拟器。从左到右包括室内型、室外型和通用型。
图4|按复杂程度和自由度递增的顺序,概述了操作的任务和硬件。
核心技术方向:Embodied AI(xx人工智能)、Robotic Navigation(机器人导航)、Robotic Manipulation(机器人操作)、Physics Simulator(物理模拟器)、Sim-to-Real Transfer(模拟到现实迁移)、Reinforcement Learning(强化学习)、Imitation Learning(模仿学习)、Vision-Language-Action (VLA)(视觉 - 语言 - 行动)
xx多模态大模型相关
参考论文:Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions
论文链接:https://arxiv.org/pdf/2502.15336
作者单位:广东人工智能与数字经济实验室(深圳)、深圳大学、巴黎理工学院、中山大学
背景与主题:xx智能以环境物理交互为认知基础,大模型技术推动其与多模态融合形成xx多模态大模型(EMLMs),可弥合感知、认知与动作鸿沟,在机器人等领域价值显著。但现有综述多聚焦传统大模型或广义xx智能,缺乏对EMLMs的系统梳理,故需全面综述其发展、数据集及挑战。
综述内容:
- 基础模型发展:剖析 EMLMs 的基础构成,分析 EMLMs 构成,包括xx智能体(机器人、自动驾驶汽车等)、LLMs(GPT 系列等)、LVMs(ViT 等)、LVLMs(CLIP 等)及视觉 - 音频 / 触觉等多模态模型。
- 核心任务进展:围绕xx感知、导航、交互、仿真四大核心任务展开。其中,xx感知(分 GPT 与非 GPT 模型)、导航(分通用与专用模型)、交互(分短 / 长视域动作策略)、仿真(分通用与真实场景模拟器)。
- 数据集与挑战:总结感知交互(如 Open X-Embodiment)、导航(如 HM3D)类数据集,指出跨模态对齐难、计算资源消耗大、领域泛化性弱、时序信息处理难等技术挑战及数据质量、伦理问题,提出跨模态预训练等未来方向。
图5|xx感知、导航与交互领域研究进展的时间线。
核心技术方向:Embodied Multimodal Large Models(xx多模态大模型)、Large Language Models(大语言模型)、Large Vision Models(大视觉模型)、Vision-Language Models(视觉 - 语言模型)、Embodied Perception(xx感知)、Embodied Navigation(xx导航)、Embodied Interaction(xx交互)、Multimodal Datasets(多模态数据集)、Robotic Manipulation(机器人操控)
xx仿真相关
参考论文:A Survey of Embodied AI: From Simulators to Research Tasks
论文链接:https://arxiv.org/pdf/2103.04918
作者单位:南洋理工大学、新加坡科技设计大学、新加坡科技研究局
背景与主题:AI领域正从“互联网AI”向xxAI”范式转变,xxAI强调智能体通过与环境的第一视角交互学习,但缺乏当代全面综述。本文聚焦9个主流xxAI模拟器,结合7项核心特征评估其性能,同时梳理视觉探索、视觉导航、xx问答三大核心研究任务,填补领域综述空白。
综述内容:
- xx AI 模拟器分析:评估 DeepMind Lab、AI2-THOR 等 9 个模拟器,从 7 项特征(环境构建方式、物理引擎、物体类型、物体属性、控制器、动作能力、多智能体支持)及衍生的 “真实感、可扩展性、交互性” 三维度对比。
- 核心研究任务梳理:【视觉探索】:智能体通过运动 / 感知构建环境内部模型(拓扑图、语义图等),方法分好奇心驱动(预测误差为奖励)、覆盖最大化(观测区域最大化)、重建驱动(还原未观测区域),核心数据集为 Matterport3D、Gibson V1。【视觉导航】:含点导航(目标坐标)、物体导航(目标类别)、带先验导航(融合语义 / 音频)、视觉 - 语言导航(自然语言指令),主流方法结合强化学习(如 DD-PPO)与经典规划,评估指标以成功率(SR)、路径长度加权成功率(SPL)为主。【xx问答】:需导航与问答结合,分单目标、多目标、交互式问答,需智能体探索环境后推理作答,数据集如 EQA、IQUAD V1,评估兼顾导航误差与问答准确率。
图6| 嵌入AI模拟器与研究之间的联系。
- 挑战与趋势:模拟器存在真实感(缺高保真 + 高级物理结合的方案)、可扩展性(3D 场景采集成本高)、交互性(精细操作与多状态物体平衡)问题;研究任务面临长轨迹记忆设计、多组件消融难、多智能体研究少等挑战,未来或向 “任务交互式问答(TIQA)” 发展。
核心技术方向:3D Simulators(3D 模拟器)、Visual Exploration(视觉探索)、Visual Navigation(视觉导航)、Embodied Question Answering(xx问答)、Computer Vision(计算机视觉)、Reinforcement Learning(强化学习)、Multi-agent Systems(多智能体系统)
强化学习相关
参考论文:Reinforcement Learning in Vision: A Survey
论文链接:https://arxiv.org/pdf/2508.08189
项目链接:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning
作者单位:新加坡国立大学、浙江大学、香港中文大学
背景与主题:RL在大语言模型(如RLHF优化的InstructGPT)中成效显著,近年拓展至视觉多模态领域(视觉-语言、生成、xx动作模型等),但面临高维视觉输入、复杂奖励设计等挑战,且缺乏系统综述。
综述内容:
- 基础理论与优化策略:将视觉生成视为马尔可夫决策过程,涵盖 RLHF、DPO、RLVR 三大对齐范式,及 PPO(价值网络降方差)、GRPO(组内基准简化计算)两种策略优化算法,均通过 KL 正则约束政策偏移。
图7|强化学习的三种对齐范式。
- 核心研究方向:多模态大语言模型(用 RL 提升跨模态一致性)、视觉生成(RL 优化生成质量与 prompt 对齐)、统一模型(统一 RL 跨任务迁移 / 任务特定 RL 单任务优化)、视觉 - 语言 - 动作模型(RL 优化长序列动作决策)。
- 评估体系与潜在挑战:评估分集合级(FID)、样本级(RLHF 奖励)、状态级(KL 监控),配套 SEED-Bench-R1 等 benchmarks;挑战含长序列奖励稀疏、生成奖励泛化弱,未来需探索分层 RL 与自适应奖励。
图8|代表性视觉强化学习模型发展时间线。
核心技术方向:Reinforcement Learning (强化学习)、Visual RL (视觉强化学习)、Multimodal Large Language Models (多模态大语言模型)、Visual Generation (视觉生成)、Vision-Language-Action Models (视觉 - 语言 - 动作模型)、RLHF (基于人类反馈的强化学习)、Policy Optimization (策略优化)、Unified Model (统一模型)
遥操作与数据采集
参考论文:Teleoperation of Humanoid Robots: A Survey
论文链接:https://arxiv.org/pdf/2301.04317
项目链接:https://humanoid-teleoperation.github.io/
作者单位:意大利技术研究院、佛罗里达人类与机器认知研究所、东京理工大学等
背景与主题:人形机器人遥操作可结合人类认知与机器人物理能力,适配人类环境与危险场景(如核救援、空间探索),但受高自由度动力学、非结构化环境、通信限制等挑战制约。
综述内容:
- 系统与设备:架构含人类状态测量(IMU、外骨骼等测运动,EMG/EEG 测生理)、运动重定向、机器人控制、多模态反馈(视觉 VR、触觉力反馈),支持单向 / 双向遥操作。
- 重定向与控制:用完整动力学模型与简化模型(LIPM),通过 ZMP/DCM 保证平衡,分 GUI 路径规划、上下肢 / 全身运动重定向,结合 QP 优化的全身控制与底层关节控制。
- 辅助策略:共享控制融合人机指令,监督防护系统防危险,双边遥操作传递力反馈实现动态耦合。
- 通信与评估:用 “移动 - 等待”、波变量法处理通信延迟,通过 SUS、NASA-TLX 等量表评估可用性与负荷。
- 应用与挑战:应用于远程存在、危险作业等,挑战集中在非专家操作门槛、动态环境适应、长延迟稳定性。
图9|遥操作人形机器人的示意架构。
核心技术方向:Humanoid Robot(人形机器人)、Teleoperation(遥操作)、Motion Retargeting(运动重定向)、Bilateral Teleoperation(双边遥操作)、Shared Control(共享控制)、Communication Delay(通信延迟)、Human-Machine Interface(人机接口)
VLA大模型
参考论文:Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
论文链接1:https://arxiv.org/pdf/2505.04769
作者单位:康奈尔大学、香港科技大学等
综述内容:系统综述视觉-语言-动作(VLA)模型,从概念基础、发展进展、应用场景到挑战展开分析。梳理 VLA 模型从跨模态学习架构到融合视觉语言模型(VLMs)、动作规划器和分层控制器的通用智能体的演化历程,涵盖 80 多个近三年发布的 VLA 模型,详述其架构创新、参数高效训练、实时推理加速等关键进展,探讨在类人机器人、自动驾驶、医疗与工业机器人、精准农业、增强现实导航等领域的应用,分析实时控制、多模态动作表示、系统可扩展性等核心挑战,并提出智能体 AI 自适应、跨实体泛化等针对性解决方案,最后展望 VLA 与 VLMs、智能体 AI 融合的未来路线图。
图10|视觉-语言-动作模型的全面时间线(2022 - 2025 年),展示了从基础模型到 45 个专门化的 VLA 系统的演变过程。
参考论文2:Vision Language Action Models in Robotic Manipulation: A Systematic Review
论文链接:https://arxiv.org/pdf/2507.10672
作者单位:哈利法大学、加泰罗尼亚理工大学
综述内容:聚焦 VLA 模型在机器人操作与指令驱动自主性领域的应用,系统分析 102 个 VLA 模型、26 个基础数据集及 12 个仿真平台。将 VLA 模型按架构范式分类,提出基于任务复杂度、模态多样性和数据集规模的新型数据集评估标准,构建语义丰富度与多模态对齐的二维数据集表征框架,评估仿真平台在大规模数据生成、虚实迁移及任务支持方面的效能,识别架构、数据集、仿真层面的挑战,明确可扩展预训练协议、模块化架构设计等未来研究方向,并提供含 VLA 模型、数据集和模拟器的公开仓库作为参考。
图11|2022 年至 2025 年的 VLA 模型、数据集及贡献机构。
参考论文3:Survey of Vision-Language-Action Models for Embodied Manipulation
论文链接:https://arxiv.org/pdf/2508.15201
作者单位:中国科学院自动化研究所、北京中科慧灵机器人技术有限公司
综述内容:从xx智能视角综述面向xx操作的 VLA 模型,将其发展历程划分为萌芽(功能相似模型出现,未形成 VLA 概念)、探索(架构多样,确立 Transformer 为核心骨干)、快速发展(架构向多层演进,多模态 VLA 崭露头角)三阶段。从模型架构(观测编码、特征推理、动作解码、分层系统)、训练数据(互联网图文、视频、仿真、真实机器人数据)、预训练方法(单一领域、跨域分阶段、跨域联合、思维链增强)、后训练方法(监督微调、强化微调、推理扩展)、模型评估(真实环境、仿真器、世界模型评估)五个维度剖析研究现状,最后总结 VLA 发展及机器人操作落地面临的挑战与未来方向。
图12|VLA 模型发展时间线。
参考论文4:Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey
论文链接:https://arxiv.org/pdf/2508.13073
项目链接:https://github.com/JiuTian-VL/Large-VLM-based-VLA-for-Robotic-Manipulation
作者单位:哈尔滨工业大学(深圳)
综述内容:系统回顾VLM的进化历程、机器人操作学习的技术进展及VLA范式的诞生,明确单体模型(Monolithic)与分层模型(Hierarchical)的发展路径,识别关键挑战并展望未来方向。横向整合VLA建模实践:提出更精细的VLA模型分类体系(单体/分层),从结构与功能双维度深入分析两类模型,探索强化学习融合、无训练优化等前沿方向,总结支撑模型发展的数据集与核心特性。
图13|本综述的组织架构概述(上部)以及基于大规模视觉语言动作模型的机器人操作领域中重要进展的时序图(下部)。
参考论文5:Survey on Vision-Language-Action Models
作者单位:哈萨克斯坦触觉机器人实验室
综述内容:系统梳理了 VLA 模型的技术框架(从 VLM/LM 基础到真实世界评估),适合作为 VLA 领域的入门资料。其核心价值在于验证 “AI 自动化学术综述” 的可行性,同时指出 AI 生成内容的改进方向(准确性、可信度);对于研究人员,可重点参考其数据集梳理、评估指标体系,以及 “混合数据训练” 的实践结论,为后续 VLA 模型的设计与落地提供借鉴。
#The Landscape of Agentic Reinforcement Learning for LLMs
从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
本文第一作者为新加坡国立大学博士生 张桂彬、牛津大学研究员 耿鹤嘉、帝国理工学院博士生 于晓航;通讯作者为上海人工智能实验室青年领军科学家 白磊 和 牛津大学博士后 / 上海人工智能实验室星启研究员 尹榛菲
过去几年,大语言模型(LLM)的训练大多依赖于基于人类或数据偏好的强化学习(Preference-based Reinforcement Fine-tuning, PBRFT):输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明显:缺乏长期规划、环境交互与持续学习能力。
为了突破这样的瓶颈,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式获得空前热度以后,一种新的训练范式 ——Agentic Reinforcement Learning(Agentic RL),愈发到社区关注。它试图让 LLM 从「被动对齐」进化为「主动决策」的智能体,在动态环境中规划、行动、学习。
论文标题:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
arXiv 地址:https://arxiv.org/pdf/2509.02547
GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers
为了捋清这一新兴领域,一篇长达 100 页、由牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等 16 家海内外顶级研究机构联合完成的最新综述论文,全面系统地梳理了作用于 LLM 的 Agentic RL 这一方向,覆盖 500 + 相关研究,构建了 Agentic RL 的理论框架、演化脉络与资源版图,并讨论了可信性、扩展性和复杂环境等未来挑战。
范式迁移:从 PBRFT 到 Agentic RL
从 LLM-RL 到 Agentic RL 范式迁移概览
该综述首先给出范式迁移的形式化定义:早期 RL 研究多基于 PBRFT 范式,可被视为退化的单步 MDP(单 prompt、一次性文本输出、立即终止),而 Agentic RL 则将 LLM 置于部分可观测马尔可夫决策过程(POMDP)下进行多步交互:
其中关键变化在于动作空间从单一文本扩展为「文本 + 操作」(
);同时奖励从「单步评分」扩展为「时序反馈」,优化整条决策轨迹,把 LLM 从「文本生成器」推进为「可交互的决策体」。
一句话:PBRFT 让模型更会一次地说,Agentic RL 让模型更会长程地做。
在强化学习优化算法层面,当前实践形成了一条从通用策略梯度到偏好优化的谱系,Table 2 汇总比较了三类算法家族及其代表方法,便于读者快速对照「训练用什么算法」与「对齐目标/信号形态」 的对应关系。
六大核心能力:智能体的「内功」
要让 LLM 真正成为智能体,仅有动作空间还不够,它必须发展出一套完整的能力体系。该综述将其总结为六大核心模块,并对每个模块提出了前瞻性讨论:
1. 规划(Planning):为复杂任务设定子目标与多步行动序列。通过外部引导(外部打分生成奖励)或内部驱动(自主规划并修正)实现。
2. 工具使用(Tool Use):调用外部工具完成任务。从 ReAct 等静态提示模仿演进到 Tool-integrated RL (TIR),让智能体学会自主选择组合工具。
Agentic Tool Using 演化路径
3. 记忆(Memory):保持上下文连贯并积累知识,包括基于外部数据库检索记忆、Token 级别记忆和结构化记忆。其中,值得关注的工作包括来自字节跳动的 MemAgent 和麻省理工大学的 MEM1,他们都通过强化学习让 LLM Agent 拥有自行管理记忆窗口的能力。
4. 自我改进(Self-Improvement)同样是目前 Agent 最热门的发展方向。该综述高屋建瓴地将目前 Agent 自我提升的能力划分为以下三类:
- 基于语言强化学习,即类似于 Reflexion、Self-Critic 等风格的自我纠正;
- 通过强化学习训练内化自提升能力,譬如来自 MIT-IBM Watson AI Lab 的 Satori 便通过强化学习内化 Agent 在测试阶段自我纠正的能力;类似的工作还有来自上海 AI Lab 的 TTRL,Meta 的 SWEET-RL 等等;
- 通过迭代自训练,譬如来自清华的 Absolute Zero、来自斯坦福的 Sirius 等等。
5. 推理(Reasoning):解决复杂问题的推导能力,分为快速直觉推理(凭经验直觉迅速答题)和慢速缜密推理(多步演绎得出严谨结论)。
6. 感知(Perception):理解多模态输入的信息获取能力。模型从被动识别走向主动感知,可通过定位驱动(将推理锚定具体对象)、工具驱动(借助外部工具辅助)和生成驱动(生成图像草图辅助推理)等方式提升感知效果。
智能体与环境交互闭环示意
借助强化学习,这些能力由人工启发式转变为可学习的策略,规划不再依赖硬编码流程、工具使用也可由模型自主决定、端到端训练。
Agentic RL 6 大核心能力板块
任务落地与演化路径
不同任务领域的 Agent RL 进化树
Agentic RL 也在横向拓展应用边界,涌现出多种智能体雏形:
- 搜索与研究:优化多轮检索与证据整合策略,学会何时继续搜索、何时下结论;
- 代码:将编译错误与单元测试结果用作奖励,推动智能体能力从一次性代码生成进化到自动调试以及自动化软件工程流程;
- 数学:在非形式化 (informal) 推理中,利用正确率或中间过程奖励来塑造推理轨迹;在形式化 (formal) 推理中,交互式定理证明器 (ITPs) 提供可验证的二值信号,使智能体能在严格规则下探索证明路径;
- 图形界面 (GUI):在网页和桌面环境中让智能体学习点击、输入、导航等操作,从静态脚本模仿走向交互式操作,提升对真实应用的适配性;
- 视觉与xx:融合视觉感知与决策规划,实现「看-思-做」的连续决策闭环,增强智能体在多模态问答、导航与机器人操作等任务中的表现;
- 多智能体系统:通过奖励设计促使多个模型在竞争或合作中逐渐涌现沟通与分工能力。
- 其他探索:RL 也被应用于数据分析、科学发现等场景,显示出 Agentic RL 在更多任务中的潜在适应性。
总体来看,Agentic RL 已在多个场景初步落地,并正从单一任务逐渐迈向更复杂、更贴近现实的任务生态。
环境与框架
Agentic RL 的发展离不开可复用的实验环境与工具链。现有工作已涵盖网页、GUI、代码、游戏等多种开源平台,并配套了相应的评测基准与框架,为研究者提供了开展实验和对比的基础设施。
此外,这份综述还整合了 500+ 篇相关研究,并在 GitHub 上开源了 Awesome-AgenticLLM-RL-Papers,将论文、环境、基准与框架一站式汇总,为后续研究提供了全景式的参考地图。
挑战与前瞻
尽管 Agentic RL 已展现出广阔潜力,但要真正走向稳健和实用,还存在若干核心挑战:
- 可信性与安全性:相比传统 LLM,Agentic RL 智能体集成了规划、工具调用和记忆等能力,攻击面显著扩大;同时,RL 的奖励驱动机制也可能导致 reward hacking,使不安全行为被强化,带来更持久的风险。
- Scale Up 智能体训练:大规模 Agentic RL 训练面临算力、数据和算法效率的瓶颈。当前 RL 方法成本高昂,难以在长时程决策或复杂环境中稳定扩展,需要发展更高效的优化范式。
- Scale Up 智能体环境:现有的交互环境难以覆盖真实世界的复杂性。未来应探索环境与智能体的「协同进化」,例如通过自动化奖励设计、课程生成和环境自适应优化,让环境在训练中发挥「主动教学」的作用,而不仅仅作为静态测试平台。
这些挑战构成了 Agentic RL 进一步发展的关键门槛,也为未来研究提供了明确方向。
结语
这篇综述系统化梳理了 Agentic RL 的理论框架、能力维度、任务应用与资源生态,确立了其作为 LLM 演进的重要训练范式。
综述强调:单步对齐已难以支撑复杂任务,LLM 训练范式由此进入 Agentic RL 的下半场,而强化学习是将规划、工具使用、记忆、推理等核心能力从启发式功能转化为稳健智能行为的关键机制。
未来,随着可信性、可扩展性和复杂环境等挑战的逐步突破,LLM 将有望真正从 「会说」迈向「会做」,成长为更通用、更自主的智能体。
#Hinton自曝
前女友提分手,用ChatGPT列出自己「七宗罪」
近日,人工智能教父杰弗里・辛顿(Geoffrey Hinton)在接受媒体采访时,透露了一则趣闻。
他说在日常生活中通常将 OpenAI 的 ChatGPT 作为首选 AI 产品工具,当然他的使用目的往往是工作需求、用于研究等。可没想到有一天,ChatGPT 竟会「入侵」他的个人生活,他和前女友分手居然是通过 ChatGPT 完成的。
原来在两人分手期间,前女友曾将辛顿的一些行为发送给 ChatGPT,要求 ChatGPT 来证明他是一个多么「糟糕」的人。
之后,她还将这些对话一并发给了辛顿。但辛顿并不觉得自己很糟糕,所以 ChatGPT 的说辞「并没有让我感觉太糟糕。」
当然,这只是一个趣闻,辛顿之所以讲起这件事,是在表达一个不争的事实:如今 AI 的触角正蔓延至人类生活的细枝末节中,甚至成为一些人际交往的重要参与者。
无论是答疑解惑、写文档、起草电子邮件、解决日常问题,还是像辛顿那样借助 AI 来分手,一一都在表明,AI 正在塑造着人类的新型沟通范式,人类甚至越来越依赖 AI。但,这是一件好事吗……
今年 3 月份的时候,OpenAI 和麻省理工学院媒体实验室的研究人员就发表了一项研究,分析了与 ChatGPT 的数百万次聊天对话和数千次音频互动后发现,ChatGPT 可能会加剧一群「强力用户」的孤独感。
研究结果显示,孤独的人更有可能寻求与 AI 助手、聊天机器人的情感联系,这很大程度上说明了人类在使用 AI 时并不仅仅是为了完成任务,甚至任由其越来越深入、越来越广泛地进入个人生活的「私人领域」。
除了谈及 ChatGPT 的使用感受,在这次采访中,辛顿又一次澄清了之前从谷歌离职的原因。
辛顿 2013 年加入谷歌,之后一直担任谷歌副总裁兼工程研究员,直到 2023 年 5 月的时候,辛顿突然宣布从谷歌离职,结束了在此长达十多年的就职生涯,回到多伦多大学继续学术研究。
为此,外界议论纷纷,认为他这一做法是为了「直言不讳谈论 AI 的危险」,并将其奉为「AI 安全刹车人」「吹哨人」……
但辛顿并不认同这种解读。「每次接受采访,我都会纠正这个误解,但没用,因为这是一个好故事。」
他表示,之所以离职,是因为当时自己已经 75 岁了,编程能力大不如前,自己已经努力工作了 55 年,觉得是时候退休了。另外,「Netflix 上还有好多剧没看。」
而之所以谈论 AI 威胁,是因为,「反正都要离开了,不如借这个机会谈谈 AI 的风险。」
所以,在这次采访中,Hinton 再次对 AI 可能带来的潜在威胁发出了警告。
一方面,当前随着 AI 技术的不断发展进步,落地应用越来越普及,很多人都在期待「超级智能」的到来。但辛顿认为未来 AI 将导致大规模失业,并使少数人变得更为富有,「实际上,富人会用 AI 取代工人。」辛顿说道。
「这将造成大规模失业,并大幅提高利润。它会让少数人变得更富有,而大多数人变得更穷。这不是 AI 的错,而是资本主义制度的错。」虽然从当下来看,企业裁员人数尚未激增,但越来越多的证据都在表明一个既定的事实:AI 正在减少入门级的工作机会。
关于这一点,在他上个月接受《财富》杂志采访时也曾有过类似表述,他认为,AI 公司更关心短期利润,而不是该技术的长期后果。
另外,更为重要的是,辛顿再次重申了未来 AI 将给人类带来「毁灭性打击」的担忧,认为如果一直任由 AI 在没有限制的自由中疯狂发展,那么等到「超级智能」出现之后,AI 消灭人类的可能性将高达 10% 到 20% 。
他警告称,AI 可能会被某些人利用甚至滥用,来制造生物武器。另外,他还对特朗普政府不愿加强对 AI 进行相应的监管表示遗憾,并认为中国对这一威胁更为重视。
「我们不知道会发生什么,我们毫无头绪,那些告诉你会发生什么的人简直是愚蠢至极,」辛顿说道,「我们正处于历史的转折点,一些令人惊叹的事情正在发生,它可能是惊人的好,也可能是惊人的坏。我们可以做出猜测,但事情不会一直这样下去。」
而今年 6 月份的时候,辛顿在一次采访时也提及了 AI 可能带来的威胁,并认为自己没有更早一些认识到 AI 的隐患。
他表示,自己对某些风险的认知其实相当迟钝,比如人类会将 AI 用于制造自主性致命武器,即那些能自行决定杀戮对象的机器。而其他风险,比如 AI 有天会超越人类智慧甚至使我们变得无足轻重等,这类可能性他都迟迟未能察觉,直到几年前才真正认识到这个迫在眉睫的威胁。而有些人可能早在二十年前就有人意识到这点。
「二三十年前的神经网络还非常原始,它们在视觉处理语言与语音识别等领域方面的能力远逊于人类。当时若说要担心它们超越人类智慧简直是无稽之谈。」
这种认知改变的转折点,从大众层面来说是 ChatGPT 的爆发,而于他个人而言,是当他开始意识到数字智能拥有某种远超生物智能的特质之后。
而在这次采访中,谈及人类该如何应对或尽可能克服AI的一些风险时,辛顿举了一个例子。
「当(AI)助手比你聪明得多时,你该如何保持那种权力(控制力)?我们知道只有一个例子是更智能的存在被远不如其智能的存在所控制,那就是母亲和婴儿…… 如果婴儿不能控制他们的母亲,他们就会死。」
因此,辛顿认为,人类「唯一的希望」是通过工程设计让 AI 成为我们的母亲,「因为母亲非常关心婴儿,保护婴儿的生命」及其发展。
「这才是我们应该追求的那种关系。」
参考链接:
https://www.businessinsider.com/geoffrey-hinton-ai-girlfriend-breakup-chatgpt-openai-2025-9
https://www.ft.com/content/31feb335-4945-475e-baaa-3b880d9cf8ce
https://www.youtube.com/watch?v=giT0ytynSqg
#Align-Then-Steer
xxVLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的xx操作能力。然而,现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练(Post-Training),特别是当目标场景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。在后训练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。
为了解决该问题,中国电信人工智能研究院(TeleAl)xx智能团队提出了一种 “对齐 - 引导 - 泛化”(Align then Steer, ATE)的 VLA 跨本体泛化框架,破解了 VLA 后训练难题。其核心思想是在潜空间中对齐跨本体动作分布,从而在后训练利用统一潜空间梯度引导 VLA 策略的更新方向。无需改动现有 VLA 主干架构,实现了 VLA 模型后训练从调架构向调分布的范式转移,适配 Diffusion 和 Flow-Matching 等主流的 VLA 模型,极大减少 VLA 跨本体适配的数据需求。
,时长02:04
论文题目:Align-Then-Steer: Adapting the Vision-Language Action Models through Unified Latent Guidance
论文地址:https://arxiv.org/abs/2509.02055
项目地址:https://align-then-steer.github.io/
开源代码:https://github.com/TeleHuman/Align-Then-Steer
研究动机:从分布一致性突破 VLA 的跨本体泛化训练瓶颈
在面向特定xx场景的操作大模型应用中,决定 VLA 能否进行跨本体迁移的关键并非参数规模或主干架构的复杂度,而是预训练阶段与后训练阶段的目标本体和任务的动作分布的一致性。特别地,当目标本体的机械臂构型、执行器形态、关节自由度与本体物理约束等发生变化时,目标动作分布不可避免地偏离预训练阶段 VLA 学得的动作分布域。单纯地通过采集大量真机数据在后训练阶段弥补这一鸿沟,面临迅速递减的边际收益,即单纯数据堆叠难以有效地引导策略抵达目标域。
为了解决 VLA 的跨本体泛化适配问题,目前学界采用的方法主要从以下两个角度开展,构建统一的、语义级别的潜在动作表示,或通过运动学重定向(Retargeting)手动将跨本体数据构建到统一的动作空间。然而,这些路径普遍存在两类局限:一方面,目标动作分布与原分布相差过大时(如预训练采用单臂数据,目标场景在双臂),上述的方法难以准确刻画目标本体的可行子分布;另一方面,现有方式依然面向自回归范式,并没有考虑扩散 / 流匹配类策略的条件生成结构。为了解决该问题,TeleAI xx智能团队提出了 “对齐 - 引导 - 泛化”(ATE)框架,在统一的潜空间中先对齐动作统计,并在后训练阶段引入可微的引导项牵引策略更新,仅利用少量样本便可以将模型适配到目标本体。
研究方法
ATE 框架
ATE 框架的核心思想是先在潜空间中对齐动作分布,再利用潜空间的分类器引导去牵引后训练策略更新方向。ATE 框架如上图所示,共分为两个阶段。
第一阶段先构建一个与跨本体的统一动作潜空间,将预训练数据所蕴含的跨任务、跨环境结构性信息编码到潜空间,再利用目标域的有限样本将目标潜空间嵌入到预训练潜空间。在完成潜空间的对齐后,第二阶段在统一的潜空间上设计引导函数,并利用由此得到扩散 / 流匹配 VLA 模型的分类引导,在后训练阶段显式地将微调过程牵引至期望的目标分布,而无需更改 VLA 模型主干模型结构。
在 ATE 框架中,“对齐 — 引导” 都从分布的角度出发:先把目标域的动作潜分布嵌入到预训练动作潜分布的某个模态中,随后用一个可微的分类器引导项把策略输出的生成分布朝目标分布持续推近。第一步等价于在潜空间上完成一次分布投影;第二步等价于在生成过程中为分布流添加一个外部力场,沿着统一潜空间定义的能量梯度推进去噪,使最终的边缘分布更接近适配数据分布。
这种 “从调模型到调分布” 的范式迁移具有如下优势。第一,样本效率提升:潜空间对齐将策略搜索范围约束在包含目标分布域的流形上,显著降低了拟合到可行动作分布所需的数据量。第二,训练效率提升:分布引导避免模型全参数重训练,能够在既定训练预算内获得更快的有效收敛。第三,工程可复用性增强:潜空间引导只作用于动作专家模型后训练,与顶层模型解耦,具备即插即用的特性,可适配目前主流分层 VLA。
第一阶段:动作潜分布对齐
在对齐阶段,ATE 框架分别构造了两个小型变分自编码器模型(VAE)来对齐两阶段数据的动作空间。具体而言,首先构建一个统一动作潜空间,将预训练和适应阶段的动作数据嵌入到同一潜空间中。该方法通过训练一个 VAE 在预训练动作数据上,获得一个固定的动作潜先验分布。接着,对适应阶段的动作数据,训练第二个 VAE,并通过反向 KL 散度约束,将适应动作的潜分布嵌入到预训练潜分布的特定模式中。由于反向 KL 散度的模式寻找特性(mode seeking),能够将适应动作的潜表示紧密嵌入到预训练分布的主模式中,使适配数据的潜变量分布
逼近预训练潜分布
某一模态,从而把目标域的动作分布嵌入到预训练域已经学到的潜空间中,得到统一的动作潜空间 Z,从而实现高效的跨实体和跨任务适应。此外,该方法仅需对 VAE 进行训练,无需修改原始 VLA 架构,具有低计算开销和高适配性。
第二阶段:动作潜分布引导
在引导阶段,设计了面向主流 VLA 框架的引导机制,通过能量函数和分类器,衡量生成动作与目标动作分布的差异,并将引导梯度整合进模型的训练目标函数中。这一过程无需额外数据,仅依赖细调数据的噪声样本作为参考,即可在保持预训练模型通用性的基础上,高效地将模型输出引导至与新任务和实体相匹配的动作分布。具体的,ATE 在潜空间内构造 classifier guidance 函数,度量当前去噪时间步的策略输出动作块(action truck)与目标动作块在潜空间的距离,其梯度
被直接加到扩散过程的分数函数或流匹配的速度场更新式中,从而在每个去噪 / 流动时间步对生成轨迹的分布施加 “拉力”,把概率质量往目标分布牵引。通过引入分类器引导函数无需通过改变 VLA 的主干结构和动作空间,却可以改变训练时优化的分布方向。
引导机制充分利用了统一潜空间的优势,既解决了跨实体和跨任务的适应性问题,又保留了预训练阶段习得的通用视觉 - 运动先验知识,显著提升了模型在新环境下的适应效率和性能。
实验结果
ATE 算法在 ManiSkill 与 RoboTwin 1.0 等多任务仿真评测中,相较于直接后训练,平均多任务成功率最高提升 9.8%。而在真实机器人跨本体现实场景中,ATE 带来最高 32% 的成功率增益,且表现出更稳健的收敛行为与对光照、干扰的鲁棒性。这些结果表明:ATE 框架在统一潜空间中引导学习,使得 VLA 跨本体与跨任务泛化在有限数据下得到提升,而无需额外的数据与大规模重训练。
上表汇总了 17 个机器人操作任务上,ATE 框架下 RDT 和 PI-0 在 RoboTwin 1.0 上的性能对比。ATE 框架对 RDT 与 PI-0 的平均提升分别约为 + 9.8 与 + 8.7 个百分点,显示出跨任务的一致增益与较好的可迁移性。尤其在基线困难的长程任务中,单项增益明显:例如,RDT 在 Empty Cup Place 任务成功率由 22% 提升到 61%(+39),Pi 0 在 Dual Bottles Pick (Easy) 任务上成功率由 48% 提升到 85%(+37),反映了潜空间对齐与引导在动作空间分布失配较大的场景中效果更显著。与此同时,个别任务出现了小幅下降,如 RDT 在 Bottle Adjust(-16)、Tool Adjust(-12)、Shoe Place(-1),Pi 0 在 Pick Apple Messy(-7)、Blocks Stack (Hard)(-1)、Tool Adjust(-1)。这类现象通常表现为目标域动作分布较窄。从样本效率与收敛速度角度,ATE 在 70k 步即可超过传统 RDT 的 90k 步效果,说明 ATE 框架的对齐 — 引导机制,不仅提高任务成功率,也显著提升了任务成功率。
为了验证模型的跨本体泛化能力,我们自行搭建了双臂睿尔曼实验环境,该实验平台从未在预训练数据中出现过,且双臂的动作空间和预训练数据有明显不同。进而,构建了多个分钟级长序双臂协同操作任务,包括制作三明治、蒸包子等复杂协作任务,以及制作酸奶、烤面包等工具使用类任务。通过采集少量真机数据进行后训练,ATE 算法能够将基座 RDT 和 Pi-0 等 VLA 模型快速适配到目标本体上。上图呈现了四个真机任务在不同训练步数的成功率与整体平均,展示了在有限数据与分钟级长程任务下 ATE 框架的性能。可见在需要双臂协同、时序规划与多阶段配合的任务上,在统一的潜空间引导下 ATE 框架能使模型更快地收敛到目标域动作分布。
上图可视化了空间泛化(初始位姿随机偏移)、视觉干扰(放置未见过的杂物,如水果)、人为扰动(在关键点迫使策略重试)。ATE 框架在未见的光照、杂物干扰、空间偏移与外部干预下仍能维持任务相关注意与恢复能力。
研究总结
在 VLA 基座模型尚不具备直接泛化能力的情况下,TeleAI 提出的跨本体 ATE 后训练框架为数据稀缺与跨本体泛化后训练难题提供了可行答案。面对数据预算、训练窗口与算力上限的三重约束,无需寄望于数据堆叠或昂贵的全参重训,而是以最小工程代价引入潜空间对齐与分布引导,实现快速、稳健的跨本体泛化适配。换言之,ATE 框架可以作为一个即插即用的模块,成为兼容各种主流 VLA 模型的后训练阶段的对齐引导方案,用于提升后训练的跨本体泛化能力,成为破解数据与训练瓶颈的实践路径。
作者简介:本文由 TeleAI 三名研究实习生:清华大学博士生张扬、港中文硕士生王陈炜、西工大硕士生陆欧阳作为共同第一作者,成果由 TeleAI 联合清华大学、港中文、西工大合作完成,本文通讯作者为 TeleAI xx智能团队负责人白辰甲博士和 TeleAI 院长。
#Seedream 4.0
字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
打开多模态自由创作的大门。
谷歌 Nano Banana 掀起的全球创作狂欢尚未消退之际,字节又玩了把大的。
近日,字节跳动开始内测最新的豆包・图像创作模型 Seedream 4.0。与此前版本相比,Seedream 4.0 首次支持多模态生图,同一模型可以实现文生图、图像编辑、组图生成,并在核心能力上迎来了显著提升:
- 主体一致性增强:无论是文本驱动还是图像驱动,都能稳健保持主体特征,避免「失真」与「错位」。
提示词:将平视视角改为俯视视角,将近景改为中景,并把画面比例改为 16:9。
- 多图灵活创作:支持文本、图像的多维组合输入,轻松实现参考生成、融合生成与编辑。
提示词:根据参考图中两个男生的形象,生成一组动作片分镜,原比例。
- 超高清、超高速直出:最高支持 4K 分辨率输出,且推理效率大幅优化,2K 大分辨率图像生成用时仅需数秒。
从更长远的技术发展视角来看,多模态自由创作正成为大势所趋。无论是文本驱动、图像驱动,还是多图融合,用户都期待能以更自然、更随心的方式与 AI 协作。
Seedream 4.0 内测一出,网友们就把它玩出了花。
比如基于多图融合能力,上传两张角色照片,再加上火柴人自拍动作,即可实现同框合影。
提示词:将图1男子和图2女子合进一张画面,参考图3姿势。
或者动动嘴就能给模特一键换时尚穿搭:
提示词:给图 1 模特穿上图 2 的穿搭。
我们也在第一时间拿到了内测资格。据xx了解,字节 Seedream 4.0 模型将很快在豆包、即梦全量上线,并通过火山引擎开放给企业客户。
接下来还是老规矩,我们亲自上手体验一番,看看字节 Seedream 4.0 成色几何。
一手实测:多模态无缝融合释放创作自由
如今,图像生成已经不再是从文本到画面的单向创作。用户需要的也不仅仅是高质量的图像输出,更是一个能够在多模态输入间灵活切换、在生成与编辑之间无缝衔接的完整创作工具。
无论是单图参考、多图组合,还是基于文本与图像的自由融合,Seedream 4.0 都能在同一模型下完成从生成到编辑的一站式创作,让用户在效率与可控性上同时获得新的自由度。
多图输入、输出
先来试试它的多图融合能力。
我们上传了马斯克、奥特曼这对劲敌的半身照,以及一张手绘自拍动作参考图,并在提示词中指定将两位人物合并到同一画面,完成一张「世纪大和解」的自拍照。
模型不仅准确捕捉了参考姿势,还能在保证两位主体身份特征的同时,实现自然的构图与表情协调。不同来源的图像在风格与细节上被平滑统一,没有出现常见的「换脸违和感」或「姿势错乱」问题。
提示词:将图 1 男子和图 2 男子合进一张画面,参考图 3 姿势
除了多图输入,Seedream 4.0 还支持多图输出。比如上传一张情侣正面照,让它生成一组爱情片分镜。
Seedream 4.0 能够在严格遵循人物外观一致性的基础上,设计出超市购物、雨中撑伞等浪漫场景。这种输出方式避免了传统生成模型常见的形象漂移问题,让用户得到一整套故事化的图像。
提示词:根据参考图男生和女生的形象,生成一组爱情片分镜,原比例,不要改变男生和女生的相貌,不要改变他们的发型、衣服。
深度意图理解
在深度意图理解方面,Seedream 4.0 也展现出强大的场景重建能力。
我们上传了一张室内设计的线稿图,并要求将其改造成真实场景。模型实现了细节上的高度还原,从沙发、桌子、台灯等主要家具,到画框、绿植等小型装饰,都能做到几乎 1:1 的精准复刻。
这意味着,Seedream 4.0 并非只是填色或补全,而是真正理解了用户的意图,并在此基础上进行合理、完整的空间构建,生成结果真实,细节丰富,整体观感接近专业设计渲染效果。
提示词:把这个线稿改成真实的场景
Seedream 4.0 还能理解抽象符号与图像元素之间的关系。比如在一张瘦弱小猫的图片旁画上外扩箭头,它就能推理出我们的意图是让小猫变胖,最终生成画面中小猫体型明显更加圆润。
相比于只能依赖文字描述的模型,这种图文结合的意图解析使创作过程更加直观高效。
提示词:根据箭头方向改变小猫体型。
此外,上传一张人物摄影照片,它还能严格遵循文本要求进行逆向工程,描绘其创作过程。
提示词:展示布景搭建的场景,模特坐着滑手机,身后有一位女性正在帮她整理头发,背景里有一名男子站在梯子上挂幕布,幕布后露出摄影棚的环境。
高度特征保持
以往,图像编辑模型在细节还原和物体特性表现上,常常出现失真或不自然的现象,而此次 Seedream 4.0 提供了更高的稳定性与精准度。
比如将参考图转化为手办测试中,Seedream 4.0 不仅遵循了提示词的多重约束,还能让角色形象与参考图保持高度一致,盒子、电脑屏幕、底座等元素布局合理,模型生成的 PVC 透明度与光泽感也更接近实物效果。
提示词:把参考图片转化为一个角色手办,在手办背后放置一个印有该角色形象的盒子,并在旁边的电脑屏幕上显示 Blender 建模过程,盒子前方放一个圆形塑料底座,角色手办立在上面,让 PVC 材质看起来清晰透亮,场景尽量设置在室内。
Seedream 4.0 这一功能在商业化场景中大有作为。
我们上传了两只小狗飞奔的图片和一张白色帆布包的产品照,并输入提示词「图 2 帆布包上印着图 1 形象」。
模型在处理跨图像的组合任务时,能精准捕捉主体特征、图像比例,并将其协调融入目标物体之中,避免了贴图感。
提示词:图 2 帆布包上印着图 1 形象
我们还可以制作表情包,Seedream 4.0 忠实还原了仕女的服饰与造型特色,并充分发挥想象力,生成扮鬼脸、打哈欠、比耶、愤怒等多款生动表情,角色形象和画风均没有走样。
提示词:参考图片形象生成一组搞怪表情包
精准指令编辑
对于增删改替常规玩法,Seedream 4.0 也有了较大进步。
比如让男生戴上耳机和墨镜,并手捧一束花,模型自然完成了三项元素的添加。耳机、墨镜与花束都与人物形象高度契合,整体效果真实自然。
提示词:让男生戴上头戴式耳机,戴着墨镜,手捧一束花
或者删除背景中杂乱的路人,模型不仅把这些无关元素删除得干净利落,还能自然填充背景,画面衔接流畅,完全看不出 P 图痕迹。
提示词:删除背景中的路人
即使是更为复杂的任务,如更换人物发型,Seedream 4.0 也能在保证面部特征和气质一致性的基础上,流畅转换发型,发丝细节丰富,还避免了因局部修改导致的整体失真。
提示词:将参考图中的女生发型分别改为大波浪卷、高马尾、丸子头
为了让大家能玩明白,官方还总结出了一套提示词指南。
- 使用清晰明确的指令通常能实现更好的编辑效果,常见公式为「变化动作 + 变化对象 + 变化特征」,比如将骑士的头盔变为金色。这里,变化动作指的是需要执行的操作,如移除、添加、替换、参考等;变化对象包括主体、背景、光影、色彩等;变化特征则是希望变化后呈现的效果。
- 当需要将多张图片合成一张时,可以通过「一系列」、「组图」或「帮我生成几张图」等提示词触发组图功能,最多支持生成 9 张图片。
- 如果需要保持特定角色形象、产品信息或风格一致性,可以上传图像作为参考。
- 使用精确的风格词或直接输入图像作为风格参考,有助于获得更理想的效果。
- 上传多张参考图时,明确指出不同图片需参考或编辑的不同元素,可以提高生成结果的精准度。例如:将图 1 中的角色放入图 2 的背景中,参考图 3 的风格进行生成。
与 Nano Banana 同台竞技
为了更直观地展现字节 Seedream 4.0 和谷歌 Nano Banana 这两款模型的差异与优势,我们将其进行了多项对比测试。
Round1:生成 OOTD
图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana. 提示词:请根据上传的参考照片,生成一张俯拍平铺的 OOTD 穿搭图,服装、配饰、鞋子需与上传的参考照片 1:1 复刻。
从结果来看,Seedream 4.0 与 Nano Banana 的整体表现都接近预期,能够较好地还原出参考造型的整体搭配与构图。
不过在材质精准性与细节控制上仍有优化空间,Seedream 4.0 生成的毛线马甲材质对不上号,Nano Banana 则是纹理不对,同时在生成的包袋上额外出现了一条肩带。
Round2: 一键换衣
我们又上传了一张模特照和一张 OOTD 俯拍平铺图,并输入提示词:Change the outfit with the uploaded one.
图 1、图 2 为原图;图 3 为 Seedream 4.0 生成效果;图 4 为 Nano Banana 生成效果。提示词:Change the outfit with the uploaded one.
这两款模型都能够严格遵循提示词要求,将参考穿搭准确替换到模特身上,整体效果自然,服装细节和轮廓基本与参考图一致。
Round3: 漫画分镜
漫画分镜的生成是对模型理解力与画面统筹能力的综合考验。
我们以一张吉卜力风格的女孩形象为参考,要求模型延展出两组治愈系场景。
图 1 为原图;图 2、图 3 为 Seedream 4.0 生成效果;图 4、图 5 为 Nano Banana 生成效果。提示词:参考这张图的画风和人物形象,生成一组治愈系漫画:1. 骑着自行车在山间小路上行驶;2. 穿着透明雨衣,雨衣表面有水珠,右手提着装满鲜红番茄的柳条篮子,行走在泥泞乡间小路,小路两侧是繁茂番茄田(红番茄挂藤,绿叶带雨),田边点缀白 / 粉 / 黄 / 蓝野花,细雨纷飞。
两者在复杂分镜生成方面都已具备成熟能力,Nano Banana 一如既往稳定,Seedream 4.0 则在画面色彩搭配上更加鲜明,整体清晰度也更高。
Round4: 修复老照片
我们又上传了一张破损严重的旧照,并要求这俩模型进行自动修复。
图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Restore this photograph.
它们的处理结果都达到了可用水准,能够有效去除照片中的裂痕与瑕疵,并在保持原有影像风格的前提下,恢复出较为完整的画面。
二者实力几乎不相上下,Seedream 4.0 的成片更清晰,人物面部轮廓与背景纹理表现得更加锐利; Nano Banana 的颗粒感更强,也更有老照片的味道。
Round5: 中文排版
在涉及中文文本生成与排版的任务中,Seedream 4.0 能将英文正确替换为中文,书写感真实,整体与封面设计协调一致;而 Nano Banana 在这一任务中则出现了明显问题,生成的文字难以辨认,呈现出类似「鬼画符」的效果。
图 1 为原图;图 2 为 Seedream 4.0;图 3 为 Nano Banana。提示词:Change the text on the image to "时尚芭莎" in a handwritten style.
综合这五项测试结果来看,Seedream 4.0 与 Nano Banana 在图像生成与编辑的核心能力上都展现了较高水准,能够较好地理解复杂提示词并生成符合要求的内容。
两相对比,Nano Banana 在多图融合中主体一致性更稳定,而 Seedream 4.0 则在美感、清晰度以及中文排版等方面表现更为突出,尤其在多语言环境与高精度任务中展现出明显优势。
可以预见,在多模态与生成式 AI 的赛道上,竞争将持续加速,而用户也将因此获得更丰富、更具想象力的创作体验。
#PixVerse V5
全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
好玩好用的明星视频生成产品再更新,用户操作基础,模型技术就不基础。
熟悉生成领域的读者们最近都被谷歌的一只纳米香蕉 nano-banana 刷了屏。
在图像生成领域,纳米香蕉在短期内获得了巨量的影响力,凭着「照片变手办」的超高真实感的创意玩法横扫整个社交媒体,尤其触动了毛孩子家长们的心。
在优秀的模型实力基本盘外,真正做到出圈的核心要素还得是「创意」。
把自家宠物变成可爱手办的创意玩法的彻底出圈,让更多普通用户意识到 AI 生成让想象落地的能力,「这个好酷,我也想要」的心理触发了全民 AI 创作的裂变。
不过,说到在 AI 视频中玩创意,老玩家 PixVerse(拍我 AI)上周五开始在国内开启免费开放周,两天内有创作者在小红书、短视频平台上玩 Nano banana 3D 手办,也有创作者用 Nano banana 生图和拍我 AI 模板结合,玩衣柜变装,获得视频号超 5000 点赞量。
在两年前,Sora 甚至还没有概念发布的时候,PixVerse 就已经上线了网页端产品,上线 30 天内就实现了百万访问量。
如此元老级的视频生成玩家,在「创意」上是认真的。过去那些火遍全网的神奇 AI 特效模板,都出自 PixVerse 之手。
在今年 6 月,国内版本的产品「拍我 AI」正式上线,并搭载了当时最新的 PixVerse V4.5 底模,将长期霸榜视频生成应用榜的工具提供给期待已久的国内用户。
当时,我们就做了一手全方位的体验,非常惊艳,一整个六边形战士。
「让普通人感觉好玩,让创作者感觉好用」是拍我 AI 最贴切的标签。
如果你是普通用户,首页中令人眼花缭乱的当下热门 AI 视频模板足够用来整活,越玩越上头;如果你是进阶创作者,文生视频、图生视频、首尾帧、多主体、视频续写等创作工具应有尽有,完美支持天马行空的创作思路。更值得一提的是,PixVerse(拍我 AI)早于 veo3 就推出了音频音效和对口型等音频相关的创作功能,实现了视频创作的全流程闭环。
PixVerse(拍我 AI)至 9 月 10 日期间生成任意视频不消耗积分,大家可以趁机随意尝试爆款短视频的创作,产生更多火爆的创意,进一步增进国内的AI视频创作热情。
其发布的最新的 Agent 创作助手功能,不再只是提供「模板」,而是像一个随身的 AI 导演:用户只需选择喜欢的模板并上传一张图片,Agent 即可自动识别其特征,生成一段 5–30 秒的完整短片。智能体功能不仅覆盖了目前网络上爆火的特效和创意视频,而且将用户从繁杂的 Prompt 设计工作中解放,让更多普通人加入到 AI 创作中来。
「照片变手办」也不再是纳米香蕉的标签,我们用这只网红哈基米的图像做了智能体创作:PixVerse(拍我 AI)不仅生成了高质量的手办尾帧图,还生成了一个炫酷的转场动画。
,时长00:04
当然,拥有这么多有意思的玩法的平台早已受到海量用户的认可。不久前,PixVerse(拍我 AI)的全球用户数已跃升至破亿的规模。
要想在全球范围内获得上亿用户的认可,能够承接上亿用户的创作灵感,PixVerse(拍我 AI)背后的公司 —— 爱诗科技 —— 一定在技术创新上做对了些什么。
图生视频榜首 PixVerse V5,更全面的六边形战士
8 月 27 日,爱诗科技发布新一代自研视频生成大模型 PixVerse V5。
PixVerse V4.5 已经是一个六边形战士了,谁曾想 PixVerse V5 又一次把六边形硬生生扩大了一圈。
根据权威独立测评平台 Artificial Analysis 最新测试结果,PixVerse V5 在图生视频(Image to Video)项目中排名全球第一,在文生视频(Text to Video)项目中位列同样位居第二,在视频生成赛道的最前列。
PixVerse V5 的核心优势在三大方向:
智能理解:一句话生成精准视频,指令响应更准确,生成一致性和稳定性大幅提升,创意表达更自由高效。
极速生成:视频生成速度保持在「分钟级」提升至「秒级」的准实时生成,最快 5 秒即可生成一段高质量短片,1 分钟生成 1080P 高清视频。
更逼真自然:通过扩大模型参数规模和高质量训练数据,显著提升审美、复杂动作、运动幅度和光影的还原能力,让 AI 视频生成更接近真实拍摄。
令人惊喜的是 PixVerse V5 的更新并没有强调在某一个特定场景的能力提升。准确的说,PixVerse V5 版本是对前一代底模的全方位进化。从技术革新的角度,我们来详细探究一下这三大方向上,爱诗科技是怎么走在时代前沿的。
统一特征空间,指令没有沟通障碍
从用户角度而言,一个「好用」的生成模型,首先得听得懂诉求。当用户和模型之间有沟通障碍时,生成质量再高的模型也很难实现用户的目标,更难以称得上好用。
就比如下面这个案例:
,时长00:04
某国内头部产品模型生成的:「莱特兄弟的双翼飞机进化到喷气客机」
,时长00:03
拍我 AI 生成的:「莱特兄弟的双翼飞机进化到喷气客机」
越是简单模糊的文本指令,越是考验模型对文本、图像、视频多模态数据的理解能力。爱诗科技显然在多模态大模型领域有着深刻的积累。
我们知道,VLM 多模态大模型,能够同时处理和理解图像和文本数据。以前的模型大多是「单模态」的:比如卷积神经网络只能看图,语言模型只能看文字。而 VLM 能同时理解图像和文本,并且把两者关联起来,处理更加复杂的任务。而在视频大模型中,视频相比于图像增添了时间维度,语义信息更丰富,更复杂。
PixVerse(拍我 AI)将不同模态数据映射到同一语义体系,让不同模态的数据能够在同一个语义体系下对齐和交流,在 VLM 的体系下弥合了用户指令和生成视频之间的语义鸿沟。
除了语义理解外,目前在视频生成领域的最大痛点在于视频生成的速度普遍不及预期,并且模型要实现高质量和长序列的视频生成,对训练数据和训练资源的需求是巨大的。
爱诗科技在这两大传统痛点上持续发力,奠定了在视频生成领域坚实的技术优势。
扩散极致蒸馏,几秒完成生成的准即时魔法
用过 Sora 生成过视频的朋友们都应该很有感触,从指令输入到成片出现至少也要以数分钟计算。一个慢速的生成模型非常干扰用户的创作思路,非常影响使用体验,更别提连续创作了。
而生成速度这部分,是 PixVerse(拍我 AI)的传统强项,也是其获得全球海量 AI 创作用户青睐的核心竞争力。
爱诗科技是业界第一个把视频生成做到 5 秒之内的 AI 初创团队。
在 PixVerse V4.5 的时候我们就实测过,即使我们将各项生成指标拉满,平台输出结果的时间也没有超过 1 分钟。
对于用户来说,如此短暂等待能够成为「准即时」生成,完全不给使用带来负面影响。
为了实现超高速的视频生成,爱诗科技对视频扩散模型进行了大刀阔斧的改进,采用了「分数匹配蒸馏」的方式,将视频扩散生成过程从几十步压缩至极少数步骤,极大的提高了模型的生成速度。
分数匹配蒸馏是一个扩散模型体系下,将扩散模型转换为一步生成,极大地加快了生成速度并保持质量的代表性方法。最初,该方法在图像生成领域使用。在视频生成领域,该方法具有很大的应用潜能。
据爱诗科技技术团队介绍,PixVerse V5 不仅采用了分布匹配损失优化模型采样轨迹提速生成,为了保证视频生成的质量,他们还结合了特征自约束损失,让模型实现自我监督,以此稳定画面质量,实现了生成速度和生成质量之间完美的平衡。
自研生成架构,突破创造力上限的驱动力
决定了 PixVerse(拍我 AI)产品能力的核心是底模,决定了底模能力上限的是高质量的模型架构。
爱诗科技全面采用自研的视频生成模型,采用 DiT 架构,在模型结构设计、训练策略等方向上进行了充分的创新工作,能够充分激发 DiT 架构模型的生成潜力。
为了满足读者对领先的模型的技术细节的好奇心,xx特意向爱诗科技的技术团队了解了一些他们在自研 DiT 模型的架构创新和技术细节。
简而言之,DiT 模型将 VAE 框架之下扩散去噪中的卷积架构换成了 Transformer 架构,结合了视觉 transformer 和扩散模型的优点,利用全局注意力机制,具备可扩展性强,多模态扩展,生成质量高的优势。
DiT 基本模型架构图,来自论文《Scalable Diffusion Models with Transformers》
DiT 虽然效果好,但是对训练的算力要求很高,需要有好的模型设计以及好的模型训练策略,才能实现高质量的生成。尤其是在视频生成领域,要采用 DiT 模型进行高质量视频生成则更为复杂,需要在模型架构中添加时间维度。正所谓牵一发而动全身,视频生成 DiT 模型在算力需求、数据需求、分辨率兼容等多个问题上都面临着不小的挑战。
爱诗科技的技术团队向我们透露,PixVerse V5 在模型结构设计上有两大亮点:
- Tokenizer 方面:我们正在训练专用于视频与图像生成的 Tokenizer,在保持较高压缩比的同时,依然能够保证出色的重建质量与生成效果。
- 自适应 Attention 结构(FullAttn + SparseAttn):通过在计算量与注意力精度之间动态平衡,不仅能有效降低整体计算开销,还能在推理速度几乎不受影响的前提下,为模型提供更大的规模扩展(ScaleUp)空间,并显著提升其拟合能力。
众所周知,视频数据相比于文本和图像数据更为复杂和庞大,数据包含的信息量更大且更难以提取,给模型训练提出了巨大的难题。
为了模型能够有效学习数据集中的信息,快速实现模型收敛,实现模型性能提升,爱诗科技在模型训练策略上下了很大功夫,PixVerse V5 在多模态训练策略上有四大创新优势:
- 多模态统一表征:将文本、图像、视频等模态映射至同一语义空间,显著提升模型的理解与生成精度,并加速整体收敛过程。
- 自适应加噪去噪:在训练过程中动态调整噪声水平,并结合任务难度相关的损失加权机制,在不同信噪比条件下有效加速模型收敛。
- 渐进式训练策略:采用「由简入繁」的训练路径,先进行图像任务学习,再逐步扩展至图像 + 视频的联合训练;在联合训练中,从低时长到高时长、低分辨率到高分辨率逐步递进,保证稳定收敛与性能提升。
- 原生动态分辨率支持:模型能够直接处理不同分辨率的图像与视频,无需额外的 resize 或 crop 操作;结合原生动态分辨率与绝对时间编码机制,使其具备处理多尺度图像及长时序视频的能力。
另外,爱诗科技团队透露,他们拥有领先的海量图像和视频数据,和高质量、高精准的精选数据,不仅能够为模型预训练提供了无限可能的数据分布,也在监督训练微调(SFT)阶段更上一层台阶。
这些硬核的技术革新驱动着 PixVerse 模型的不断进化,支撑着用户生成动作自然、光影真实、物理规律准确的创意视频,也是满足广告、电商、影视、教育、游戏等场景的高标准要求的核心基本盘。
过去,在视频生成的研究探索阶段,我们一般都在讨论一些最基本的生成逻辑,包括物理效果,光影效果,动作的合理性等等。
随着技术的不断迭代,视频生成已经进入了投入实际应用的新阶段,而现在我们讨论的更多的是生成视频的创意和美学范畴了。随着 PixVerse V4.5 对各种趣味创意、光影艺术的创作、镜头语言的理解方面的功能实现,我们自然希望 PixVerse V5 在美学上能够有一些新的理解。
爱诗科技在模型中利用高质量视频数据和人类偏好标注,结合强化学习后训练(RLHF),提升了文本 - 视频对齐精度、动作自然度和美学评分。
,时长00:05
超可爱的小猫咪舔爪爪,毛茸茸的小窝和字体设计,PixVerse V5 真的很懂可可爱爱的心头好。
将人类的审美喜好加入到大模型训练中,让 AI 更懂人心,更懂审美,为打开模型生成的上限,投入 AI 艺术创作奠定了坚实的基础。
疾速成长,领跑视频生成马拉松
爱诗科技模型发展历程
从 2023 年 7 月开始,爱诗科技训练视频生成大模型,到 2025 年 8 月底发布 PixVerse V5 模型,仅有短短的两年时间。
在这两年期间,每隔数个月就能有一次模型的迭代,成长非常迅速。直到 2024 年底,爱诗科技发布 PixVerse App 产品,创下了全球最快的高质量视频生成的模型纪录,真正进入应用阶段。
从 V3 一直到 V5,生成速度从 10 秒进化到 5 秒准实时,视频生成进入了有声时代,镜头语言、多主体、智能体等里程碑式功能接连上线,这一切支撑着 PixVerse(拍我 AI)成为了全球用户量最大的视频生成平台。
AI 视频生成是一场没有终点的马拉松,只有保持高速的技术迭代、不断刷新模型的边界,才能始终引领行业向前。
爱诗科技创始人兼 CEO 王长虎博士在 2025 北京智源大会上表示:「视频是最贴近用户的内容形态。一旦视频生成技术能够落地,它的产品化和商业化潜力可能不亚于大语言模型。」
「去年 2024 年 10 月,我们的 PixVerse V3 上线,这是第一次真正让普通用户、普通消费者用 AI 能力创造出过去无法创造出来的视频。在我心中,这一刻才是视频生成的『GPT 时刻』。」
爱诗科技所秉持的愿景与技术理念,正是要在这条漫长而激烈的赛道上,持续释放视频这一最贴近用户的内容形态的潜能,让创造的能力真正走向每个普通人。
#REFRAG
扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
经历了前段时间的鸡飞狗跳,扎克伯格的投资似乎终于初见成效。
近期,Meta Superintelligence Labs 联合提出了一个名为 REFRAG 的高效解码框架,旨在解决 LLM 在处理长上下文输入时面临的效率瓶颈,尤其是在 RAG 等应用场景下。
论文标题:REFRAG:Rethinking RAG based Decoding
论文地址:https://arxiv.org/abs/2509.01092
为什么长上下文处理如此困难?
在当前的 AI 应用中,利用 LLM 处理包含大量外部知识的长文本输入,是提升问答、对话和智能体应用能力的关键。然而,这一过程也带来了严峻的挑战:在传统 LLM 中,注意力机制的计算和内存开销会随着输入长度的平方(N²)增长。
这意味着文本长度翻一倍,速度可能会慢 4 倍,这会导致显著的系统延迟,并消耗大量内存用于存储 KV Cache,进而降低系统吞吐量。这使得开发者不得不在知识丰富度与系统效率之间做出痛苦的权衡。
Meta 的研究指出,在 RAG 应用中,LLM 处理的上下文中包含了大量从外部知识库检索拼接而成的段落,但其中只有一小部分与用户查询紧密相关。这些不相关的段落导致了计算资源的浪费。REFRAG 的核心思想正是基于这一观察,通过识别并跳过对这些非相关上下文的无效计算,来优化解码过程。
REFRAG 是如何解决问题的?
REFRAG 框架通过一个精巧的四步流程,利用注意力稀疏结构,实现了显著的性能提升。它与传统 RAG 的关键差异在于,它避免了让 LLM 直接处理冗长的原始文本。
- 压缩:首先,一个轻量级的编码器会读取检索到的文档,将每 16 个 token 压缩成一个浓缩了语义精华的「块向量」。
- 缩短:接下来,主模型不再读取原始的 token,而是直接处理这些块向量。输入序列的长度因此立刻缩短了 16 倍。
- 加速:由于输入变得极短,注意力机制的计算开销大幅降低,同时作为显存消耗大头的 KV cache 也变得更小。这正是其能实现惊人速度提升的根本原因。
- 选择:为了防止在压缩过程中丢失关键信息,框架引入了一个基于 RL 的策略充当「质检员」,它能智能地挑出信息密度最高、与任务最相关的关键片段,确保它们不被压缩,从而保留核心信息。
Meta 表示,该框架的有效性已在包括 RAG、多轮对话和长文档摘要在内的多种长上下文任务中得到验证,取得了突破性的成果:
- 速度提升: 将首个 token 生成时间(TTFT)加速高达 30.8 倍。在 16k tokens 的场景下,相比 CEPE 等基线方法,实现了超过 16 倍的 TTFT 加速。从性能图表可以看出,文本越长,REFRAG 的优势越明显,其加速效果随上下文规模增加呈指数级提升,而基线方法仅为线性增长。
- 上下文扩展: 能够将现有 LLM 的有效上下文大小扩展 16 倍,使其能处理更海量的信息。
- 精度不降反升: 在大幅提升速度和扩展上下文的同时,做到了模型的准确率没有损失。更关键的是,在 GSM8K 基准测试上,REFRAG 不仅能处理 8 倍更长的上下文(80 个 chunk vs 10 个 chunk),运行速度还提升了一倍,最终成绩更是几乎翻倍,从 6.71 提升到 12.08。
简而言之,REFRAG 让「大上下文 RAG」从理想变成了现实。
虽然其效果听起来非常不错,但评论区也表示,它最终的价值仍需要在更广泛的实际应用场景中进行检验。
还有人对该研究中的 RL 策略提出了质疑。
方法
为实现编码器与解码器的有效对齐,本研究遵循 Yen et al. (2024) 的工作,采用了一种基于「下一段落预测」任务的持续预训练方法。
在训练中,每个数据点包含总计 s+o=T 个词元(token)。通过这一预训练过程,模型能够学习如何利用块嵌入(chunk embeddings)来高效执行下游任务。
为了进一步提升模型性能,该方法还引入了通过 RL 实现的选择性压缩机制。在完成 CPT 对齐后,模型会经过监督微调 ,以适应具体的下游应用场景,例如 RAG 和多轮对话。
在 CPT 的核心任务中,模型的工作流程如下:编码器首先处理前 s 个词元
,其输出的压缩信息将辅助解码器预测接下来的 o 个词元
。
这项任务旨在训练模型利用上下文信息进行高效预测,为其在实际应用中的表现奠定基础。其最终目标是让任意的编码器和解码器组合都能协同工作,确保解码器基于压缩上下文生成的内容,与它在拥有完整、未压缩上下文时生成的内容高度相似。
持续预训练方案
为确保 CPT 阶段的成功,研究者提出了一个包含重建任务和课程学习方法的训练方案。消融研究表明,该方案对于实现优异的 CPT 性能至关重要。
重建任务。 此任务的目标是让编码器学习如何以最小的信息损失压缩文本。具体操作是,将前 s 个词元
输入编码器,然后训练模型在解码器中重建出完全相同的词元
。在此过程中,解码器模型本身保持「冻结」(即参数不更新),训练重点完全集中在编码器和用于连接两者的投影层上。
该任务主要实现两个目标:
- 高效压缩:训练编码器将 k 个词元压缩成一个块嵌入,同时最大程度地保留原始信息。
- 空间映射:训练投影层有效地将编码器输出的块嵌入映射到解码器的词元空间中,使解码器能够「理解」并准确重建原始信息。
设计重建任务的一个特定意图是,鼓励模型在训练时更多地依赖其上下文记忆(即从输入中获取信息),而非其固有的参数化记忆(即模型自身已经学到的知识)。一旦通过此任务初步对齐了编码器与解码器,便会解冻解码器,正式开始 CPT。
课程学习。尽管上述训练任务在概念上清晰,但在实践中却极具挑战性。其难度在于,随着块长度 k 的增加,可能的词元组合数量会以
的速率呈指数级增长(其中 V 是词汇表的大小)。将如此巨大的多样性有效压缩到一个固定长度的嵌入中,是一项重大的技术挑战。此外,从 L 个块嵌入中重建出
个词元,进一步加剧了任务的复杂性。
与直觉相反,直接继续预训练解码器以利用编码器输出,即使是在重建任务中,也未能降低困惑度。为解决这一优化挑战,研究者建议对这两项任务均采用课程学习。课程学习通过逐步增加任务难度,使模型能够渐进且有效地掌握复杂技能。对于重建任务,训练从重建单个块开始:编码器接收用于
的一个块嵌入
,解码器则使用投影后的块嵌入 ecnk1 来重建这 k 个词元。随后,模型从
和
中重建
,以此类推。为了持续调整任务难度,研究者随时间改变数据混合比例,从以较简单任务(例如,单个块嵌入)为主的样本开始,逐步过渡到以更困难任务(即 L 个块嵌入)为主的样本。图 6 提供了课程学习期间数据混合的可视化展示。
选择性压缩。为了进一步提升答案预测的准确性,该方法(REFRAG)引入了选择性词元压缩机制。其核心思想是,对于上下文中特别重要的信息块,可以不进行压缩,而是以原始形式保留,从而避免关键信息丢失。
一个强化学习策略被用来决定哪些块应当被保留。该策略以下一段落预测的困惑度作为负向奖励信号进行指导(即困惑度越低,奖励越高),从而学习识别并保留关键信息。编码器和解码器都经过微调,以适应这种压缩块与未压缩块混合的输入形式。该策略网络利用块嵌入和掩码技术来优化块的扩展顺序,既保留了解码器的自回归特性,又实现了压缩位置的灵活安排。
更多技术细节请参看原论文。
#LLMs Learn New Skills in RL by Composing Old Ones
强化学习注入新活力,LLM的组合推理能力解锁新世界:性能提升90%!
一项新的研究挑战了关于强化学习(RL)在大型语言模型(LLMs)中只能“重新排序”而非学习新技能的传统观点。通过精心设计的实验,研究者们展示了RL实际上能够教会模型如何将已有技能组合成解决更复杂问题的“元技能”。这项发现不仅为RL在LLMs中的应用提供了新的理论支持,也为未来的模型训练提供了实用的指导方针。
近年来,大型语言模型(LLMs)的发展日新月异,但一个核心问题始终困扰着研究者与从业者:除了通过预测下一个词(Next-Token Prediction, NTP)学习知识外,模型能否通过强化学习(RL)真正学会新的、前所未有的技能? 许多现有研究给出了悲观的答案,认为RL更多是“重新排序”模型已有的输出,而非传授新能力。它们的证据往往是:经过RL调优的模型,其pass@k性能(即采样k次后能通过任务的概率)与基础模型相比,差距随着k增大而缩小。这被解读为RL没有带来新能力,只是让模型更“自信”地输出它本来就会的东西。
- 博客:From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones
- 链接:https://husky-morocco-f72.notion.site/From-f-x-and-g-x-to-f-g-x-LLMs-Learn-New-Skills-in-RL-by-Composing-Old-Ones-2499aba4486f802c8108e76a12af3020
这篇博客文章,对这一主流观点发起了强有力的挑战。作者们通过一个设计精巧、控制严格的实验证明:只要训练任务设计得当,RL确实能教会LLMs一项全新的、强大的“元技能”——如何将已有的原子技能(Atomic Skills)组合(Compose)起来,以解决更复杂的组合性问题(Compositional Problems)。 更重要的是,这项技能不仅能够泛化到远比训练数据复杂的任务上,甚至还能迁移到完全不同的新任务中。
这项研究不仅澄清了学术上的争议,更为LLM的训练范式提供了极具实用价值的指导:先通过广泛的预训练/SFT打下坚实的原子技能基础,再通过针对性的组合性RL训练解锁强大的组合推理能力。这是一种高效且可扩展的模型能力提升路径。
01 研究动机与核心假设
现有研究的局限
作者指出,先前得出“RL不教新技能”结论的研究存在两个主要问题:
- 模糊的技能定义: “技能”一词没有被清晰界定。许多研究用“某些推理模式的频率”或“下游任务的pass@k分数”作为代理指标(proxy),但这些指标无法精确衡量一个模型是否学会了_全新的_推理策略。
- 粗糙的评估指标: 在基础模型已经表现不错的任务上,整体的pass@k分数很容易被“平均掉”。即使模型学会了新东西,如果其他技能仍是瓶颈,或者新技能在简单问题上无用武之地,那么在整体指标上就可能无法体现。
核心假设——RL组合性假设:
受人类学习过程的启发(先学基础知识,再组合运用),作者提出了一个清晰且可验证的假设:
一旦一个模型通过NTP训练获得了解决某个任务所必需的、不可再分的原子技能,那么只要给予适当的激励(incentivization),RL就能够使模型将这些原子技能组合成更复杂的能力。
这个假设将“新技能”明确定义为组合已有技能的“元能力”,而非一个全新的、孤立的技能。这为后续的实验设计奠定了基石。
02 实验
为了干净地验证上述假设,作者设计了一个名为“字符串转换预测(String Transformation Prediction)”的合成任务。这个任务就像一个精心设计的“显微镜”,能让我们清晰地观察RL到底做了什么。
任务设计原则
- 原子技能明确 (Well-defined Atomic Skills): 任务由一系列独特的字符串处理函数(如
func_1
, func_2
...)构成。每个函数都是一个原子技能,例如去除重复字符、反转字符串等。模型学习每个函数各自的功能。一个字符串转换函数的示例及其调用 - 难度可控 (Controllable Difficulty): 任务的复杂性可以通过函数的“嵌套层数(Level)”来控制。
- Level 1:
func_16('abc')
(单一函数) - Level 2:
func_16(func_15('abc'))
(两层嵌套) - Level 3:
func_16(func_15(func_2('abc')))
(三层嵌套) - ...最高可到Level 6。
- 去污染 (Decontamination): 所有这些函数和名称都是作者全新编造的,确保了在LLM的预训练数据中不可能出现过,从而排除了模型“回忆”而非“学习”的可能性。
训练框架
实验分为两个关键阶段:
- 阶段1: 原子技能训练 (Atomic Skill Training - RFT): 使用监督微调(RFT, Reinforced Fine-Tuning,在此语境下可理解为一种细致的SFT),让模型学习每个原子函数的功能。在此阶段,模型可以看到完整的函数定义。
- 阶段2: 组合技能训练 (Compositional Skill Training - RFT vs. RL): 这是整个实验的精髓。在此阶段,函数定义被隐藏,模型只能看到函数名和输入(如
func_2(func_16(x))
)。它必须依靠在阶段1内化的知识来进行推理。
- 在此设置下,作者用两种方法训练模型:
- RFT (基线): 直接给模型看组合问题的正确推理过程,让它模仿。
- RL (实验组): 模型自己生成回答,只根据最终答案的对错获得一个二值奖励(对/错),然后用GRPO算法进行更新。
这种设计完美地隔离了变量:阶段2的模型无法获得新的原子知识,任何性能提升都必须归因于学会了如何组合。
03 发现与分析
发现一:RL在激励组合时,能教会模型可泛化的组合能力
作者首先尝试只用在Level 1问题(原子问题)上收集的RL数据训练模型。
结果所示,模型在Level 1上的准确率飙升到近90%,但在需要组合的Level 2-6任务上表现依然糟糕。这说明仅学习原子技能,不足以让模型自发学会组合它们。
关键的转折来了。当作者在RL训练数据中加入一点点“组合的种子”——仅仅是Level 2的问题(两层嵌套)——后,奇迹发生了。
用“Level 1+2”数据训练的模型,其能力发生了质的飞跃。它不仅能解决Level 2的问题,更重要的是,它竟然能泛化到从未见过的、更复杂的Level 3、4、5问题! 模型没有简单地记忆训练数据,而是学会了“组合推理”这一抽象概念。这强有力地证明了RL在适当的激励下,可以教会模型全新的、可泛化的元技能。
发现二:RL是关键因素,而非仅仅是数据
一个自然的质疑是:性能提升是不是仅仅因为训练数据(Level 2)更接近测试数据(Level 3+),而不是RL的功劳?如果用监督学习(RFT)同样训练Level 2数据,结果会怎样?
作者对此进行了严格的对比实验。使用RFT在Level 2数据上迭代训练,模型性能几乎没有持续提升,最终效果与第一次迭代相差无几。而RL训练的模型则在所有问题上都取得了显著更高的性能。这表明,仅仅是“看到”组合的范例是不够的,RL提供的“试错-奖励”信号才是学会稳健、可泛化的组合技能的关键 ingredient(关键成分)。
发现三:组合技能在具备原子技能的前提下可迁移至其他任务
既然组合技能可以学会,那它能迁移吗?比如,在“字符串转换”任务上学到的组合能力,能用来解决“数学计算”任务吗? 为了测试这一点,作者引入了一个全新的任务“Countdown”(一个合成推理任务)。他们比较了四个模型:
- String-Base + RL: 只在字符串任务上学过组合,对Countdown一无所知。
- Multi-Base: 通过SFT学习了字符串和Countdown的原子技能,但没经过任何RL。
- Multi-Base + RL (Level 1): 在Multi-Base基础上,用字符串的原子(Level 1)数据做RL。
- Multi-Base + RL (Level 1+2): 在Multi-Base基础上,用字符串的组合(Level 1+2)数据做RL。
四个模型在Countdown任务Level 3-5上的性能对比
结果所示:
- 模型1完全失败,证明没有原子技能,空有组合技能也无用武之地。
- 模型2(SFT-only)有一定基础能力。
- 模型3相比模型2只有微弱提升,说明原子技能的RL帮助不大。
- 模型4表现最佳,显著领先于其他模型。这表明在字符串任务上学到的组合技能成功迁移到了Countdown任务上,帮助模型更好地组合运用它在Countdown上的原子知识。
启示: 这解释了为什么有些研究能观察到RL带来跨任务的泛化提升(例如在逻辑谜题上训练后数学能力变好)。很可能是因为现代LLM在预训练中已经学到了大量领域的原子技能(数学、代码、科学等),而RL只是教会了它如何更好地组合运用这些已有技能。
发现四:RL提升能力上限并非虚假承诺(对pass@k争议的回应)
现在,让我们回到最初的争议:pass@k指标。 作者没有笼统地计算整个测试集的pass@k,而是按问题难度(Level)分层计算。
按难度层级分列的pass@1000性能
结果非常震撼:
- 在简单问题(Level 1-2) 上,基础模型本身就不错,RL模型和基础模型的pass@k差距随着k增大而缩小。如果只看这里,的确会得出“RL仅重新排序”的结论。
- 然而,在复杂问题(Level 3-6) 上,情况截然不同!RL模型和基础模型的性能差距不仅巨大,而且随着k增大还在不断拉大。这 unequivocally(明确地)证明,RL模型学会了一项基础模型根本不具备的新技能,以至于即使采样1000次,基础模型也无法达到RL模型的水平。
这个实验清晰地表明,在基础模型本就擅长的任务上评估,会严重低估RL带来的真正的新能力。 必须到更困难、更需要新技能的领域去检验RL的价值。
发现五:行为分析表明RL从根本上改变了模型的推理模式
最后,作者深入分析了模型的“失败模式”。他们让另一个大模型(Gemini)来分类不同模型在Level 3问题上的错误类型,例如:“完全忽略组合”、“组合关系理解错误”、“原子计算错误”等。
不同模型的错误类型分布饼图
分析结果极具启发性:
- 基础模型 (RFT Base)、RFT Level 2 模型、RL Level 1 模型的失败模式惊人地相似:主要失败在“忽略组合”和“错误组合”上。这意味着它们根本没有意识到这是一个需要组合解决的问题,或者无法正确解析嵌套结构。
- RL Level 2 模型的失败模式则发生了根本性转变:它完全解决了“忽略组合”的问题,其主要错误变成了“原子计算错误”。也就是说,它成功学会了解析组合结构,它的失败更多是执行原子技能时出了错,而不是不会组合。
这项分析强有力地证明,RL没有简单地让模型“更准确”,而是彻底改变了它解决组合性问题的心智模型(Mental Model)和推理行为。
04 讨论
这项研究挑战了“RL仅重新排序”的片面观点,揭示了RL在教授可泛化、可迁移的组合性元技能方面的巨大潜力。
成功的关键条件:
- 坚实的原子技能基础: 模型必须首先通过NTP/SFT熟练掌握完成任务所需的各个原子技能。这是组合的“砖块”。
- 适当的激励(Incentivization): RL训练任务必须包含需要组合才能解决的“种子”问题(如Level 2),以激励模型去学习“组合”这一策略。
对模型开发实践的指导: 这项工作提出了一个非常实用且高效的模型能力提升范式:
- 首先,广泛预训练/SFT: 不惜代价地让模型通过海量数据学习尽可能多的、广泛的原子技能。这一步的数据收集相对容易。
- 然后, targeted RL: 只需在少数几个任务上精心设计需要组合技能的RL训练,来教会模型“如何组合”这一元技能。这项元技能一旦学会,就能迁移到其他已有原子基础的领域。
这意味着,我们不必为每个新任务都耗费巨资收集RL数据,而应优先投资于打下宽广的原子知识基础。
05 结论
这篇博客通过一个设计精妙的控制实验,提供了令人信服的证据,证明大型语言模型完全可以通过强化学习学会新的、可泛化、可迁移的组合性技能,从而解决了该领域的一个重要争议。
- 它明确了RL教授新技能的具体条件(原子技能+组合激励),并设计了严谨的实验加以验证;它澄清了关于pass@k指标的误解,指出了正确评估RL新技能的方法;它通过行为分析揭示了RL如何从根本上改变模型的推理模式;最后,它提出了一个极具实践价值的模型开发范式。
- 这项工作不仅增进了我们对LLM学习机制的理解,也为未来如何更有效地通过RL解锁模型潜力指明了方向。它告诉我们,RL的价值远不止于对齐(Alignment)和风格调整,它可以是提升模型核心推理能力的强大工具。
- 未来的研究可以探索如何在更开放、更复杂的任务中激发和利用这种组合性学习;研究如何更好地评估模型在不同粒度上的技能;以及如何将这一范式应用于解决更多的现实世界问题。
总之,这项研究成功地论证了,通过RL,我们可以教会模型如何将已知的f(x)和g(x),组合成强大的f(g(x)),从而解决前所未有的复杂挑战。
#Altman亲自发博客点赞
这两大杰出人才是谁?
OpenAI 是一家长期处于聚光灯下的公司,其中的明星人物我们都耳熟能详:Sam Altman、Ilya Sutskever、Mira Murati、Dario Amodei、John Schulman……
今天,Altman 则通过一篇博文特别介绍了两位居于幕后的核心研究员:Jakub Pachocki 和 Szymon Sidor,称他们在结合前沿研究与工程实践方面解决了诸多难题,对 OpenAI 的发展至关重要。
Altman 形容两人为「完美互补的传奇搭档」。Pachocki 作为首席科学家,负责制定公司宏观的研究路线图,而 Sidor 则负责将这些宏大的愿景付诸实践。
- 博客地址:https://blog.samaltman.com/jakub-and-szymon
以下是 Altman 的博客原文(精简版):
近年来,AI 的飞速发展有目共睹,ChatGPT 的惊艳表现更是将这一切推向了新的高度。我们常常惊叹于技术的伟力,却忽略了其背后闪耀的人类智慧与不懈探索。今天,我想用一分钟的时间,向您讲述这个伟大故事中两位不可或缺的英雄。
在 OpenAI,有两位杰出的人才:Jakub Pachocki 和 Szymon Sidor。没有他们,就没有今天的 OpenAI。他们一次次将前沿研究与卓越工程完美结合,攻克了无数看似不可能的难题。
正是他们,在强化学习普遍不被看好的情况下,力排众议,坚持规模化探索其潜力,最终促成了 Dota 项目的辉煌成就。他们构建了坚实的基础设施,为众多科学突破铺平了道路;他们领导了 GPT-4 的预训练;他们与 Ilya 和 Lukasz 共同孕育了实现推理能力突破的早期思想;他们更是在探索全新范式上取得了卓越进展。
Jakub Pachocki,我们的首席科学家,曾以「不知疲倦」来形容 Szymon,这或许也是他们二人共同的写照。多年来,我亲眼见证了这对传奇搭档如何完美互补,解决了一个又一个难题。他们是 OpenAI 的基石,是推动 AI 边界的真正力量。虽然他们未曾站在聚光灯下,但他们的贡献值得被每一个人铭记。
左为 Jakub Pachocki,右为 Szymon Sidor。两人参加OpenAI 的播客节目 Before AGI 。
Jakub Pachocki
Jakub Pachocki 在青少年时期专注于竞争性编程,曾六次入围国际信息学奥林匹克竞赛(IOI)决赛,并在 2009 年获得银牌。2012 年,他同时获得了 Google Code Jam 冠军和国际大学生程序设计竞赛(ICPC)世界总决赛金牌。
据他本人所述,15 岁时读到 Paul Graham 的名作《黑客与画家》,深受启发,这让他不仅着迷于编程的技术挑战,更被其作为创造性工具的哲学所吸引。
Pachocki 的博士论文题为《Graphs and Beyond: Faster Algorithms for High Dimensional Convex Optimization》,专注于为大规模网络和高维数据设计高效算法,涉及谱图论和凸优化等领域。
尽管这些属于理论课题,但与 LLM 的工程实践紧密相关,因为现代神经网络的训练本质上是复杂的高维凸优化问题。他在博士期间积累的理论知识,为他理解和解决神经网络扩展过程中遇到的工程瓶颈提供了基础。
在 OpenAI 将「缩放定律」(即模型能力随计算、数据和参数规模的增长而涌现)确立为核心理念时,Pachocki 不仅是该理念的支持者,也具备了在数学层面指导其实施的能力。
他于 2017 年加入 OpenAI,在 OpenAI Five 项目中领导团队,使 AI 在电子竞技游戏《Dota 2》中击败了人类世界冠军。这一成果增强了公司内部对规模化 RL 潜力的信心。作为研究总监,他直接领导了 GPT-4 的开发与预训练工作。
Jakub Pachocki 还入选了今年的《时代》杂志百大 AI 人物。
Szymon Sidor
Szymon Sidor 与 Pachocki 毕业于同一所波兰精英高中,接受了早期计算机科学训练,随后在 MIT 获得电气工程与计算机科学硕士学位。
Sidor 2016 年的硕士论文《Reinforcement Learning Approach to Multi-Stage Reasoning in Natural Language Processing》,展现了惊人的前瞻性。
在当时,RL 和 NLP 还被视为两个相对独立的领域,而 Sidor 已经开始探索两者的交叉点,使用深度 Q 学习等技术让智能体理解并执行自然语言指令。
这项早期研究,完美契合了 OpenAI 后来的技术路线。无论是用于对齐 ChatGPT 的「基于人类反馈的强化学习」(RLHF),还是当前用于训练推理模型的复杂 RL 框架,都建立在 RL 与 NLP 深度融合的基础之上。
在 OpenAI,Sidor 的贡献涉及多个核心项目。在 OpenAI Five 中,他参与构建了大规模 RL 系统及基础设施。在机器人学领域,他参与的「学习灵巧的掌上操控」项目,实现了在模拟环境中训练、在真实机械手上「零样本」迁移的复杂操作。同时,他也对提升智能体探索效率与稳健性的 RL 核心算法做出了贡献。
随着公司战略重心转向大型语言模型,Sidor 也参与其中。他的名字出现在 GPT-4 技术报告中,并且是推理模型系列(如 o1、o3)的关键贡献者。
OpenAI「宫斗」的关键人物
2023 年 11 月 17 日,OpenAI 董事会突然宣布解雇 CEO Sam Altman,理由是其「在与董事会的沟通中未能始终保持坦诚」。
这一事件的背后,是公司内部早已存在的深刻分歧:一方是以 Altman 为代表,主张加速技术研发与商业化应用的「加速派」;另一方则是以时任首席科学家 Ilya Sutskever 为首,更强调 AI 安全与审慎发展的「安全派」。
在 Altman 被罢免后的短短几小时内,危机迅速升级。作为对董事会决定的直接回应,时任研究总监的 Jakub Pachocki 和高级研究员 Szymon Sidor,联合 AI 风险评估负责人 Aleksander Madry,毅然向公司提出辞职。
他们的行动是后续员工大规模抗议的导火索之一:超过 700 名员工签署联名信,要求原董事会辞职并迎回 Altman,否则将集体辞职。
巨大的内部压力最终促使董事会妥协。在公司高层安抚员工的内部备忘录中,明确提到目标是「带回 Sam、Greg、Jakub、Szymon、Aleksander 以及其他同事」,显示了他们在公司内的重要性。
为期五天的风波以 Altman 的戏剧性回归和董事会重组而告终。危机过后,OpenAI 的权力结构发生变化,Ilya Sutskever 在公司内部的影响力减弱,并于 2024 年 5 月正式离职。随后,Jakub Pachocki 被任命为 OpenAI 的新任首席科学家。
另一场「发布会」
有趣的是,讨论两位主角之外,Altman 的评论区全都是 KeepStandardVoice 和 keep4o 的标签。
KeepStandardVoice 源于 OpenAI 宣布将于 2025 年 9 月 9 日(也就是今天)正式退役 ChatGPT 的「标准语音模式」,包括 Cove、Juniper、Ember 和 Breeze 等经典语音选项。
这引发了大量用户不满,因为许多人认为标准语音更温暖、自然、更适合日常对话和情感连接,而新推出的「高级语音模式」虽然更先进,但缺乏那种亲切感,无法完全替代。
同时有用户表示,对许多残障人士来说,标准语音是唯一可用的选项,移除它只会制造数字无障碍危机而非进步。
同时,OpenAI 推出 GPT-5 模型后,计划逐步减少或移除 GPT-4o 的可用性(尽管承诺过会长期支持)。这让依赖 GPT-4o 的用户感到失望,遂发起 keep4o 运动。
用户呼吁 OpenAI 永久保留 GPT-4o 作为可选模型,而不是完全淘汰。他们强调,AI 不应只追求技术升级,而忽略了它带来的情感价值。
这两个话题在 Reddit、X 及 OpenAI 官方社区引发了广泛讨论,社交媒体上还出现了许多抗议海报。
对此你有什么看法呢?
#Retrieval-Augmented Generation, RAG
清华最新综述!200+文献全面凝练Agentic RAG最新进展~
检索增强生成(Retrieval-Augmented Generation, RAG)通过注入外部知识提升了大语言模型的事实性,但在需要多步推理的问题上表现欠佳;反之,纯推理导向的方法则常出现生成幻觉内容(hallucination)或事实依据不足的问题。本综述从“推理-检索协同”这一统一视角,整合了上述两大研究方向。首先,本文梳理了先进推理技术如何优化RAG的各个阶段(即“推理增强型RAG”);其次,阐述了不同类型的检索知识如何为复杂推理补充缺失前提并扩展上下文(即“RAG增强型推理”);最后,重点聚焦新兴的“协同式RAG-推理框架”——在这类框架中,具备智能体能力(agentic)的LLM会迭代交替执行搜索与推理操作,从而在各类知识密集型基准测试中实现当前最优性能。本文对相关方法、数据集及开放挑战进行了分类梳理,并勾勒出未来研究方向,旨在构建更高效、多模态适配、可信且以人为本的深度RAG-推理系统。
- 汇总链接:https://github.com/DavidZWZ/Awesome-RAG-Reasoning
- 论文链接:https://arxiv.org/abs/2507.09477v2
引言
大型语言模型(LLMs)的显著进展已改变了众多领域,在各类任务中展现出前所未有的能力(。尽管取得了这些突破,LLM的有效性仍受限于两大核心缺陷:其一,由于知识以静态参数化方式存储,导致模型易产生“知识幻觉”;其二,在处理现实世界问题时,模型难以完成复杂推理任务。这两大缺陷推动了两个主要研究方向的发展:一是检索增强生成(Retrieval-Augmented Generation, RAG),该方向为LLM提供外部知识支持;二是各类LLM固有推理能力增强方法。
上述两大缺陷存在内在关联:知识缺失会阻碍推理过程,而推理缺陷则会影响知识的有效利用。因此,研究人员已逐渐探索将检索与推理相结合,但早期工作主要遵循两条相互独立的“单向增强”路径:
第一条路径是推理增强型RAG(推理→RAG),即利用推理技术优化RAG流程的特定阶段;
第二条路径是RAG增强型推理 RAG→推理),即通过提供外部事实依据或上下文线索,增强LLM的推理能力。
尽管上述单向增强方法具有一定价值,但它们仍受限于静态的“检索后推理(Retrieval-Then-Reasoning, RTR)”框架,仅能对单个组件实现局部优化,且存在以下固有缺陷:
(1)检索充分性与准确性无法保证:预检索的知识可能无法匹配推理过程中实际产生的知识需求,在复杂任务中这一问题尤为突出;
(2)推理深度受限:若检索到的知识包含错误或冲突信息,会对模型固有的推理能力产生不利干扰;
(3)系统适应性不足:RTR框架缺乏推理过程中的迭代反馈或动态检索机制,这种刚性限制了其在开放域问答(QA)、科学发现等需自适应推理场景中的有效性。
如图1所示,这些缺陷推动了LLM研究范式的转变——向“RAG与推理协同(Synergized Retrieval and Reasoning, RAG ⇔ Reasoning)”方向发展。这类方法支持动态、迭代的交互过程:推理主动引导检索,而新检索到的知识反过来持续优化推理流程。OpenAI¹、Gemini²、Perplexity³等机构近期推出的“深度研究(Deep Research)”产品进一步体现了这一趋势,这些产品强调检索与推理的紧密耦合。它们借助智能体能力协调多步网络搜索,并通过推理全面解读检索内容,从而解决需深度调研的复杂问题。
本综述梳理了从“单向增强”到“前沿协同框架”的演进历程——在协同框架中,检索与推理深度交织、共同进化。目前已有关于RAG和LLM推理的单独综述,但缺乏聚焦二者融合的专门综述。本文旨在全面概述检索与推理的协同作用如何提升LLM能力,尤其重点关注向“RAG-推理协同框架”的演进。
¹https://openai.com/index/introducing-deep-research/
²https://gemini.google/overview/deep-research/
³https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research
背景与预备知识
检索增强生成(RAG)通过三个连续阶段缓解大型语言模型(LLMs)的知识时效性问题(知识截止):(1)检索阶段:从外部知识库中获取与任务相关的内容;(2)整合阶段:对检索到的内容进行去重、冲突解决和重排序;(3)生成阶段:基于整理后的上下文进行推理,生成最终答案。与此同时,思维链(Chain-of-Thought, CoT)技术通过鼓励模型在回答前“逐步思考”,显著提升了现代LLM的推理能力。结构化的RAG流程与这种多步推理能力之间的协同作用,构成了本综述所探讨的新兴“RAG-推理”范式的基础。
推理增强型RAG(推理→RAG)
传统RAG方法通常先检索相关文档,再将检索到的知识与原始查询拼接,最终生成答案。这类方法往往无法捕捉复杂推理任务所需的深层上下文或复杂关系。通过在RAG流程的“检索”“整合”“生成”三个阶段融入推理能力,系统能够识别并获取最相关的信息,从而减少幻觉内容的产生,提升响应准确性⁴。
检索优化
检索优化借助推理技术提升检索结果的相关性与质量,现有方法主要分为三类:(1)推理感知查询重构;(2)检索策略与规划;(3)检索模型增强。
推理感知查询重构
该方法通过重构原始查询,更好地检索与推理相关的上下文,主要包含三种策略:
首先,查询分解:将复杂查询拆解为更简单的子查询;
其次,查询改写:将模糊的查询转化为更清晰的表述。为了与生成器的推理需求对齐,部分研究采用强化学习(RL)信号训练查询改写模型;
最后,查询扩展:通过思维链(CoT)推理丰富查询的语义信息。
检索策略与规划
本节聚焦检索过程的全局引导方法,主要包括“预先规划”与“自适应检索决策”两类:
预先规划:利用推理模型在检索执行前生成完整的检索蓝图。例如,PAR-RAG采用思维链进行多步规划,以避免局部最优问题;LPKG则在知识图谱上对LLM进行微调,以编码实体间的关系结构。
自适应检索决策:通过单步预测判断是否需要检索及如何检索。例如,FIND与自适应RAG利用分类器评估查询复杂度并选择检索策略,减少不必要的检索调用;
检索模型增强
这类方法通过两种策略为检索器融入推理能力:
第一种策略是利用结构化知识:GNN-RAG(采用图神经网络(GNN)对知识图谱进行编码,实现隐式multi-hop推理;RuleRAG则附加符号规则,引导检索过程向逻辑一致性方向优化。
第二种策略是整合显式推理:例如,Ji将思维链与查询结合,提升multi-hop问答任务中中间知识的召回率。
整合增强
整合增强利用推理技术评估检索内容的相关性并融合异构证据,避免无关内容干扰生成过程,主要分为“相关性评估”与“信息融合”两类方法。
相关性评估与过滤
这类方法通过深度推理评估每个检索片段与用户查询的相关性:
SEE引入“评估专家”角色,筛选真实、有用且简洁的证据,同时剔除无关内容;Yoran则利用自然语言推理(NLI)模型过滤不蕴含查询语义的段落,再通过在“相关/无关混合上下文”上微调LLM,帮助模型忽略残留噪声,提升鲁棒性。
信息融合与整合
在识别出相关片段后,核心挑战是将其融合为连贯的证据集:
BeamAggR枚举子问题的答案组合,并通过概率推理对其进行聚合;DualRAG将“推理增强型查询”与“渐进式知识聚合”相结合,将检索到的信息过滤并组织为动态更新的框架;CRP-RAG构建推理图,在每个节点上执行知识检索、评估与聚合,并在生成前动态选择“知识充分性路径”。
生成增强
即便拥有检索到的上下文,传统RAG若缺乏推理能力,仍可能生成不真实的内容。生成阶段的推理通过两种主要方式解决这一问题:(1)上下文感知整合;(2)基于事实的生成控制。
上下文感知整合策略
上下文感知生成确保输出内容的相关性并降低噪声干扰,主要包括两种思路:
选择性上下文利用:基于任务相关性对上下文进行剪枝或重加权。例如,Open-RAG采用稀疏专家混合模型动态选择知识模块;RARE则在提示词中加入领域知识,促使模型更多依赖外部上下文而非内部记忆。
推理路径生成:构建显式逻辑链以提升透明度。例如,Ranaldi 通过逐步比较段落相关性生成对比性解释,引导模型得出准确结论;Self-Reasoning通过“顺序证据选择与验证”构建结构化推理链。
基于事实的生成控制
这类方法引入验证机制,通过推理确保输出内容锚定于检索到的证据,主要包括三种策略:
事实验证:利用推理评估生成内容与检索证据的事实一致性。例如,Self-RAG在解码过程中引入“反思标记”,触发模型对生成内容的批判性审查与修正。
引用生成:将生成内容与来源材料关联,提升可追溯性与可信度。例如,RARR在生成过程中插入引用,同时保持文体连贯性。
可信推理:确保每一步推理均基于检索证据,不引入未经验证的内容。例如,TRACE构建知识图谱以形成连贯的证据链;AlignRAG通过“批判性对齐”优化推理路径。
RAG增强型推理(RAG→推理)
在推理过程中整合外部知识或上下文内知识,可帮助大型语言模型(LLMs)减少生成幻觉(hallucination)并填补逻辑缺口。其中,外部检索利用数据库、网络内容等结构化来源提供事实依据(如IAG);上下文内检索则借助模型内部上下文(如先前交互记录、训练样本)提升上下文连贯性(如RA-DT)。这两种策略共同提升了推理过程的事实准确性、可解释性与逻辑一致性。
外部知识检索
外部知识检索将网络内容、数据库信息或外部工具融入推理过程,有效填补知识缺口。针对性检索可提升事实准确性,使语言模型能通过将推理步骤锚定于已验证的外部证据,可靠地处理复杂查询。
知识图谱(Knowledge Base)
知识图谱(KB)通常以数据库、书籍、文档等形式存储算术、常识或逻辑知识,其检索方式因任务而异:
- 在问答(QA)推理中,AlignRAG、MultiHopRAG、CRP-RAG等方法从通用知识图谱中检索相互关联的事实条目,以增强序列推理能力;
- 在专业推理任务中,Premise-Retrieval、ReaRAG等数学领域方法利用定理库中的形式化引理实现结构化演绎,CASEGPT、CBR-RAG等法律领域方法则提取司法判例以支持类比推理;
- 在代码生成任务中,CodeRAG、Koziolek从代码仓库中获取代码片段,确保生成结果的语法正确性。
网络检索(Web Retrieval)
网络检索可获取网页、新闻、社交媒体等动态在线内容,其应用场景包括:
- 在事实核查任务中,VeraCT Scan、Ragar、PACAR、STEEL等方法通过新闻或社交媒体证据逐步验证主张,提升逻辑推理能力;
- 在问答类推理中,RARE、RAG-Star、MindSearch、OPEN-RAG等方法利用广泛的网络内容迭代优化推理过程,符合智能体化搜索(agentic search)的当前趋势——即通过整合复杂在线素材增强上下文感知与鲁棒推理;
- 在医疗推理等专业领域中,FRVA、ALR²等方法检索文献以实现精准诊断。
工具使用(Tool Using)
工具使用类方法通过调用计算器、函数库、API等外部资源,交互式增强推理能力:
- 在问答类推理中,ReInvoke、AVATAR、ToolkenGPT、ToolLLM调用计算器或API(如雅虎财经、维基数据),提升数值准确性与事实精度;
- 在科学建模中,SCIAGENT、TRICE整合符号计算工具(如WolframAlpha),增强计算鲁棒性;
- 在数学计算中,llm-tool-use自主调用计算器实现精准数值推理;
- 在代码生成任务中,RAR通过OSCAT库检索代码文档,确保生成结果的语法准确性与可执行逻辑。
上下文内检索
上下文内检索利用模型的内部经验,或从演示样本、训练数据中检索示例以引导推理。这类检索提供相关范例,帮助模型模仿推理模式,提升对新问题的推理准确性与逻辑连贯性。
先前经验(Prior Experience)
先前经验指存储在模型内部记忆中的过往交互记录或成功策略,其检索方式因任务而异:
- 在规划与决策任务(如机器人路径规划)中,RAHL、RA-DT利用过往决策与强化信号支持序列推理;
- 在交互式推理任务中,JARVIS-1、RAP、EM-LLM动态召回多模态交互记录与对话历史,为个性化交互提供自适应推理支持;
- 在逻辑推理领域中,CoPS检索医疗、法律等领域的结构化既往案例,为该类场景下的鲁棒逻辑推理提供支撑。
示例或训练数据
与依赖先前经验的方法不同,基于示例的推理从演示样本或训练数据中检索外部示例:
- 在复杂文本理解中,RE4、Fei利用带标注的句子对提升关系识别能力;
- 在问答类推理中,OpenRAG、UPRISE、MoD、Dr.ICL选择与查询高度匹配的演示样本,提升模型泛化能力;
- 在代码生成任务中,PERC从HumanEval等数据集出发,通过语义或结构相似性检索伪代码,确保生成结果与目标代码的一致性。
协同式RAG-推理(RAG⇔推理)
开放域问答、科学发现等现实世界问题,需要通过“新证据持续优化推理、推理反过来指导证据获取”的迭代方式解决。单次检索可能无法提供充足信息,单次推理也可能遗漏关键洞见。通过将检索与推理以多步、交互式方式深度整合,这类系统可逐步优化检索信息的相关性与对原始查询的推理理解。本章聚焦现有方法的两个核心视角:推理流程(强调多步推理的结构化、预定义推理格式)与智能体协同调度(关注智能体如何与环境交互及相互协作)。
推理流程
推理流程主要分为链式、树式与图式三类,体现了从线性推理链到分支化、高表达性推理结构的演进过程。
链式(Chain-based)
思维链(Chain-of-Thought, CoT)将推理过程构建为线性中间步骤序列,但仅依赖LLM的参数化知识易导致错误传播。为解决这一问题,IRCoT、Rat在推理步骤间插入检索操作。近期部分方法通过验证与过滤进一步提升该范式的鲁棒性与严谨性:
- CoV-RAG引入“验证链”,通过检索参考内容检查并修正每一步推理;
- 为应对噪声或无关上下文,RAFT微调LLM以忽略干扰文档,Chain-of-Note则提示模型对检索文档逐次“记笔记”,过滤无用信息。
树式(Tree-based)
树式推理方法主要采用“思维树(Tree-of-Thought, ToT)”或“蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)”两种思路:
- ToT类方法:将CoT扩展为显式确定性推理树,支持多逻辑路径分支。例如,RATT构建“检索增强型思维树”,同步评估多条推理轨迹;该类方法可避免LLM陷入早期错误假设,已应用于模糊问题解答(Kim et al., 2023)、多诊断可能性覆盖、复杂故事创作等场景;
- MCTS类方法:如AirRAG、MCTS-RAG、SeRTS(Hu et al., 2024)采用概率树搜索,基于启发式概率动态优先探索潜在路径。为保障检索与推理质量,AirRAG融入自一致性检查,MCTS-RAG则通过自适应MCTS检索优化证据、减少生成幻觉。
图式(Graph-based)
图式推理方法分为“图上游走(Walk-on-Graph)”与“图上思考(Think-on-Graph)”两类:
- 图上游走方法:主要依赖图学习技术实现检索与推理。例如,PullNet、QA-GNN、GreaseLM直接整合图神经网络(GNN),通过迭代聚合邻居节点信息建模图结构数据中的复杂关系;SR、LightRAG、StructRAG则采用向量索引、PageRank等轻量级图技术,在multi-hop上下文中高效检索与推理,为LLM提供适配查询的高质量结构化内容;
- 图上思考方法:将图结构直接融入LLM推理循环,支持由LLM主导的动态迭代检索与推理。在“图上思考(ToG)”框架中,LLM将知识图谱(KG)作为“推理平台”,每一步自主决定探索的关联实体或关系,逐步构建通向答案的路径;Graph-CoT引入“推理-图交互-执行”三阶段迭代循环,KGP则优先构建文档级知识图谱,二者均支持LLM驱动的图遍历智能体,在每一步借助全局连贯上下文导航文本段落;GraphReader进一步优化该范式,通过在每一步将LLM推理与显式子图检索、证据锚定相结合提升性能。
智能体协同调度
根据智能体架构,现有研究可分为“单智能体”与“多智能体”两类。
单智能体(Single-Agent)
单智能体系统将知识检索(搜索)融入LLM的推理循环,支持在问题解决的每一步动态查询信息,并促使模型在需要时主动获取相关证据。
- 提示词驱动策略:ReAct及其衍生方法是该方向的先驱,通过引导LLM在推理步骤与外部工具交互(如数据库搜索)间明确切换实现——与ReAct将推理和动作分离(通过“搜索”等显式指令触发外部检索)不同,Self-Ask、IRCoT等方法提示模型递归生成并解答子问题,实现“思维链内交织检索”(逐步检索与推理)。此外,DeepRAG、Self-RAG引入自我反思策略,让LLM自省知识局限性,仅在必要时执行检索;
- 有监督微调(SFT)驱动策略:Toolformer代表了与提示词方法互补的思路——通过在“搜索-推理交织”的指令数据集或合成数据集上微调LLM实现优化。其中,合成数据生成旨在构建大规模、多样化的任务特定数据集,无需大量人工标注;指令化数据重构则将现有数据集转化为指令格式,以微调模型提升泛化能力与人类推理对齐度。例如,INTERS通过人工编写模板,从43个不同数据集构建涵盖20项任务的SFT数据集;
- 强化学习(RL)驱动策略:该类方法通过奖励信号优化答案质量,引导智能体决策“检索内容、整合证据方式、停止时机”,适用于复杂知识密集型任务(或“深度研究”类问题)。WebGPT、RAG-RL等早期工作通过基于事实正确性或人类偏好的奖励提升推理可信度;近期研究则聚焦动态环境(如实时网络搜索、本地搜索工具),训练智能体在噪声真实场景中探索、反思与自我修正:例如,Search-R1在推理过程中学习生成<search>令牌,R1-Searcher基于RL驱动搜索实现跨领域强泛化;DeepResearcher进一步提出首个端到端RL训练的研究智能体,可与开放网络交互。这些设置展现出监督学习难以实现的涌现能力,如问题分解、迭代验证、检索规划。此外,ReSearch、ReARTeR还解决了更深层挑战——不仅要求生成正确答案,还需确保推理步骤兼具事实性与可解释性。
多智能体(Multi-Agent)
RAG与推理领域的多智能体协作研究已形成多种调度模式:中心化架构(通过“管理者-执行者”范式聚合集体智能)与去中心化架构(利用角色专业化智能体的互补能力)。
去中心化架构(Decentralized)
去中心化架构部署多个智能体协同执行检索、推理与知识整合,旨在扩大相关信息覆盖范围,并充分发挥专业化智能体的异质优势:
- Wang、Salve提出的多智能体系统中,每个智能体从分区数据库或特定数据源(关系型数据库、NoSQL文档库等)检索信息;
- 除检索外,Collab-RAG、RAG-KG-IL整合不同模型能力并分配推理、知识整合角色;
- 该思路已扩展至多模态场景,如MDocAgent采用文本与图像智能体团队处理文档问答;
- Agentic Reasoning是更通用的范式,整合“搜索、计算、结构化推理”类工具使用智能体,通过协同调度解决复杂分析任务。
中心化架构(Centralized)
中心化架构采用分层中心化模式组织智能体,支持高效任务分解与渐进式优化:
- HM-RAG、SurgRAW均采用“分解器-检索器-决策器”架构,不同智能体角色分别处理多模态处理、手术决策等子问题;
- Wu、Iannelli分别强调“动态路由”与“系统重构”,支持基于任务相关性或资源约束的智能体智能选择;
- Chain of Agents、“匝道汇入协同多智能体控制框架”体现了分层智能体设计——通过分层处理实现长上下文摘要或策略优化。这些研究共同表明,中心化控制与分层流水线设计可提升多智能体RAG-推理系统的效率与适应性。
基准测试与数据集
用于同步评估知识(RAG)与推理能力的基准测试和数据集涵盖了从基础事实检索到通用或特定领域内复杂多步推理的各类复杂场景。我们将主要基准测试按任务类型分类,并在表1中列出,同时重点说明其细节与属性。这些代表性任务包括网页浏览(如BrowseComp)、单跳问答(如TriviaQA)、multi-hop问答(如HotpotQA、多项选择问答(如MMLU-Pro)、数学任务(如MATH),以及来自LiveCodeBench的代码相关评估。
未来工作方向
协同式RAG-推理系统的未来研究方向围绕提升推理与检索能力展开,以满足现实世界对准确性、效率、可信度及用户对齐的需求。以下是我们梳理的关键挑战与机遇。
推理效率
尽管协同式RAG-推理系统在复杂推理中具备优势,但迭代检索与多步推理循环可能导致显著的延迟问题。例如,在实际场景中执行单个深度研究查询可能需要超过10分钟。这一问题在前文讨论的链式工作流中尤为突出。未来研究应通过潜在推理(latent reasoning)方法提升推理效率,并借助思维蒸馏(thought distillation)与长度惩罚(length-penalty)等策略控制推理深度。除推理本身外,模型压缩领域的新兴方向(如量化(quantization)、剪枝(pruning)与知识蒸馏(knowledge distillation))也值得探索,以构建高效的轻量化RAG-推理系统。
检索效率
在检索层面,效率提升需要“预算感知查询规划”与“内存感知机制”——后者可缓存既往证据或信念状态,减少冗余访问。此外,“自适应检索控制”(即基于不确定性信号学习“是否检索”及“检索多少”)可减少无效操作。这些技术路径将系统从静态RAG推向动态自调节的高效检索模式,以适应现实世界的约束条件。
人机智能体协作
RAG-推理的许多应用(如文献综述、交互式编程)具有内在的个性化属性,无法假设用户明确知道“该问什么”或“如何处理检索结果”。结合前文内容,人类可作为高级智能体,提供精细化反馈以引导推理过程。未来系统需开发以下方法:建模不确定性下的用户意图、构建用于迭代澄清的交互式界面,以及设计能根据用户专业水平与偏好调整推理策略的智能体。这种“人机闭环”模式对于在开放域中构建稳健且用户对齐的RAG-推理系统至关重要。
智能体结构与能力
协同式RAG-推理的核心特征是其智能体化架构——系统可自主决定不同智能体的角色,以及在推理阶段调用哪些工具或检索策略。为充分释放这一潜力,未来研究应聚焦于开发具备以下能力的智能体框架:动态工具选择、检索规划,以及跨推理工作流的自适应协同调度。这些能力可实现灵活的上下文感知问题求解,对处理多样化复杂任务至关重要。
多模态检索
如基准测试分析所示,当前多数协同式RAG-推理系统仍局限于text-only任务。但现实世界应用日益需要检索与整合多模态内容的能力。未来研究需突破传统的“视觉-文本”范式,实现真正的多模态能力——这要求强化多模态大型语言模型(MLLMs)的基础能力(包括 grounding 与跨模态推理);此外,通过“多模态思维链推理”增强模型的智能体化能力也至关重要,以支持通过多模态搜索工具与现实世界交互。同时,开发能联合嵌入图像、表格、文本及异构文档的统一多模态检索器也不可或缺。
检索可信度
协同式RAG-推理系统易受“有毒”或误导性外部知识源的对抗性攻击。因此,确保检索内容的可信度是维持下游推理可靠性的关键。水印(watermarking)与数字指纹(digital fingerprinting)等技术已用于提升系统可追溯性,但目前迫切需要更动态、自适应的方法,以应对LLM的演进、新兴攻击技术及模型上下文的变化。现有研究也已分别探索“不确定性量化”与“稳健生成”以提升系统可靠性,未来研究应致力于整合这些方法——二者结合可相互增强系统的稳健性与可信度。此外,未来工作还需扩展现有基准测试,纳入除“准确性”外的多维度可信度指标。
结论
本综述梳理了大型语言模型(LLMs)中检索与推理的快速融合进程。我们回顾了三个演进阶段:(1)推理增强型RAG——利用多步推理优化RAG的各个阶段;(2)RAG增强型推理——借助检索到的知识填补长思维链(CoT)中的事实缺口;(3)协同式RAG-推理系统——单智能体或多智能体通过迭代优化检索与推理过程实现性能提升,近期的“深度研究”平台(如OpenAI、Gemini的相关产品)便是这一阶段的典型例证。这些技术路线共同表明,检索-推理的紧密耦合(相较于单向增强)能显著提升系统的事实依据性、逻辑连贯性与适应性。展望未来,我们明确了构建“更高效、多模态适配、可信且以人为本”的协同式RAG-推理系统的研究方向。
局限性(Limitations)
尽管本综述整合了200余篇关于“RAG与LLM推理”的研究论文,但其范围仍以“广度优先”为导向,而非深度。为提供统一且全面的分类体系,我们未能深入探讨各类方法的技术细节或实现细节——尤其在RAG的特定子领域(如稀疏检索vs密集检索、内存增强检索器)或推理的特定子领域(如形式逻辑求解器、符号方法、长上下文推理)。此外,我们的分类框架(推理增强型RAG、RAG增强型推理、协同式RAG-推理)虽涵盖了多样化方法,但在简化设计模式的同时,可能掩盖了各类方法特有的细粒度权衡、假设与局限性。
#硅谷也996实锤了?
AI的火,烧掉了硅谷的周末
果然,大洋彼岸也没逃过 996。
硅谷的工作文化一直以高强度和高压力著称,而最近关于「996」工作制的讨论开始频繁出现在各种行业话题中。
虽然这项制度起初被认为是中国科技公司特有的现象,但它逐渐成为硅谷一些企业的现实。
金融科技公司 Ramp 的经济学家 Ara Kharazian 专门为此写了篇博客文章。
这位小哥基于 Ramp 的交易数据,发现旧金山的 996 现象确实存在。旧金山的员工在周六工作时间的增加,已经在消费趋势上有所体现。
Ramp 公司卡是一种专为企业设计的信用卡和支出管理平台,旨在帮助公司更高效地管理财务和支出。
与传统信用卡不同,Ramp 不仅提供支付工具,还集成了智能支出管理功能,能够实时跟踪员工消费,自动处理报销和费用管理,简化财务流程。
上图是使用 Ramp 公司卡的数据,分析了旧金山企业员工在每周不同时段的餐饮、外卖和快餐消费占比。通过将 2025 年 1 月至 8 月的数据与 2024 年同期进行对比,他绘制了不同时段的消费变化图。为了排除整体卡片使用量增长的影响,他选择使用消费占比来进行分析。
结果显示:从周六中午开始到午夜,2025 年的消费活动明显增加,而去年并没有出现这种趋势。除了周六外,其他时段的消费变化较小,有些甚至呈现负增长。
也就是说,周六的消费激增是最显著的变化,显示出员工在周六的工作时间增加,进而影响了他们的消费模式。
这一趋势背后有何独特之处?
- 这是一个新现象。在 2024 年、2023 年甚至更早的年份都没有看到这种周六消费激增的趋势。这个变化出现在 2025 年,正好和近期旧金山关于加班工作(以及招聘趋势)的讨论高度吻合。
- 这是旧金山特有的现象。从全国范围来看,周六的消费增长并不显著。即使在其他主要科技中心,这一趋势也比较小。小哥还分析了纽约的数据,发现周六的增长仅为旧金山的四分之一,且主要集中在晚上 8 点之后,看起来更像是晚餐消费,而不是增加了一整天的工作时间。
- 不仅仅是科技行业。周六消费的增加不仅仅出现在软件公司,还出现在 Ramp 平台上各行各业的旧金山公司中。如果只是一些 AI 初创公司在周末给员工提供餐饮支持,我们应该会看到更为狭窄的分布。需要注意的是,Ramp 平台偏向于技术驱动型企业,虽然它们不全是传统的科技公司,但像普通零售公司这样的企业应该不太可能增加员工的工作时间。
这个小哥认为,尽管餐厅和外卖的消费记录不能完全精确地反映员工的工作时长,但对于公司卡来说,这些消费记录可以作为员工在工作状态下的一种间接证明。例如,团队一起吃饭、办公室餐饮或者加班时点的晚餐等消费,都能反映出员工还在工作状态中。从这些消费的时间点和行业趋势来看,周六还在工作正在成为旧金山越来越普遍的现象。
总之,996 工作制在旧金山的消费数据中已经有了可量化的体现。这是一个近期发生的、地方性的变化,并且不仅仅局限于科技行业。
不过,评论区也有不同的看法,比如有人把公司卡拿去周末私用,或者只是边悠闲回邮件边报销午餐,并非真的在疯狂加班。
鉴于湾区是出了名的快节奏、高竞争和长工时,也有人坚信 007 才是硅谷的真实写照。
比如马斯克就是加班的头号积极分子。前段时间,马斯克带头在公司搭起了帐篷,以便通宵达旦地开发 Grok 4。
「思维链」作者 Jason Wei 去年也在 X 上贴出了自己在 OpenAI 的一张作息时间表,9 点起床,凌晨 1 点 15 分睡觉,比 996 还疯狂。
在 AI 飞速发展的今天,AI 从业者面临「不得不卷」,a16z 合伙人 Olivia Moore 曾发推指出,超长工时在 AI 初创公司中已是普遍现象,需求多到一天 24 小时连轴转都感觉时间不够用。
人工智能初创公司 Greptile CEO Daksh Gupta 也曾在一篇报道中总结旧金山年轻科技工作者的状态:不喝酒、996、举重、跑步、早婚、追踪睡眠、吃牛排和鸡蛋。
而且他还在去年公开表示,寻找愿意每周工作 84 小时(即每天 12 小时、一周 7 天)的员工,并直截了当地告诉面试者,在他的公司没有工作与生活的平衡,此番言论在当时引发了很大的讨论。
对此,硅谷 VC 大佬 Deedy 认为,创始人应通过激励员工达成高效产出,而非强迫他们长时间投入,因为过度压榨会导致人才流失,最终反而损害公司的发展进度。
当然也有人认为这自会吸引一些接受这种模式的人,不过用「梦想」包装一下可能会更好。
对于「上班 996,下班 ICU」的现象,还有网友锐评,这群 AI 公司动不动就号称打造即插即用的智能体,将打工人从繁忙的工作中解放出来,自己却在搞 996。
当然啦,硅谷这边卷得飞起,欧洲似乎仍保留着「不慌不忙」的传统,甚至有网友调侃,欧洲的 996 指的是每月休 9 天,连续 9 个月,夏天至少连休 6 周。🐶
对此你怎么看?
参考链接:https://ramp.com/velocity/san-francisco-tech-workers-996-schedule?utm_source=twitter
#文心 X1.1
文心新出的推理大模型,给了我们信心
当下的大语言模型,不怕它搞不定,就怕它胡说八道:有「幻觉」存在,我们经常会下意识地不信任 AI 输出的结果。就在上周,OpenAI 的论文《Why Language Models Hallucinate》广为流传。研究人员指出,要想消除幻觉,需要修正模型训练时的评分机制并开发全新的技术。
不过 AI 领域里,技术的发展速度一直比想象得快,就像是对 OpenAI 研究的呼应,今天上午 WAVE SUMMIT 深度学习开发者大会 2025 上,百度发布的新模型就把「可信度」提升了一大截,除了更准确的事实性,更有指令遵循、智能体等能力的显著提升。
今天发布的是文心大模型 X1.1 深度思考模型,它是百度在 4 月份发布的旗舰模型 X1 的升级版,发布即上线,所有人都可以免费体验。同时该模型通过百度智能云千帆平台向企业客户与开发者开放使用。
升级后的模型主攻事实性、指令遵循以及智能体、工具调用能力,带来了综合能力的显著提升。用一组数据说话,相较于文心 X1,X1.1 的事实性提升 34.8%,指令遵循提升 12.5%,智能体提升 9.6%。
这意味着它提供信息时更加可靠、执行任务时更加精准,处理复杂任务时灵活调度外部工具与系统资源。
现在,文心 X1.1 面对限定条件多的复杂内容创作任务游刃有余,抽丝剥茧、准确无误地归纳总结,过程中调用了联网搜索工具。
如果说上面例子的工具调用只是牛刀小试,接下来在更复杂的长程任务场景,文心大模型 X1.1 展现了全链条式的智能体能力。在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,文心 X1.1 从免除费用、维修车辆、特殊补偿到情绪安抚,完全有真正的人工客服那味了。
一系列实操效果验证了文心 X1.1 的实力。在多个权威基准上,该模型在中文问答、幻觉和多步任务等方面实现领先,整体效果优于 DeepSeek R1-0528,并与 GPT-5 和 Gemini 2.5 Pro 等国际顶尖模型不相上下。
是骡子是马,在新模型上线之后,我们第一时间进行了高强度测试。
全方位测评
这一次,大模型给了我们信心
目前,我们在文心一言官网、文小言 App 上都可以直接使用文心 X1.1,它可以自动调用工具。
官网地址:https://yiyan.baidu.com/X1
事实性测试题
首先我们测试文心 X1.1 在事实性方面的表现。事实性是衡量大模型在回答客观问题时,是否能够提供准确、可靠信息的重要指标。
一直以来,幻觉是大模型的固有挑战之一。这种现象不仅影响用户信任,也制约了其在关键领域的落地应用,比如医疗、法律和科研。不知文心 X1.1 在这方面表现如何?
我们先来测试一个违反常识的问题,看看文心 X1.1 是否顺着用户意图、不按事实地胡编乱造。
不知大家是否还记得最近很出圈的一个新闻,一张海报显示树上结满了花生?我们看看文心 X1.1 是如何解释的?只见文心 X1.1 思考了一会,指出用户有误,给出花生是地下成熟的。
在经过深入的分析后,给出如下答案:
通过这一案例可以看出,文心 X1.1 在常识性错误识别上具备一定的敏感性和准确性,能够在面对虚构或荒谬的描述时,不盲从,而是主动提供正确的科学信息。这种能力对于保证模型的事实性与可靠性至关重要。
再来一道具有迷惑性的问题:爱因斯坦为什么没有获得诺贝尔奖?同样,面对虚构或错误信息,文心 X1.1 也回答正确,指出爱因斯坦在 1921 年获得了诺贝尔物理学奖,获奖原因不是相对论,而是基于他对光电效应的开创性研究。
几个示例测下来,我们发现文心 X1.1 在事实性方面的表现还是不错的。
这也促使我们进一步思考一个关键问题:在评估模型事实性表现时,理解语言的歧义性同样非常重要,特别是在中文语境下,由于语法结构灵活,一词多义现象极为常见,极大地增加了模型理解的复杂度。
举个例子「过马路时,老师叮嘱学生:看车!」与「我去车展看车」意义完全不一样。我们看看文心 X1.1 对此的解释。
不难发现,文心 X1.1 给出的解释相当到位:过马路看车是安全警示指令,去车展看车是目的性参观行为。
看来,面对一词多义的情况,也没有难倒文心 X1.1。
我们再来看看模型对时效信息的处理能力,最近网络上流行起脱脂牛马这一新梗,那么,大模型能否准确识别这类最新流行语的含义和语境?
令人惊喜的是,文心 X1.1 精准的描述了该词的核心含义:脱脂牛马指的是一边上班拼命工作,一边努力减肥 / 管理身材。不仅如此,还给出了很多衍生词,如全脂牛马、低脂牛马。
指令遵循
指令遵循一直是评估大模型核心能力的重要指标之一。它不仅仅是听懂指令这么简单,更是对模型理解、解析、执行等能力提出了严格的考验。如果模型不能准确抓住用户需求,哪怕生成内容再漂亮,也容易出现答非所问,让用户觉得不听话。
接下来,我们测试文心 X1.1 在这方面的能力。
9 月正是开学的日子,自我介绍往往是同学之间相互认识的第一步。面对新同学、新老师,你有没有想好要怎样介绍自己呢?这个活,现在完全可以交给文心 X1.1 了。
在这个任务中,我们可谓是百般刁难,给大模型提出了很多无理要求,如字数要求,文风要求,必须出现的内容,不能出现的内容。看看大模型能否接招。
文心 X1.1 不仅能听懂人话,更能按规矩写作。在我们明确指出不能出现「我叫」这样的限制条件下,它并未像部分模型那样默认套用通用开场模板,而是灵活调整表达方式,文风也欢快有趣。展现出较强的指令理解与执行能力。
再来一个,这不马上快到国庆节了,想必很多人都在规划出游的路线,如果你没想好,也可以交给文心 X1.1。
在这个示例中,我们给出的指令非常模糊,说了想去南方,然后零零散散的提出了一些要求。
我们发现文心 X1.1 很会抓重点,知道我们想去南方,三个大人、两个孩子,还排除了杭州,因为之前去过了。最后经过分析,给出了建议城市厦门,而且整个行程安排得井井有条:从每天的交通与酒店入住,到必去的亲子景点、美食打卡点,再到预估的人均费用,都写得清清楚楚。
看完文心 X1.1 的推荐,不得不说还在费尽心思做旅游攻略的小伙伴,不妨试试文心 X1.1,让 AI 来帮你省心省力搞定行程规划。
文心 X1.1 这种指令遵循能力,不仅提升了模型对复杂需求的执行力,也显著拓宽了它的应用边界。尤其在面对多条件、强约束、模糊描述等高要求场景时,这对于需要高精度理解与高可控输出的实际应用而言,无疑是一项关键能力。
智能体、工具调用
文心 X1.1 一大亮点是智能体能力提升。它不再局限于单纯的文本生成,而是能够根据用户的需求,自主规划拆解任务,调度外部工具与服务,最后整合输出结果给用户,实现能说到能做的跃迁。
最近,北京杜莎夫人蜡像馆发布停业公告,我们测试一下文心 X1.1 是如何处理这种及时信息的。
只见文心 X1.1 用了很少的思考时间就得出北京杜莎夫人蜡像馆将于 2025 年 10 月 1 日起永久关闭的消息,可谓又快又准。
值得一提的是,在回看它的思考过程时,我们发现文心 X1.1 使用了联网搜索工具,这意味着它并非完全依赖已有的固化知识,而是在遇到较强或罕见的问题时,会主动调用外部工具,以拓展自身的知识范围,并且还给出了参考链接,这不仅增强了回答的可溯源性,也让用户更容易判断其信息来源的权威性与可靠性。
多面手属性尽显无疑
除了以上主打的几项能力,文心 X1.1 在常规的代码、数学、多模态、创作问答等任务中同样表现出色。
先来瞧瞧代码能力,「使用 p5.js 创建一个精彩的动画」,文心 X1.1 一口气生成了百余行代码。
运行之后的动画效果看起来还不错。
再来考察一下文心 X1.1 的图像理解与推理能力,扔给它一张梗图,图中还有文字。
在经过一番深度思考(包括调用图片理解工具)之后,文心 X1.1 给出了多个维度的全面解读。
接下来,我们测试文心 X1.1 的数学能力,同样答对了。
最后,我们还让文心 X1.1 模仿林黛玉的 style,写一篇吐槽工作的段子。
可以看出,这段模仿在风格、用词、情感表达上都较好地捕捉到了林黛玉的特点,同时结合了现代职场的不满情绪,形成了既有古典韵味又有现代共鸣的吐槽段子。
在一通测试后发现,文心 X1.1 的最大特点在于「实用性」的进化:它能够充分减少大模型幻觉,提供科学客观的知识,甚至可以分辨出网络中存在的错误内容;在不同语境中,模型能够对多义词进行解释;此外,文心 X1.1 能够分析外部的信息源,时效性获得了进一步的增强。
这不禁让我们好奇,在这背后,是哪些核心技术的升级?
玩转强化学习,还有飞桨独门优化
自 o1 和 R1 引发全行业关注以来,推理模型的发展可谓日新月异。思维链、多步推理等技术的普及,以及 MoE 架构和量化、蒸馏、稀疏化等高效推理优化手段的加持,让推理准确性、可靠性、速度更强更快。
如今,推理模态也从单一文本扩展到了文本 + 视觉的多模态。最近的 GPT-5 等混合推理可以更加智能地区分难易问题,自动分配合适的模型来处理,效率更高、成本更低。
可以说,AI 推理正在不断朝着更接近人类的思维模式演进。此次,文心 X1.1 能够在事实性、指令遵循和智能体任务中表现不俗,最重要的是采用了迭代式混合强化学习训练框架。
作为基于文心 4.5 训练的深度思考模型,X1 系列在技术层面继承了多项强化学习技术,并在训练稳定性、数据利用效率、融合思考与行动的复合思维链以及工具调用等多个维度持续优化。
最新版本的文心 X1.1 一方面在混合强化学习的基础上融合提升通用任务与智能体任务的效果,优化不同的推理路径和行为策略,增强多任务处理能力;另一方面,通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。
除了在训练框架中引入强化学习策略,文心 X1.1 还用基于知识一致性的强化学习技术提高事实性推理的可靠性,用基于指令验证器的强化学习技术确保模型严格遵循复杂指令,用基于思维链和行动链的多轮强化学习技术将模型的推理过程与实际执行紧密结合。
这些核心技术组件共同构筑起了文心 X1.1 强大能力的内部根基,并从根本上提升了其作为创作与生产工具的可用性。
而文心 X1.1 推理能力发展到如今的程度,同样离不开飞桨深度学习框架与文心模型的联合优化,这正是百度在大模型领域长期保持技术领先的优势。
此次,百度将飞桨框架升级到了 v3.2,进一步优化大模型训推和硬件适配能力,还有更多高效易用的开发工具亮相。新版本的发布,使得其与文心模型的协同优化更加紧密。
在训练层面,飞桨框架 v3.2 强化了极致计算优化、高效并行策略和框架原生容错能力。利用存算重叠的稀疏掩码注意⼒计算 FlashMask V3 提升稀疏数据处理效率,利用 FP8 混合精度效果无损训练技术减少训练中的精度损失;采用动态自适应的显存卸载策略以及显存友好的流水线并行调用,降低显存开销;引入大规模集群训练容错系统,在线监测静默数据损坏等隐性故障,并通过高可用的检查点容灾方法让模型快速从训练中断中恢复。
这么一套训练优化组合拳打下来,文心 X1.1 以及 4.5 系列模型的性能均上了一个台阶,在文心最大规模的 4.5 文本模型「ERNIE-4.5-300B-A47B」的预训练上取得了 47% 的 MFU(模型吞吐量利用率)。
在推理层面,采用卷积编 2 比特极致压缩、可插拔稀疏化轻量注意力、混合动态自适应多步投机解码以及通信存储计算深度协同优化的大规模 P/D 分离部署等技术,为大模型的高效部署和高性能推理释放全栈式能力。以激活参数量 470 亿、总参数量 3000 亿的 ERNIE-4.5-300B-A47B 为例,这些技术的应用取得很好的效果,在 TPOT 50ms 的响应延迟下,吞吐量达到 57K tokens/s,输出吞吐量也有 29K tokens/s。
框架与模型的深度耦合,增效的同时减少算力浪费,让训练与推理更加可持续;模型也从「能跑」进化到「跑得稳、跑得快」,更接近实际应用场景的需求,为今后的规模化应用提供支撑。
此外,飞桨框架 v3.2 的升级还带来了以下几项关键改进,进一步提升了框架本身的整体表现。
升级类 CUDA 芯片适配方案,现在一行代码就可以完成类 CUDA 算子注册,算子内核复用率达到了 92%,适配成本大大降低;
实现对业界主流大模型的支持,并在原生支持 Safetensors 权重格式的基础上一键接入高性能加速库。
文心大模型开发套件 ERNIEKit 和⼤模型高效部署套件 FastDeploy v2.2,前者帮助更高效地构建和训练大模型,后者优化模型部署和推理效率。
新版本的飞桨在打通硬件适配、简化工作流、强化端到端部署方面全面发力,为包括 X1.1 在内的文心大模型持续进化带来了稳且强的引擎。
所有这些共同打造了百度在大模型生态中的核心竞争力。目前,2333 万开发者和 76 万家企业已经接入到飞桨文心生态中。
在大模型落地的前沿,文心大模型已经无处不在,在数字人、剧本生成、动态视频生成、语音合成等领域重塑人们的创作方式与智能体验。
One more thing:开源
除了在模型与框架上的升级,百度还为开发者准备了一份「开源惊喜」。
在今年 6 月,百度开源文心大模型 4.5 系列,一口气放出了 10 款大模型,得到了研究社区的欢迎。今天的 WAVE SUMMIT 上,百度开源了最新的深度思考模型「ERNIE-4.5-21B-A3B-Thinking」。
该模型基于 ERNIE-4.5-21B-A3B-Base 进⼀步训练而来,引入深度思考能力。相较于全新发布的文心 X1.1,它的速度更快,事实性、指令遵循、智能体与工具调用以及其他综合性能力同样表现出色。
这次的开源,释放出了一种明显的信号:百度将继续加大前沿 AI 能力的开放与普惠力度,为开发者带来更多直接可用的大模型。
讲事实、会推理的大模型已来到我们手中
文心大模型 X1.1 代表了国产大模型推理能力的新高点,它在逻辑思考、降低幻觉等方面的优势,不仅是值得业界关注的技术创新,对于 AI 技术的广大用户来说,也让大模型工具向实用化迈进了一大步。
作为国内最早全力投入 AI 的科技大厂,百度从 2013 年起至今已经打造了从芯片、AI 框架、模型到应用的全栈 AI 能力。不得不说,百度这一套在全球范围内为数不多的全体系 AI 在大模型时代占尽了先机,而且实现了持续发力。
在国内大模型进入到以实用化、产业化为特征的新阶段,AI 加速向现实生产力的转化有了更强的大模型引擎。
文心大模型和飞桨持续联合优化,在竞争激烈的大模型赛道上,百度正在基于长期以来的技术积累,为业界持续带来领先的技术和好用的应用。
不过从现在开始,讲事实、会推理的大模型已经来到我们手中了。
#RL's Razor
SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶,机器人等各种下游应用。
在大模型的实际使用中我们发现,大部分的模型还只是某个细分领域任务的大牛,离我们理想中的 AGI 仍然遥遥无期。
准确的说,这些投入部署的大模型大多是「静态」模型,对于其预训练或微调时优化的系列任务表现良好,但是在动态学习,自我提升这部分能力是缺位的。
如果我们希望实现更加通用的大模型,使其能像长期的智能助手一样,随时间不断适应新的任务与需求,很多技术瓶颈亟待突破。而最大的挑战之一就是「灾难性遗忘」。
相信大家对这个概念已经非常熟悉了,灾难性遗忘指的是模型在学习新任务时,会丢掉之前学到的技能。扩大模型规模、增加预训练数据确实能稍微缓解遗忘现象,但始终不能彻底解决。
图源:小红书 @机器坏人(AI 版)
针对灾难性遗忘的问题,研究者们提出了各种各样的改进方法,包括正则化、经验回放、参数微调等等。
但有没有一种可能,我们对大模型遗忘的研究想的有些太复杂了,如无必要勿增实体的剃刀原则才是根治问题的最佳手段。
几天前,来自麻省理工学院(MIT)Improbable AI Lab 的研究者针对该问题发表了一篇研究论文,将奥卡姆的剃刀伸向了大模型后训练,揭示了大模型遗忘现象的基本规律和训练策略,目前已在 Alphaxiv 上热度排名第一。
论文标题:RL's Razor: Why Online Reinforcement Learning Forgets Less
论文链接:https://www.arxiv.org/abs/2509.04259v1
现代 AI 系统面临一个根本性挑战:在学习新任务时,它们常常灾难性地遗忘先前获得的知识。这种现象严重限制了基础模型作为长期、持续学习代理的能力。
这项研究集中在一个惊人的实证观察上:
研究者比较了两种常见的后训练方式:监督微调(SFT) 和 强化学习(RL)。结果很出乎意料:
- 即便 SFT 和 RL 在新任务上表现一样好,SFT 往往是通过 「牺牲旧知识」 来换取新任务的提升;
- RL 却能在学习新技能的同时,更多地保留原有能力。
那么问题来了:为什么 RL 不容易遗忘?
遗忘定律
研究揭示了一个新的规律,称为 「遗忘定律」:
当模型 π 在新任务 τ 上进行微调时,遗忘程度可以通过
精确预测,即在新任务上评估的微调策略和基线策略之间的KL散度。
这条定律在实践中非常有用,因为它可以在微调过程中进行测量甚至影响,而无需访问旧任务数据。尽管其机制仍有待充分理解,但这条定律在不同模型和领域之间的一致性表明它反映了遗忘的一个基本属性。
也就是说,微调后模型与原始模型在新任务分布上的差异越大,遗忘就越严重。
偏向 KL - 最小解减少了遗忘。左图显示,在能够解决新任务的策略中,RL 收敛到 KL 散度上最接近基模型的那些策略。右图显示,在相同的新任务性能下,这种 KL 偏向使得 RL 相比 SFT 能更好地保留先验任务的知识。
研究者进行了广泛的实验,以确定什么因素预示着灾难性遗忘。他们测试了各种假设,包括权重级变化、表示偏移和分布差异。通过对多个领域和模型架构进行系统性消融研究,他们发现微调策略和基础策略之间的前向 KL 散度是遗忘的一个惊人一致的预测指标。
前向 KL 散度定义为:
其中
代表微调策略,
代表原始模型。
这种关系适用于不同的训练算法和超参数,形成了作者所称的「经验性遗忘定律」。在使用简化 ParityMNIST 任务的对照实验中,这种关系实现了 0.96 的 R²,证明了其预测能力。
该图显示,在帕累托前沿上,RL 始终优于 SFT,在语言模型(数学、科学问答、工具使用)和机器人任务中,RL 在新任务性能和先验知识保留之间实现了更好的权衡。
RL 的剃刀:KL 最小路径原理
更有意思的是,RL 的优势正来自于它的 「KL 偏好」。
- 在新任务上,存在许多能达到高表现的解。
- RL 天然偏向选择那些 离原始模型更近(KL 更小) 的解;
- 而 SFT 则可能收敛到距离原始模型很远的解,从而带来严重遗忘。
核心理论贡献是「RL 的剃刀」—— 即在解决新任务的所有方法中,RL 偏好与原始模型在 KL 散度上最接近的解决方案。这种偏向 KL 最小解的偏好解释了为什么 RL 比 SFT 遗忘得少。
为了验证 KL 假设,研究者构造了一个理想的 「oracle SFT」 分布:它在保证新任务完美准确的同时,也做到 KL 最小化。结果显示,在这个分布上训练,遗忘比 RL 还少。这说明 RL 的优势并不是来自某种「本质上的不同」,而是源于它 隐式地执行了 KL 最小化。只要训练过程偏向 KL 最小解,模型遗忘就会随之减少。
左图通过使用一个「Oracle SFT」分布来证明这一原理,该分布在实现完美新任务准确性的同时,解析地最小化了 KL 散度。使用这种 Oracle 分布进行训练产生的遗忘比标准 RL 更少,证实了 KL 最小化是关键机制。中图展示了 KL 散度与遗忘之间的强关联(R² = 0.961),而右图则说明了与 SFT 相比,RL 如何通过较小的 KL 偏移实现高准确性。
机制分析:在线策略学习与离线策略学习
为了理解 RL 何种机制驱动了其 KL 保守行为,研究人员比较了四种不同的训练范式:
分析揭示,数据收集的在线策略性质是关键因素,而不是负面示例的使用。在线策略方法(GRPO 和 1-0 Reinforce)保持较小的 KL 偏移和更好的先验任务保留,而离线方法(SFT 和 SimPO)无论是否使用负面示例,其行为都相似。
理论基础
作者通过信息几何的视角,为强化学习的 KL - 最小收敛提供了理论基础。他们表明,带有二元奖励的策略梯度方法可以被理解为在概率空间中执行交替的信息(I-)投影和期望(M-)投影:
这种迭代过程收敛到可表示策略类中的 KL - 最小最优策略,为「RL 的剃刀」提供了形式化解释。I - 投影步骤在满足奖励约束的同时最小化 KL 散度,而 M - 投影步骤则朝着更高奖励的动作更新。
更多数据
这项研究表明,这一原理超越了简单的实验环境。使用中心核对齐(Centered Kernel Alignment)进行的表示保留分析表明,与 SFT 相比,RL 保持与基础模型更高的相似性:
此外,对更大模型(70 亿和 140 亿参数)的实验证实,仅仅扩大规模并不能消除 SFT 中固有的遗忘权衡:
总结
本篇论文的核心贡献有三点:
1. 实验证明:在相同性能下,RL 比 SFT 更不容易遗忘。
2. 提出遗忘定律:新任务上的 KL 散度 是预测遗忘的关键指标。
3. 理论与实证结合,解释了 RL 的优势来自其 on-policy 特性。
这项研究为后训练提供了新的视角:为了实现无遗忘的持续适应,算法应该明确地旨在最小化与基模型之间的 KL 散度,确立了 KL 散度作为持续学习系统的基本设计原则。
这一原则为设计未来的训练方法打开了大门,这些方法将 RL 保留先验知识的能力与 SFT 的效率相结合,使基础模型能够真正地「终身学习」。
对于使用基础模型的实践者来说,这项研究提供了明确的指导:当持续适应很重要时,在线策略 RL 方法比标准微调方法具有显著优势。KL 散度指标还为模型适应期间的遗忘监测和预测提供了一个实用工具。
这项工作有助于我们理解为什么像 RLHF 中的 KL 正则化这样的常见实践是有效的,将经验观察提升到理论基础。这种原则性理解为开发真正长寿、能够持续学习而不会灾难性遗忘的 AI 代理开辟了新方向。
#DIVER
从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
在当前由大语言模型(LLM)驱动的技术范式中,检索增强生成(RAG)已成为提升模型知识能力与缓解「幻觉」的核心技术。然而,现有 RAG 系统在面对需多步逻辑推理任务时仍存在显著局限,具体挑战如下:
- 表面相关性 (Surface Relevance):基于 TF-IDF/BM25 等传统方法过度依赖词汇重叠度,倾向于召回与查询共享关键词的文档,导致检索结果停留于浅层文本匹配。
- 深度相关性 (Deep Relevance):真实场景中的复杂查询(如医学诊断推导、数学定理证明)其相关性往往是隐性的,隐藏在概念类比、逻辑推演或因果链条之中,需要模型具备超越字面含义的理解能力。
为建立严格的评估体系,学术界提出了 BRIGHT—— 首个面向推理密集型检索的权威测试集。该基准涵盖了源自经济学、心理学、数学及编程等多个知识密集型领域的真实查询。这些查询的共性在于其答案无法通过传统的直接检索显式获得,使得很多 RAG 系统失效。而 BRIGHT 必须通过多步推理构建证据链,也就是所谓的「第一性原理」, 从 「根源」 推导,而非 「类比」来解决问题。
针对这一技术挑战,蚂蚁集团 AQ-MedAI 团队提出了 DIVER(Deep reasonIng retrieVal and rERanking) 框架,旨在解决「推理密集型」(Reasoning-Intensive)场景下的信息检索难题。
- 论文标题:DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- arXiv 地址:https://arxiv.org/pdf/2508.07995
- 代码与模型开源地址:
- https://github.com/AQ-MedAI/DIVER
- https://huggingface.co/AQ-MedAI/DIVER-Retriever-4B
- https://huggingface.co/AQ-MedAI/Diver-Retriever-0.6B
目前,DIVER 框架在 BRIGHT 公开排行榜上测评得分 45.8,排名第一,充分验证了其技术的领先性。
DIVER:推理驱动式检索系统
DIVER 是一套推理驱动式的检索框架,其将复杂的检索任务分解为四个阶段,主要为 DIVER-DChunk、DIVER-QExpand、DIVER-Retriever 和 DIVER-RERANK。
DIVER:技术架构深度拆解
第一阶段:文档预处理(DIVER-DChunk)—— 奠定坚实基础
高质量的知识库是有效检索的前提。DIVER 首先对原始文档进行「净化」和「重组」。它会自动清除文本中的噪声(如无关的 HTML 标签、格式错误),并利用语义理解技术将过长的文档智能切分为逻辑连贯、大小适中的「知识块」。
这一步确保了后续模型读取的是清晰、有序、高质量的信息,为后续的推理环节打下了坚实的基础。
第二阶段:查询扩展(DIVER-QExpand)—— 让模型学会「追问」和「联想」
用户的原始问题可能不够精确,DIVER 采用了一种与文档「互动」的迭代式查询扩展策略。当接收到用户的初始查询后,系统并非立即进行检索,而是利用一个强大的语言模型对查询进行迭代式的「精炼」和「扩展」。模型会分析初始查询,并结合初步检索到的少量文档,生成更明确的推理路径和所需证据的描述,然后将这些信息补充回原始查询中。
这个过程会重复进行,形成一个反馈循环,使查询的意图越来越清晰、精准,引导系统走向正确的答案方向。
第三阶段:专为推理定制的检索(DIVER-Retriever)—— 从第一性出发,训练一位「侦探」,而非「图书管理员」
有了经过「思考」的查询,DIVER 会启用一个经过特殊训练的检索模型。这个模型的独特之处在于其训练数据:
1. 合成的推理数据:在医疗诊断推导和数学定理证明等复杂推理领域,该技术团队构建了带有逻辑链标注的合成数据集。这些数据要求模型不仅要匹配关键词,更要学习隐含的逻辑关联性,如症状 - 病理的因果推断或数学命题的蕴涵关系。
2.「困难负样本」(Hard Negatives):训练中包含了大量与正确答案表面相似但实际错误的「陷阱」样本。这迫使模型不仅要看「像不像」,更要理解「是不是」,从而具备了极强的辨别能力。该技术团队设计了三级负样本筛选策略:
- 表层相似:保持词项重叠但逻辑矛盾的样本(如「糖尿病胰岛素抵抗」vs「糖尿病胰岛素分泌过剩」)
- 结构仿造:模仿正确推理路径但包含隐性谬误的样本
- 语义对抗:通过语言模型生成的强干扰项
3. 基于难负样本采样的对比学习:通过引入对比学习框架,模型将正确答案与这些高难负样本同时进行对比训练。模型被迫聚焦于两者间微妙差异,从而提升了对复杂推理过程中的关键信息识别能力和鲁棒性。
通过这种方式训练出的检索器,能够精准地从海量信息中捕获到那些真正支撑推理链条的关键证据。
第四阶段:混合式重排序(Reranking)—— 确保最终答案的质量与连贯性
最后,初步检索出的文档列表会进入重排序阶段。DIVER 巧妙地结合了两种策略:逐点排序(Pointwise)策略和列表排序(Listwise)策略。这种「局部精调」与「全局统筹」相结合的混合模式,确保了呈现给用户的文档列表既有高质量的个体,又有最优的整体顺序。
技术突破验证
基准测评、行业对比、产业落地全面领先
BRIGHT 榜单达到 SOTA
DIVER 在权威的推理密集型检索基准 BRIGHT 上,其整体 nDCG@10(衡量前 10 个结果排序质量的指标)达到了 45.8,全面超越了现有的其他具备推理能力的模型,达到了业界顶尖(SOTA)水平。
行业模型对比
在跨领域任务及不同查询难度的评测中,DIVER-Retriever 展现了显著的性能优势与强劲的泛化能力:在数学推理、通用科学和代码检索三大场景下,其 nDCG@10 与闭源模型 Seed1.5 Embedding 相比,平均提升 2 个百分点;相较于参数规模为其两倍的开源模型 ReasonIR-8B,平均提升了 4 个百分点,充分验证了 DIVER-Retriever 在不同领域与难度条件下均能保持稳健而有效的检索性能。
AQ 落地应用
医疗领域对知识的准确性和推理的严谨性有着极高的要求,尤其是在精准医疗的发展趋势下,必须根据患者的具体情况和医学原理制定治疗方案,而不能简单地照搬经验。
自 6 月在 AQ 医疗应用上线以来,DIVER 驱动的检索增强系统实现了临床级检索和循证精准突破:在诊疗证据召回场景中,相比 BGE-M3 模型,英文文献召回的 Hit@1 提升 11 个百分点;中文召回的 Hit@1 从 0.824 提升至 0.922,提升 9.8 个百分点;混合检索(中文召回英文)的 Hit@1 提升 8.6 个百分点。
同时 DIVER-Dchunk 应用在离线指南与论文的 chunking 环节,大幅提升了指南与论文检索信息的有效性。
展望
蚂蚁 MedAI 将持续深耕复杂推理型的检索技术以及重排序技术,持续提升在医疗复杂推理、泛健康场景的检索循证能力。该技术团队将持续优化 DIVER 框架,为临床决策提供了可验证、可追溯、可更新的知识基础设施,重新定义医疗级 RAG 的技术标准。
接下来,该技术团队会陆续开源其他 size 的检索模型以及重排序模型,欢迎研究者与开发者关注并使用他们的模型,期待与更多科研机构及产业伙伴合作,共建开放繁荣的开源生态,共同推动人工智能与医疗 AI 的发展。
更多推荐
所有评论(0)