51c大模型~合集142

就以罗永浩数字人为例，罗永浩和朱萧木都具有强烈的个人风格，直播时经常会蹦出几句口头禅，为打造可控性强、极具真实感的虚拟主播，百度基于文心大模型 4.5 Turbo，投入海量真人直播数据，依托「转录挖掘、优质提炼、仿写合成与自动评估」四个环节不断优化训练语料，使模型深度吸收两位主播的语言特点与思维习惯，并在迭代学习中持续逼近更契合的输出效果。如果 AI 可以基于可靠的数据，理解复杂的需求，进行长期推

whaosoft-143

2277人浏览 · 2025-06-20 19:19:12

whaosoft-143 · 2025-06-20 19:19:12 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13998765

#Agentic AI时刻

多智能体驱动，「一人公司」这就要来了

Code is cheap, show me the talk.

最近，很多 AI 大佬一反常态，对未来做出了超出预期的乐观预测。

诺贝尔奖获得者、AI 先驱 Geoffrey Hinton 表示，人工智能将在多个领域「取代所有人」，只有顶尖技能人才能够找到 AI 无法处理的工作。

特斯拉前负责人 Andrej Karpathy 在演讲中也认为，我们正在进入「软件 3.0」时代，自然语言在成为新的编程接口，大模型会完成剩下的工作。

正在让 AI 能力大幅提升的技术被称为智能体（Agentic AI），它能够长时间独立运行、感知环境，自主使用各种工具来完成复杂任务。最近有研究甚至证明，智能体也遵循大语言模型的测试时扩展（Test-Time Scaling）规律，能够通过强推理不断提升解题能力。

事实上，智能化发展的过程比我们想象得还要快。正在上海举行的亚马逊云科技中国峰会上，我们看到了一系列基于大模型、Agentic AI 的创新和案例，让我们眼花缭乱。

「通俗说来，Agentic AI 就是让基于大模型的 AI 从『我问 AI 答』、『我说 AI 写』发展到『我说 AI 做』。AI 驱动的数字员工能将像人一样在各行各业，为企业带来新的生产力，」亚马逊云科技大中华区总裁储瑞松说道。

手搓 Agentic AI 应用

仅需不到 30 行代码

如今想用 AI Coding 来开发一个抽奖的小应用，到底有多简单？

在 Amazon Q Developer 上，你只需要先与 AI 进行聊天交互，了解需求，AI 会自动生成一份有关后端代码的技术文档，进而生成执行计划。在读取执行计划后，Q 能够自动生成一系列提示词，帮助我们生成代码，生成的代码可以一键修正错误。

前端代码就更简单了，直接输入一个截图，Q 就可以把界面转换成代码。生成内容出错的地方，只需要用自然语言指出并一键修复即可。在程序完成之后，我们也可以用 Q 进行部署、测试，并在上线之前解决安全问题。最后在这个项目中，有 90% 的代码是由 Q 生成的。

AI 也可以帮助架构师改造项目适用的环境版本。比如想把 Windows 的应用转换成 Linux 的，使用 Amazon Transform，不到一分钟，5000 多行代码就修改了 4800 多行，还立即在 GitHub 上自动提交了分支。

围绕 Bedrock Agents，人们可以围绕大量内部数据快速构建，转换不同工具执行任务。我们可以调用 Lambda 查看游戏发行生成的内容，也可以调用非结构化数据进行相关内容的生成。

在一些简单任务上，我们可以使用开源的 Strand Agents，由它帮助构建的 AI 采购助手使用亚马逊云科技托管的 Claude 3.7 Sonnet 大模型作为大脑，用户使用自然语言在前端提问，Agent 就能理解用户需求，调出相应的 MCP 工具进行具体操作，浏览网页、筛选、进行推荐并以自然语言的形式返回结果。

这样的智能体工具，我们可以在一天之内完成原型开发验证，代码不超过 30 行。

多 Agent 之间也可以进行交互。中央协调器的大模型（Claude 4）在获取需求后自动指定相应的不同 Agent 进行编排，搜索并调用 MCP 服务形成报告，自动解析 PDF 和形成报告生成行程推荐。

以上的实现都基于亚马逊云科技提供的工具，它们分别针对特定场景、软件开发全流程，以及多智能体轻量级开发。

亚马逊云科技大中华区解决方案架构总经理代闻表示，由于智能体能力的提升，多模型混合使用的应用将成为常态；如今大家对于 AI 的关注点已经从模型性能的跑分，转变成为 AI 的应用；另外，大模型带来的 Text to Action 正在重新定义交互内容和能力边界。

基于此种能力，已有不少企业跨越了实验阶段，将生成式 AI 的解决方案应用于实际运营，并在三个关键领域取得了切实的效益 —— 提高生产力、降低成本和加快创新周期。

作为一家 AI 公司，合合信息从成立以来一直专注于文本图像领域的 AI 算法和应用研究，它基于亚马逊云科技实现业务出海，构建了支撑扫描全能王、名片识别等核心产品，为全球 200 多个国家的用户提供高可用、低延时、安全合规的服务。

为了更好地利用企业文档数据资源，基于 Amazon Bedrock 和 OCR 大模型，合合信息还构建了一个文档处理 Agent：DocFlow。只需要分钟级的时间就能从云存储中快速地读取各类文档，并且自动完成优化、分类、信息抽取和审核，从而大大提升数据处理效率。

Agentic AI 在知识信息密集的领域也发挥了巨大的作用。举例来说，在医学撰写方面，一个典型的创新药项目需要以 10 万份文献数据以及数千的患者临床记录为输入，需要输出多达 200 多份的文档，总体的页数超过了 5000 页。这个工作量占据了研发工作量的 30~50%。

针对这一挑战，复星医药和亚马逊云科技展开了合作，将整个医学写作的场景进行了解构。借助生成式 AI 的能力，一键式完成实验报告检查，把长达一周的工作缩短到 5 分钟。另外，在医学翻译领域，借助亚马逊云科技技术，复星医药用 6 个月的时间已经完成了 1.6 个亿字的翻译，直接降本超过了 30%。

还有很多国内外公司，都在亚马逊云科技的这套 Agentic AI 体系上提升了效率，开启了前所未有的业务。这不由得让我们想起今年初人们喊出「AI 智能体爆发元年」的预测：从 AI 辅助到 AI 协作，再到数字同事，智能体最终可以构建成软件公司，帮助我们完成绝大多数任务。「一人公司」距离我们其实并不遥远。

Agentic AI 最令人兴奋的或许将是商业模式的创新 —— 就像 Uber、 Airbnb 创造了共享经济模式，Netflix 开创了订阅制内容消费模式那样，随着 AI 的快速发展，现在处于正在进行时的，是深度集成 AI 的代码工具 Cursor、AI 实时搜索引擎 Perplexity……

「我们身处在 AI 时代，恰似置身于 30 米高的巨浪之中。AI 的发展已经来到了一个拐点。现在是时候行动了，」亚马逊云科技全球技术总经理 Shaown Nandi 表示。「坚信未来一年所做的事会为新的时代打下基础。」

打造 Agentic AI

亚马逊云科技拥有一套完整技术栈

但另一方面，生成式 AI 的落地并不是件容易的事。

今年 1 月，DeepSeek R1 成为了全球爆款应用，很多人在向它提问后遭遇了系统频频回复的「服务器繁忙，请稍后再试」；3 月份，ChatGPT 在提供原生图像生成功能后不到 72 小时就宣告临时下架，OpenAI CEO 山姆・奥特曼不得不宣布进行限流，并表示「GPU 在融化」。

不少爆款 AI 应用在走出陡峭增长曲线之后，面临着服务器容量饱和、安全合规、技术迭代困难等一系列挑战。为了能够跟上 AI 发展的加速度，企业需要正确的技术和全栈的工具。

此前，Amazon Bedrock 平台上提供的 Amazon Bedrock Agent 框架作为一款快速部署工具在业内已获得了人们的认可。它是一个全托管式的服务，支持集成 Bedrock 内置的安全、可用性机制、RAG 等能力，也集成亚马逊云科技各种服务，新增的 Multi-Agent 协作则可以应对复杂工作流程编排需要。

它大大简化了标准低级任务流程复杂性，如调用 LLM、定义和解析工具以及链接调用，从而简化了工作流程。

其实，在能力层、基础设施、编排层、体验层等应用生命的全流程里，亚马逊云科技都提供了大量实操性的策略和实用工具，能够帮助你快速构建 Agentic AI。

首先是多种先进模型的选择。现在的 AI 发展速度惊人，而且我们知道不可能有一个模型可以适用于所有任务。Amazon Bedrock 不但集成了 DeepSeek R1、Anthropic Claude、Meta Llama、AI21 Labs、Cohere 等顶尖模型，亚马逊云科技自主研发的 Amazon Nova 系列基础模型也包含在内，在速度和成本方面提供更多不同选择，涵盖理解、图像、语音、视频等工作，新款 Amazon Nova Act 模型也即将上线 Amazon Bedrock 平台。

第二点是模型定制能力。将自己的数据引入模型，是释放 AI 价值其中最重要的一步。现在 Amazon Bedrock 支持端到端的全托管 RAG 功能。该功能允许企业直接将模型与内部数据源（如数据库、文档库）安全连接，无需自行搭建复杂的检索管道，即可生成基于企业私有数据的精准回答。

第三点是信任与安全。这是所有生成式 AI 应用的核心。Amazon Bedrock 提供的 Guardrails（安全护栏）功能，可以帮助用户屏蔽有害或不合规的输入与输出，并且这些 Guardrails 是可以继承的。

此外，为了解决大模型幻觉现象，Bedrock Guardrails 率先推出了自动化推理（Automated Reasoning）功能，其中 Reasoning Checks（推理校验）能基于逻辑验证和可证明的依据，有效防止生成式 AI 出现事实性错误和幻觉内容。目前，只有亚马逊云科技提供这一功能。

自动化推理验证原理。

第四点是成本效益。亚马逊云科技一直致力于帮助客户优化成本，同时不牺牲结果质量。为了达到此目的，他们在 Amazon Bedrock 中引入了模型蒸馏，蒸馏后的模型最多可提升 500% 的响应速度，成本降低 75%。

针对更广泛的应用场景，Amazon Bedrock 还提供了智能提示词路由功能。用户可以为一个应用配置多个模型，Amazon Bedrock 会根据请求内容自动选择最适合的模型来响应，从而在保证准确率的前提下，将成本降低高达 30%。

可以看出，从灵活的模型选择，到节省资源的优化策略，Amazon Bedrock 已内建了生成式 AI 应用所需的完整能力，为企业带来性能与成本的双重优势。

为了让更多开发者能够灵活地探索 Agent 能力，亚马逊云科技也提供了更加开放、自主的方式。

围绕特定场景，围绕 Amazon Q Agents 的开箱即用工具可以涵盖代码开发、IT 运维、应用现代化等步骤，覆盖生命全周期；

在基础模型之上，Amazon Bedrock Agents 可以实现强大的工作流程编排能力；

对于轻量级任务，Strands Agents 开源框架可以构建出灵活的多智能体应用。

对于那些倾向于自己动手、深入定制的开发者来说，你不妨试试 Strands Agents—— 一款开源 Python SDK，只需寥寥数行代码就能构建智能 Agent。Strands Agents 通过集成最先进的模型，为开发者省去了复杂的 Agent 编排工作。

如何赋能开发者，如何为应用奠定在 Amazon Bedrock 上成功运行生成式 AI 的基础？那么接下来的关键问题是 —— 怎样真正把生成式 AI 应用构建出来？

这就需要借助亚马逊云科技的一款生成式 AI 助手 Q Developer，其拥有较高的代码接受率。一般而言，大多数开发者平均每天真正写代码的时间只有 1 小时，其余时间都花在团队协作、撰写文档、项目规划等各类任务上。

与其他 AI 助手不同，Q Developer 能在整个软件开发生命周期中为你赋能。你可以与 Q Developer 对话，了解其能力、架构解决方案，你也可以在 IDE 内直接与 Q Developer 聊天，共同生成代码、拆分任务、集成 API ，还能点击一下进行测试，扫描那些难以发现的安全漏洞。可以说，Q Developer 是一位全天候的 AI 助手。

另外，很多开发者更喜欢通过命令行工作，因此亚马逊云科技发布了全新的 Q Developer CLI Agent。它能结合 Q Developer CLI 环境中的信息，执行读写文件、编写代码、自动调试等任务。

Q Developer 可以帮助你自动化日常开发任务，但开发者的大量时间其实并不在构建新应用上，而在于维护旧系统 —— 包括管理、现代化改造、打补丁等。

利用 Amazon Q 能力，亚马逊云科技找了五人团队在两天内将 1000 个 Java 应用程序从 Java 8 升级到 Java 17。平均每个应用耗时约 10 分钟，而传统方式可能需要两天。

现在，亚马逊云科技已经成功迁移数万个生产应用，年度开发工时节省 4500+，实现了 2.6 亿美元的年化成本节约。

这也给我们带来了思考，生成式 AI 如何变革整个 IT 系统？据估计，目前有 70% 的工作负载仍在本地运行，而 70% 的传统 IT 系统已有近 20 年历史。对于财富 500 强公司来说，应用迁移是一项长期工程。

Amazon Transform —— 首个为加速 .NET、大型机和 VMware 工作负载的企业现代化而开发的代理式人工智能服务。Amazon Transform 可以帮助各个组织同时对数百个应用程序进行现代化改造，并保持高质量和控制力。

比如汤森路透利用 Amazon Transform，现代化升级速度比原计划快了 4 倍。

亚马逊云科技认为，Agentic AI 能够在三个方面带来组织方式的变革：1、统一的 AI 就绪的基础设施；2、聚合并治理过的 AI 就绪的数据；3、明确的策略和高效率的执行。

目前已经有超过 10 万客户在亚马逊云科技上进行机器学习工作，在中国的生成式人工智能创新中心，也有超过 1000 个深度合作客户。

宏观来看，亚马逊云科技已经把智能体放在了极其重要的位置，其 CEO Matt Garman 最近表示，Agentic AI 有机会成为亚马逊云科技下一个数十亿美元的规模业务。对此亚马逊云科技 3 月份已经成立了专门的智能体团队，直接向 CEO 报告，很快就会有重磅发布。

在 AI 时代，我们不止要创新，还要加速创新。亚马逊云科技正在成为加速创新可信赖的合作伙伴。

生成式 AI

实践出真知

在中国峰会主论坛上，亚马逊云科技正式发布了 Agentic AI 应用实践指南。其中包括智能体开发的基本范式、实践方案的示例，以及对于智能化转型的展望。基于该指导，任何人都可以在亚马逊云科技的平台上构建 AI 应用。

预计到 2028 年，15% 的日常工作决策将由 Agentic AI 自主完成，而这一比例在 2024 年几乎为零。这不仅仅是技术的迭代，更是软件应用本质的重新定义。

最近，OpenAI CEO 山姆・奥特曼在接受访谈时说道，通用人工智能（AGI）是一个动态的目标，或许更有意义的里程碑会是 ASI，即 AI 能够实现自主的科学发现。如果 AI 可以基于可靠的数据，理解复杂的需求，进行长期推理和规划，可靠地使用工具并及时纠正错误，那么我们就可以在更加重要的任务上，实现前所未有的自动化。

亚马逊云科技的能力，正在让我们距离这个愿景更进一步。

....

#AI 视频生成时代

留给人类的只有演技？

总有人说直播网红是「换头怪」，全靠滤镜整容，现在 AI 给你直接换个人，你受得了吗？

最近，社交媒体上疯传的一些视频让无数人感到震惊。

有网友做出任意表情、动作，然后无缝替换到《怪奇物语》中的米莉・博比・布朗、芬恩・伍夫哈德等多位演员身上，实现零成本的「无限角色互换」。

，时长00:16

这已经不是普通的 3D 皮套了，很多视频生成 AI 已经实现了实时换脸的能力：只需要找到一张参考的照片，你就可以在视频中直接「扮演」这个人。

现在 AI 可以精准地捕捉像眨眼、张嘴、侧脸等微表情，效果和画面背景之间也没有任何的割裂感，几乎看不出破绽来。

有的人已经把这些技术整合成了 APP。比如这个叫 levelsio 的人就展示了一系列 AI 直播的效果，并表示，虚拟网红的时代已经来临。

，时长00:28

真实到有一点点可怕。

风险投资机构 a16z 合伙人 Justine Moore 直言：「我们对 AI 如何迅速改变生产流程完全没有准备好。一些最新的视频模型已经对好莱坞产生了直接而重大的影响，角色可以无限替换，成本却几乎可以忽略不计。」

在 X 上，这类视频动辄就能获得超百万播放量，评论区也两极分化严重。有人惊讶技术进步的飞速，有人则担心深伪用于诈骗与破坏信任，「连人类身份都难以证明」，有人甚至提到以后或许需要「眼球扫描」来验证真实性。

「好莱坞完了」？

这波换脸技术的核心突破，主要来自快手推出的 Kling Motion Control，只需上传任意一段视频以及一张目标角色的照片，AI 即可生成一个「角色替换」视频。

，时长00:34

国外网友已经玩疯了。

电影制作人 Arut 用这个工具复刻了 2023 年奥斯卡热门片《坠落的审判》（Anatomy of a Fall）里的那段标志性单镜头争吵场景。

，时长00:25

这段 25 秒的视频，全靠 Kling 2.6 Motion Control Pro 实现，它能精准控制长达 30 秒的肢体动作和面部表情。这也意味着，以前需要专业团队、摄影棚、灯光道具才能完成的镜头，现在只要一部手机和一个 AI 工具就行。

看来时代真的变了。

AI 电影制作人 Uncanny Harry AI 的演示更夸张，他穿着睡衣，顶着乱糟糟的头发，在家里用 AI 让自己一人分饰两角：一个中年光头男人和一个红发女职员。

两个角色上演了一场气氛紧张的对话，唇部同步完美、微表情和肢体语言均高度一致。

而他本人既不是训练有素的专业演员，视频也未经过专业的音效处理。

，时长00:33

还有人用 AI 生成的一个 K-pop 偶像做鬼脸的视频，比如嘟嘴、吐舌、眨眼…… 每个动作表情都自然流畅。

，时长00:15

有人做了不完全的统计，现在包括 Kling 2.6、Deep-Live-Cam、DeepFaceLive、Swapface、SwapStream、VidMage 和 Video Face Swap AI 在内的一系列工具，都可以根据实时网络摄像头画面生成实时的 AI 换脸视频，或是基于静态的图片，以及人们的文字提示，按照需求生成从几十秒到几分钟的视频。

这些工具的价格也越来越亲民，每月费用在 10 美元到 40 美元之间。

这方面的技术在过去一年里取得了显著进步，唇形同步效果更好，眨眼和表情也更加自然。现在它足以以假乱真，骗过很多人。当然，不同的 AI 也各有自己擅长的方面，比如 Sora 2 能够更好地模拟物理效果，Kling 的运动比较真实等等。

或许过不了多久，建模质量就不再是你的必选项，火不火全都取决于整活了。

可以预见，随着 AI 视频生成内容的不断进步，很多前所未有的创意和想法将会变成现实。

参考链接：

https://x.com/Arutkaran_/status/2010705052374286587

https://x.com/Uncanny_Harry/status/2008881579095961934?s=20

https://x.com/IamEmily2050/status/2002968479276937403?s=20

https://x.com/AIMevzulari/status/2012105893882536266?s=20

....

#贴广告的ChatGPT

一夜之间让全球网友破了防~

这一天终于还是来了。

周六凌晨，OpenAI 的一则公告引起轩然大波：他们计划在 ChatGPT 里加广告了。

对此，网友们感到很受伤。有人表示，现在大家用大模型的一个重要原因就是能够避免广告，更好地查询信息，现在 ChatGPT 又把广告加回来是几个意思？

也有人认为，加广告的这件事表明了 OpenAI 目前的营收压力很大。

华盛顿大学教授荣誉退休教授、知名 AI 学者 Pedro Domingos 吐槽道：OpenAI 终于实现了 AGI，不过此 AGI 非彼 AGI，而是 Ad-Generated Income.

OpenAI 的公告指出，广告测试将在未来几周内率先在美国启动，能看到广告的用户包括免费版，还包括一种新的付费层级 ——ChatGPT Go 的用户。

ChatGPT「小会员」，每月 8 美元

在广告出现之前，OpenAI 官方宣布 ChatGPT Go 已在全球上线，在所有支持 ChatGPT 的国家可用。

ChatGPT Go 是他们的低价订阅计划，每月 8 美元，提供比免费版多 10 倍的消息额度、文件上传和图像生成功能、更大的内存、更长的上下文窗口，以及可以无限使用 GPT 5.2 instant 模型。

需要注意到的是，Go 版用户仍然无法使用 GPT‑5.2 Thinking 模型。

另外，OpenAI 指出，除了免费版和 ChatGPT Go 以外，Plus、Pro、Business 和 Enterprise 版本的付费用户将不会看到广告。所有 ChatGPT 中的回复不会受到广告的影响。

看 OpenAI 的说法，ChatGPT 的广告和 Google 等搜索引擎上的很像。广告不会打断对话流，而是会出现在 AI 生成的回复的底部，并标注好「Sponsor」。

OpenAI 承诺广告商无法影响 ChatGPT 生成的答案内容，此外，用户的具体对话内容不会被直接发送给广告商，只会用于匹配相关性。

虽然 AI 的回复内容里不会有广告内容，但 ChatGPT 显示的广告将根据你的对话上下文进行匹配，比如你在问食谱的时候会出现相关食材或配送服务的广告。

另外，在涉及健康、心理健康、政治等敏感话题的对话中，不会显示广告。

理想与现实的妥协

OpenAI 的这一决定，是在公司面临巨大的财务压力和商业化转型的背景做出的。

尽管 OpenAI 的估值即将达到 7500 亿美元，但考虑到其在算力和数据中心上的投入是天文数字（在 2025 年就有高达 1.4 万亿美元的基础设施建设承诺），去年奥特曼预计的 200 亿美元收入显然远远不够。

为了维持运营并继续扩展 AI 大模型能力，加广告可能是唯一的办法。

看起来很合理，但是在这件事情上，山姆・奥特曼仍然食言了。

作为一个致力于解决 AGI 大问题公司的舵手，奥特曼在不久之前还曾在多个场合公开表达过对于加广告的厌恶。在 2024 年与 Lex Fridman 的播客访谈时，他提到自己对广告有一种「精神上的厌恶（spiritual dislike）」。

奥特曼解释说，这主要是针对当时互联网上那些「糟糕的交互界面（crappy interfaces）」，他认为广告往往会干扰用户获取信息，破坏产品的纯粹性。

他当时强调了一个核心逻辑：「我喜欢用户付费使用 ChatGPT，因为这样他们就知道答案没有被广告商影响。」他担心一旦引入广告，AI 的回答可能会为了讨好广告主而出现偏向性。

这也是所有普通用户所担心的问题。在今天 OpenAI 的声明之后，不知大家该作何感想。

在奥特曼介绍 ChatGPT 广告的推文下，有网友还扒出了 2024 年 5 月奥特曼在哈佛大学演讲里的内容，当时他说：广告对我们来说是一种商业模式的最后选择。

马斯克和奥特曼又在 X 上「升堂」

除了 ChatGPT 要加广告这事，今天最热的新闻之一还得是马斯克和 OpenAI 旷日持久的官司。

近日，加州北部地区法院解封逾百份文件，包括 OpenAI 总裁 Greg Brockman 2017 年的私人日记摘录。

这些记录显示，Brockman 曾在日记中写道：「这是我们摆脱 Elon 的唯一机会…… 从财务角度，什么才能让我达到 10 亿美元？」并讨论转向营利结构，以避免马斯克的控制「破坏经济利益」。

Brockman 还总结道：「在马斯克不知情或不同意的情况下，把非营利组织从他手里偷走、强行改成营利性公司，这种做法是错误的，那样做会显得相当道德败坏，而且他真的不是傻子。」

马斯克在 X 上直接评论：「他们偷了一个慈善组织，就这么简单。」

奥特曼回应称，马斯克在断章取义地抹黑 Greg Brockman，实际情况的完整版是马斯克自己当时大力推动公司改成新的结构，Greg 和 Ilya 花了大量精力去研究、讨论能不能接受或满足 Elon 提出的那些苛刻条件。

「我之前记得很多这些细节，但这个部分我完全忘了：『Elon 说，他需要攒到 800 亿美元来建一个能在火星上自给自足的城市，他认为自己需要、也配得上多数股权。他还说必须有完全的控制权，因为以前没控制权吃过大亏。在聊到公司继任、接班问题时，他突然提到要让他的孩子们来掌控 AGI，这让我们挺震惊的。』我觉得大家直接说清楚自己想要什么挺好的，这样才能真正解决问题或看清没法解决。但 Elon 当时提出这些要求，正是 Greg Brockman 纠结、思考公司未来方向的重要背景。」

关于双方的纠葛，MenloVentures 合伙人 Deedy 的评论一针见血：说到底，这一切都和钱有关。

由于解封出的文件存在「足以让陪审团相信可能存在违约行为」的嫌疑，美国地区法官 Yvonne Gonzalez Rogers 已于 2026 年 1 月正式裁定拒绝 OpenAI 的撤诉请求。该案件将于 2026 年 4 月 27 日进入陪审团审判。

最后，我们再回到ChatGPT加广告这事。你认为，OpenAI 在未来，终究也会走回科技巨头的「老路」吗？

参考信息：

https://x.com/OpenAI/status/2012223373489614951?s=20

https://www.theverge.com/news/863466/openai-chatgpt-go-global-release

https://x.com/deedydas/status/2012074556106924233?s=20

https://x.com/XFreeze/status/2012209234134409475?s=20

https://x.com/elonmusk/status/2012173548039622685?s=20

https://x.com/sama/status/2012272451363709377

....

#P2P, Pixel2Play

开源8300小时标注数据，新一代实时通用游戏AI Pixel2Play发布

随着人工智能在代码以及图片生成方面日益成熟，越来越多的研究人员也开始关注 AI 模型在游戏领域中的表现。实际上，游戏在 AI 的发展早期就已经是一个重要的研究方向，许多前期研究聚焦在 Atari，星际争霸，Dota 等热门游戏，并成功训练出了表现超越人类玩家的专用模型。然而，这类模型通常只能在单一游戏环境中运行，缺乏跨游戏的泛化能力。

另一方面，虽然 ChatGPT 和 Gemini 这类模型通用模型在众多任务上已经展现出了卓越的能力，它们却难以在游戏环境中取得好的表现，即便是很简单的射击游戏。

为了解决这一问题，来自 Player2 的研究员们提出了 Pixel2Play（P2P）模型，该模型以游戏画面和文本指令作为输入，直接输出对应的键盘与鼠标操作信号。在消费级显卡 RTX 5090 上，P2P 可以实现超过 20Hz 的端到端推理速度，从而能够真正像人类一样和游戏进行实时交互。P2P 作为通用游戏基座模型，在超过 40 款游戏、总计 8300 + 小时的游戏数据上进行了训练，并能够以零样本（zero-shot）的方式直接玩 Roblox 和 Steam 平台上的多款游戏。

为了促进领域的发展，Open-P2P 团队在没有使用许可限制的情况下开源了全部的训练与推理代码，并公开了所有的训练数据集。

接下来请看 P2P 模型的人机对战：(在 Roblox Rivals 游戏中)

，时长00:47

论文题目：Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
项目主页：https://elefant-ai.github.io/open-p2p/
论文代码：https://github.com/elefant-ai/open-p2p
论文数据：https://huggingface.co/datasets/elefantai/p2p-full-data

训练数据

训练游戏 AI 模型需要高质量的游戏画面、文本指令以及对应的操作数据。与海量公开的图文数据不同，这类 “画面 - 操作” 数据在互联网上很少见。尽管已有通过游戏视频反推动作的开源数据集，但开源的大规模高质量人工标注操作数据却还是空缺。为了弥补这一空缺，Open-P2P 项目开源了全部的训练数据集。

如图所示，P2P 所用的训练数据同时包括游戏图像画面与对应的文本指令，并提供了精确的键盘鼠标操作标注

模型设计

为了保证模型可以做到快速的推理速度，P2P 选择了轻量级模型框架并从零开始训练。

模型主体由一个解码器 Transformer 构成（左图所示），并额外接入一个轻量化的 action-decoder 来生成最终的操作信号。该结构使得模型在推理时只需要对主体模型进行一次前向计算，即可生成 action-decoder 所需的表征信号，从而使得整体推理速度提升 5 倍。

为了实现跨游戏通用性，P2P 采用了自回归的离散 token 序列作为操作输出空间。具体来说，每个操作由 8 个 token 表示：4 个对应键盘按键，2 个对应鼠标在水平与垂直方向上的离散位移，最后两个对应鼠标按键。这样的设计可以涵盖绝大部分游戏的操作需求。

在输入方面，除了当前帧图像与文本指令 token 外，P2P 还会输入真实操作 token，这使得模型能够根据历史操作来做决策，从而更贴近人类玩家的操作习惯。为了保证模型的因果关系，训练时使用了特殊的掩码机制（右图所示），以确保模型在预测时仅能看见历史真实操作。

模型评估

P2P 共训练了四个不同规模的模型，参数量分别为 150M，300M，600M 和 1.2B。在实测中，150M 模型可以达到 80Hz 的端到端推理速度，而最大的 1.2B 模型也能达到 40Hz，完全满足与游戏环境实时交互的需求。

模型评估的标准主要是人工评估，评估环境选取自四款游戏

Steam 平台上的 Quake，DOOM
Roblox 平台上的 Hypershot，Be a Shark

模型行为评估

在 DOOM 和 Quake 中，每个官卡设置了四个不同的起始位置（Roblox 游戏因联网机制无法固定起点），模型需从指定起点操作至下一个目标点。

人工评估采取了两两比较的方式：将 1.2B 模型生成的游戏录像与另外三个相对较小的模型录像进行人工比对。结果显示，1.2B 模型分别以 80%，83% 与 75% 的偏好度优于 150M，300M 和 600M 模型。下方视频展示了对比片段：

，时长02:42

指令遵循评估

研究还测试了 P2P 模型理解并执行文本指令的能力。评估环境选择了 Quake 的一个迷宫关卡，该关卡要求玩家依次点亮三个红色按钮才能开门。

这个任务对于仅凭借视觉信息的模型来说很有挑战，因为 “按下按钮” 和 “不按按钮” 在行动轨迹上几乎没有区别。所以，未接受指令的模型通过率只有 20%。而当模型接收到 “按下红色按钮” 的文本指令后，模型的通过率可大幅提高到 80%，显示出了优秀的文本指令理解和执行能力。

下方视频对比了 1.2B 模型在有指令（左）和无指令（右）的情况下各运行 5 次的表现。

，时长00:25

因果混淆分析

因果混淆是行为克隆中常见的难题，在高频的交互环境中尤其突出。例如，一个简单的策略就是直接复制上一帧的操作，这种模型在训练时，但在真实环境测试时表现就会很差。

论文对此进行了系统的研究，发现扩大模型的规模与增加训练模型的数据量能够有效提升模型对因果关系的理解能力，使其不再依赖着泪虚假关联，从而学到更好的操作策略。

如图所示，随着训练数据增多与模型参数量增加，P2P 模型在因果推断评估中的表现呈上升趋势。

关于作者

本文第一作者岳煜光现任初创公司 Player2 研究员，负责游戏模型的开发和研究。在加入 Player2 之前，他曾先后在 Amazon 和 Twitter 担任研究人员，致力于语言模型与推荐系统的相关研究。

岳煜光博士毕业于德州大学奥斯汀分校（UT-Austin），师从周明远教授，研究方向是强化学习以及贝叶斯统计；此前他于加州大学洛杉矶分校（UCLA）取得硕士学位，本科毕业于复旦大学数学系。

....

#Multi-Modal Manipulation via Policy Consensus

为什么给机器人装上昂贵的触觉传感器，反而让它变笨了？

这项工作由伊利诺伊大学香槟分校 (UIUC)、哈佛大学、哥伦比亚大学和麻省理工学院 (MIT) 的合作完成。

论文标题：Multi-Modal Manipulation via Policy Consensus
论文链接：https://arxiv.org/pdf/2509.23468
主页链接：https://policyconsensus.github.io/

为什么特征拼接 (Feature Concatenation)会在机器人感知和决策中失效？

想象一下，你在黑漆漆的背包里找钥匙。你的眼睛此时毫无用处，全靠指尖的触觉，这对你来说轻而易举，但在机器人领域，这却是一个非常困难的问题。

残酷的真相：目前的机器人学习主流的多传感器融合的算法（Feature Concatenation）在处理这种任务时彻底失败了。我们的实验数据显示，当你给机器人加上触觉数据试图让它更聪明时，它的抓取成功率竟然从 35% 暴跌至 5%！为什么？因为传统的方法把偶尔出现的关键触觉信号当作了 “噪音” 直接过滤掉了。

当前方法的局限性

目前的多模态机器人学习方法通常使用特征拼接 (Feature Concatenation)：提取所有传感器的嵌入 (embeddings)，将其拼接成一个大向量，然后输入到一个单一的神经网络策略中。

这种方法看似合理，但存在两个根本缺陷：

问题 1：稀疏模态被视为噪声

例如，一个机器人从不透明袋子中取记号笔的任务。90% 的过程中依靠视觉接近，但一旦进入袋子，视觉变得无用，触觉变得至关重要。
特征拼接会将统计上罕见的信号（触觉）视为噪声。在训练中，网络会降低触觉信息的权重，专注于总是活跃的视觉特征。
我们的实验结果：在遮挡抓取任务中，RGB + 触觉的拼接基线仅达到 5% 的成功率，而仅使用 RGB 却有 35%。增加触觉信息反而因其被视为干扰噪声而降低了性能！

问题 2：无法灵活添加或移除模态

特征拼接缺乏模块化。如果想添加新传感器或移除故障传感器，必须从头开始重新训练整个策略，因为所有模态在特征层面紧密耦合。
这导致了昂贵的重训练成本，且系统在单个传感器故障时会发生灾难性故障。

我们的解决方案：组合策略 (Compositional Policies)

我们的解决方案是重新思考模态的结合方式。我们不将所有传感器强制输入单一网络，而是为每个模态训练单独的专家策略，并学习如何在策略层面组合它们的动作预测。

工作原理

模态特定专家 (Modality-Specific Experts)：为每个感官模态（RGB、触觉、点云等）训练作为扩散策略实例化的基于能量的策略表示。每个专家专注于自己的感官流，互不干扰。即使是 “稀疏” 模态（如触觉）也有自己的专用网络，使其能高度专注于接触动力学。
模态内分解 (Intra-Modality Factorization)：在模态内部进一步分解为互补的子策略。例如，视觉可分为粗略几何推理和细粒度细节；触觉可分为初始接触检测和持续力控制。
学习共识权重 (Learn Consensus Weights)：一个路由器网络 (Router) 学习预测共识权重，决定每个模态对最终动作的影响程度。

组合式策略框架概述

为什么这能解决问题

解决稀疏性：每个专家学习自己的动作分布，互不干扰。触觉专家不再与视觉竞争表示模型的表征能力，从而在富含接触的操作中变得高度专业化。

模块化设计：专家是独立训练的。添加新传感器只需训练一个新的专家，并使用固定权重或快速微调将其与现有专家组合，无需重训练整个系统。

简单的实现（implementation）方式：组合多个策略对应于概率分布相乘，在扩散模型（基于分数的能量模型）中，这等同于简单的分数函数相加 (summing score functions) 。

增量学习：即插即用的传感器

为了展示模块化，我们完全独立地训练了 RGB 和触觉策略，然后使用固定的相等权重将它们组合，没有进行任何联合训练。

尽管从未一起训练，组合后的策略成功完成了单独策略都无法处理的遮挡记号笔抓取任务。这对于现实世界的部署（传感器逐步添加或更换）具有深远的意义。

，时长00:08

鲁棒性与自适应性

运行时扰动：在执行过程中突然抢走物体，机器人能适应并完成任务。

，时长00:20

传感器损坏：遮挡一个摄像头模拟故障，路由器简单地将权重转移到剩余的功能传感器上，表现保持稳定。

，时长00:18

物体重新定位：移动任务相关物体，策略能成功泛化。

，时长00:19

，时长00:32

统计结果对比

我们使用了配备双 RealSense 摄像头和 FlexiTac 触觉传感器的 UR5e 机器人进行验证。

RLBench 模拟任务：在四个操作任务上，我们的方法平均成功率为 66%，显著优于单模态策略 (49%) 和特征拼接 (56%) 。

真实世界：

遮挡记号笔抓取（occluded marker picking）：我们的方法成功率为 65%，而 RGB-only 为 35%，拼接方法仅为 5%（拼接方法反而没法很好的利用触觉确定物体是否被抓住）。
勺子重定向 (Spoon Reorientation)：一种灵巧的手内操作任务。我们的方法成功率为 75%，拼接方法仅为 21% 。
拼图插入 (Puzzle Insertion)：需要毫米级精度。我们的方法任务成功率为 52%，拼接方法为 40% 。

总结

通过从特征级拼接转向策略级组合，我们为模态稀疏性问题提供了一个系统性的解决方案，同时实现了增量学习和鲁棒部署。我们的 core insights 很简单：让每个模态拥有自己的 “专家” 并学习各自的相对影响力，而不是将所有传感器强制输入单一网络。

....

#The Illusion of Deep Learning Architectures

借鉴人脑「海马体-皮层」机制，红熊AI重做了一个「记忆系统」

记忆，或是 AI 从「即时回答工具」迈向「个性化超级助手」的关键突破

记忆，正成为新一轮 AI 进化的关键所在

近期，Google Research 的一篇名为《Nested Learning: The Illusion of Deep Learning Architectures》的论文大范围「出圈」，被业界看作是论文《Attention is All You Need》的 V2 版。

对于后者，想必大家已然非常熟悉，同样是 Google Research 的作品，于 2017 年 6 月发布，文中提出的 Transformer，堪称开启了大语言模型革命的序章。

新论文之所以被奉为「精神续作」，是因为同样有着「基础范式」级别的突破，该研究提出了一种全新的机器学习范式 ——「嵌套学习」（Nested Learning），使得大语言模型能够在不断学习新技能的同时，又不会遗忘旧技能，标志着「AI 正朝着真正像大脑一样记忆、进化迈出了一大步」。

其实如果仔细看，这些热闹的背后释放出一个新的信号：大模型的风向变了。

不管是各大大模型玩家在卷「谁的模型更大、更快上」呈现的疲软、无力，还是 Ilya Sutskever 振臂一呼，直言「Scaling 已死」，都在言明，过去盛行的「暴力革命」已不再适用于当前的大模型，战场早已升级。而新的「战场」上，大模型其实已经转向「谁的模型更会记忆、谁更懂用户」的深层能力比拼上，或者说，记忆，才是新一轮 AI 进化的关键所在。

怎么理解？

过去一年多以来，大模型落地应用成为主流叙事，各类智能体（Agent）、「超级助手」产品接连涌现，但时至今日，仍然没有一个产品能够真正为用户提供个性化服务，胜任「超级助手」角色，更多的还是停留在「即时回答工具」层面，一个很重要的原因是「AI 虽然聪明，但记不住，缺乏长期记忆」。

当用户打开聊天窗口时，AI 等于「从零开始」搭建新对话流程；当多智能体系统交接任务时，它们彼此之间的记忆是断裂的；当企业试图构建连续的 AI 工作流程时，系统无法持续吸收经验…… 而这些「遗忘」背后的原因有很多，核心原因就在于「当前大模型记忆机制存在根本性缺陷」。

具体来看，这一根本性「记忆缺陷」源于多重技术局限的叠加。

首先，当前主流大模型上下文窗口通常为 8k-32k tokens，在长对话中存在早期信息被「挤出」的可能，从而导致后续交互对话脱离历史上下文语境。比如用户第一轮对话中表明自己「对海鲜过敏」，可等到第五轮对话中，用户咨询「推荐今晚的菜品」时，模型可能遗忘前面对话中提到的过敏信息。并且当前大模型的主流架构多为 Transformer，而 Transformer 的自注意力对长距离依赖的捕捉能力随序列长度下降，出现「近因效应」，换句话说就是更关注最新输入，忽略早期关键信息，可谓「天生不适合长期记忆」。

简单来说就是，模型固有的上下文窗口限制与注意力衰减，使得模型只记得住短期信息。

其次，在复杂的多 Agent 协作场景中，诸如咨询、售后、推荐等各 Agent 之间缺乏跨模块的共享机制，各自维护独立的记忆，形成「记忆孤岛」，导致用户「换个入口就像换了个新 AI」，不得不一遍又一遍地重复提供信息。

另外，还有个更深层的问题在于，用户对话中的模糊指代、行业术语及多语言混用，常常导致语义解析失真，而模型静态的知识库与用户动态的个性化需求之间，更是存在难以逾越的鸿沟……

因此，业界呼唤长期、稳定、可演进的模型「记忆」，越来越多的AI厂商开始聚焦模型记忆能力，比如谷歌、OpenAI、Anthropic 等AI大厂都在围绕「记忆」这一新命题发力，通过各种方法强化其模型的记忆能力，而很多初创企业也在寻找新解法。

红熊 AI 也是其中一个。

「记忆熊」，赋予 AI 如同人类一样的记忆

其实，红熊 AI 决定做「记忆」的背后不是长期谋划的结果，也并非突然的灵感迸发，而是被真实场景的业务难题「逼」出来的。

红熊 AI 成立于 2024 年 4 月，原本是一家聚焦底层技术中台的企业。去年 9 月，团队在做一个智能客服类型项目时，遇到了模型的「知识遗忘」问题，为了解决这一「拦路虎」，团队尝试了各种技术方案，包括上下文优化、外挂知识库、模型训练调参优化、增加长期记忆等，可最后的效果都不甚理想……

这次的经历让红熊 AI 意识到一个问题：记忆缺失，或是制约 AI 从「即时回答工具」迈向「个性化超级助手」的核心瓶颈。

在红熊 AI 创始人兼 CEO、记忆熊首席科学家温德亮看来，人类智能的基石，在于能够将碎片化信息组织成可被持续调用、关联并解决新问题的记忆体系。「当前 AI 所缺乏的，正是这种基于记忆的认知能力，而不仅仅是模式匹配。」

为此，红熊 AI 重新规划公司发展重心，开始转向「多模态模型 + 记忆科学」的研发路径，之后历时一年，于今年下半年正式推出其自主研发的记忆科学核心技术产品 ——「记忆熊」（Memory Bear）。

「记忆熊」不仅有效突破了传统大语言模型在长期记忆管理中的「准确率低、成本高、幻觉多、延迟高」等诸多瓶颈，更在技术架构、应用场景与性能指标上实现多重跨越。

具体来看，「记忆熊」的技术突破在于，它并不是对模型的记忆系统进行局部优化，而是「全链路重构」，借鉴了人脑「海马体 - 皮层」的分工协作机制，构建了一套分层、动态、可演进的「类人」记忆架构。

可以这样理解，在人脑系统中，海马体就像「临时图书馆」和「索引编制中心」，负责快速形成新记忆，而大脑皮层则像是「永久分布式书库」，负责长期存储和关联知识。在日常记忆中，「海马体 - 皮层」机制通过「快速绑定 - 索引创建 - 离线重放 - 皮层固化 - 关联整合」的协作，来进行快速学习新事物和存储、记忆长期知识。

而这套机制应用在 AI 中，「记忆熊」则是按记忆管理的需求来划分为「显性记忆层」与「隐性记忆层」。

在显性记忆层，系统通过结构化数据库，存储可清晰描述和主动调用的信息，比如用户的历史对话（情景记忆）和行业知识库（语义记忆）。

在隐性记忆层，一个独立于大模型参数的外部组件负责专门管理 AI 的行为习惯、任务策略和决策偏好，使其能「无意识」地高效处理重复任务。

此外，系统还通过情感倾向加权机制，对用户标记的重要或高频情感信息赋予更高权重，模拟人类对情绪事件的深刻记忆。

比如，前面提到，在一些 AI 产品中，模型记不住之前对话中用户提到的「对海鲜过敏」，而「记忆熊」能做的不仅是记住用户「用对海鲜过敏」，甚至还能将用户的一些隐性需求进行关联记忆，像是「用户周一到周五习惯几点起床？」「到公司喝什么咖啡，天气冷了可能想喝热的，热了想喝冰的……」它能够理解「咖啡」与用户「早晨通勤习惯」的隐性关联，从而实现超越关键词的联想式记忆检索。

数据显示，「记忆熊」通过精准剔除冗余信息，在保持语义完整的前提下，能够实现 97% 的 token 效率提升和 82% 的语境偏移率降低，将复杂推理准确率提升至 75.00±0.20% 的行业高度，打破传统 AI 记忆系统「高消耗、低准确」的刻板印象。

另外，在权威的 LOCOMO 数据集测试中，「记忆熊」的性能表现在单跳问答、多跳推理、开放泛化和时序处理四大核心任务中，表现优异，尤其在基于向量的版本在 Achieving 高准确性的同时，将搜索延迟 p50 控制在 0.137 秒，总延迟 p95 低至 1.232 秒，证明了「高准确率并不代表必有高延迟」。

可以说，「记忆熊」不仅「记得住」，而且「记得快、记得准、记得省」。

「记忆熊」已落地场景应用，带来实际商业价值

在 AI 行业中，衡量一个技术是否真有价值，仅仅停留在概念阶段的各种「打榜」并不能说明一切，归根结底要取决于能否在真实场景中落地应用。在这一点上，红熊 AI 推出的「记忆熊」具有天然优势：它本身就诞生于商业场景，因此早早回到场景中验证，并交出一份不错的成绩单……

首先是智能 AI 客服场景，这可以说是「记忆熊」「缘起」的地方，曾经因为模型记忆能力不足，带来交接时客服缺乏上下文，客户被迫重复信息，情感线索被忽略，长期下来导致用户不满，客户流失的情况频发，而如今正变得不一样。

「记忆熊」可以为每位用户创建动态记忆图谱，从而让机器人拥有了「客户终身记忆」，每次交互时都可以回溯过往交互记录，理解对方情感状态，并为客服提供即时上下文，将服务从被动响应转变为主动关怀，用户无需再重复陈述问题，大幅提升用户的交互体验。

数据显示，凭借跨 Agent 的记忆共享，「记忆熊」实现了 70% 的人工替代率与 98.4% 的自助解决率。

在营销场景，「记忆熊」能够根据购买习惯，为用户构建兴趣记忆图谱，追踪用户从首次点击到复购的完整旅程，继而可以针对用户兴趣，推出超个性化、实时适应用户行为的营销活动，改变传统的「猜你喜欢」营销范式，变成「我记得你喜欢，知道你现在想要什么」的主动迎合。

在企业数智化领域，「记忆熊」作为统一的组织记忆中枢，打破了部门间的数据孤岛，将新员工的知识获取效率提升了 50% 以上。

而在 AI 教育场景中，「记忆熊」基于个性化记忆的因材施教与情感加权推荐，正重新定义着个性化服务的标准，面对学生重复犯错、学习路径千篇一律，被忽视的学习情绪与习惯等，基于「记忆熊」的 AI 导师能够追溯学生数月的错题本，实现精准查漏补缺，从而提供更为个性化的教学体验。

不止是这些，在电商、零售等场景，「记忆熊」也正在不断赋能，通过模型记忆能力的增强，来提升服务质量。而未来，红熊 AI 将会继续以「记忆熊」为核心技术引擎，推动 AI 从「工具级服务」迈向「伙伴级服务」，为千行百业的智能化升级提供底层支撑……

其实，从整体来看，不管是 Google Research 提出「嵌套学习」，从前沿技术层面指明「记忆」的提升方向，还是像红熊 AI 这样的玩家不断从工程路径上探索「记忆」的落地应用，都在表明一个事实：「记忆」能力是当前 AI 技术侧和应用侧的双重诉求，这已然成为一个共识。

基于此共识，越来越多的玩家开始入局、押注，朝着让 AI 拥有像人类一样的记忆持续探索，而在 AGI 这一终极目标的追寻道路上，谁掌握了「记忆」，谁就更接近 AGI……

....

#中国AI年轻人，已经卷到业界都惊了

原来这届中国AI年轻人，已经卷到业界都惊了

在小红书上，一群热爱技术的年轻人，搞了一场为期五个多月的大型「团建」。

「感谢大佬带飞！」「用上您的方法之后猛猛上分！」「大佬一己之力把整个排行榜洗了！」

说实话，这些年看过不少大赛，但公开讨论这么热烈、选手之间氛围这么融洽的，真的少见。

初赛到复赛，选手们一直在分享。成功的经验要讲，踩过的坑也不藏着掖着。

刚入门的小白说，看完大佬们的帖子，终于知道怎么下手了；而那些分享的大佬呢，也坦言自己是「抛砖引玉」，评论区里常常能捡到新灵感。

这哪是比赛？分明是一群人组队上分。什么「文人相轻」、「零和博弈」…… 在「一起变强」的快乐面前，通通靠边站。

那么问题来了：到底是什么样的比赛，让这群年轻人这么上头？比赛最后是个什么结果？以下是我们在决赛现场 get 到的情况。

一场比赛

折射出推荐系统的下一次范式迁移

简单来说，这是一场广告算法大赛，目的是让模型学会「预测用户下一刻可能感兴趣的广告」，比谁「猜」用户兴趣猜得准。

这个问题被优化得越好，广告系统就越能把不相关的内容过滤掉，让用户看到的更多是有用的信息，而不是被打扰。因此，主办方腾讯广告对这个问题非常重视，设置了 360 万元的奖金池，冠军队伍甚至可以独享 200 万。

在技术路线上，这类问题的解决一直依赖「判别式方法」，即通过分析用户过去的行为记录，区分用户喜欢的内容和不喜欢的内容，以此来学到「拥有特征 A、B、C 的用户，通常会喜欢拥有特征 X、Y、Z 的物品」。这其中的核心逻辑是「匹配」，就像在一个固定的商品架子上选东西。

但是，这类方法有个问题：在遇到新用户或新物品时，它就不知道怎么办了，这就是业内俗称的「冷启动」问题。

为了解决这类问题，业内不少团队都在探索新的范式，最近几年已经在语言、视觉等领域 work 的生成式方法自然成了首选。

和判别式方法在已知数据范围内做精准判断不同，生成式方法可以通过学习所有实体的本质特征，建立一个可推理的语义世界。当新实体出现时，它能够通过「理解」其本质并将其纳入这个世界，从而实现强大的泛化能力。

这么说可能有点抽象，我们来举个例子：平台上突然上架了一款全新的跑鞋，按照传统判别式方法，由于没有人浏览、点击或购买过，它几乎是「隐形」的，系统很难判断谁会喜欢它，只能等真实用户来互动。

但生成式方法不一样：它可以从商品的图文、材质描述、功能卖点等多模态信息里，直接读懂这双鞋的大致属性，并把它放进整个语义世界中，找到它最接近的邻居，比如它和哪类跑鞋相似、哪些用户的偏好向量与之接近。于是，即便没有任何历史行为，它也能把这双鞋推荐给可能会喜欢它的人。

这种从「记答案」到依靠多模态信息进行「独立思考」的过渡是当前生成式推荐算法追求的方向，也构成了本次腾讯广告算法大赛的赛题——全模态生成式推荐。

在比赛中，选手拿到的是经过脱敏处理的用户全模态历史行为数据，包含文本、视觉、协同行为等，然后基于这些数据去做预测。

很多选手反映，这并不是一个简单的赛题。首先，「生成式广告推荐」其实是这两三年才冒出来的新方向，外面能参考的资料并不多，很多思路都得自己摸着石头过河。其次，大赛给到的是真实业务里脱敏后的多模态数据，既有推荐系统的协同特征，也有文本、图像、语音、视频的embedding特征，还夹着各种缺失、噪声。换句话说，选手面对的不是「干净的小白鼠数据」，而是现实世界里那种又乱又杂的情况，非常接近实战，难度一下子就上来了。

正因为赛题又新又真，所以特别考验大家的探索精神。很多问题光靠一个人啃不动，必须几个人一起琢磨、互相碰撞，才能把路走通。也正因如此，我们才看到了前面提到的热烈的讨论、空前的思路接力。

技术与人才的双重跃迁

年轻一代已走在前沿

整个算法大赛从 6 月份开始启动，历时 5 个多月，共有 8000 多人报名，2800 多支队伍参与比拼，可以说是一场竞争非常激烈的技术马拉松。

冠军团队 Echoch 和亚军团队 leejt 都提到，这几乎是他们参加过的数据规模最大的一场比赛。比赛中拿到的数据集（复赛达到千万量级）与以往学术场景的小数据集完全不同，既需要做模态的融合处理，又需要应对数据中存在的大量缺失值。整个比赛打完之后，就像在公司实习了几个月一样。

冠军团队 Echoch。成员来自华中科技大学、北京大学、中国科学技术大学。

亚军团队 leejt。成员来自中山大学。

当然，就像 Echoch 所说，数据多也意味着他们可以在比赛中训练出足够大的模型，从而验证哪些方法具有可扩展性，这在实际业务中非常重要。而且，他们还不用操心算力问题，因为这次腾讯的 Angel 机器学习平台提供了足够的算力和训练推理平台支持。有了这些支持，选手们的方案就有了一个足够真实的实验场。

在决赛答辩那两天，腾讯公司副总裁蒋杰在现场仔细听了选手们的解决方案。

「今年，我注意到一个特别惊喜的变化：现在的学生对大模型的理解，以及他们做出来的东西，已经和工业界的实际工作非常接近了。以前几届的作品往往只能在一台机器上跑，现在基本都能直接拿来做分布式部署。他们不像我们当年读书的时候，出来以后啥也不会，要跟一个导师学半年。」蒋杰在采访中欣慰地说。

腾讯公司副总裁蒋杰。

蒋杰的说法并不夸张。我们在现场看到，选手们的方案确实非常有创新性。比如在模型结构上，大家并没有拘泥于某一种套路，而是大胆尝试了不同的生成式框架，甚至去琢磨如何重新组织 token，让模型更好地理解用户的行为序列；在多模态的处理上，有的队伍专门研究怎么把各种模态的 embedding 对齐，让文本、图像、行为信号能够「听得懂彼此」，也有人尝试用更细致的空间对齐方法，让协同信息真正用起来；而在工程层面，不少队伍则把压箱底的本事都掏了出来，从训练加速到推理优化，再到显存的极限压缩，都做得非常极致。

在此过程中，选手们成功地把很多之前只在大语言模型、多模态模型领域尝试过的方法用在了广告推荐领域，并且取得了很好的效果，这填补了广告推荐与其他领域之间的 gap。

选手们这种对于新论文、新方法的消化、运用能力也让蒋杰非常兴奋，直言他们的知识体系和腾讯内部的算法工程师「完全接轨」「没有代差」，有些方面甚至还「更有创新性」。

当然，大赛竞争如此激烈，大部分选手是没有走到决赛的。但很多同学坦言，他们在比赛中同样经历了诸多激励人心的时刻。

要知道，很多人在报名之前是没有接触过广告推荐算法的，更没挑战过业界难题。然而，通过阅读其他选手在小红书上分享的解决方案，他们一步步摸清了门道，并跟着策略上分。有位同学回忆，一位「大佬」始终与他保持私信交流，共同研讨如何改进流行性采样策略。他们花了一两天时间反复尝试，最终获得了千分之五、六的收益提升——那种感觉依然「很爽」。

更重要的是，这样的时刻让他们真切地看到：自己的能力并非固化不变，那些原本未曾设想的道路，其实也可以勇敢尝试。赛后，不止一位同学表示，自己今后还会参赛，这种越挫越勇的精神令人动容。这，或许才是大赛最重要的意义。

比赛结束

托举才刚开始

一场大赛，把这么多聪明的头脑聚在一起，共同把一件难事往前推，本身就已经足够振奋人心。

但决赛并不是终点。蒋杰在采访中明确表示，这次在大赛中表现突出的选手，将被纳入腾讯的「青云计划」。这是面向顶尖学生的人才通道，能够让他们直接接触最好的导师、资源和算力平台。换句话说，优秀的年轻人不会因为一场比赛而散场，而是会继续被托举、被加速。

这种对年轻人才的重视，来自蒋杰对科技行业长期的观察：无论国内还是国外，能够在前沿赛道上跑出来的团队，无一不是依靠「矩阵式」的人才积累。一批人长期深耕不同模块，彼此补位，形成合力，才有了今天 AI 领域的集中爆发。从这些案例可以看出，真正决定上限的，是人才的厚度和代际传承。而这一点，在大赛中其实已经出现了苗头：年轻一代具备很强的科研与工程能力，开源文化也在他们身上延续得很好。

「我们希望让年轻人更快地成长，不是坐扶梯，而是坐直梯的速度往上走…… 有足够的人才，才能做出更有价值的事情，这是必然的。」蒋杰说这话时语气非常坚定。

从这次大赛，我们不仅看到优秀选手的涌现，也看到了国内科技企业在培养顶尖人才方面的投入和决心。这些积极的信号，让我们有理由对中国 AI 的下一程抱持真正的期待。

....

#EmbodiedBrain

突破xx智能任务规划边界，刷新xx大脑多榜单SOTA，中兴EmbodiedBrain模型让xx大脑学会「复杂规划」

在人工通用智能（AGI）的探索征程中，xx智能 Agents 作为连接数字认知与物理世界的关键载体，其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

然而，当前主流大语言模型（LLMs）与多模态大语言模型（MLLMs）在xx任务场景中，普遍面临三大核心瓶颈：一是模型设计与智能体实际需求存在显著脱节，难以适配物理世界的动力学特性、传感器噪声与动态变化；二是实时延迟与任务性能间存在不可调和的权衡，轻量化模型虽能满足实时性需求，却在指令遵循、空间感知等关键能力上表现薄弱；三是现有评估依赖非真实的离线指标，无法全面反映模型在复杂真实场景中的鲁棒性与泛化能力。

为此，中兴星云大脑团队（ZTE NebulaBrain Team）重磅推出xx视觉 - 语言基础模型 EmbodiedBrain，以 7B 和 32B 两种参数规格构建了涵盖数据架构、训练策略、评估体系的全流程创新框架，为下一代通用xx智能体的发展提供了突破性解决方案。

Arxiv: https://arxiv.org/abs/2510.20578
WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/
Code: https://github.com/ZTERobot/EmbodiedBrain1.0/
Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7B
https://huggingface.co/ZTE-AIM/EmbodiedBrain-32B

架构创新：模块化设计实现感知 - 推理 - 行动一体化闭环

EmbodiedBrain 以 Qwen2.5-VL 为基础框架，创新性地采用模块化编码器 - 解码器架构，成功打通了「感知 - 推理 - 行动」的全链路，实现了三大核心能力的深度协同（图 1）。

图 1 EmbodiedBrain 的架构：该模型处理多种多模态输入，包括任意分辨率的图像、长视频序列以及复杂的语言指令。视觉输入由视觉编码器和 MLP 投影器处理，文本输入则进行分词处理。所有输入被送入核心大语言模型（LLM）解码器，该解码器执行深度推理并生成结构化输出。最终输出包含三部分：自然语言响应（<response>）、分步规划（<plans>）和可执行动作序列（<actions>），从而实现对xx环境的直接控制与交互。

该架构的三大核心组件各司其职且高效联动：

1. 原生分辨率视觉 Transformer（ViT）：作为视觉编码器，其采用窗口注意力机制，能够在处理原生分辨率图像时兼顾效率与细节捕捉；同时引入二维旋转位置编码（2D Rotary Positional Embedding, ROPE），精准保留图像中的空间几何关系，为后续空间推理提供扎实的视觉基础。

2. 轻量级 MLP 视觉 - 语言融合器：承担视觉特征与语言嵌入空间的「桥梁」作用，通过压缩视觉特征维度、对齐模态语义分布，确保视觉信息与语言指令能够在统一的表示空间中高效交互，避免多模态信息割裂导致的理解偏差。

3. 基于 Qwen2.5 初始化的解码器：作为模型的「认知核心」，采用仅解码器结构，引入时间对齐的多模态 ROPE（Multimodal RoPE Aligned to Absolute Time）技术，显著强化对长视频序列的时序理解能力，能够处理动态场景中的时间依赖关系。

从工作流程来看，视觉输入首先经视觉编码器与 MLP 融合器处理，转化为与语言兼容的特征；文本指令经分词后与视觉特征共同构成多模态 token 序列，输入解码器；最终解码器输出包含三部分的结构化结果：<response > 字段提供自然语言交互反馈，<plans > 字段将任务分解为 [Navigate]（导航）与 [Manipulate]（操作）两类可解释步骤，<actions > 字段以二元 / 三元组格式生成直接调用智能体 API 的可执行动作。

以「从冰箱取番茄并加热」任务为例（图 1），模型可生成「导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄」的清晰规划，以及对应的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等动作序列，完美实现从语义理解到物理执行的闭环。

数据与训练：Agent 对齐设计与强化学习突破长程规划瓶颈

数据架构：面向xx智能的结构化设计与多源筛选

为解决模型与xx智能体需求脱节的根本问题，EmbodiedBrain 创新设计了规划中心型结构化数据格式（图 2、图 3），该格式严格遵循「用户查询 - 模型响应 - 显式规划 - 底层动作」的层级逻辑，确保高层任务目标与底层执行步骤的精准对齐。

以「将脏衣服放入洗衣机」任务为例（图 2），<response > 字段明确交互意图，<plans > 字段分解为 5 个导航与操作步骤，<actions > 字段以 [Search, Dirty clothes]、[Navigate, Basket] 等标准化格式生成动作，既满足机器可解析性，又保留人类可解释性。

图 2: EmbodiedBrain 训练数据概览

训练数据涵盖四大核心类别，通过多阶段筛选策略保障质量：

1. 通用多模态指令数据：包括 tulu-3-sft-personas-instruction-following（10K 样本，强化指令遵循与约束满足）、UltraIF-sft-175k（20K 样本，含单轮 / 多轮对话，提升长程记忆）、MM-IFInstruct-23k（22K 样本，结合图像接地对话，强化多模态 grounding），为模型奠定通用指令理解基础。

2. 空间推理数据：基于 EmbSpatial 与 pixmo-points 数据集，通过「基线模型生成验证 + GPT-4o 二次过滤」的两阶段拒绝采样（图 2），筛选出 50K 空间推理样本（含目标查询、物体关系推理）与 60K 视觉定位样本（含计数、坐标标注），强化模型对三维空间的理解能力。

3. 任务规划数据：基于 Alfred 数据集（AI2-THOR 环境），通过解析 PDDL 文件生成子任务序列、捕获全景图像与物体边界框、动态更新物体位置等流程（图 3），构建空间接地的规划数据集，确保规划步骤与物理环境适配。

4. 视频理解数据：融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大数据集，生成「回顾性理解」（如「已完成何种动作」）与「前瞻性规划」（如「下一步应执行何种动作」）两类 QA 样本，并通过 Qwen2.5-VL-72B 过滤确保数据质量，提升模型对动态场景的时序推理能力。

图 3 监督微调（SFT）阶段的整体数据分布及各动作的规划数据分布

在数据配比上，通过对比 5 种不同数据混合方案（表 1），发现「通用 MLLM 数据 52K: 空间推理数据 130K: 任务规划数据 51.5K: 视频理解数据 20K」的配比（52:130:51.5:20）效果最优 —— 该配比在空间推理平均得分达 70.27%（仅比最高值低 0.6%），同时在任务规划平均得分达 64.64%（为所有方案最高），尤其在执行规划（EP1/EP2）与目标导向推理（EgT）子任务上提升显著，为后续训练奠定了均衡的数据基础。

训练策略：两阶段范式与 Step-GRPO 创新突破

EmbodiedBrain 采用「监督微调（SFT）+ 强化学习（RL）」的两阶段训练策略，层层递进优化模型能力：

图 4 所提出的 Step-GRPO 的详细流程

Stage 1：多模态拒绝采样 SFT：核心目标是提升模型的基础感知与推理能力。针对数据噪声问题，设计 “粗粒度过滤 + 细粒度验证” 的两阶段拒绝采样：首先用 Qwen2.5-VL-7B 生成 8 个候选响应，通过 Qwen3-30B-A3B-Instruct-2507 筛选掉明显错误样本；再用 Qwen2.5-VL-72B 生成 “ oracle 答案”，与原始标签对比，剔除标签错误样本。该过程有效去除数据噪声，确保 SFT 阶段学习信号的可靠性。

Stage 2：Step-GRPO 多任务强化学习：如何让模型在没有人类手把手教学的情况下，学会处理复杂的长序列任务？EmbodiedBrain 给出的答案是 Step-GRPO（分步增强的组相对策略优化）。类似于 DeepSeek-R1 等推理模型背后的强化学习思路，Step-GRPO 引入了「引导先验」机制。这就好比老师在教学生解难题时，不是直接给答案，而是给出关键的中间步骤提示。这种机制将复杂的长任务拆解为可逐步优化的子问题，配合异步奖励计算架构，不仅让模型学会了「三思而后行」，还实现了约 20% 的训练加速。

聚焦长程任务规划与输出格式标准化。针对传统强化学习在长序列规划中稳定性差、收敛慢的问题，创新提出 Step-Augumented Group Relative Policy Optimization（Step-GRPO）方法（图 4）：在任务规划时，随机引入 1-3 步前置规划步骤作为「引导先验」（Guided Precursors），将复杂长任务分解为可逐步优化的子问题。例如在「寻找画笔」任务中，通过注入「导航至设备架」、「定位画笔」等前置步骤，帮助模型建立步骤间的依赖关系，提升规划连贯性。

同时，为提升训练效率与奖励可靠性，EmbodiedBrain 设计了多维度奖励系统：

1. 指令遵循任务：基于答案与真值的匹配度计算正确性奖励；

2. 视觉感知任务：接地与检测任务采用加权 IoU 评分，计数任务采用数值匹配度；

3. 空间感知任务：区分选择题与描述题，结合语义一致性与简洁性评分；

4. 任务规划任务：采用「规则奖励（0-1 分，评估 XML 格式完整性、动作集合规性）+GRM 奖励（0-1 分，Qwen3-30B-A3B 评估规划合理性）」的双重机制，平衡格式规范性与规划逻辑性。

此外，通过异步奖励计算架构，将 GRM 推理与 RL 训练解耦，实现约 20% 的训练加速，且无性能损失。

表 1：不同数据混合配置下冷启动监督微调（SFT）性能评估（所有数值单位为 %）

评估体系：三维基准与开源环境构建真实能力校验

为全面、客观验证模型性能，EmbodiedBrain 构建了包含通用多模态能力、空间感知、端到端仿真规划的三维评估体系，覆盖 14 项主流基准测试，彻底解决传统离线评估的局限性。

多维度基准设计与性能表现

1. 通用多模态能力评估（5 项基准）：采用 MM-IFEval（指令遵循）、MMMU（跨学科推理）、MMStar（多模态综合推理）、AI2D（图表理解）、OCRBench（图像文本推理），全面检验模型的基础多模态能力。实验结果（表 2）显示，EmbodiedBrain-32B 在 MM-IFEval 达 46.98%，较 Qwen2.5-VL 32B（46.66%）与 RoboBrain 2.0 32B（39.75%）显著领先；在 MMStar 达 65.80%，超越同类模型，证明其在保留通用能力的同时，实现了xx场景的专项提升。

表 2：EmbodiedBrain 与先前模型在 14 个不同基准测试上的性能对比。每个基准测试组中最高分数以粗体突出显示。

2. 空间感知能力评估（4 项基准）：通过 BLINK（空间关系理解）、CV-Bench（3D 物体属性推理）、EmbSpatial（第一视角空间关系）、ERQA（端到端多模态推理），检验模型对三维空间的理解能力。表 2 数据显示，EmbodiedBrain-7B 在 BLINK 达 88.11%，较 RoboBrain 2.0 7B（62.94%）提升 39.99%；32B 版本在 CV-Bench 达 83.64%，EmbSpatial 达 77.03%，均为所有测试模型最高，印证了其空间推理能力的优越性。

3. 任务规划能力评估（5 项基准）：涵盖 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公开基准，以及自主设计的 Internal Planning 基准与 VLM-PlanSim-99 仿真基准。其中，Internal Planning 基准针对长程规划能力，采用「匈牙利算法计算动作匹配度 + LCS 算法计算顺序一致性」评估方法，EmbodiedBrain-32B 的 F1 分数达 90.50%，较 Qwen2.5-VL 32B（28.30%）提升超 2 倍。此外，为了拒绝「刷榜式」的虚高分数，团队提出并开源了包含 99 个手动验证家庭任务的 VLM-PlanSim-99 仿真基准，在最考验「真功夫」的端到端仿真规划中，EmbodiedBrain-32B 斩获了 46.46% 的成功率，几乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的两倍。这一数据有力证明了：EmbodiedBrain 不是一个只会做选择题的模型，而是一个真正能干活的xx大脑。

图 5：EmbodiedBrain 的空间推理示例

典型案例验证：从空间推理到端到端执行

在空间推理任务中（图 5），EmbodiedBrain 能够精准回答「物体相对位置」、「目标物体计数」、「空间关系判断」等问题，例如正确识别「车门在左侧」、「手中物品为鸡蛋」，展现出对复杂空间线索的整合能力。

图 6：EmbodiedBrain 为「在水槽清洗苹果后将其放入冰箱」任务生成的成功 11 步规划定性示例。该模型正确识别并执行了两个连续子目标：(1) 步骤 1-6：获取物体、将其置于水槽并清洗；(2) 步骤 7-11：拿起清洁后的物体并将其存放在冰箱中。

在任务规划案例中，针对「烘焙糕点设置计时器」任务， EmbodiedBrain 正确选择「安装计时器」动作，而 RoboBrain 2.0 与 Qwen2.5-VL 分别选择错误的「搅拌面糊」、「预热烤箱」；针对「清洗碗具并冷藏」任务，模型生成 11 步完整执行序列（图 6），从「导航至碗具→放入水槽→清洗→导航至冰箱→存放」，每一步均符合物理逻辑与任务流程，实现端到端闭环。

开源共享与未来展望：赋能xx智能生态发展

作为面向全球科研社区的开放成果，中兴团队已将 EmbodiedBrain 的全部训练数据、模型权重与评估方法开源（https://zterobot.github.io/EmbodiedBrain.github.io），同时开源了创新的 VLM-PlanSim-99 仿真环境，为xx智能领域提供了统一的基准平台与工具链，有效解决了现有研究中「数据封闭」、「评估标准不一」的痛点。

未来，EmbodiedBrain 将重点推进两大方向：一是拓展至多智能体协同任务，探索多智能体间的分工、通信与协作机制；二是研究领域随机化技术，提升模型在不同真实机器人平台（如家庭服务机器人、工业协作机器人）上的适配性，推动xx智能从仿真环境走向实际应用。

中兴星云大脑团队以 EmbodiedBrain 为契机，不仅在学术层面突破了xx智能任务规划的性能边界，更在产业层面为 AGI 落地物理世界提供了可复用的技术框架。

....

#DeepSeek依然坚持中文思考

老外傻眼！明用英文提问，DeepSeek依然坚持中文思考

就在前天，DeepSeek 一口气上新了两个新模型，DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

这两大版本在推理能力上有了显著的提升，DeepSeek-V3.2 版本能和 GPT-5 硬碰硬，而 Speciale 结合长思考和定理证明能力，表现媲美 Gemini-3.0-Pro。有读者评论说：「这个模型不应该叫 V3.2，应该叫 V4。」

海外研究者也迫不及待的用上了 DeepSeek 的新版本，在感慨 DeepSeek 推理速度显著提升之余，却又碰上了他们难以理解的事情：

哪怕在用英文询问 DeepSeek 的时候，它在思考过程中还是会切回「神秘的东方文字」。

这就把海外友人整蒙了：明明没有用中文提问，为什么模型还是会使用中文思考，难道用中文推理更好更快？

评论区有两种不同的观点，但大部分评论都认为：「汉字的信息密度更高」。

来自亚马逊的研究者也这么认为：

这个结论很符合我们日常的认知，表达相同的文本含义，中文所需的字符量是明显更少的。如果大模型理解与语义压缩相关的话，那么中文相比于广泛使用的英文在压缩方面更有效率。或许这也是「中文更省 token」说法的来源。

具有多语言能力的大模型如果只采用英语思考的模式往往会导致一些效率问题。不光是中文，采用其他非英语的语言进行推理确实能够有更好的表现。

一篇来自微软的论文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》发现，使用非英语语言进行推理不仅减少了 Token 消耗，还能保持准确性。即使将推理轨迹翻译回英语，这种优势依然存在，这表明这种变化源于推理行为的实质性转变，而非仅仅是表层的语言效应。

论文标题：EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
论文链接：https://www.arxiv.org/abs/2507.00246

在该论文中，作者，评估了三个最先进的开源推理模型：DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B)，问题以英语呈现，但模型被明确指示以七种目标语言中的一种执行其推理步骤：中文 (zh)、俄语 (ru)、西班牙语 (es)、印地语 (hi)、阿拉伯语 (ar)、韩语 (ko) 和土耳其语 (tr)。最终答案必须以英语提供，以确保评估的一致性。

Token 数量比率与在英语和目标语言中均至少有一个正确答案的问题数量（最少 5 个共同案例）的关系，该比率是相对于 DeepSeek R1 每个问题的平均英语 Token 数量计算得出的。

在所有评估的模型和数据集上，与英语相比，使用非英语语言进行推理始终能实现 20-40% 的显著令牌降低，而且通常不影响准确性。DeepSeek R1 的 token 减少量从 14.1%（俄语）到 29.9%（西班牙语）不等，而 Qwen 3 则表现出更显著的节省，韩语的减少量高达 73%。这些效率提升直接转化为推理成本降低、延迟更低和计算资源需求降低。

从实验结果来看，中文确实相比英文能够节省推理 token 成本，但却并不是最具有效率的语言。

另一个研究论文同样支撑着类似观点，来自马里兰大学和微软的研究论文《One ruler to measure them all: Benchmarking multilingual long-context language models》，提出了包含 26 种语言的多语言基准 OneRuler，用于评估大型语言模型（LLM）在长达 128K 令牌的长上下文理解能力。

论文标题：One ruler to measure them all: Benchmarking multilingual long-context language models
论文链接：https://www.arxiv.org/abs/2503.01996v3

研究者们通过两个步骤构建了 OneRuler：首先为每个任务编写英语指令，然后与母语使用者合作将其翻译成另外 25 种语言。

针对开放权重和闭源语言模型的实验表明，随着上下文长度从 8K 增加到 128K token，低资源语言与高资源语言之间的性能差距日益扩大。令人惊讶的是，英语并不是长上下文任务中表现最好的语言（在 26 种语言中排名第 6），而波兰语位居榜首。在指令和上下文语言不一致的跨语言场景中，根据指令语言的不同，性能波动幅度可达 20%。

图 4：在长上下文任务（64K 和 128K）中，按语言资源组分类的各模型和语言的 NIAH 性能表现。Gemini 1.5 Flash 展现了最佳的长上下文性能，而出人意料的是，英语和中文并未进入排名前五的语言之列。

既然中英文都不是具有最佳大模型性能的语言，那大模型选择思考语言的方式并不是完全以效率为先。

所以评论区的第二种观点：「训练数据中包含更多中文内容」，似乎更加合理。

国产大模型采用更多中文训练语料，其思考过程出现中文是正常现象。就像 AI 编程工具 Cursor 发布的新版本 2.0 核心模型「Composer-1」被质疑是中国模型套壳，正是因为其思考过程完全由中文构成。

但类似的事放在 GPT 上就说不通了，毕竟在它的训练过程中，英文数据的占比显然是更高的。

在今年 1 月份就有类似的事情发生，网友发现来自 OpenAI 的 o1-pro 模型也会随机出现中文思考过程。

或许这就是人类语言的魅力，不同的语言有不同的特性，在大模型中总会有各种奇怪的事情发生。

大模型说中文的事情越来越多，中文训练语料也越来越丰富。

说不定有一天，我们能够像海外友人自嘲一样笑话大模型：「我并不是要你变成中国人。我是说 —— 当时机成熟时，你照照镜子，就会发现自己早已是中国人了。」

....

#AI导演正偷偷改写直播「剧本」

老罗数字人刷屏背后

AI直播终于不是噱头了。

这年头，真人主播还真干不过 AI。

今年 618 大促期间，「交个朋友」在百度优选搞了场直播，不过这场直播的主角不是人，而是 AI。直播间里，罗永浩和朱萧木两个数字人配合默契，不抢话、不抬杠，只是一味地带货、爆梗、讲段子，还时不时跟评论区网友来个互动。

「弹幕上问我怎么辨别茅台真假，简单喝一口，心疼就是真的，肝疼就是假的。」

「有人问方便面好不好吃，买回去尝尝，好吃就分给朋友一点，不好吃就全分给朋友。」

「你脸大有多大？能有我 210 斤的脸大吗？」

，时长00:10

这逼真效果，就连老罗本人看了都吓一跳：「他们在那儿眉来眼去，讲着跟我一样风格的段子，有点恍惚……」

更离谱的是，罗永浩数字人的直播「战绩」比真人还能打，整场直播吸引了超 1300 万人次观看，GMV 突破 5500 万元，部分核心品类带货量、用户平均观看直播时长均反超罗永浩本人在百度电商的直播首秀。

如此以假乱真的数字人到底是怎么做出来的？据老罗在微博上「自曝」，这用的是百度的多模协同数字人技术。

传统数字人生成技术常面临语音、语言、视觉多模态割裂的问题，具体表现为台词与语音语调不同步、表情手势与语义错位等，而百度的技术突破在于引入剧本驱动的多模协同。

具体来说，这套技术方案包含了剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成等五大创新技术，使数字人的「神、形、音、容、话」达到高度统一，最终呈现出一个具备高表现力、内容吸引人、人-物-场可自由交互的超拟真数字人。

语言模型为核心的剧本生成

在百度这套多模协同数字人技术方案中，剧本生成无疑是核心环节，涵盖台词、多模驱动和动态交互三部分。

最核心的台词需要解决三大关键问题。其一，通过风格建模为不同风格提供精细化定制，使台词呈现多样化风格，并与主播的个性高度契合；其二，通过人设建模、人物性格与行为逻辑的精准还原，以及在双人直播场景中保持多角色协同，塑造拟真化人设；其三，引入内容规划和深度思考机制，在保证讲品信息准确、富有说服力的同时增强吸引力，同时为避免「幻觉」，还在台词生成中融入事实校对和知识增强机制，保证每一句话都经得起推敲。

就以罗永浩数字人为例，罗永浩和朱萧木都具有强烈的个人风格，直播时经常会蹦出几句口头禅，为打造可控性强、极具真实感的虚拟主播，百度基于文心大模型 4.5 Turbo，投入海量真人直播数据，依托「转录挖掘、优质提炼、仿写合成与自动评估」四个环节不断优化训练语料，使模型深度吸收两位主播的语言特点与思维习惯，并在迭代学习中持续逼近更契合的输出效果。同时引入多角色协同机制，对不同主播的表达逻辑进行建模，使对话在语义推进、节奏控制和风格调性上保持协调一致，避免「各说各话」的割裂感。

所谓多模驱动，是指大语言模型基于任务目标与主播人设生成基础台词，并同步输出视觉与语音的多维标签。这些标签不仅是对语言内容的补充，更是驱动音视频生成系统实现自然、同步、富表现力输出的关键指令。比如，在语音合成阶段，模型利用剧本中的段间标签精细控制不同语段之间语调衔接，同时文本内容也能驱动 TTS 系统实现更细粒度的语调调控。音频合成结果再进一步与视觉标签联动，使视频生成系统能够实现唇动同步、高表现力的动作设计和情绪表达，从而在输出层实现「声、形、意」三模态的统一。

在此基础上，剧本生成还具备动态交互能力。比如 AI 老罗在卖纯牛奶时，有网友问 360 个月的宝宝能不能喝，AI 老罗便以「我 600 个月都能喝，谁还不是个宝宝呢」进行幽默回应，这种回应背后不仅是语言生成，更是基于人设风格、场景上下文、情绪基调等多模信息的综合决策。

文本自控的语音合成

在数字人技术逐渐渗透直播、电商、客服等互动场景的过程中，语音合成的自然度正成为决定用户沉浸感与信任度的关键因素。特别是在直播间，观众希望听到的不是生硬的朗诵或机械音，而是一种如同真人主播般富有情绪、节奏自然、具备沟通张力的表达方式。因此，数字人语音的「人味儿」越足，交互的真实感就越强，用户的接受度和互动意愿也随之提高。

然而，传统的语音合成技术往往呈现出字正腔圆但缺乏情感的表达风格，在充满情绪张力的直播场景中，这种过于规整的声音反而显得「出戏」。它无法像人类主播一样，适时展现语调的抑扬顿挫、节奏的快慢变化，也很难根据商品介绍、互动节奏等变化调整情绪状态，尤其是在呼吁用户下单、介绍爆款产品这类关键话术环节，传统 TTS 无法自然表达出情绪递进和感染力，进而影响整个数字人系统的说服力与亲和力。

针对这些现实痛点，百度提出了「文本自控的语音合成」方案，在大语言模型输出剧本之后，负责语音合成的大模型会结合文本内容、主播风格特点，以及对于细粒度韵律特征表示进行统一处理，这一过程中语音模型不仅知道「要说什么」，更知道「要怎么说」，从而在生成语音时自然带出情绪波动与语言节奏，使得语音在内容和表达方式上都更贴近真实人类。

例如，在罗永浩数字人直播间中，主播语音高度还原本尊的音色和语调，甚至在直播节奏中展现出自然的停顿、强调和情绪变化。同时，百度还解决了直播中双人互动的挑战。现实中，主播之间的配合往往包括打断、附和、重复等高频行为，这对语音合成提出了连贯性和互动性的更高要求。为此，百度引入了「对话上下文编码器」，将历史对话与当前对话的信息进行语音合成时的统一推理计算，以此实现「双人配合」的自然过渡。

高一致性超拟真数字人长视频生成

在数字人直播场景中，形象生成与驱动是当前技术难度最高的环节。首先必须解决多模协同的问题，它涉及多向的信息对齐：剧本对视频表达提出具体要求，TTS 语音又对视频节奏与动作生成形成约束，反过来视频本身还需对语音进行校准，最终需要实现「音、容、话」三者的一致性。

其次，主播在直播中往往伴随着大量手势、动作和表情等「高表现力动作」，它们对于强化用户情绪感染力具有显著作用，因此在视频生成阶段，不仅要忠实复现语言内容，还需对这些高表现力动作进行准确建模与流畅合成。

在场景交互层面，数字人直播还面临「人-物-场」自由交互的复杂性。主播需要与商品、背景和空间布局进行符合物理逻辑的互动，例如望向商品、举起物品或指向展示区等。若缺乏对空间关系的精准理解，极易出现穿模、错位等破坏沉浸感的瑕疵。

此外，直播时长也放大了技术一致性的难题。一场超 6 小时的直播，任何人物形象的波动、商品定位的误差以及动作风格的不一致都会直接拉低观众体验。

为此，百度提出了「高一致性超拟真数字人长视频生成」技术方案，将历史视频数据、剧本脚本、语音信息以及骨骼驱动等多模态信号作为输入，经过多模态视频分析与理解，分别生成具有高表现力的片段、复杂人 - 物 - 场交互片段以及大动作大表情片段，并在长时序上进行统一调度，从而保证语音、口型、表情与动作始终保持高度同步，实现真正的「音、容、话一致」。

在罗永浩数字人直播项目中，这一技术方案得到了集中体现。罗永浩与朱萧木均具强 IP 属性，二者的形象、语言风格、互动节奏都需得到高度还原。同时，整场直播中所涉及的商品种类繁多，体积、位置、用途各异，对人 - 物交互的精度和响应速度提出了更高要求。百度对人物 ID 与商品 ID 进行了独立建模与保持，使得系统能够在长时间内容中持续稳定地控制人物表现与商品指向，避免风格漂移与交互误差，最终实现主播间自然流畅的配合，语言节奏、动作执行和商品展示高度统一的效果。

结语

百度是中国最早押注 AI 底层能力的科技公司之一。

早在十四年前，移动互联网正值爆发期，「人工智能」仍是实验室里的晦涩概念，百度就把资源投向了一个看不见回报的领域，这一选择在当时显得颇为超前甚至「另类」。

时间给出了答案。ChatGPT 的横空出世掀起生成式 AI 浪潮，百度紧跟每一个关键节点，连续发布重磅大模型成果：从文心 3.0 到文心大模型 4.5，再到融入深度思考能力的 X1 以及升级版 4.5 Turbo，技术体系不断进化，模型的认知深度和生成能力日益增强。

此次罗永浩数字人带货直播，正是文心大模型的一次「最佳实践」。它不仅彰显了百度技术的成熟与前沿，更验证了大模型技术在真实商业场景中的高效与可行。

可以预见，随着深度思考、知识增强、意图理解与多角色交互等关键能力持续跃升，百度的数字人将愈发拟真与智能。这带来的不仅是效率提升，更意味着技术投入带来的商业模式的「无人区」探索和价值重构。

....

#Killing Two Birds with One Stone

打破推荐系统「信息孤岛」！中科大与华为提出首个生成式多阶段统一框架，性能全面超越 SOTA

论文作者来自认知智能全国重点实验室陈恩红团队，华为诺亚方舟实验室

在信息爆炸的时代，推荐系统已成为我们获取资讯、商品和服务的核心入口。无论是电商平台的 “猜你喜欢”，还是内容应用的信息流，背后都离不开推荐算法的默默耕耘。然而，传统的推荐系统普遍采用多阶段范式（如召回、排序），这种设计虽然在工程上实现了效率，却常常面临阶段间信息损失、性能瓶颈等问题。近年来，生成式人工智能的浪潮席卷全球，其强大的序列建模和内容生成能力为解决推荐系统的固有难题带来了新的曙光。如果能将推荐过程中的多个阶段融为一体，是否就能克服信息损失，实现更高效、更精准的推荐呢？

来自中国科学技术大学和华为诺亚方舟实验室的研究者们，在即将于 SIGIR 2025 会议上进行口头报告（Oral Presentation）的论文 Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model 中，给出了一份创新的答案。他们提出了一个名为 UniGRF 的统一生成式推荐框架，巧妙地实现了 “一石二鸟”，用单个生成模型同时处理推荐系统中的召回和排序两大核心任务。

论文标题：Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model

论文链接:https://arxiv.org/abs/2504.16454

一、传统推荐范式的 “痛点” 与生成式 AI 的 “良方”

在工业界广泛应用的推荐系统中，通常首先通过召回阶段从海量物品库中快速筛选出一个较小的候选集，然后由排序阶段对这些候选物品进行精准打分和排序，最终呈现给用户。这种分而治之的多阶段级联模式保证了效率，但每个阶段独立训练和优化，上一阶段的丰富信息难以完整传递给下一阶段，信息茧房外的潜在兴趣点被过早过滤，造成了信息损失、偏差累积、阶段间难协作等固有问题。

受大语言模型（LLMs）在多任务处理上取得巨大成功的启发，UniGRF 创新性地将召回和排序整合到一个生成模型中，实现了信息的充分共享，同时保持了模型的通用性和可扩展性。

二、突破传统：如何用一个模型 “杀死两只鸟”？

UniGRF 的核心思想是将检索和排序两个阶段的任务都统一转化为序列生成任务，并整合到同一个自回归生成模型中。具体来说，模型通过学习用户历史交互序列（物品 ID 序列、行为类型序列等），在生成输出序列时，特定位置的输出分别对应召回任务（预测下一个交互物品）和排序任务（预测当前物品的点击概率）。

这种统一框架带来了诸多优势：

1. 充分信息共享：由于参数在单一模型内共享，检索和排序任务可以充分利用彼此的信息，有效减少信息损失。

2. 模型无关性与即插即用：UniGRF 是一个灵活的框架，可以与各种主流的自回归生成模型架构（如 HSTU、Llama 等）无缝集成。

3. 潜在的效率提升：相比于维护两个独立的模型，单一模型在训练和推理上可能更具效率优势。

三、UniGRF 的两大 “秘密武器”

仅仅将两个任务放在一个模型里还不够，如何让它们高效协作并同步优化，是 UniGRF 成功的关键。为此，研究者设计了两大核心模块：

1. 排序驱动的增强器 (Ranking-Driven Enhancer)：

这个模块旨在促进召回和排序两个阶段之间的高效协作。一般来说，排序阶段通常能更精准地捕捉用户细粒度的偏好。该增强器巧妙地利用排序阶段的高精度输出来指导和优化召回阶段。

难样本挖掘：识别那些在召回阶段被高估但两个阶段存在分歧的样本，将它们作为更具挑战性的负样本反馈给模型，提升模型的辨别能力。
潜在正样本识别：识别那些在负采样中被错误标记，但排序模型认为用户可能喜欢的样本，纠正其标签，为模型提供更准确的训练信号。

通过这种方式，形成了一个互相促进的增强闭环，并且这一切几乎不增加额外的计算开销。

2. 梯度引导的自适应加权器 (Gradient-Guided Adaptive Weighter)：

在统一框架下，召回和排序两个任务的损失函数、收敛速度可能存在显著差异。如果简单地将两者损失相加，可能会导致模型在优化过程中厚此薄彼。该加权器通过实时监测两个任务梯度的变化率（即学习速度），动态地调整它们在总损失函数中的权重。如果一个任务学习较慢，就适当增加其权重，反之亦然。这确保了两个任务能够以协同的步伐前进，实现同步优化，最终达到整体性能的最优。

四、实验效果：显著超越 SOTA，验证统一框架威力

为了验证 UniGRF 的有效性，研究团队在三个公开的大型推荐数据集（MovieLens-1M, MovieLens-20M, Amazon-Books）上进行了大量实验。结果表明：

全面领先：无论是以 HSTU 还是 Llama 作为基础生成模型，UniGRF 在召回和排序两个任务上的性能均显著优于现有的 SOTA 基线模型，包括那些为单一任务设计的强大生成模型以及传统的级联框架。
排序性能提升尤为显著：实验发现，UniGRF 对排序阶段的性能提升更为明显。这对于实际应用更为重要，因为排序结果直接决定了最终呈现给用户的推荐质量。
良好的可扩展性：实验还初步验证了 UniGRF 在模型参数扩展时的性能提升潜力，符合 “越大越好” 的缩放定律（Scaling Law）。

值得一提的是，传统的级联框架在适配生成式模型时表现不佳，甚至可能产生负面效果，这反过来凸显了 UniGRF 这种原生统一框架的优越性。

五、总结与展望

UniGRF 的提出，为生成式推荐系统领域贡献了一个新颖且高效的解决方案。它首次探索了在单一生成模型内统一召回与排序任务的可行性与巨大潜力，通过精心设计的协作与优化机制，有效克服了传统多阶段范式的信息损失问题。

这项工作不仅为学术界提供了新的研究视角，也为工业界构建更强大、更高效的推荐系统提供了有益的借鉴。未来，研究者们计划将该框架扩展到更多的推荐阶段（如预排序、重排），并在真实的工业场景中验证其大规模应用的可行性。

....

#盘古大模型 5.5

刚刚，华为盘古大模型5.5问世！推理、智能体能力大爆发

在国产大模型领域，华为盘古大模型一直是比较独特的存在。

该系列模型强调「不作诗，只做事」，深耕行业，赋能千行百业，推动产业智能化升级。从盘古 1.0 到盘古 5.0，华为专注于用大模型解决实际产业问题，并获得了市场的广泛认可。

就在刚刚，在华为开发者大会 2025（HDC 2025）上，华为重磅发布了盘古大模型 5.5，其中自然语言处理（NLP）能力比肩国际一流模型，并在多模态世界模型方面做到全国首创。

此次，全新升级的盘古大模型 5.5 包含了五大基础模型，分别面向 NLP、多模态、预测、科学计算、CV 领域，进一步推动大模型成为行业数智化转型的核心动力。

华为常务董事、华为云 CEO 张平安正式发布盘古大模型 5.5

会上，华为诺亚方舟实验室主任王云鹤对该系列模型的核心技术进行了大揭秘。

王云鹤

此次，盘古 5.5 在 NLP 领域主要有三大模型组成，即盘古 Ultra MoE、盘古 Pro MoE、盘古 Embedding；以及快慢思考合一的高效推理策略、盘古深度研究产品 DeepDiver。

我们接下来一一来看。

盘古 Ultra MoE

准万亿级别模型

盘古 Ultra MoE 是 7180 亿参数的 MoE 深度思考模型。作为一个准万亿参数级别的大模型，该模型基于昇腾全栈软硬件协同打造，做到了国内领先、比肩世界一流水平。

训练超大规模和极高稀疏性的 MoE 模型极具挑战，训练过程中的稳定性往往难以保障。针对这一难题，华为盘古团队在模型架构和训练方法上进行了创新性设计，成功地在基于昇腾 NPU 打造的「下一代 AI 数据中心架构」CloudMatrix384 集群上实现了准万亿 MoE 模型的全流程训练。

具体来讲，盘古团队提出了 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾 NPU 上实现了 10+T token 数据的长期稳定训练。此外，华为还提出了 EP group loss 负载优化方法，这一设计不仅保证各个专家之间能保持较好的负载均衡，也提升专家的领域特化能力。同时，Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构，在训练时使用了 Dropless 训练策略。

得益于此，该模型具备了高效长序列、高效思考、DeepDiver、低幻觉等核心能力，并在知识推理、自然科学、数学等领域的大模型榜单上位列前沿。

更多技术细节可访问盘古 Ultra MoE 的技术报告或我们之前的报道《还得是华为！Pangu Ultra MoE 架构：不用 GPU，你也可以这样训练准万亿 MoE 大模型》：

报告地址：https://arxiv.org/pdf/2505.04519

盘古 Pro MoE 大模型

比肩 DeepSeek-R1

盘古 Pro MoE 是一个 72B A16B 的模型，即每次工作时会激活其中 160 亿参数。

王云鹤透露，该模型也代表盘古系列模型首次参与了外部打榜。在刚刚发布的五月底 SuperCLUE 榜单上，盘古 Pro MoE 在千亿参数量以内的模型中，排行并列国内第一。

https://www.superclueai.com

可以看到，其在智能体任务上打榜成绩甚至比肩 6710 亿参数的 DeepSeek-R1，在文本理解和创作领域也达到开源模型的第一名。

据介绍，该模型是针对昇腾硬件特性进行了大量仿真建模之后得到的最优架构，尤其适配 300I Duo 推理芯片的宽度、深度、专家数等。

此外，华为还针对不同芯片上专家负载不均衡的问题，提出了分组混合专家 MoGE 算法。该算法可实现跨芯片计算的负载均衡，从而显著提升盘古训推系统的吞吐效率。

MoGE 架构设计示意图。N 个专家被均匀划分为 M 个不重叠的组并且每一个组内激活相同数量的专家。

最终，这些创新让盘古 Pro MoE 可在 300I Duo 上实现每秒 321 token 的吞吐量，而在性能更强大的 800I A2 上，吞吐速度更是可达每秒 1529 token，领先同规模业界模型 15% 以上。

华为已经在 5 月底发布了盘古 Pro MoE 的技术报告，感兴趣的读者可通过以下链接扩展阅读。另外，我们之前也已经报道过该模型：《华为盘古首次露出，昇腾原生 72B MoE 架构，SuperCLUE 千亿内模型并列国内第一》。

项目地址：https://gitcode.com/ascend-tribe/pangu-pro-moe

盘古 Embedding（7B）

小身手、大能量

华为也推出了一个相当能打的 7B 级小模型盘古 Embedding。该模型在学科知识、编码、数学和对话能力方面均优于同期同规模模型。

华为是如何做到这一点的呢？王云鹤介绍了一些重点：

在后训练阶段使用渐进式 SFT 和多维度奖励的强化学习，这提高了模型的推理能力。

针对长序列进行了重点优化，为此华为提出了 Adaptive SWA 和 ESA 两项关键技术来降低在长序列的场景中的计算量和 KV Cache；也由此，盘古 Embedding 可以相当轻松地应对 100 万 token 长度的上下文。

针对幻觉问题，华为提出了知识边界判定、结构化思考验证等创新方案，从而实现了模型推理准确度的提升。

同样地，该模型的技术报告也已经在 5 月底发布。

报告地址：https://arxiv.org/pdf/2505.22375

高效推理方案

自适应快慢思考合一

如今，以 DeepSeek-R1 为代表的思考模型受到了业界的广泛关注。思考模型又可以分为慢思考模型与快思考模型，其中慢思考模型普遍存在的过度思考问题受到了业界的广泛关注。

对于简单的问题（比如 1+1 等于几），快思考模型平均只需要十几个 token 就能解决，而慢思考却需要几百甚至上千个 token。这就导致用户体验不佳，对于行业应用部署也有不利影响。目前业界已有的一些方案通过 prompt 隔离进行切换，但这样做并不能真正地自动感知问题的难易程度。

为解决该问题，华为提出了自适应快慢思考合一技术，构建难度感知的快慢思考数据并提出两阶段渐进训练策略，让盘古模型可以根据问题难易程度自适应地切换快慢思考。这就达成了这样一种效果：简单问题快速回复，复杂问题深度思考，整体推理效率可以提升高达 8 倍。

不仅如此，华为还针对慢思考模式提出了反思投机和反思压缩等策略，在精度无损的情况下减少 50% 的慢思考时间，让盘古大模型不仅推理得准，速度还快。

盘古 DeepDiver

华为的 Deep Research 来了

进入到 2025 年，大模型的基础能力不再是厂商关注的唯一，模型应用同样受到高度重视。

其中，以深度研究（Deep Research）为代表的新一代 Agent 在科学助手、个性化教育以及复杂的行业报告调研等场景展现出了比传统大模型更强的能力。

不过，这类 Agent 在实际应用中面临着很多技术挑战，比如规划步数多、策略空间大、序列超长、信息噪声大等，这些不可避免地影响到执行效率和准确率。

针对这一挑战，华为发布了开放域信息获取 Agent—— 盘古 DeepDiver，在网页搜索、常识性问答等应用中，它可以让盘古 7B 大模型实现接近 DeepSeek-R1 这种超大模型的效果。

如何做到的呢？据王云鹤介绍，首先根据实际场景构建大量的合成交互数据，并通过渐进式奖励策略等优化方法，在开放环境进行强化学习训练。

效果不俗之外，执行效率也非常高，盘古 DeepDiver 可以在 5 分钟内完成超过 10 跳的复杂问答，并生成万字以上的专业调研报告。

得益于 DeepDiver，盘古大模型的自主规划、探索、反思等高阶能力得到了前所未有地加强。

更多技术细节请访问相应技术报告或我们之前的报道《真实联网搜索 Agent，7B 媲美满血 R1，华为盘古 DeepDiver 给出开域信息获取新解法》。

报告地址：https://arxiv.org/pdf/2505.24332

除了以上几大 NLP 大模型之外，盘古 5.5 还覆盖了以下几个领域的大模型：

盘古预测大模型：采用业界首创的 triplet transformer 统一预训练架构，将不同行业的数据进行统一的三元组编码，并在同一框架内高效处理和预训练，极大地提升预测大模型的精度，并大幅提升跨行业、跨场景的泛化性。
盘古科学计算大模型：华为云持续拓展盘古科学计算大模型与更多科学应用领域的结合。比如深圳气象局基于盘古进一步升级「智霁」大模型，首次实现 AI 集合预报，能更直观地反映天气系统的演变可能性，减少单一预报模型的误差。
盘古计算机视觉 CV 大模型：华为云发布全新 MoE 架构的 300 亿参数视觉大模型，这是目前业界最大的视觉模型，并全面支持图像、红外、激光点云、光谱、雷达等多维度、泛视觉的感知、分析与决策。另外盘古 CV 大模型通过跨维度生成模型，构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库，极大地提升了业务场景的可识别种类与精度。
盘古多模态大模型：全新发布基于盘古多模态大模型的世界模型，可以为智能驾驶、xx智能机器人的训练，构建所需要的数字物理空间，实现持续优化迭代。例如，在智能驾驶领域，输入首帧的行车场景、行车控制信息和路网数据，盘古世界模型就可以生成每路摄像头的行车视频和激光雷达的点云，能够为智能驾驶生成大量的训练数据，而无需依赖高成本的路采。

至此，盘古大模型 5.5 通过多样化的架构与算法创新（如 MoE、深度思考、Triplet Transformer、自适应快慢思考），不仅在核心技术能力上达到领先水平，更在科学计算、工业预测、气象预报、能源优化、智能驾驶等关键应用领域展现出强大的落地价值和变革潜力。

....

#OWMM-Agent

突破开放世界移动操作！首个室内移动抓取多模态智能体亮相，微调模型真实环境零样本动作准确率达 90%

在家庭服务机器人领域，如何让机器人理解开放环境中的自然语言指令、动态规划行动路径并精准执行操作，一直是学界和工业界的核心挑战。

近日，上海人工智能实验室联合新加坡国立大学、香港大学等机构的研究团队，提出了 "OWMM-Agent" xx智能体——首个专为开放世界移动操作（OWMM）设计的多模态智能体 (VLM Agent) 架构，首次实现了全局场景理解、机器人状态跟踪和多模态动作生成的统一建模。

同时该工作通过仿真器合成智能体轨迹数据，微调了针对该任务的多模态大模型 OWMM-VLM，在真实环境测试下，该模型零样本单步动作预测准确率达 90%。

论文链接：https://arxiv.org/pdf/2506.04217

Github 主页：https://github.com/HHYHRHY/OWMM-Agent

，时长01:01

一、问题背景介绍：开放语义下的移动抓取任务

传统移动抓取机器人在家庭场景处理 “清理餐桌并将水果放回碗中” 这类开放指令时，往往需要依赖预先构建的场景 3D 重建或者语义地图，不仅耗时且难以应对动态环境。OWMM 任务的核心难点在于：

全局场景推理：需要结合自然语言指令和多视角视觉信息，理解整个场景的布局和物体信息。
xx决策闭环：实时跟踪机器人状态（如当前位置、长续任务执行状态），生成符合物理约束的动作（如理解要到一定距离才可以抓取物体）；
系统整合问题：VLM 基座模型难以直接输出机器人控制所需的底层目标（如导航目标点坐标、抓取物体坐标等）。

二、OWMM-Agent：用 VLM 重构机器人 “大脑”

研究团队提出的 OWMM-Agent 架构，通过两大创新突破上述瓶颈：

1. 多模态 Agent 架构

通过将开放世界移动操作（OWMM）问题建模成多轮，多图推理和定位 (Grounding) 问题，让多模态大模型进行端到端的感知 - 推理 - 决策 - 状态更新过程。

长期环境记忆：利用预映射阶段获取的多视角场景图像（如图 1 中的历史帧），构建全局场景理解能力，支持复杂指令的空间推理（如 “从吧台凳取物并放到沙发”）；
瞬态状态记忆：以文本形式跟踪机器人实时状态（如 “已抓取物体，正接近目标位置”），辅助 VLM 生成上下文相关的动作序列；
动作空间设计：VLM 模型直接输出动作 handle 和 Ego-centric Obsersavation RGB 空间的坐标参数，通过函数调用传统路径规划器（Path Planner）和机械臂运动规划器（Motion Planner），不依赖预定义策略技能库。

图 1：OWMM-Agent 框架和动作接口设计

2. 多模态 Agent 微调数据合成

针对 VLM 基座模型在机器人领域的 “幻觉” 问题，团队设计了基于 Habitat 仿真平台的数据合成方案：

任务模板驱动：基于 Habitat 仿真环境，通过 PDDL 语言定义任务流程，自动生成 OWMM episodes。最终数据集基于 143 个仿真场景，157 种可抓取物体和 1471 个容器，采集了 20 万 + 条的多图加文本数据集；
符号世界建模：利用仿真环境的真值数据（如物体坐标，机器人状态，PDDL 世界状态），标注多图像 - 文本 - 动作对，避免人工标注成本；
多模态增强：通过 GPT-4o 重写思维链和文字总结内容、引入机器人第一视角图像，增强数据多样性和语义接地能力。

团队利用仿真合成的多模态数据，基于 Intern-VL 2.5 8B/38B 微调得到用于 OWMM 的专用模型 OWMM-VLM。

图 2： OWMM-VLM 模型

三、实验验证：模拟与真实环境双突破

在模拟环境中，OWMM-VLM 模型展现出显著优势：

单步能力：在 “Ego-centric 动作决策”“图像检索”“动作定位 (Action Grounding)” 三项核心任务上，380 亿参数的 OWMM-VLM-38B 模型准确率分别达 97.85%、87.54% 和 88%，远超 GPT-4o（48.53%、46.46%、7%）和模块化方案（如 GPT-4o+RoboPoint）；
完整序列任务：在 308 次模拟测试中，OWMM-VLM-38B 在整个 OWMM 长序移动抓取任务成功率达 21.9%，且零死循环；而基线模型由于大量幻觉和误差累积，成功率低于 1%，且频繁陷入死循环。

图 3：Habitat 仿真环境单步动作和完整 OWMM 序列测试结果

更值得关注的是真实环境测试：在 Fetch 机器人上，模型仅通过模拟数据训练，即实现了 90% 的零样本动作生成成功率（30 次测试中 27 次成功）。例如，在 “将豆奶盒从书桌移至会议桌” 任务中，模型准确检索目标位置、规划导航路径，并生成机械臂抓取坐标，展现出强泛化能力。在真机部署实验中，团队采用了 Robi Butler 工作提供的人类通过 VR 设备控制室内机器人系统的多模态接口，并迁移到 OWMM-Agent 框架中。

四、未来展望：迈向通用家庭机器人

该研究首次证明，通过大规模模拟数据微调的 VLM 模型，可成为开放世界移动操作的通用基础模型。同时这篇工作也存在局限性，当前方法假设有一个相对理想的环境重建，并假设目标任务相关的观测已经在记忆中，且对复杂机械臂（如多指手）的控制能力有限。

随着老龄化社会对服务机器人需求的激增，OWMM-Agent 的突破为 “会听、会看、会做” 的通用家庭助手奠定了关键技术基础。或许在不久的将来，我们真能迎来 “一句话指挥机器人完成家务” 的智能生活。

....

#[大模型实践] 卡比人贵时代的深度学习经验

"不要被表象所迷惑，要洞察事物的本质。" —— 亚里士多德

几年前我写过新手炼丹经验总结，当时背景是卡多，任务小，每天要保证一定的实验吞吐量

这两年虽然大家手上的卡更多了，但是实验从原来几张卡几小时就能跑个效果，变成现在几百张卡几天看一次

于是做实验就需要一些新的方法论

之前的方法论我总结的是：站在巨人肩膀上，注意可复现性、高效实验、防呆实验

在此基础上补充讨论一些：a. 找关键指标 b. 找真瓶颈 c. 大实验和小实验的关系 d. 团队协作

我入行七年多了，现在日常训 10B-100B 大小的语言模型，也有一些小的扩散模型、多模态模型，更大的模型只是参与一些讨论

评测的重要性

论文说自己的方法性能好，一般就是定量部分，要突出关键指标的提升；定性部分，着重强调新的现象和观察

在实验过程中，关键指标往往不是那些你很轻易就接近 SoTA 的指标，而是那些能很明显地区分出 SoTA 和其它方法的指标

如果指标找不好，很可能就整天造超越 GPT4 的新闻，但是永远在追赶 OpenAI

好的指标要能客观反映水平，还要更准确地指示模型迭代的方向

而且更值得警惕的是，当着眼于提高某个指标的时候，可能会让它失效，失去了真正的指示能力

定性实验，呈现结果不是噱头和骗人，可以参考我之前写的深度学习工作：从追求 SoTA 到揭示新现象

最近传闻训练 GPT5 大小的模型遇到困难，而长链思维 o1 / R1 大火，这都是新的现象和观察，通过实验破除先入为主的迷信，细心观察模型不一样的性质并且利用它，是导致本质提升的基础

另一方面来说，既然一个实验要跑好多天，为了提高成功率当然要多投时间在评测上

这里还有很多自动化工具能加成的工作，我们内部发一个模型，会把几十个榜都自动测了，作者也许看也许不看，我真有很多发现是偶然看别人实验的评测结果后得到的

做性价比高的实验

因为实验代价提高了几个数量级，做有意义的实验显得更重要

如果一天只能做一个实验，切忌起一些性价比不高的实验，同时疏于观察，这都是麻醉自己的方式

宁愿把卡空着，也不要无脑用垃圾实验填充

比如大部分的超参数，如果只是轻微调整一点，很难导致实验性质的根本改变

也有很多做大模型有监督微调的工作，沉迷于研究数据简单配比

过微扰超参数、模型结构，人肉梯度下降，不是大模型的实验方法

胡乱调，性能当然也会有抖动，但我们不是靠盯着抖动来做科研的

可以通过文献阅读，同行讨论，排除那些实验性价比不高的调参；经验、理论足以让我们对大部分超参数选一个不出错的值了，我们要通过实验证实或证伪一些更强假设，而非去网格搜索最优参数

平衡大小实验

因为客观条件限制，很多时候我们只能做小实验，但是只有真的碰大实验，才能知道什么问题是值得做的

我建议：在大实验上找问题，用小实验筛掉错误想法，找有希望的上大实验验证

可能很多小模型的问题换大的模型自然就不存在，也许就没有做小模型的必要；有的任务就是少参数调整学不会，全参数调整就直接能解决，那么这些问题研究的意义就比较小

在做实验的时候，也要清楚我们是在做一个大实验还是小实验？不要既要也要，实验快必定失掉性能上限，大实验必定反馈不够快

团队协作

现在的大模型实验已经复杂到，几个人都很难打通全流程。因此开展工作时，需要搞清楚自己的比较优势，找自己在团队中的定位，也要了解团队在整个社区中的站位

比如说我没空做细致研究，但是我有卡，可能我就是通过读论文找 idea，然后进行超越学术界规模的实验进行验证

如果我卡不够多，我可以先做一些 idea 的简单验证，然后主动找卡多的人合作

在一个团队里，甚至可以尝试说服别人把卡让给自己实验，让别人去做更适合做的事情，或者主动把自己不擅长的事情分给别人

为了更好地团队协作，还可以努力找一些一起观察、记录实验的方式，提高交流频率等等

....

#世界模型版《模拟人生》

AI虚拟小人街头演讲拉票，GPT-4o选举获胜

个真实世界模拟器。

当世界模型高度进化后，里面的「人」都在做些什么？

有人会进行街头演说，吸引到了不少听众，小孩会和机器狗玩：

有人会当街作案，警察前去抓捕，又有人会在大庭广众之下求婚：

本周五，来自马萨诸塞大学阿默斯特分校（UMass Amherst）、约翰霍普金斯大学、卡耐基梅隆大学的研究者们提出了一个神奇的研究：虚拟社区（Virtual Community）。

虚拟社区将真实世界的地理空间数据与生成模型相结合，为多种不同类型的智能体创建了一个具有社会根基的交互式、可扩展开放世界场景。

论文：Virtual Community: An Open World for Humans, Robots, and Society

论文链接：https://virtual-community-ai.github.io/paper.pdf

项目链接：https://virtual-community-ai.github.io/

该工作昨晚提交，立即吸引了一些 AI 圈大佬的关注，纽约大学助理教授谢赛宁表示，这对于智能体研究来说意义重大。

虚拟社区提供了一个统一的框架，用于模拟社区中人类和机器人丰富的社交和物理互动。它建立在通用物理引擎之上，并以现实世界的 3D 场景作为基础。作者为人类智能体实现了一个虚拟角色模拟框架，而其中的机器人模拟则主要继承自 Genesis。

虚拟社区通过在环境中填充配置机器人、人类角色配置文件和社会关系网络的智能体（由 LLM 提供支持）来支持基于 3D 场景的智能体社区生成。

这一个个人物，都是有详细背景资料和活动时间表的，他们也会按照这些设定行事。他们的社会关系以群组的形式构建，每个群组包含一组智能体、文本描述和指定的群组活动场所，所以这些人物会被连接成一个有凝聚力的社群。

虚拟社区会基于真实世界地理空间数据生成场景及相应的智能体。如下图所示：场景生成组件（A）使用生成模型来增强纹理，并精炼粗糙的 3D 数据，同时精炼地理空间数据以简化几何结构。它还利用生成方法创建交互式对象和精细的室内场景。智能体生成组件（B）利用 LLM 基于场景描述生成智能体角色和社交关系网络。（C）再基于 Genesis 引擎模拟开放世界场景中的虚拟角色社区和机器人。

令人感兴趣的是，它可以模拟世界任何地方的 3D 场景，为智能体构建出一个大规模社区 —— 从纽约到伦敦、阿姆斯特丹、丹佛等等。

现有的 3D 地理空间数据 API 在数量和多样性方面提供了丰富的数据，但它们通常包含大量噪声，并缺乏纹理和几何形状细节。为了弥补这一差距，作者提出了一种在线流程，对几何和纹理进行全面的清理和增强。该流程包含四个步骤：网格简化、纹理细化、对象放置和自动注释。

作者使用此流程生成了 35 个全球不同城市的带注释场景：

虚拟社区其中还具有正常运行的交通系统，包括行人移动、车辆流动和公共交通运营。作者开发了基于 OSM 数据的自动化动态交通生成机制，能够快速重建城市道路网络并在全球范围内实现自主交通模拟。

作为一个帮助未来人与机器协作进行训练的平台，机器人将成为虚拟社区不可或缺的一部分，它们无处不在并会其中的「人类」进行无缝互动。目前看到已经导入的机器人就有宇树的人形机器人、波士顿动力的机器狗，还有四轴无人机、谷歌机器人等。

利用虚拟社区所释放的新功能，作者引入了两项新的xx化多智能体任务：一项涉及多名人类智能体的竞选任务，以及一项同时涉及机器人和人类智能体的社区助理任务。为了成功完成这些任务，智能体需要具备在社区环境中进行规划的能力，以及与其他智能体互动的社交智能。

作为这两项任务的基础，如果没有分配到特定任务，社区中的智能体会遵循默认的日常计划和惯例。在每轮游戏中，都会选择多个智能体并为其分配一项任务。当智能体被赋予任务时，它会暂停日常计划，专注于完成社区中分配的社交任务。

在「竞选」任务中，候选人智能体必须高效地规划与社区内的选民智能体建立联系并进行说服。由于选民的性格和社会关系各不相同，一些选民最初可能倾向于某些候选人，这就要求每位候选人制定适应性策略，以在整个选举过程中影响和改变选民的意见。

结果如下图所示，采用 GPT-4o 主干的候选人比采用 GPT-3.5-turbo 主干的候选人拥有更高的平均得票率和转化率，这意味着它更有能力在大多数场景下改变选民的观点。

社区助手任务的场景则是两个异构机器人在开放世界环境中合作协助人类。这些任务要求智能体进行合作规划，以协助人类化身进行日常活动 —— 搬运，即智能体陪同人们外出并帮助搬运物品；以及递送，即智能体将物品从源位置（室内或室外）运送到目的地。

实验结果显示，两种基线方法在交付方面的表现均优于携带，这反映了在动态开放世界中同时操控物体和跟随人类的极高难度。

作者希望虚拟社区工作能够帮助人们大规模进行未来的社会智能研究，包括：1）机器人如何智能地合作或竞争；2）人类如何发展社会关系和建立社区；3）智能机器人和人类如何在开放世界中共存。

以下为该研究的团队成员：

....

#苹果内部讨论买Perplexity

外媒：140亿美元史上最大收购？

第一个 AI 搜索引擎，要归苹果了？

据彭博社本周五报道，苹果公司高管已就可能竞购知名 AI 初创公司 Perplexity 举行了内部会谈。

报道称，相关讨论尚处于早期阶段，最终可能不会促成收购要约，并补充说，这家科技巨头的高管尚未与 Perplexity 的管理层讨论出价。

作为 AI 搜索领域的「新贵」， Perplexity 的团队和技术对苹果具有极大的吸引力， Perplexity 的创始人团队成员拥有在 OpenAI 、谷歌、 DeepMind 、微软等顶尖 AI 实验室和公司的工作背景，对 AI 技术有深刻的理解。

Perplexity 的核心优势不在于训练自己的基础大模型，而在于其卓越的检索、排序和整合信息的能力。它能综合运用多种第三方大模型和搜索引擎数据，并通过自身独特的算法提供精准、可追溯来源、无广告的答案。这种技术正是苹果改进 Siri 和开发新一代搜索引擎所需要的。

最近一段时间，大型科技公司正在 AI 领域不断加大投资，以跟上越来越快的 AI 技术进步节奏。据报道，在对数据标注公司 Scale AI 进行重大投资之前，Meta 曾与 Perplexity AI 在今年初就潜在的收购案进行过商谈。这些讨论是 Meta CEO 马克·扎克伯格为追赶 AI 领先地位而采取的积极策略的一部分。然而双方最终未能达成协议，谈判因此终止，有报道称是 Perplexity 方面选择退出谈判。

除了整体收购，Meta 还曾试图招募 Perplexity 的首席执行官 Aravind Srinivas，希望他能加入公司专注于构建更强 AI 系统的新「超级智能」团队。

在与 Perplexity 的商谈终止后，Meta 迅速敲定了对数据标注初创公司 Scale AI 的一笔高达 143 亿美元的战略投资。通过这笔交易，Meta 不仅获得了 Scale AI 公司 49% 的非投票权股份，还成功将 Scale AI 的创始人兼首席执行官 Alexandr Wang 及其部分团队成员招致麾下，由他来领导 Meta 新组建的「超级智能」部门。

苹果公司计划将像 Perplexity AI 这样的人工智能驱动的搜索功能整合到其 Safari 浏览器中，这可能使其摆脱与谷歌的长期合作关系。目前，美国司法部在针对谷歌的反垄断案中，已提议禁止谷歌付费给其他公司以成为默认搜索引擎，这威胁到了苹果与谷歌每年价值约 200 亿美元的合作协议。

尽管对于普通用户来说，传统搜索引擎仍是首选，但 Perplexity 和 ChatGPT 等 AI 搜索选项正迅速崛起，尤其受到年轻一代用户的欢迎。如今，人们越来越多地使用基于大语言模型（LLM）的 AI 助手来获取信息，导致传统搜索引擎的使用量出现下降。收购或与 Perplexity 实现大规模合作，可以帮助苹果将其 AI 搜索功能整合进 Safari 浏览器和 Siri，从而摆脱对谷歌的依赖，并顺应新的用户趋势。

看起来在 Apple Intelligence 的多项技术屡遭延迟后，苹果已在寻求新的 AI 解决方案了。

Perplexity 在最近一轮融资中的估值达到了 140 亿美元，如果苹果以接近该价值的价格进行收购，这将是苹果公司历史上最大规模的收购案，远超 2014 年以 30 亿美元收购 Beats 的交易。

不过在可能的收购消息爆出后，Perplexity 发表声明称「我们目前或未来不了解任何涉及 Perplexity 的并购谈判」。

Perplexity 首席商务官 Dmitry Shevelenko 表示收购「不太可能」，他也驳斥了 Perplexity 和苹果之间实现 Meta 和 Scale 类型的合作。

参考内容：

https://www.bloomberg.com/news/articles/2025-06-20/apple-executives-have-held-internal-talks-about-buying-ai-startup-perplexity?srnd=phx-technology

....

#Multi-agent Architecture Search via Agentic Supernet

NAS老树开新花，NUS提出智能体超网，成本狂降55%

本文第一作者为张桂彬，新加坡国立大学25Fall计算机科学博士生；本文在南洋理工大学的王琨博士、上海人工智能实验室的白磊老师、和中国科学技术大学的王翔教授指导下完成。

LLM 智能体的时代，单个 Agent 的能力已到瓶颈，组建像 “智能体天团” 一样的多智能体系统已经见证了广泛的成功。但 “天团” 不是人越多越好，手动设计既费力又不讨好，现有的智能体自动化方法又只会 “一招鲜”，拿一套复杂阵容应对所有问题，导致 “杀鸡用牛刀”，成本高昂。

现在，一篇来自新加坡国立大学、上海 AI Lab、同济大学等机构并被 ICML 2025 接收为 Oral Presentation 的论文，为我们带来了全新的解题思路。

他们将神经网络架构搜索（NAS）的超网络（Supernet）思想引入 Agent 领域，首创了一个名为 “智能体超网”（Agentic Supernet）的概念。它不再寻找一个固定的最佳 “阵容”，而是根据任务难度，动态 “剪” 出一个量身定制的智能体团队。结果有多惊艳？性能超越现有方法最高 11.82%，推理成本却只有它们的 45%！

论文地址：https://arxiv.org/abs/2502.04180

Github 链接：https://github.com/bingreeky/MaAS

论文标题：Multi-agent Architecture Search via Agentic Supernet

智能体的 “一体化” 困境：

从设计内卷到资源浪费

如今，从 AutoGen 到 MetaGPT，各种多智能体系统（Multi-agent Systems）层出不穷，通过定制化的协作，其能力在多个领域（如代码生成，复杂通用 AI 任务）已超越了单个智能体。但一个核心痛点始终存在：这些系统的设计往往依赖于繁琐的人工配置和 Prompt 工程。为了解决这个问题，研究界转向自动化设计，比如通过强化学习、进化算法、蒙特卡洛树搜索等方式寻找最优的 Agent 工作流。

然而，这又带来了新的困境：

1. 资源浪费 (Dilemma 1)：诸如 AFlow 和 ADAS 这样的自动化多智能体系统优化方法倾向于找到一个极其复杂的 “万金油” 式系统，以确保在所有任务上表现优异。但面对 “10+1*2.5=？” 这样的简单问题，动用一个需要数十次 LLM 调用的复杂系统，无疑是巨大的资源浪费。

2. 任务冲突 (Dilemma 2)：在 GAIA 这样的多领域基准测试中，一个擅长文献总结的多智能体系统，不一定擅长网页浏览总结 —— 似乎不存在一个能在所有任务上都最优的 “全能冠军”。

面对这种 “要么手动内卷，要么自动浪费” 的局面，我们是否该换个思路了？

Agentic Supernet：

从 “选一个” 到 “按需生万物”

这篇论文的核心贡献，就是一次漂亮的 “范式转移” (Paradigm Reformulation)。作者提出，我们不应该再执着于寻找一个单一、静态的最优智能体架构。相反，我们应该去优化一个 “智能体超网”（Agentic Supernet） —— 这是一个包含海量潜在智能体架构的概率分布。

图 1 智能体超网络

这个 “超网” 就像一个巨大的 “能力兵工厂”，里面包含了诸如思维链（CoT）、工具调用（ReAct）、多智能体辩论（Debate）等各式各样的基础能力 “算子”（Agentic Operator）。当一个新任务（Query）到来时，一个 “智能控制器”（Controller）会快速分析任务的难度和类型，然后从这个 “兵工厂” 中，动态地、即时地挑选并组合最合适的几个 “算子”，形成一个量身定制的、不多不少、资源分配额刚刚好的临时智能体系统去解决问题。

上图生动地展示了这一点：

对于简单问题 (a, b)：MaAS 在第二层就选择了 “提前退出”（Early-exit），用最简单的 I/O 或 ReAct 组合快速给出答案，极大节省了资源。
对于中等和困难问题 (c, d)：MaAS 则会构建更深、更复杂的网络，调用更多的算子来确保问题得到解决。

这种 “按需分配、动态组合” 的哲学，正是大名鼎鼎的 NAS 的核心思想。如今，MaAS 框架将其成功地应用在了多智能体架构搜索（Multi-agent Architecture Search）上，可以说是 NAS 在 Agentic 时代的重生和胜利。

MaAS 的 “三板斧” 如何玩转智能体架构？

接下来，我们就一起拆解 MaAS 的 “独门秘籍”。其核心思想，可以概括为定义蓝图 → 智能调度 → 自我进化三步走战略。

第一板斧：定义万能 “蓝图” - Agentic Supernet

传统方法是设计一个具体的 Agent 架构 (System)，而 MaAS 的第一步，就是定义一个包含所有可能性的 “宇宙”—— 智能体超网 (Agentic Supernet)。

1. 智能体算子 (Agentic Operator)：首先，MaAS 将智能体系统拆解为一系列可复用的 “原子能力” 或 “技能模块”，也就是智能体算子 (O)。这包括了：

I/O: 最简单的输入输出。
CoT (Chain-of-Thought): 引导模型进行循序渐进的思考。
ReAct: 结合思考与工具调用。
Debate: 多个 Agent 进行辩论，优胜劣汰。
Self-Refine: 自我批判与修正。
... 等等，这个 “技能库” 是完全可以自定义扩展的！

2. 概率化智能体超网 (Probabilistic Agentic Supernet)：有了这些智能体算子，MaAS 将它们组织成一个多层的、概率化的结构。你可以想象成一个分了好几层的巨大 “技能池”。

每一层都包含了所有可选的智能体算子。
每个模块在每一层被 “选中” 的概率（π）是不固定的，是可以学习和优化的。

图 2 MaAS 自进化框架示意图

如图 2 所示的智能体超网，就是 MaAS 施展魔法的舞台。它不是一个静态的系统，而是一个智能体系统架构的概率分布空间。

第二板斧：智能 “调度师” - 按需采样架构

有了 “蓝图”，当一个具体的任务（Query q）来了，如何快速生成一个 “定制团队” 呢？这就轮到 MaAS 的 “智能调度师”—— 控制器网络 (Controller) 上场了。控制器的工作流程如下所示：

1. “阅读” 任务：控制器首先将输入的 Query q 进行编码，理解其意图和难度。

2. 逐层挑选：然后，它从超网的第一层开始，逐层为当前任务挑选最合适的 “技能模块”。

3. MoE 式动态选择：这里的挑选机制非常精妙，它采用了一种类似混合专家（MoE）的策略。

在每一层，控制器会为所有待选的技能模块计算一个 “激活分数”。这个分数取决于当前任务 q 以及之前层已经选定了哪些模块。

然后，它会从分数最高的模块开始，依次激活，直到这些被激活模块的累计分数总和超过一个预设的阈值 (thres)。

这个设计恰恰与 MaAS 的动态性紧密相关！这意味着：

简单任务可能在某一层只激活一个智能体算子就够了。
复杂任务则会激活更多的算子，可能是两个、甚至三个，以保证足够的解决能力。
同时，如果 “早停 (Early-Exit)” 这个特殊的算子被选中，整个采样过程就会提前结束，完美实现了 “见好就收”。

通过这种方式，MaAS 为每一个 Query 都动态生成了一个独一无二的、资源配比恰到好处的 Agent 执行图（G），实现了真正的 “查询感知（Query-aware）”。

第三板斧：双轨 “进化引擎” - 成本约束下的优化

生成了临时团队去执行任务还不够，MaAS 还要能从经验中学习，让整个 “超网” 和 “算子” 都变得越来越强。但这里有个难题：整个 Agent 执行过程是 “黑盒” 的，充满了与外部工具、API 的交互，无法进行端到端的梯度反向传播！为此，MaAS 采用了双轨优化策略，分别对 “架构分布” 和 “算子本身” 进行更新：

1. 架构分布 (π) 的进化 - 蒙特卡洛策略梯度：

MaAS 的目标函数不仅要考虑任务完成得好不好（Performance），还要考虑花了多少钱（Cost，如 token 数）。
它通过蒙特卡洛采样来估计梯度。简单说，就是让采样出的几个不同架构（G_k）都去试试解决问题。
然后，根据每个架构的 “性价比”（即性能高、成本低）赋予其一个重要性权重 (m_k)。
最后，用这个权重来更新超网的概率分布 π，让那些 “又好又省” 的架构在未来更容易被采样到。

2. 算子 (O) 本身的进化 - Textual Gradient (文本梯度)：

这是最 “魔法” 的地方！如何优化一个 Prompt 或者一段 Python 代码？MaAS 借鉴了 “文本梯度” 的概念。

它会利用一个梯度智能体，来分析某个算子（比如 Debate 算子）的表现。

如果表现不佳，这个 “教练” 会生成一段文本形式的 “改进意见”，这就是 “文本梯度”。比如：

“给这个 Refine 过程的 Prompt 里增加一个 few-shot 示例。”
“为了稳定性，降低这个 Ensemble 模块里 LLM 的 temperature。”
“给这个 Debate 算子增加一个‘反对者’角色，以激发更深入的讨论。”

图 3 文本梯度案例

性能、成本、通用性：全都要！

MaAS 的效果不仅理念先进，数据更是亮眼。

图 4 MaAS 与其他多智能体方法性能比较

如上图所示，在 GSM8K、MATH、HumanEval 等六大主流基准测试上，MaAS 全面超越了现有的 14 个基线方法，性能提升了 0.54% ~ 11.82%。平均得分高达 83.59%，展示了其卓越的通用性和高效性。

图 5 训练与推理成本比较

成本大降是更令人兴奋的一点。MaAS 所需的推理成本（如 token 消耗）平均只有现有自动化或手动系统的 45%。在 MATH 基准上，MaAS 的训练成本仅为 3.38 美元，而表现相近的 AFlow 则高达 22.50 美元，相差 6.8 倍。除此之外，MaAS 的优化时间仅需 53 分钟，远低于其他动辄数小时的方法。

图 6 MaAS 成本可视化

上图同样展示了 MaAs 在训练 token 消耗、推理 token 消耗和推理 API 金额方面的卓越性能。

图 7 MaAS 推理动态展示。可以看到，针对不同难度的 query，MaAS 智能地激活了不同的智能体网络架构解决之。

上图是 MaAS 对于不同难度的 query 的激活动态。可以看到，MaAS 完美地做到了任务难度的动态感知，对于简单的任务早早地退出了推理过程，而对于复杂的任务则深入 3～4 层智能体超网络 u，并且每层激活的智能体算子不止一个。

除此之外，MaAs 还展示出了超强泛化能力：

跨模型：在 gpt-4o-mini 上优化好的 “超网”，可以轻松迁移到 Qwen-2.5-72b 和 llama-3.1-70b 等不同的大模型上，并带来显著的性能提升。
跨数据集：在 MATH 上训练，在 GSM8K 上测试，MaAS 依然表现出色，证明了其强大的跨领域泛化能力。
对未知算子：即使在训练中从未见过 “Debate” 这个算子，MaAS 在推理时依然可以合理地激活并使用它，展现了惊人的归纳能力。

总结

MaAS 通过引入 “智能体超网” 的概念，巧妙地将 NAS 的思想范式应用到多智能体系统的自动化设计中，完美解决了当前领域 “一刀切” 设计所带来的资源浪费和性能瓶颈问题。它不再追求一个静态的最优解，而是转向优化一个动态生成的架构分布，为不同任务提供量身定制的、最高性价比的解决方案。这项工作无疑为构建更高效、更经济、更智能的全自动化 AI 系统铺平了道路。

....

#舍弃CUDA编程

CMU等用几十行代码将LLM编译成巨型内核，推理延迟可降6.7倍

在 AI 领域，英伟达开发的 CUDA 是驱动大语言模型（LLM）训练和推理的核心计算引擎。

不过，CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足，需要进一步优化或者寻找更高效的替代方案。

近日，CMU 助理教授贾志豪（Zhihao Jia）团队创新玩法，推出了一个名为「Mirage Persistent Kernel（MPK）」的编译器，可以自动将 LLM 转化为优化的巨型内核（megakernel），从而将 LLM 推理延迟降低 1.2 到 6.7 倍。

2025-06-20_091419 (1)_副本.jpg

GitHub 地址：https://github.com/mirage-project/mirage/tree/mpk
博客地址：https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17

MPK 将 LLM 推理延迟推近硬件极限。在单个 A100-40GB GPU 上，MPK 将 Qwen3-8B 每个 token 的延迟从 14.5 毫秒 (vLLM/SGLang) 降低到 12.5 毫秒，逼近基于内存带宽计算得出的 10 毫秒理论下限。

MPK 的易用性很强，你只需要几十行 Python 代码就能将 LLM 编译成一个高性能巨型内核，实现快速推理，整个过程无需 CUDA 编程。

评论区对 MPK 的看法也很正向，并提出了一些未来的延展方向。

引入 MPK 的必要性

降低 LLM 推理延迟最有效的方法之一，是将所有计算和通信融合进一个单一的巨型内核，也称为持续内核。

在这种设计中，系统仅启动一个 GPU 内核来执行整个模型 —— 从逐层计算到 GPU 间通信 —— 整个过程无需中断。这种方法提供了以下几个关键的性能优势：

消除内核启动开销：通过避免重复的内核调用，即使是在多 GPU 环境下，也能消除内核启动开销；
实现跨层软件 pipeline 允许内核在计算当前层的同时，开始为下一层加载数据；
重叠计算与通信：由于巨型内核可以同时执行计算操作和 GPU 间通信，从而隐藏通信延迟。

尽管有这些优势，将 LLM 编译成巨型内核仍然极具挑战性。

现有的高级 ML 框架 —— 如 PyTorch、Triton 和 TVM，它们本身并不支持端到端巨型内核生成。此外，现代 LLM 系统由各种不同的专用内核库构建而成：用于通信的 NCCL 或 NVSHMEM，用于高效注意力计算的 FlashInfer 或 FlashAttention，以及用于自定义计算的 CUDA 或 Triton。

这种碎片化使得将整个推理 pipeline 整合进一个单一的、统一的内核变得非常困难。

那么能否通过编译自动化这个过程呢？受到这个问题的启发，来自 CMU、华盛顿大学、加州大学伯克利分校、英伟达和清华大学的团队开发出了 MPK—— 一个编译器和运行时系统，它能自动将多 GPU 的 LLM 推理转换为高性能的巨型内核。MPK 释放了端到端 GPU 融合的效能优势，同时只需要开发者付出极小的手动努力。

MPK 的优势

MPK 的一个关键优势在于：通过消除内核启动开销，并最大程度地重叠跨层的计算、数据加载和 GPU 间通信，实现了极低的 LLM 推理延迟。

下图 1 展示了 MPK 与现有 LLM 推理系统在单 GPU 和多 GPU 配置下的性能对比（具体可见上文）。

除了单 GPU 优化，MPK 还将计算与 GPU 间通信融合进一个单一的巨型内核。这种设计使得 MPK 能够最大程度地重叠计算与通信。因此，MPK 相对于当前系统的性能提升随着 GPU 数量的增加而增大，使其在多 GPU 部署场景下尤为高效。

MPK 的工作原理

MPK 的工作原理包括以下两大部分

Part 1：MPK 编译器，其将 LLM 的计算图转化为优化的任务图；
Part 2：MPK 运行时系统，该系统在单个巨型内核内执行任务图，以实现高吞吐量与低延迟。

编译器 —— 将 LLM 转化为细粒度任务图

LLM 的计算过程通常表示为计算图，其中每个节点对应一个计算算子（如矩阵乘法、注意力机制）或集合通信原语（如 all-reduce），边表示算子间的数据依赖关系。现有系统通常为每个算子启动独立的 GPU 内核。

然而，这种「单算子单内核」的执行模型难以实现 pipeline 优化，因为依赖关系是在整个内核的粗粒度层面强制执行的，而非实际数据单元层面。

典型案例如矩阵乘法（matmul）后接 all-reduce 操作：现有系统中，all-reduce 内核必须等待整个 matmul 内核完成。而实际上，all-reduce 的每个数据分块仅依赖 matmul 输出的局部结果。这种逻辑依赖与实际依赖的错配，严重限制了计算与通信的重叠潜力。

下图 2 展示了 MPK 编译器将 PyTorch 定义的 LLM 计算图转化为优化细粒度任务图，最大化暴露并行性。右侧展示次优方案 —— 其引入不必要的数据依赖与全局屏障，导致跨层流水线优化机会受限。

为了解决此问题，MPK 引入的编译器可将 LLM 计算图自动转化为细粒度任务图。该任务图在子内核级别显式捕获依赖关系，实现更激进的跨层流水线优化。

具体来讲，在 MPK 任务图中（如图 2 所示）：

任务（矩形表示），代表分配给单个 GPU 流式多处理器（SM）的计算 / 通信单元。
事件（圆形表示），表示任务间的同步点。
触发机制，每个任务发出指向触发事件的边，该事件在关联任务全部完成后激活。
依赖机制，每个任务接收来自依赖事件的边，表明事件激活后任务立即启动。

任务图使 MPK 能够发掘计算图中无法实现的 pipeline 优化机会。例如，MPK 可以构建优化任务图 —— 其中每个 all-reduce 任务仅依赖于生成其输入的对应 matmul 任务，从而实现分块执行与计算通信重叠。

除生成优化任务图外，MPK 还通过 Mirage 内核超优化器自动为每个任务生成高性能 CUDA 实现，确保任务在 GPU 流式多处理器（SM）上高效执行。

Part 2：运行时 —— 在巨型内核中执行任务图

MPK 包含内置 GPU 运行时系统，可在单个 GPU 巨型内核内完整执行任务图。这使得系统能在推理过程中无需额外内核启动的情况下，实现任务执行与调度的细粒度控制。

为了实现此机制，MPK 在启动时将 GPU 上所有流式多处理器（SM）静态分区为两种角色：即工作单元（Worker）和调度单元（Scheduler）。

工作 SM 与调度 SM 的数量在内核启动时固定配置，且总和等于物理 SM 总数，从而彻底避免动态上下文切换开销。

工作单元

每个工作单元独占一个流式多处理器（SM），并维护专属任务队列。其执行遵循以下高效简洁的循环流程：

获取任务：从队列中提取下一待执行任务。
执行计算：运行任务（如矩阵乘法 / 注意力机制 / GPU 间数据传输）。
事件触发：任务完成后通知触发事件。
循环执行：重复上述过程。

该机制既保障了工作单元的持续满载运行，又实现了跨层和跨操作的异步任务执行。

调度单元

调度决策由 MPK 的分布式调度单元处理，每个调度单元运行于单个线程束（warp）上。由于每个流式多处理器（SM）可以容纳多个线程束，因此单 SM 最多可并发运行 4 个调度单元。每个调度单元维护激活事件队列，并持续执行以下操作：

事件出队：移除依赖已满足的激活事件（即所有前置任务均已完成）。
任务启动：调度依赖该激活事件的任务集。

这种分布式调度机制在实现跨 SM 可扩展执行的同时，最小化协同开销。

事件驱动执行

下图 3 展示了 MPK 的执行时间线，其中每个矩形代表一个在工作单元上运行的任务；每个圆圈代表一个事件。当一个任务完成时，它会递增其对应触发事件的计数器。当事件计数器达到预设阈值时，该事件被视为已激活，并被加入调度单元的事件队列。随后，调度单元会启动所有依赖于该事件的下游任务。

这种设计实现了细粒度的软件流水线化，并允许计算与通信之间重叠，比如

矩阵乘法（Matmul）任务可以与来自不同层的注意力任务并行执行。
一旦有部分 matmul 结果可用，即可开始 Allreduce 通信。

由于所有的调度和任务切换都发生在单一内核上下文内，任务间的开销极低，通常仅需 1-2 微秒，从而能够高效地执行多层、多 GPU 的 LLM 工作负载。

下一步计划

团队对 MPK 的愿景是使巨型内核编译既易于使用又具备高性能。目前，你只需几十行 Python 代码（主要用于指定巨型内核的输入和输出）即可将一个 LLM 编译成一个巨型内核。此方向仍有广阔的探索空间，目前正在积极攻关的一些关键领域包括如下：

支持现代 GPU 架构。下一个里程碑是将 MPK 扩展到支持下一代架构，例如 NVIDIA Blackwell。一个主要挑战在于如何将线程束专业化，这是新型 GPU 的一项关键优化技术，与 MPK 的巨型内核执行模型相集成。
处理工作负载动态性。 MPK 目前构建的是静态任务图，这限制了它处理动态工作负载（如 MoE 模型）的能力。团队正在开发新的编译策略，使 MPK 能够在巨型内核内部支持动态控制流和条件执行。
高级调度与任务分配。 MPK 在任务级别解锁了新的细粒度调度能力。虽然当前的实现使用简单的轮询调度在流式多处理器（SM）之间分配任务，但团队看到了在高级调度策略（如优先级感知或吞吐量优化策略）方面令人兴奋的机会，可应用于诸如延迟服务等级目标（SLO）驱动的服务或混合批处理等场景。

团队相信，MPK 代表了在 GPU 上编译和执行 LLM 推理工作负载方式的根本性转变，并热切期待与社区合作，共同推动这一愿景向前发展。

该项目也在快速迭代中，非常欢迎有兴趣的伙伴加入contribute。

....

#ML-Agent

7B智能体仅凭9个任务训练即超越R1！上交大打造AI-for-AI新范式

尽管人工智能（AI）在飞速发展，当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代，过程费时费力。这种以人为中心的方式已成为制约创新速度和通向通用人工智能（AGI）的关键瓶颈。为突破限制，AI-for-AI（AI4AI）应运而生。AI4AI 旨在让 AI 作为智能体来自主设计、优化和改进 AI 算法，大幅减少人类干预，加速迭代开发周期，推动 AGI 发展进程。

最近，上海交通大学与上海人工智能实验室联合团队最新研究表明，一个仅依赖 7B 参数大模型的 AI 智能体（ML-Agent），采用 “经验学习” 新范式，只在 9 个机器学习任务上持续探索学习，迭代进化，最终就能设计出超越 671B Deepseek-R1 驱动的智能体设计的 AI 模型，首次实现了在自主机器学习领域从 “提示工程” 到 “经验学习” 的范式跃迁，开创了 AI4AI 的新路径。

论文标题：ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

论文地址：https://arxiv.org/pdf/2505.23723

代码地址：https://github.com/MASWorks/ML-Agent

😫 传统自主机器学习：费时低效的困境

传统机器学习工程繁琐低效，研究人员常需数天至数月进行模型设计、参数调优，与反复试错，限制了 AI 创新发展的速度。最近，基于大语言模型（LLM）的智能体（Agent）的出现给该领域带来显著变革。它们能理解自然语言指令，生成代码并与环境交互，实现自主机器学习（Autonomous Machine Learning，AI4AI），提升 AI 开发效率。

然而，这些智能体仍高度依赖人工设计的提示词（Prompt Engineering），缺乏从经验中自主学习与泛化的能力。其能力提升仍需研究人员根据数小时的执行结果不断调整提示词形成 "等待 - 修改 - 重试" 的低效循环，仍难以摆脱对人力的依赖与效率瓶颈。

😀 AI4AI 破局之路：从指令遵循到自我进化

为解决这一关键限制，该研究首次探索了基于学习的智能体自主机器学习范式，其中智能体可以通过在线强化学习从机器学习任务的执行轨迹中进行学习。这种方式使得智能体能够主动探索不同的策略，跨任务积累知识，逐步优化决策，持续从自身经验中学习，并通过训练不断提升其设计优化 AI 的能力。

自主机器学习流程

🤖 ML-Agent：首个经验学习的 AI4AI 智能体

利用提出的训练框架，研究人员训练了一个由 7B 规模的 Qwen2.5 大模型驱动的自主机器学习智能体。在训练过程中，智能体能够高效地探索机器学习的环境，从经验中学习，并通过对各种机器学习任务的迭代探索实现持续的性能提升。令人惊喜的是，只在 9 个机器学习任务上反复学习，7B 的智能体不仅超越了 671B 规模的 DeepSeek-R1 智能体，还表现出了卓越的跨任务泛化能力。这项研究标志着 AI 智能体在设计 AI 中从 "工具执行者" 向 "自主学习者" 的转变，带来了 “AI 自主设计 AI” 的新范式。

自主机器学习训练框架

🌟 三大核心突破，解锁 AI 自进化

研究团队提出全新训练框架，攻克自主机器学习三大难题：

1️⃣ 敢想敢试：探索增强微调

问题：传统自主机器学习智能体重复相似操作，创新受限！
解法：探索增强微调 (Exploration-enriched fine-tuning)，通过精心设计的多样化的专家轨迹数据集，训练智能体尝试不同策略，大幅提升探索能力。
效果：拓宽智能体的探索范围，增强后续强化学习阶段多样化策略生成能力，不再局限局部最优解，而是具备更广泛的策略选择空间！

探索增强微调助力强化学习训练

2️⃣ 快速迭代：逐步强化学习范式

问题：完整迭代机器学习实验需数小时，传统 RL 方法在机器学习实验中采样效率低下！
解法：逐步强化学习范式（Step-wise RL paradigm），重构训练目标函数，每次只优化单步动作，数据收集效率提升数倍。
效果：RL 训练阶段可扩展性提高，训练时间显著缩短！

逐步强化学习（红线，每训练 5 步进行一次评测）比基于整条轨迹的强化学习（蓝线，每训练 1 步进行一次评测）更高效

3️⃣ 听懂反馈：定制化奖励模块

问题：实验反馈复杂（如代码错误、资源溢出、性能提升），难以统一！
解法：机器学习定制化奖励模块（Agentic ML-Specific Reward Module）惩罚错误、鼓励改进，将机器学习多样执行结果转换为统一反馈。
效果：为 RL 优化提供一致有效的奖励信号，推动智能体在自主机器学习训练中进行持续迭代改进！

机器学习定制化奖励模块每一组成部分的有效性

📊 ML-Agent 持续进化，展现泛化能力！

研究团队利用所提训练框架训练了一个由开源大模型 Qwen2.5-7B 驱动的自主机器学习智能体 ——ML-Agent，并开展广泛的实验以评估其性能。结果表明：

✅ ML-Agent 具有强大泛化能力

研究将 ML-Agent 与 5 个强大的开源 / 闭源 LLM 驱动的智能体进行了比较。下表说明，ML-Agent 在见过 / 未见过的机器学习任务中的平均和最好性能都达到了最高。令人惊喜的是，只在 9 个机器学习任务上不断学习，7B 大模型驱动的 ML-Agent 就在所有 10 个未见过的机器学习任务上超过了 671B 的 Deepseek-R1 驱动的自主机器学习智能体，展现出了强大的泛化能力。

ML-Agent 具有强大泛化能力

✅ ML-Agent 优于最先进方法

为了进一步证明训练框架的有效性，研究人员将 ML-Agent 与一个专门为自主机器学习设计的 LLM 智能体（AIDE）作比较。结果显示，ML-Agent 总体优于 AIDE 智能体，凸显了所提训练框架的有效性。

ML-Agent 优于最先进的自主机器学习智能体

✅ ML-Agent 持续进化

随着训练的进行，ML-Agent 不断自我探索，从自主机器学习的经验中学习，在训练过 / 未经训练过的机器学习任务上性能持续提升，最终超越所有基线方法。

ML-Agent 的自主机器学习能力在训练中持续提升

ML-Agent 引领了 AI4AI 的新范式，将自主机器学习从依赖人类优化的、提示工程的低效模式，转变为智能体自主探索的、基于自我经验学习的设计方式。这一转变大幅减少人类干预，加速了 AI 算法的设计迭代。随着 ML-Agent 在更多的机器学习任务上持续自我学习与探索，其能力有望不断提升，设计出更高效智能的 AI，为构建强大的 AI4AI 系统奠定坚实基础，为实现通用人工智能的长远目标贡献关键力量。

🔥 MASWorks 大模型多智能体开源社区

ML-Agent 也是最近刚发起的大模型多智能体开源社区 MASWorks 的拼图之一。MASWorks 社区致力于连接全球研究者，汇聚顶尖智慧，旨在打造一个开放、协作的平台，共同分享、贡献知识，推动多智能体系统（MAS）领域的蓬勃发展。

作为社区启动的首个重磅活动，MASWorks 将在 ICML 2025 举办聚焦大语言模型多智能体的 Workshop：MAS-2025！期待全球广大学者的积极参与，共同探讨、碰撞思想，描绘 MAS 的未来蓝图！

MASWorks 地址：
https://github.com/MASWorks
MAS-2025 地址：
https://mas-2025.github.io/MAS-2025/

....

#月之暗面「调教」出最强Agent

在「人类最后一场考试」拿下最新 SOTA

昨天，月之暗面发了篇博客，介绍了一款名为 Kimi-Researcher 的自主 Agent。

这款 Agent 擅长多轮搜索和推理，平均每项任务执行 23 个推理步骤，访问超过 200 个网址。它是基于 Kimi k 系列模型的内部版本构建，并完全通过端到端智能体强化学习进行训练，也是国内少有的基于自研模型打造的 Agent。

GitHub 链接：https://moonshotai.github.io/Kimi-Researcher/

在「人类最后一场考试」(Humanity's Last Exam) 中，Kimi-Researcher 取得了 26.9% 的 Pass@1 成绩，创下最新的 SOTA 水平，Pass@4 准确率也达到了 40.17%。

从初始的 8.6% HLE 分数开始，Kimi-Researcher 几乎完全依靠端到端的强化学习训练将成绩提升至 26.9%，强有力地证明了端到端智能体强化学习在提升 Agent 智能方面的巨大潜力。

Kimi-Researcher 还在多个复杂且极具挑战性的实际基准测试中表现出色。在 xbench （一款旨在将 AI 能力与实际生产力相结合的全新动态、专业对齐套件）上，Kimi-Researcher 在 xbench-DeepSearch 子任务上平均 pass@1 达到了 69% 的分数（4 次运行的平均值），超越了诸如 o3 等带有搜索工具的模型。在多轮搜索推理（如 FRAMES、Seal-0）和事实信息检索（如 SimpleQA）等基准测试中，Kimi-Researcher 同样取得了优异成绩。

举个例子。我们想找一部外国动画电影，但只记得大概剧情：

我想找一部外国的动画电影，讲的是一位公主被许配给一个强大的巫师。我记得她被关在塔里，等着结婚的时机。有一次她偷偷溜进城里，看人们缝纫之类的事情。总之，有一天几位王子从世界各地带来珍贵礼物，她发现其中一位王子为了得到一颗宝珠作为礼物，曾与当地人激烈交战。她指责他是小偷，因为他从他们那儿偷走了圣物。

随后，一个巫师说服国王相信她在撒谎，说她被某种邪灵附体，并承诺要为她“净化”，作为交换条件是娶她为妻。然后巫师用魔法让她变成一个成年女子，并把她带走。他把她关进地牢，但她有一枚可以许三个愿望的戒指。

由于被施了魔法，让她失去了逃跑的意志，她把前两个愿望浪费在了一些愚蠢的东西上，比如一块布或者一张床之类的……然后她好像逃出来了……并且耍了那个巫师一把……她后来还找到了一块可以生出水的石头……我记得还有人被变成青蛙……

整部电影发生在一个有点后末日设定的世界里，是一个古老魔法文明崩塌几百年之后的背景。如果有人知道这是什么电影，请告诉我。我一直在找这部电影，已经找了好久了。

[ 上下滑动查看更多 ]

Kimi-Researcher 就会根据给定的模糊信息进行检索，最终识别出该电影为《阿瑞特公主》，并一一找出该电影与剧情描述之间的对应关系。

此外，它还能进行学术研究、法律与政策分析、临床证据审查、企业财报分析等。

Kimi–Researcher 现已开始逐步向用户推出，可以在 Kimi 内实现对任意主题的深入、全面研究。月之暗面也计划在接下来的几个月内开源 Kimi–Researcher 所依赖的基础预训练模型及其强化学习模型。

端到端的智能体强化学习

Kimi–Researcher 是一个自主的智能体与思维模型，旨在通过多步规划、推理和工具使用来解决复杂问题。它利用了三个主要工具：一个并行的实时内部搜索工具；一个用于交互式网页任务的基于文本的浏览器工具；以及一个用于自动执行代码的编码工具。

传统 agent 开发存在以下几个关键限制：

基于工作流的系统：多智能体工作流将角色分配给特定智能体，并使用基于提示的工作流进行协调。虽然有效，但它们依赖于特定的语言模型版本，并且在模型或环境发生变化时需要频繁手动更新，从而限制了系统的可扩展性和灵活性。

带监督微调的模仿学习（SFT）：模仿学习能使模型很好地对齐人类演示，但在数据标注方面存在困难，尤其是在具有长时间跨度、动态环境中的智能体任务中。此外，SFT 数据集通常与特定工具版本强耦合，导致随着工具的演变，其泛化能力会下降。

端到端的智能体强化学习（agentic RL）训练的是一个能够整体性解决问题的单一模型：给定一个查询，智能体会探索大量可能的策略，通过获得正确解答的奖励进行学习，并从整个决策轨迹中总结经验。与监督微调（SFT）不同，端到端方法天然适应长程、基于当前策略的推理过程，并能动态适应工具与环境的变化；也不同于模块化方法，它将规划、感知、工具使用等能力融合在一个模型中统一学习，无需手工编写规则或工作流模板。

OpenAI 的 Deep Research 等先前研究也展示了这种方法的强大性能，但它也带来了新的挑战：

动态环境：即使面对相同的查询，环境结果也可能随时间发生变化，智能体必须具备适应不断变化条件的能力。目标是实现对分布变化的鲁棒泛化能力。
长程任务：Kimi–Researcher 每条轨迹可执行超过 70 次搜索查询，使用的上下文窗口长度甚至达数十万 token。这对模型的记忆管理能力以及长上下文处理能力提出了极高要求。
数据稀缺：高质量的用于智能体问答的强化学习数据集非常稀缺。该研究团队通过自动合成训练数据的方式解决这一问题，从而实现无需人工标注的大规模学习。
执行效率：多轮推理和频繁工具调用可能导致训练效率低下，GPU 资源利用不足。优化 rollout 效率是实现可扩展、实用的智能体强化学习训练的关键。

研究方法

Kimi–Researcher 是通过端到端的强化学习进行训练的。研究团队在多个任务领域中观察到了智能体性能的持续提升。图 2-a 展示了 Kimi–Researcher 在强化学习过程中整体训练准确率的变化趋势；图 2-b 则呈现了模型在若干内部数据集上的性能表现。

训练数据

为了解决高质量智能体数据集稀缺的问题，研究团队在训练语料的构建上采取了两种互补的策略。

首先，他们设计了一套具有挑战性的、以工具使用为核心的任务，旨在促进智能体对工具使用的深入学习。这些任务提示被刻意构造为必须调用特定工具才能解决 —— 从而使得简单的策略要么根本无法完成任务，要么效率极低。通过将工具依赖性融入任务设计中，智能体不仅学会了何时调用工具，也学会了在复杂的现实环境中如何高效协同使用多种工具。（图 3 展示了在这些训练数据中，模型对工具的调用频率。）

其次，他们策划并整合了一批以推理为核心的任务，旨在强化智能体的核心认知能力，以及其将推理与工具使用结合的能力。该部分进一步细分为以下两类：

数学与代码推理：任务聚焦于逻辑推理、算法问题求解和序列计算。Kimi–Researcher 不仅依赖思维链进行解题，还能结合工具集解决这类复杂问题。
高难度搜索：这类任务要求智能体在上下文限制下进行多轮搜索、信息整合与推理，最终得出有效答案。案例研究表明，这些高难搜索任务促使模型产生更深层的规划能力，以及更健壮、工具增强的推理策略。

为了大规模构建这一多样化提示集，研究团队开发了一条全自动数据生成与验证流程，可在极少人工干预下生成大量问答对，同时保证数据的多样性与准确性。对于合成任务而言，确保「准确的标准答案（ground truth, GT）」至关重要，因此他们引入了一种强大的 GT 提取方法，以尽可能确保每个问题都配有可靠的答案。

此外，他们还设计了严格的过滤流程，以剔除歧义、不严谨或无效的问答对；其中引入的 Pass@N 检查机制，可确保仅保留具有挑战性的问题。图 4 展示了基于两项实验结果的合成任务效果评估。

强化学习训练

该模型主要采用 REINFORCE 算法进行训练。以下因素有助于提升训练过程的稳定性：

基于当前策略的数据生成（On-policy Training）：生成严格的 on-policy 数据至关重要。在训练过程中，研究团队禁用了 LLM 引擎中的工具调用格式强制机制，确保每条轨迹完全基于模型自身的概率分布生成。
负样本控制（Negative Sample Control）：负样本会导致 token 概率下降，从而在训练中增加熵崩塌（entropy collapse）的风险。为应对这一问题，他们策略性地丢弃部分负样本，使模型能够在更长的训练周期中持续提升表现。

Kimi–Researcher 使用基于最终结果的奖励机制进行训练，以在动态训练环境中保持一致的偏好方向。

格式奖励（Format Reward）：如果轨迹中包含非法的工具调用，或上下文 / 迭代次数超出限制，模型将受到惩罚。
正确性奖励（Correctness Reward）：对于格式合法的轨迹，奖励依据模型输出与标准答案（ground truth）之间的匹配程度进行评估。

为了提升训练效率，研究团队在正确轨迹上引入了 gamma 衰减因子（gamma-decay factor）。该机制鼓励模型寻找更短、更高效的探索路径。例如，两条最终结果相同的正确轨迹，较短的那一条将因其前期行为更高效而获得更高奖励。

上下文管理

在长程研究任务中，智能体的观察上下文可能会迅速膨胀。如果没有有效的记忆管理机制，普通模型在不到 10 次迭代内就可能超过上下文限制。为了解决这一问题，研究团队设计了一套上下文管理机制，使模型能够保留关键信息，同时舍弃无用文档，从而将单条轨迹的迭代次数扩展至 50 次以上。

早期的消融实验表明，引入上下文管理机制的模型迭代次数平均提升了 30%，这使其能够获取更多信息，进而实现更优的任务表现。

大规模智能体RL infra

为应对大规模智能体强化学习在效率与稳定性方面的挑战，研究者构建了一套具备以下关键特性的基础设施体系：

完全异步的 rollout 系统：实现了一个具备扩展性、类 Gym 接口的全异步 rollout 系统。基于服务端架构，该系统能够高效并行协调智能体的轨迹生成、环境交互与奖励计算。相较于同步系统，这一设计通过消除资源空转时间显著提升了运行效率。
回合级局部回放（Turn-level Partial Rollout）：在 Agent RL 训练中，大多数任务可在早期阶段完成，但仍有一小部分任务需要大量迭代。为解决这一长尾问题，研究者设计了回合级局部回放机制。具体来说，超出时间预算的任务将被保存至 replay buffer，在后续迭代中以更新后的模型权重继续执行剩余部分。配合优化算法，该机制可实现显著的 rollout 加速（至少提升 1.5 倍）。
强大的沙盒环境：研究者构建了统一的沙盒架构，在保持任务隔离性的同时，消除了容器间通信开销。基于 Kubernetes 的混合云架构实现了零停机调度与动态资源分配。Agent 与工具之间通过 MCP（Model Context Protocol）进行通信，支持有状态会话与断线重连功能。该架构支持多副本部署，确保在生产环境中具备容错能力与高可用性。

智能体能力的涌现

在端到端强化学习过程中，研究者观察到 Kimi–Researcher 出现了一些值得关注的能力涌现。

面对多来源信息冲突时，Kimi–Researcher 能通过迭代假设修正与自我纠错机制来消除矛盾，逐步推导出一致且合理的结论。
展现出谨慎与严谨的行为模式：即便面对看似简单的问题，Kimi–Researcher也会主动进行额外搜索，并交叉验证信息后再作答，体现出高度可靠性与信息安全意识。

....

#DrSR (Dual Reasoning Symbolic Regression)

三个大模型合作，1000次迭代，竟能像人类科学家一样发现方程

随着 AI4Science 的浪潮席卷科研各领域，如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律，正成为该领域亟待突破的关键问题。

近日，中国科学院自动化研究所的研究人员提出了一种创新性框架 ——DrSR (Dual Reasoning Symbolic Regression)：通过数据分析与经验归纳 “双轮驱动”，赋予大模型像科学家一样 “分析数据、反思成败、优化模型” 的能力。

在 DrSR 中，三位 “虚拟科学家” 协同工作：

一个善于洞察变量关系的 “数据科学家”；

一个擅长总结失败教训与成功经验的 “理论科学家”；

一个勇于尝试假设、不断优化模型的 “实验科学家”。

这三种角色基于大模型构建起高效的协作机制，共同驱动 DrSR 实现智能化、系统化的科学方程发现。

在物理、生物、化学、材料等跨学科领域的典型建模任务中（如非线性振荡系统建模、微生物生长速率建模、化学反应动力学建模、材料应力 - 应变关系建模等），DrSR 展现出强大的泛化能力，刷新当前最优性能，成为 AI 助力科学研究的有力工具。

论文地址：https://arxiv.org/abs/2506.04282
论文标题：DrSR: LLM based Scientific Equation Discovery with Dual Reasoning from Data and Experience

研究背景

在科学发现和工程建模中，寻找数据背后的数学模型一直是一项核心任务。这正是符号回归（Symbolic Regression, SR）的目标 —— 从观测数据出发，自动生成解释性强、结构清晰的数学方程。

这种 “从数据中还原规律” 的能力，已在物理、化学、生物、材料等多个学科中发挥了巨大作用，成为人类理解复杂系统的重要工具。

随着大模型的兴起，符号回归正迈入一个 “类人推理” 的新阶段。例如，LLM-SR 等方法开始尝试用大模型直接生成公式骨架（skeleton），再配合优化器拟合参数，实现 “从提示词到方程” 的自动生成。这让符号回归从传统的遗传进化算法中解放出来，性能和表达能力双双提升。

但问题也随之而来，这些方法虽然 “公式写得快”，却往往 “不看数据”，更 “不记经验”。

模型生成公式靠的是大模型内嵌的科学知识，而非对当前实验数据的深入理解。

一旦某个公式生成失败，模型通常无法从失败中改进策略，只会机械地重复尝试，陷入 “盲猜” 或 “重走老路” 的困境。

结果就是：不是过拟合 “已有套路”，就是反复生成无效表达式，计算资源浪费严重，智能化程度受限。

为了解决这一难题，研究团队提出了全新框架 DrSR：让模型 “会看题”“会复盘”“会改进”—— 像科学家一样，从数据中洞察结构、从失败中总结经验、在生成中持续进化。

DrSR：让大模型 “有据可依、

步步为营” 地发现规律

DrSR 的核心理念是 “双路径推理”（Dual Reasoning）：通过引入 “数据洞察” 与 “经验总结” 两条信息流，为大模型提供结构引导与策略反馈，让其像科学家一样高效、稳健地进行探索。

DrSR 的两大关键机制包括：

数据驱动的洞察生成（Data-aware Insight Extraction）
经验驱动的策略总结（Inductive Idea Learning）

DrSR 的流程并不复杂，关键在于：让 LLM 在每一轮尝试中都 “看数据、学经验、再出手”，具体流程如图 1 所示。

图 1：DrSR 的双路径推理机制，让 LLM 在分析、生成、复盘三个环节协同工作，模拟科学家的研究思维

🔍 模块 a：从数据中提炼结构线索

数据分析模块由一个 “结构洞察型 LLM” 构成，它负责分析输入输出变量之间的映射关系，提取变量之间的耦合程度、单调性、线性 / 非线性趋势等结构特征。
DrSR 不只分析原始数据，还会根据上一轮候选方程的残差，进一步定位 “没拟合好” 的数据段，为后续方程生成提供更高质量的提示。

🧠 模块 b：从历史结果中总结成功经验

方程一旦生成，DrSR 不仅会进行拟合与打分，还会将结果分类为「效果更好」「效果变差」「无法执行」三类，并交由一个 “经验型 LLM” 进行分析，总结出可以重复利用的经验知识。

该模块会进行如下反思：

为什么这条方程效果更好 / 更坏 / 无法执行？
从这次方程的生成中，可以总结出什么经验或教训？

总结出的知识以 idea 的形式存入 idea 库（Idea Library），供后续轮次调用，提升生成策略的有效性。

🧮 模块 c：方程生成 + 数值拟合

DrSR 的 “主控型 LLM” 负责综合问题描述、数据分析结论和 idea 库的经验，生成方程 skeleton。随后调用 BFGS 等优化器进行系数拟合，并评估方程的整体误差。表达式被送回评估路径，进入下一轮经验提炼与数据再分析循环。

这个模块是整个 DrSR 的 “前台”，而 a 与 b 是强大的 “后端支持”。

总结来说，DrSR 的运行流程是一种闭环：

数据分析 → 提示引导 → 方程生成 → 评估打分 → 经验总结，如此循环。每一次生成，模型都在积累知识、修正路径，从 “盲目试探” 走向 “有的放矢”。

实验结果：DrSR 不仅 “更准”，

还 “更快、更稳、更聪明”

研究团队在六大符号回归基准任务上系统评估了 DrSR 的性能，涵盖物理、生物、化学、材料等多个科学领域，结果显示 DrSR 全面超越现有主流方法，不仅准确率更高，而且在推理效率和泛化能力上也显著领先。

📊 全面领先的拟合精度与准确率

表 1. DrSR 和基线方法在六个符号回归基准上的总体性能

如表 1 所示，平均来看，DrSR 在 6 个任务中有 5 个取得了最高准确率（Acc）和最低归一化均方误差（NMSE）。特别地，DrSR 在非线性阻尼振荡系统建模任务（Oscillation 2）上达成了近乎完美的 99.94% 准确率，误差低至 1.8e-12，显著优于所有基线方法。

🔁 快速收敛：从一开始就更聪明

图 2. 训练收敛性比较

从图 2 可以看到，DrSR 在几乎所有数据集上都以更快速度达到更低的误差。在初期迭代阶段，其误差下降趋势也更稳定，不容易陷入振荡或卡顿，这说明 DrSR 的双推理策略能更有效引导方程生成方向，从而减少无效尝试次数。

✅ 有效率更高：生成的方程更 “靠谱”

图 3. 有效解比例对比

如图 3 所示，DrSR 生成的方程在语法、编译、可求值等方面的有效比例普遍高于 LLM-SR 约 10%-20%，这背后正是 “经验学习” 机制的作用 —— 模型逐步避开常见失败结构。

📈 泛化更强，且对噪声和 OOD 更鲁棒

图 4. 在 ID 和 OOD 数据下跨科学领域的泛化对比

图 4 展示了 DrSR 在 ID（域内）与 OOD（域外）数据下的性能对比。可以看到：在所有任务、所有设置下，DrSR 的归一化均方误差（NMSE）始终是最低的，展现出极强的模型稳定性。其他方法（如 PySR 或 uDSR）虽然在部分任务中 ID 表现尚可，但面对 OOD 分布时误差陡升、性能骤降，而 DrSR 则表现出了 “跨场景保持鲁棒” 的能力。

表 2. 不同高斯噪声水平下的性能比较

如表 2 所示，在不同高斯噪声水平下，DrSR 均显著优于 LLM-SR，展现出抗噪、抗漂移的泛化优势。

🧪 消融实验：两个核心机制 “缺一不可”

图 5. 消融实验

图 5 的消融实验也验证了两个核心机制的重要性：没有结构引导，模型不知从何生成；没有经验总结，模型容易反复试错。DrSR 的成功，正是这两者闭环协同的结果。

案例展示：DrSR 如何一步步逼近 “真实方程”

为了更直观地展示 DrSR 的 “类科学家” 建模过程，研究团队以非线性阻尼振荡系统建模任务为例，绘制了其在 1000 次迭代过程中的方程演化轨迹，如图 6 所示。

图 6. DrSR 的性能轨迹与代表性表达式演化，每一个台阶，都是模型一次深刻的 “认知飞跃”

该任务的真实方程为：

DrSR 在仅 1000 轮迭代后生成的最优方程为：

基线 LLM-SR 在 2000 轮迭代后生成的最优方程为：

可以看到：DrSR 用一半的迭代次数，就生成了更接近真实结构的表达式，充分体现其 “有方向感” 的探索能力。

这一案例也展现出 DrSR 独特的三大智能行为：

初期：大胆探索，快速淘汰

在前几十轮中，DrSR 尝试了一系列初步构造的方程，例如仅包含多项式组合的表达式（如 -0.5xv - 0.04x² - 0.24v² 等），尽管形式接近，但精度仍远未达到理想值。此阶段模型更像一个 “实验科学家”，快速试错、积累经验。

中期：融合非线性成分，跨越式发展

随着经验的积累与数据结构的洞察引入，DrSR 开始生成带有 sin (x)、x²v 等非线性物理元素的表达式，方程拟合误差明显下降近两个数量级，说明模型已开始理解系统的振荡性本质。此时，它如同一个 “理论科学家”，开始用正确的符号结构组织规律。

后期：精炼组合，逼近真实动力学

最终，DrSR 提出了形如 0.8sin (x) - 0.5xv - 0.5v³ - 0.2x³ 的复杂但精确表达式，误差降至 10^-5 级别，接近人类解析解。这一过程高度模拟了科学发现中的 “假设 - 验证 - 归纳” 的迭代式建模模式。

这个案例生动说明了 DrSR 如何结合 “结构洞察 + 经验引导” 两种智慧，逐步收敛到准确又可解释的科学方程。

总结：让大模型更像科学家，科学智能迈出关键一步

DrSR 提出了一种融合数据感知与经验反思的符号回归新范式，它通过结构洞察指导生成方向，通过经验总结提升推理质量，让大模型在科学建模中逐步具备 “看数据、记教训、会修正” 的能力。

在多个跨学科的符号回归任务中，DrSR 实现了对传统方法与现有 LLM 基线的全方位超越，在准确率、收敛速度、方程有效性和泛化能力等维度表现突出。作为一套通用性强、可解释性好、建模效率高的新架构，DrSR 为人工智能深度参与科学发现提供了坚实技术支撑。

DrSR 已集成至一站式智能科研平台 ScienceOne，为科研工作者提供高效、可解释的科学建模服务。值得强调的是，DrSR 并不依赖特定的大模型，具备良好的模型兼容性和可扩展性。未来，研究团队将基于平台自研的科学基础大模型 S1-Base，进一步增强 DrSR 在科学建模中的推理能力与跨任务泛化能力。

局限与展望

尽管 DrSR 展现出优异的建模性能与类科学家的推理能力，但仍存在若干值得改进的方面：

输出波动：由于大模型生成本身具有随机性，部分方程可能存在结构冗余、表达复杂等问题，仍需人工后处理或规则约束。
模态输入有限：DrSR 目前主要面向结构化数值数据，尚未支持图像、图表等更丰富的科学输入形式，制约了其多模态建模能力。

这些问题正是未来演进的关键方向。研究团队计划继续扩展 DrSR 至多模态科学建模场景，引入持续学习机制，提升策略泛化能力，逐步构建一个具备长期认知积累、适应科学复杂性的智能建模引擎。

让人工智能不仅能 “拟合数据”，更能 “发掘自然规律”，这正是 AI4Science 走向深层科学智能的必由之路。

....

#MinMax-M1

超越DeepSeek，支持百万级token上下文

主要贡献

1.高效混合架构设计：结合MoE架构与Lightning Attention）的模型MiniMax-M1，支持百万级上下文窗口（1M tokens），生成长度达80K tokens时FLOPs仅为传统注意力模型的25%。
2.超越DAPO的算法CISPO：通过剪裁重要性采样权重提升RL效率，相比DAPO实现2倍加速，避免了传统方法（如PPO/GRPO）对低概率token有更好的采样效果。
3.可扩展上下文：支持从40K到80K Token生成长度的扩展。

当前面临的挑战

1.计算精度偏移：训练与推理阶段的计算精度差异导致Token概率偏移，需将LM头部输出精度提升至FP32以对齐概率分布。

2.长生成稳定性问题：长文本响应容易出现输出不稳定，被截断的问题。
3.奖励模型不稳定：奖励模型对长文本的偏好可能误导RL训练，需要在线校准机制。

核心方法

1.混合注意力架构

Lighting Attention:
采用I/O感知的线性注意力计算，通过分块计算和内存优化，将长序列复杂度从到
每7层Lightning Attention后插入1层Softmax Attention，平衡局部与全局信息。

2.CISPO算法：

重要性采样权重裁剪：

其中，保留所有token梯度。

动态掩码机制：通过超参数控制梯度保留范围，兼容PPO信任域策略：

优势:保留所有Token的梯度贡献，避免PPO/DAPO对关键低概率Token的奖励得分偏低。

3.分阶段RL：

分阶段RL数据混合：从规则验证任务（数学、代码）逐步过渡到通用领域任务，避免灾难性遗忘。
上下文长度渐进扩展：从40K分阶段扩展至80K，根据困惑度与生成长度分布调整窗口。

4.持续预训练与SFT优化

预训练增强：在7.5T token上扩展STEM、代码数据占比至70%，采用语义去重和分层上下文扩展（32K→1M token）。
监督微调：注入长链式思考模式，数学/编程数据占SFT数据的60%，为RL提供高质量起点。

实验

AIME 2024准确率86.0%（开源模型第二），MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5

AIME 2024 上 GRPO、DAPO 和 CISPO 的比较

参考

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

....

#技术圈热议的π0/π0.5/A0

最近很多同学询问π0、π0.5、A0都是啥？用在什么地方？能实现哪些功能？方法论有啥不同？前面刚开始听到这些，也一头雾水，今天为大家梳理下。

π₀模型结构

原文：π0: A Vision-Language-Action Flow Model for General Robot Control

π₀的核心架构基于 预训练视觉语言模型（VLM） 和 Flow Matching 技术，具体包含以下关键组件：

VLM backbone

基于 PaliGemma VLM，继承互联网规模的语义知识和视觉理解能力。
融合多模态输入：通过图像编码器处理机器人视觉输入，语言编码器解析指令， proprioceptive state 编码器处理关节角度等物理状态。

动作专家（Action Expert）

独立于 VLM 的子网络（3 亿参数），负责将 VLM 输出转换为连续动作。
采用流匹配技术（扩散模型变体），通过噪声添加与去噪过程生成高频率动作序列（最高 50Hz），适合精细操作。

跨xx训练（Cross-Embodiment Training）

整合 7 种机器人、68 项任务、超 10,000 小时数据（含开源 OXE 数据集），通过权重调整处理不同机器人的动作空间差异（如零填充低维动作向量）。

训练流程

预训练阶段：使用多样化数据（含低质量但广泛的任务）赋予模型泛化能力。
后训练阶段：通过高质量定制数据微调，优化复杂任务（如叠衣服）的执行流畅度。

π₀优势与功能

零样本直接执行任务

通过语言提示（如 “fold shirt”）直接控制机器人，无需额外微调，适用于预训练中覆盖的任务。

复杂任务多阶段微调

支持多阶段任务分解，如叠衣服需 “从烘干机取衣物→放入洗衣篮→折叠→堆叠”，通过后训练优化每一步骤。

语言指令跟随与高层策略集成

结合高层 VLM 策略，将复杂任务（如 “bus the table”）分解为子任务（“pick up the napkin”→“throw into trash”），提升语义理解与任务规划能力。

高频率精细操作

利用流匹配生成连续动作，支持 50Hz 控制频率，适用于需要高精度的操作（如折叠衣物、组装盒子）。

跨机器人泛化

单模型适配多种机器人形态，无需为每种机器人单独训练，降低部署成本。

π₀性能分析

开箱即用性能（Out-of-Box Evaluation）

在衬衫折叠、餐桌清理（难易版本）、杂货装袋等任务中，π₀的平均任务完成度显著高于基线模型（如 OpenVLA、Octo）。例如：

衬衫折叠：成功率接近 100%，远超 OpenVLA（UR5e 单臂场景）。
复杂清理（Bussing Hard）：正确分类物体数量比 Octo 高 40%。

语言指令跟随准确率

在餐桌清理、摆桌、杂货装袋任务中，π₀跟随人类或高层 VLM 指令的准确率比无 VLM 初始化的 π₀-small 高 20%-30%。

微调效率与新任务学习

对于预训练中类似的任务（如叠毛巾、叠碗），使用 1-5 小时数据微调即可达到高成功率；对于全新任务（如微波炉放容器、纸巾更换），预训练模型比从头训练性能提升 2 倍。

复杂多阶段任务表现

在叠衣服（含移动机器人场景）、盒子组装、鸡蛋装箱等任务中，π₀通过 “预训练 + 微调” 流程实现平均 60%-80% 的任务完成度，而从头训练（Scratch）或仅预训练（Out-of-Box）的表现显著更差。

π0.5模型结构

原文：π0.5: a Vision-Language-Action Model with Open-World Generalization

π0.5 采用双阶段训练框架和分层架构，实现从多源数据中学习并泛化到新环境的能力：

整体架构设计

核心框架：基于 Transformer 的视觉 - 语言 - 动作（VLA）模型，将图像、语言指令、动作等多模态输入编码为统一序列，通过自回归预测实现决策。
分层推理机制

高级语义子任务预测：根据全局任务（如 “清洁厨房”）推断下一步子任务（如 “拿起盘子”）。
低级动作生成：基于子任务输出连续动作（如机械臂轨迹），采用流匹配（Flow Matching）技术优化动作连续性。

动作表示融合：结合离散标记（FAST tokenizer）和连续表示（流匹配），预训练阶段使用离散标记提升效率，后训练阶段引入动作专家生成连续动作。

训练阶段划分

预训练阶段：

数据来源：400 小时移动机器人数据、非移动机器人数据、实验室跨实体数据、网页多模态数据（图像字幕、VQA、物体定位）。
目标：通过异构数据（97.6% 非移动机器人数据）学习通用语义和视觉理解能力。

后训练阶段：
数据聚焦：筛选成功的移动操作数据，加入人类语言指令示范（VI）。
技术优化：引入动作专家模块，通过流匹配优化动作生成，提升实时控制效率。

关键组件

注意力机制：图像、语言、动作令牌采用双向注意力，确保多模态信息交互；动作专家与主模型单向通信，避免信息泄露。
多模态编码器：视觉输入通过 SigLIP（400M 参数）处理，语言部分基于 Gemma（2.6B 参数）预训练模型，动作通过 FAST tokenizer 压缩为离散标记。

π0.5优势与功能

π0.5 在 “盘子入水槽”“衣物入篮” 等任务中成功率比 π0 高 25%-40%。离散 - 连续动作混合训练（FAST + 流匹配）比纯扩散模型（π0）更高效，训练速度提升 3 倍。

π0.5 通过数据多样性和架构创新，解决传统 VLA 模型泛化局限：

异构数据驱动的泛化：利用机器人数据（移动 / 非移动）、网页知识、人类指令等多源信息，实现 “从未见场景中的任务执行”。

长时程任务处理能力：通过分层推理（子任务→动作），分解复杂目标为可执行步骤，支持 10 分钟以上连续操作。

零样本语义理解：基于网页数据预训练，理解未见过物体的语义（如 “识别烤面包机并放入橱柜”）。

关键功能

多场景适应性：

移动机器人：在厨房、卧室等家庭环境中执行清洁、整理任务。
跨实体迁移：从静态机械臂数据学习抓取策略，迁移至移动平台。
人机交互增强：

接受自然语言指令（如 “清理洒出的牛奶”），并生成对应的子任务序列。
通过人类语言示范（VI）优化高级子任务预测，提升指令跟随准确性。

鲁棒性与容错性：
部分可观测场景下的推理（如遮挡物体的定位），通过语义知识弥补视觉缺失。
动态环境适应（如未对齐的抽屉、不同高度的台面）。

技术突破

首次实现：端到端学习的机器人系统在完全陌生家庭中执行长时程、高难度操作（如 “制作床铺”“悬挂毛巾”）。

数据效率：仅用 400 小时移动机器人数据（占总训练数据 2.4%），通过异构数据迁移实现强泛化，突破传统模型对大规模专属数据的依赖。

π0.5 通过 “数据多样性 + 分层推理 + 跨模态迁移” 的设计，为机器人在开放世界中的实用化迈出关键一步。其核心价值在于证明：通过融合机器人实操数据、网页知识及人类指令，VLA 模型可突破实验室局限，在真实家庭环境中执行复杂任务。未来可进一步拓展至更多场景（如服务机器人、工业自动化），并通过更大规模数据和更先进的注意力机制提升泛化能力。

π0.5性能分析

π0.5 在新环境任务执行、数据规模影响及组件重要性方面展现显著优势：

真实环境任务表现

场景：在 3 个未训练过的真实家庭中执行厨房 / 卧室清洁任务（如 “将餐具放入水槽”“整理床铺”）。
结果：

多阶段任务成功率达 60%-88%，任务时长 10-15 分钟（如清理整个厨房）。
典型案例：Home 1 中 “将物品放入抽屉” 任务，模型自主分解为 “拉开抽屉→拿起夹子→放入抽屉” 等子步骤，成功率 88%。

训练数据规模与泛化关系

实验设置：vary 移动操作数据的环境数量（3-104 个位置），评估在模拟 / 真实环境中的表现。

关键发现：

随训练环境增加，任务性能持续提升（如 “整理床铺” 成功率从 30% 升至 80%）。
当使用 104 个训练位置时，模型性能接近直接在测试环境训练的基线（差距 < 5%），证明异构数据迁移的有效性。

消融实验：数据源重要性

跨实体数据（ME/CE）：移除后任务性能下降 20%-30%，尤其影响复杂操作（如 “挂毛巾”）。
网页数据（WD）：对未知物体泛化至关重要，移除后 “处理未见过物品” 成功率从 60% 降至 30%。
高级子任务数据（HL）：显式子任务推理提升长时程任务规划能力，移除后 “多阶段任务” 成功率下降 15%-25%。

A0模型结构

结构如上图所述，A0采用分层架构设计：

高层空间 Affordance 理解：借助扩散模型（DiT）预测以物体为中心的接触点和接触后轨迹，采用 Embodiment-Agnostic Affordance Representation，将任务指令、图像特征与空间坐标映射结合。

低层动作执行：通过 2D 到 3D 投影、抓取姿态估计和轨迹生成，把预测的 2D 关键点转化为机器人可执行的 SE (3) 空间动作。

核心组件

Position Offset Attention：提取物体运动特征，增强模型对动态信息的捕捉能力。

Spatial Information Aggregation Layer：实现精确的坐标映射，提升复杂场景下的定位精度。

预训练与微调策略：先在 100 万接触点数据集上预训练，再在标注轨迹数据上微调，增强模型的泛化能力。

A0优势与功能

核心优势：

跨平台泛化能力：Embodiment-Agnostic 设计使其能在 Franka、Kinova、Realman、Dobot 等多种机器人平台上无缝部署。
高效的空间推理：通过接触点和轨迹预测，避免了密集空间表示的高计算成本，提升了处理复杂任务的效率。
数据利用效率：预训练结合微调的方式，只需少量任务特定数据即可适应新场景，降低了数据标注成本。

核心功能：

复杂任务处理：可完成擦黑板、物体放置、开抽屉等需要空间推理的任务。
多源数据整合：融合真实机器人数据、人类物体交互数据和互联网数据，构建统一的 Affordance 表示。

A0性能分析

定量结果：

Franka 机器人：平均成功率 62.5%，其中开抽屉任务成功率 75%，擦黑板任务成功率 45%。
Kinova 机器人：平均成功率 53.75%，在轨迹跟踪任务（如擦黑板）上优势明显，成功率比基线方法高 20%。

对比实验：

与 2D Affordance 方法对比：在擦黑板等轨迹任务上，成功率比 MOKA 高 15%-20%，比 ReKep 高约 20%。
与 VLA 方法对比：在 Kinova 平台的擦黑板任务中，A₀成功率 50%，远超 RDT-1B（10%）和 π₀（35%），且执行步骤仅为后者的 1/8-1/10。

....

#ChatGPT将来要做的，大家就绕开吧

Sam Altman提醒创业者

Y Combinator 最近在旧金山举办的 AI Startup School 活动，邀请了大量 AI 领域最具影响力的创始人和专家进行现场对谈和演讲，之前 Andrej Karpathy 在活动上的演讲视频爆火，现在 OpenAI CEO Sam Altman 的最新采访也已上线。

视频地址：https://www.youtube.com/watch?v=V979Wd1gmTU

在本次采访中，Altman 深入复盘了从早期创业艰辛到缔造 OpenAI 的完整历程。他不仅分享了对雄心、责任及全球瞩目下如何前行的思考，还就早期关键决策、未来技术机遇、产品形态及个人领导哲学等话题，给出了深刻洞见。

这次对话为我们理解 AI 的当下与未来，以及其背后核心驱动者的思考，提供了一个直接且全面的视角。

我们将访谈内容总结为以下这些关键问题，在不改变原意的情况下使读者以更清晰的结构了解访谈内容。

行业未来会怎样

AI 的演进从未停止，交互的形态也必将迭代。Sam Altman 在此描绘了一幅激动人心的技术路线图，预言了 AI 从问答工具到全天候智能体的进化。

他不仅展望了 GPT-5 及后续模型的集成化、多模态能力，更探讨了这种进化对整个软件行业和实体世界的颠覆性影响 ——「即时软件」的出现和机器人时代的到来。

AI 的未来交互形态是怎样的？GPT-5 及以后的愿景是什么？

答： AI 将从被动的问答工具，进化为主动的、持续运行的智能体。它会了解你、连接你所有数据，并主动为你完成任务。最终的愿景是一个完全多模态的集成模型，能深度推理、实时生成视频、即时编写代码，让计算机界面近乎「消失」，变得无感。

未来软件行业会发生什么变化？

答：会出现「即时软件」（Instant Software）。未来，LLM 就是交互界面，它可以根据你的业务逻辑和数据，在你需要时即时生成一个应用。这对传统 SaaS 是颠覆，但对能快速迭代的初创公司是巨大机会，因为行业周期变化越剧烈，初创公司越容易胜出。

电影《Her》(2013)。Altman 构想中的「即时应用」时代。

您如何看待机器人的未来？

答：机器人时代很快会到来。我们的策略是先把认知（AI）的部分做到极致，再连接到机器人上。当拥有视觉、语音和推理能力的 AI 与机器人结合，它们将开始做非常有用的工作。我期待有一天，当你订阅最高级的 ChatGPT 时，我们会免费送你一个机器人。

宏大愿景

超越具体的产品和技术，驱动 Sam Altman 前行的终极动力是什么？这一部分探讨了他对未来 10-20 年的宏大构想。

您对未来 10-20 年最兴奋的是什么？

答：人工智能用于科学发现。这是驱动所有长期经济增长和生活改善的根本。如果我们能用 AI 大幅加速新科学的发现速度，它带来的复合增长将为世界带来奇迹。

您认为驱动未来社会进步的核心杠杆是什么？

答：是「智能」（Intelligence）和「能源」（Energy）。这两者是实现一个「彻底富足」的未来的关键。我痴迷于这两件事，它们将共同让未来变得截然不同且更加美好。

您如何看待我们当前的数字生活？这如何激发您对新界面的思考？

答：我感觉现在用手机就像在时代广场被人推来撞去，充满了通知和弹窗，这让人感到压力。我期待一种电脑大部分会「消失」的界面，它会主动判断何时不打扰我、何时代表我行动，而不是用无数信息来轰炸我。

现在该做什么

如果说上一部分是关于「明天」，这一部分则完全聚焦于「当下」。在技术能力远超产品应用的「大缺口」时代，机会与焦虑并存。

对于每一个身处其中的创业者和开发者而言，最核心的问题是：如何找到自己的位置？Sam Altman 给出了他最直接的战术建议。

对于创业者来说，现在最大的机会是什么？

答：抓住「产品与能力」的巨大缺口。当前 AI 模型的能力，已经远远超过了现有产品的形态，存在巨大的创新空间。加上 API 成本正在急剧下降，强大的开源模型也即将普及，现在是利用 AI 这个「新元素」去创业的最佳时机。

创业公司如何建立不被 OpenAI 碾压的防御性？

答：首先，不要去构建一个 ChatGPT 的翻版。其次，不要去做人人都在做的热门方向。最持久的公司通常都始于一个独特的领域，这让你有时间窗口去打造出色的产品。防御性是逐步建立的：一开始靠「唯一好用的产品」，然后靠品牌，再然后靠「记忆」这类网络效应。

创业公司应该从一开始就追求 OpenAI 的规模吗？

答：不。所有伟大的公司都始于微时，OpenAI 最初也只有几个人。重要的是梦想可以变得宏大，但行动上要选择一个潜力巨大的市场，然后一步一个脚印地前进，而不是一开始就追求规模。

未来十年，AI 将如何改变个人或小团队的工作方式？

答： AI 将带来巨大的个人杠杆效应。一个拥有强大 AI 工具的个人或小团队，将能完成以往需要庞大组织协调才能完成的事情。因为技术极大地降低了人与人之间的协调成本，我们将看到由极少数人创造出的、在质量和数量上都极其惊人的产品与成果。

HuggingFace CEO 的贴文似乎印证了这句话。

OpenAI 未来将如何具体地支持生态中的初创公司，而不仅仅是与他们竞争？

答：我们希望成为一个平台。未来，你可以想象我们推出像「用 OpenAI/ChatGPT 登录」这样的功能。用户将可以带着他们经过「记忆」功能等个性化后的模型，轻松地授权并连接到新的初创公司应用中。这将极大赋能开发者，并帮助初创公司获取拥有个性化 AI 的用户。

个人理念

所有伟大的事业都源于人的选择与坚持。访谈过程中 Sam Altman 还分享了他个人最核心的理念与感悟。

创办 OpenAI 最关键的决定是什么？

答：就是「决定去做」这件事本身。追求通用人工智能（AGI）在当时听起来极其疯狂，有无数理由可以放弃。但正是这个独特、宏大且「逆向」的使命，吸引了世界上最顶尖的人才。当你在做一件别人都在做的事情时，很难凝聚人心；而当你致力于一项独一无二的事业时，你就会拥有最强的顺风。

在招聘人才方面，您最重要的原则是什么？

答：「招人看斜率，而不是 Y 轴截距」。这意味着要看一个人的成长潜力，而不是他当前光鲜的履历。在早期，我宁愿选择一个年轻、有闯劲、能把事情做成的人，而不是一个经验丰富、履历完美的管理者。

对于创业者，您最重要的建议是什么？

答：培养信念和长期的韧性。坚持做你相信的事非常困难，尤其会面对你尊敬的人的否定。创业的好处和坏处都远超你的想象，你必须学会如何在这种极端的压力下坚持下去，不断跌倒，不断爬起来。

....

#从RLHF、PPO到GRPO再训练推理模型

这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

近日，Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth（用于微调模型的同名开源项目 GitHub 星数已超过 4 万）发布了一个强化学习教程，其中从吃豆人谈起，简单易懂地从 RLHF、PPO 介绍到 GRPO，还分享了如何用 GRPO 训练推理模型的技巧。

原文地址：https://docs.unsloth.ai/basics/reinforcement-learning-guide

开源项目：https://github.com/unslothai/unsloth

全面了解强化学习以及如何使用 GRPO 训练你自己的推理模型。这是一份从初学者到高级的完整指南。

🦥你将学到什么

什么是强化学习 (RL)？RLVR？PPO？GRPO？RLHF？RFT？对于强化学习来说，运气 is All You Need?
什么是环境？agent？动作？奖励函数？奖励？

本文涵盖了你需要了解的关于 GRPO、强化学习 (RL) 和奖励函数的所有内容 —— 从初学者到高级，还有基于 Unsloth 使用 GRPO 的基础知识。

如果你正需要学习如何一步步实现 GRPO，这份指南值得一读。

❓什么是强化学习 (RL)？

强化学习的目标是：

增加获得「好」结果的几率。
降低出现「坏」结果的几率。

就这么简单！「好」和「坏」的含义错综复杂，「增加」和「降低」也许斟酌，甚至「结果」的含义也各不相同。

举个例子，在吃豆人（Pacman）游戏中：

环境就是游戏世界。
动作包括向上、向左、向右和向下。
如果你吃掉一块饼干，奖励是好的；如果你碰到敌人，奖励是坏的。

在强化学习中，你无法知道自己可以采取的「最佳动作」，但你可以观察中间步骤，或者最终的游戏状态（胜或负）。

再来个例子，假设你被问到这个问题：「What is 2 + 2?」 (4)

一个未对齐的语言模型会输出 3、4、C、D、-10 等等各种乱七八糟的答案。

数字总比 C 或 D 好，对吧？
得到 3 总比得到 8 好，对吧？
得到 4 绝对没错！

其实，我们刚刚就设计出了一个奖励函数！

🏃从 RLHF、PPO 到 GRPO 和 RLVR

OpenAI 让 RLHF（基于人类反馈的强化学习）的概念变得人尽皆知。在该方法中，我们需要训练一个 agent 来针对某个问题（状态）生成人类认为更有用的输出。

例如，ChatGPT 中的👍和👎符号就可以用于 RLHF 过程。

为了实现 RLHF，PPO（近端策略优化）被开发了出来。

在这种情况下，agent 就是语言模型。事实上，它由三个系统组成：

生成策略（当前被训练模型）
参考策略（原始模型）
价值模型（平均奖励估算器）

我们使用奖励模型来计算当前环境的奖励，而我们的目标就是最大化奖励！

PPO 的公式看起来相当复杂，因为它的设计初衷是保持稳定性。

PPO 公式

DeepSeek 开发了 GRPO（组相对策略优化）来训练他们的推理模型。它与 PPO 的主要区别在于：

移除了价值模型，取而代之的是多次调用奖励模型的统计数据。
移除了奖励模型，取而代之的是自定义奖励函数，RLVR 可以使用该函数。

这意味着 GRPO 非常高效。以前 PPO 需要训练多个模型 —— 现在移除了奖励模型和价值模型，便可以节省内存并加快速度。

RLVR（可验证奖励的强化学习）允许我们根据易于验证解答的任务来奖励模型。例如：

数学等式可以轻松验证，如 2+2 = 4。
代码输出可以验证是否正确执行。
设计可验证的奖励函数可能很困难，因此大多数示例都与数学或代码相关。
GRPO 的用例不仅限于代码或数学 —— 它的推理过程可以增强电子邮件自动化、数据库检索、法律和医学等任务，并根据数据集和奖励函数显著提高准确性 —— 诀窍在于定义一个规则 —— 即一系列较小的可验证奖励，而不是最终的单一奖励。例如，OpenAI 也在其强化学习微调 (RFT) 中用到了这一点。

为什么使用「组相对」？

GRPO 完全移除了价值模型，但我们仍然需要根据当前状态估算「平均奖励」。

诀窍在于对 LLM 进行采样！然后，我们通过统计多个不同问题的采样过程来计算平均奖励。

例如，对于「What is 2 + 2?」，我们采样 4 次。我们可能得到 4、3、D、C。然后，我们计算每个答案的奖励，计算平均奖励和标准差，最后用 Z 分数进行标准化！

这就产生了优势 A，我们将用它来替代价值模型。这可以节省大量内存！

GRPO 优势计算

🤞运气（耐心） Is All You Need

强化学习的诀窍在于你只需要两样东西：

一个问题或指令，例如「What is 2+2?」「用 Python 创建一个 Flappy Bird 游戏」
一个奖励函数和一个验证器，用于验证输出是好是坏。

仅凭这两个，我们基本上可以无限次调用语言模型，直到得到一个好的答案。例如，对于「What is 2+2?」，一个未经训练的糟糕模型语言模型可能会输出：

0、cat、-10、1928、3、A、B、122、17、182、172、A、C、BAHS、%$、#、9、-192、12.31，然后突然变为 4。

奖励信号为 0、0、0、0、0、0、0、0、0、0、0、0、0、0、0，然后突然变为 1。

因此，RL 凭借运气和偶然性，在多次迭代中找到了正确答案。我们的目标是让好答案（4）出现的次数更多，其余（坏答案）出现的次数更少。

因此，RL 的目标是耐心 —— 在极限情况下，只要正确答案的概率至少有一点（不为零），那么就只是一场等待的游戏 —— 你一定会在极限情况下 100% 找到正确答案。

所以我喜欢称之为针对强化学习的「运气 Is All You Need」。

其实，更好的说法是针对强化学习的「耐心 is All You Need」。

本质上，强化学习提供了一种技巧 —— 与其简单地等待无限，不如在实实在在地收到「坏信号」（即坏答案）时去「引导」模型尝试不生成坏答案。这意味着，尽管你可能等待了很长时间才出现一个「好」答案，但模型其实已经在尽力调整，尽量不输出坏答案。

在「What is 2+2?」这个例子中，先出现了 0、cat、-10、1928、3、A、B、122、17、182、172、A、C、BAHS、%$、#、9、-192、12.31，然后突然出现了 4。

由于我们得到了坏答案，强化学习会影响模型，使其尝试不输出坏答案。这意味着随着时间的推移，我们会仔细地「修剪」或移动模型的输出分布，使其远离错误答案。这意味着强化学习并非低效，因为我们并非只是等待无限，而是积极地尝试「推动」模型尽可能地向「正确答案空间」靠拢。

注：如果概率始终为 0，那么强化学习就永远不会奏效。这也是为什么人们喜欢基于已经过指令微调的模型进行强化学习的原因，因为这样的模型已经可以相当好地部分执行指令 —— 这很可能将概率提升到 0 以上。

🦥Unsloth 能为强化学习提供什么？

Unsloth 配备 15GB 显存，支持将参数最多 17B 的任何模型（例如 Llama 3.1 (8B)、Phi-4 (14B)、Mistral (7B) 或 Qwen2.5 (7B)）转换为推理模型。
最低要求：只需 5GB 显存即可在本地训练你自己的推理模型（适用于任何参数不超过 1.5B 的模型）。

这里给出了一个基于 Unsloth 使用 GRPO 训练自己的推理模型的详细教程，感兴趣的读者可以参考实验：

https://docs.unsloth.ai/basics/reinforcement-learning-guide/tutorial-train-your-own-reasoning-model-with-grpo

GRPO 是如何训练模型的？

对于每个问答对，模型会生成多种可能的答案（比如，8 种变体）。
使用奖励函数对每个答案进行评估。
训练步数：如果有 300 行数据，则需要 300 个训练步骤（如果训练 3 个 epoch，则需要 900 个训练步骤）。也可以增加每个问题生成的答案数量（例如，从 8 个增加到 16 个）。
该模型的学习方式是在每一步对权重进行更新。

这里有一些示例笔记本：

https://docs.unsloth.ai/get-started/unsloth-notebooks#grpo-reasoning-notebooks

基础知识/技巧

Unsloth 还分享了一些他们积累的心得：

等待至少 300 步，奖励才会真正增加。为了获得不错的结果，你可能需要至少等待 12 小时（这是 GRPO 的工作原理），但请记住，这不是强制性的，你可以随时停止。
为获得最佳效果，至少需要 500 行数据。你甚至可以尝试 10 行数据，但使用更多数据会更好。
每次训练运行都会有所不同，具体取决于你的模型、数据、奖励函数 / 验证器等。因此，虽然前面说最低训练步数是 300 步，但有时可能需要 1000 步或更多。所以，这取决于各种因素。
如果你在本地使用 GRPO 和 Unsloth，如果出现错误，可以「pip install diffusers」。请使用最新版本的 vLLM。
建议将 GRPO 应用于参数至少为 1.5B 的模型，以便正确生成思考 token，因为较小的模型可能无法做到。
对于 QLoRA 4-bit 的 GRPO GPU VRAM 要求，一般规则是模型参数 = 你需要的 VRAM 数量（你可以使用更少的 VRAM，但还是这样更好）。你设置的上下文长度越长，VRAM 就越多。LoRA 16-bit 至少会使用 4 倍以上的 VRAM。
可以持续微调，并且你可以让 GRPO 在后台运行。
示例笔记本使用的数据集是 GSM8K，这是目前 R1 风格训练最流行的选择。
如果你使用的是基础模型，请确保你拥有聊天模板。
使用 GRPO 训练的次数越多越好。GRPO 最大的优点是你甚至不需要那么多数据。你只需要一个优秀的奖励函数 / 验证器，并且训练时间越长，你的模型就会越好。随着时间的推移，你的奖励与步长的比率预计会像这样增加：

Unsloth 现已内置了 GRPO 的训练损失跟踪，无需使用 wandb 等外部工具。它现在包含所有奖励函数的完整日志详细信息，包括总聚合奖励函数本身。

📋奖励函数 / 验证器

在强化学习中，奖励函数和验证器在评估模型输出方面发挥着不同的作用。一般来说，你可以将它们理解为同一件事，但从技术上讲，它们并非一回事，但这无关紧要，因为它们通常是配合使用的。

验证器（Verifier）：

确定生成的响应是否正确。
它不会分配数值分数 —— 只是验证正确性。
例如：如果对于「2 + 2」，模型生成为「5」，则验证器会检查并将其标记为「错误」（因为正确答案是 4）。
验证器还可以执行代码（例如，使用 Python）来验证逻辑、语法和正确性，而无需手动评估。

奖励函数（Reward Function）：

将验证结果（或其他标准）转换为数值分数。
例如：如果答案错误，它可能会分配罚分（-1、-2 等），而正确答案可能会获得正得分（+1、+2）。
它还可以根据正确性以外的标准进行惩罚，例如长度过长或可读性差。

主要区别：

验证器检查正确性，但不进行评分。
奖励函数会分配分数，但不一定验证正确性。
奖励函数可以使用验证器，但从技术上讲，它们并不相同。

理解奖励函数

GRPO 的主要目标是最大化奖励并学习答案的得出方式，而不是简单地记忆并根据训练数据复现答案。

在每个训练步骤中，GRPO 都会调整模型权重以最大化奖励。此过程会逐步微调模型。
常规微调（不使用 GRPO）仅最大化下一词的预测概率，而不会针对奖励进行优化。GRPO 针对奖励函数进行优化，而不仅仅是预测下一词。
你可以在多个 epoch 中重复使用数据。
你可以预定义默认奖励函数，以用于各种用例，或者你可以让 ChatGPT / 本地模型为你生成它们。
设计奖励函数或验证器没有唯一正确的方法 —— 这方面可能性无穷无尽。然而，它们必须设计精良且有意义，因为设计不当的奖励可能会无意中降低模型性能。

🪙奖励函数示例

参考以下示例。可以将你的生成结果输入到 ChatGPT 4o 或 Llama 3.1 (8B) 等 LLM 中，并设计一个奖励函数和验证器来评估它。例如，将你的生成结果输入到你选择的 LLM 中，并设置一条规则：「如果答案听起来太机械化，则扣 3 分。」这有助于根据质量标准优化输出。

示例 1：简单算术任务

问题：2 + 2
答案：4
奖励函数 1：如果检测到数字 → +1；如果未检测到数字 → -1
奖励函数 2：如果数字与正确答案匹配 → +3；如果不正确 → -3
总奖励：所有奖励函数的总和

示例 2：电子邮件自动化任务

问题：接收电子邮件
答案：发送电子邮件
奖励函数：
如果答案包含必需关键词 → +1
如果答案与理想答案完全匹配 → +1
如果答案过长 → -1
如果包含收件人姓名 → +1
如果存在签名块（电话、电子邮件、地址）→ +1

Unsloth 基于邻近度的奖励函数

在前面的 GRPO Colab 笔记本，可以看到其中创建了一个完全从零开始构建的自定义基于邻近度的奖励函数，旨在奖励那些更接近正确答案的答案。这个灵活的函数可以应用于各种任务。

在其中的示例中，是在 Qwen3 (Base) 上启用了推理功能，并将其引导至特定任务
应用预微调策略，以避免 GRPO 默认只学习格式
使用基于正则表达式的匹配提升评估准确度
创建自定义 GRPO 模板，超越诸如「think」之类的一般提示词，例如 <start_working_out></end_working_out>
应用基于邻近度的评分 —— 模型会因更接近的答案获得更多奖励（例如，预测 9 比预测 10 更好），而异常值则会受到惩罚

GSM8K 奖励函数

在其他示例中，Unsloth 使用了 @willccbb 提供的现有 GSM8K 奖励函数，该函数广受欢迎且已被证明非常有效：

Correctness_reward_func – 奖励完全匹配的标签。
Int_reward_func – 鼓励仅使用整数的答案。
Soft_format_reward_func – 检查结构，但允许少量换行符不匹配。
strict_format_reward_func – 确保响应结构与提示符匹配，包括换行符。
xmlcount_reward_func – 确保响应中每个 XML 标签恰好对应一个。

🎓扩展阅读

Nathan Lambert 的 RLHF 书： https://rlhfbook.com/c/11-policy-gradients.html
Yannic Kilcher 的 GRPO Youtube 视频： https://www.youtube.com/watch?v=bAWV_yrqx4w
Unsloth 在 2025 年 AI 工程师世界博览会上举办了一场 3 小时的研讨会，幻灯片等资料请访问：https://docs.unsloth.ai/ai-engineers-2025
通过 Unsloth 构建的高级 GRPO 笔记本。https://docs.unsloth.ai/basics/reinforcement-learning-guide/tutorial-train-your-own-reasoning-model-with-grpo
基于基础模型进行 GRPO 的笔记本：https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(4B)-GRPO.ipynb
万字长文带你读懂强化学习，去中心化强化学习又能否实现？

....

#OpenUni

开源版MetaQuery来了！用1.1B参数媲美BLIP3-o-8B，数据代码完全开源

随着 GPT-4o 展现出令人印象深刻的多模态能力，将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势（如MetaQuery 和 BLIP3-o ）。

南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni，一个开源版 MetaQuery，仅用 1.1B 参数达到 8B 模型性能，更将代码、权重、数据全部开源！

技术报告： OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

机构：南洋理工大学 S-Lab、商汤科技新加坡研究院

作者： Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy

开源代码： https://github.com/wusize/OpenUni

联系方式： size001@e.ntu.edu.sg

架构图，OpenUni 架构：通过 256 个可学习查询和 6 层轻量连接器，桥接冻结的 InternVL（理解）与 SANA（生成）

图 1：OpenUni 在生成任务上的性能表现，展示了其高效的参数利用

三大核心优势

1. 🏗️ 架构极简

仅 6 层连接器，相比 MetaQuery 的 24 层大幅精简

2. ⚡ 参数高效

1.1B 参数达到 GenEval 0.84 分，与 BLIP3-o-8B 模型性能相当

3. 📂 完全开源

模型权重 + 训练代码 + 2300 万数据集全部公开

架构设计与训练策略

OpenUni 遵循 MetaQuery 的设计理念，包含四个核心组件：

1.256 个可学习查询 - 从用户指令中提取条件信息

2. 冻结的 InternVL - 保持原有理解能力

3.6 层 transformer 连接器 - 基于 ViT 架构

4.SANA 扩散模型 - 高效图像生成

模型对比

* 对于 BLIP3-o，将预测 CLIP 特征的 DiT 视为连接器

关键特点： - 连接器参数大幅减少 - 使用更小的 MLLM 和扩散模型 - 训练数据完全公开

两阶段训练策略

第一阶段：预训练（2300 万图文对）

目标：训练可学习查询和连接器
策略：冻结 MLLM 和扩散模型
数据：公开数据集，使用 LLM/MLLM 重新标注

第二阶段：微调（6 万图文对）

目标：提升生成质量
策略：解冻扩散模型，联合优化
数据：BLIP3-o 贡献的高质量数据集

性能验证

OpenUni 在参数效率上表现出色：

OpenUni-B-512：1.1B 激活参数，GenEval 达到 0.84 分，与 BLIP3-o-8B 持平
OpenUni-L-512：3.1B 激活参数，GenEval 达到 0.85 分
OpenUni-L-1024：3.1B 激活参数，GenEval 达到 0.86 分，为开源统一模型最佳

其他基准测试

DPG-Bench：OpenUni-L-1024 获得 83.08 分，超越所有 MetaQuery 和 BLIP3-o 变体
WISE：OpenUni-L 达到 0.52 分，与 BLIP3-o-8B（公开数据版）持平

生成效果展示

图 2：OpenUni-L-1024 生成的多样化高质量图像

多模态理解能力

由于采用冻结 InternVL3 的策略，OpenUni 继承了其理解能力：

图 3：OpenUni-L 的多模态理解能力展示

理解基准测试

应用前景与开源贡献

OpenUni 提供完整的开源资源：

✅ 模型权重 - 所有训练阶段的 checkpoint

✅ 训练代码 - 完整训练 pipeline

✅ 2300 万训练数据 - 包含重新生成的 caption

✅ 详细文档 - 训练配置和复现指南

研究团队指出了当前的局限：

生成图像中渲染文字的能力有限
最大模型基于 2B MLLM 和 1.6B 扩散模型，有待扩展
图像到图像生成任务将在未来版本支持
GenEval 的局限性，由于 prompt 范式固定，模型经过 GPT4o 蒸馏数据（BLIP4o-60K）微调后在 GenEval 上大幅提升；作为统一模型（Show-o,Janus,Harmon,Bagel）常用的指标，GenEval 难以再真正衡量模型能力

总结

OpenUni 为统一多模态模型提供了一个简单但强大的基线。通过极简的架构设计和高效的参数利用，OpenUni 展示了：

更少的参数可以达到有竞争力的性能
简单的设计往往更有效
完全开源促进社区研究和创新

作为一个持续进行的项目，OpenUni 为研究社区提供了清晰、可复现、易扩展的基线实现。

....

#大模型为何难成为「数学家」

斯坦福等揭示严谨证明中的结构性弱点

数学证明不仅要得出 “对” 的答案，更要给出逻辑闭合、层层严谨的推理过程。在不等式问题中尤其如此 —— 哪怕最终答案是对的，只要中间某一步出现纰漏，整个证明就可能不成立。我们不禁提问：这些答案是模型通过严密推理得出的，还是只是通过 “看起来合理” 的过程猜出来的？

不等式问题正是检验这一点的理想对象：它们结构清晰、逻辑对象简单，在数学竞赛与应用数学中都极为常见，同时具备较长的推理链条，能够有效揭示推理中的漏洞或模糊之处。

这正是当前形式化数学所试图解决的问题。近年来，Lean、Coq 等系统为数学提供了严格可验证的推理机制，每一步推导都必须符合逻辑规则，可被计算机检验。然而，这类系统对语句的表达精度要求极高，建模成本大、自动化程度有限，尤其在面对中学到奥数级别的不等式问题时，很难做到规模化应用。

使用 Lean 进行形式化证明的过程

另一方面，当前主流的大语言模型是在海量自然语言上训练出来的。它们虽然无法直接生成可被形式系统接受的机器检查证明，却在 “非形式化推理” 方面表现出色 —— 也就是说，它们往往能给出看似合理、直觉对路的答案，并模仿人类在解决问题初期的思维方式。这种能力虽然不符合传统意义上的形式证明要求，但在探索性的数学过程中具有重要价值。

为此，斯坦福大学、加州大学伯克利分校与麻省理工学院的研究团队提出了一种创新方法：将不等式证明任务拆解为两个 “非形式化但可验证” 的子任务，即 “界限估计” 和 “关系预测”，并基于此构建了第一个奥林匹克级不等式证明基准数据集 ——IneqMath。这一框架提供了一种介于完全形式化验证与自然语言生成之间的 “中间层”，可以逐步审查模型的推理链条，从而判断其是否真正掌握了推理结构，而不仅仅是在猜测答案。

完整项目主页：🌐 https://ineqmath.github.io

📜 论文：https://arxiv.org/abs/2506.07927

🛠️ 代码库：https://github.com/lupantech/ineqmath

📊 数据集：https://huggingface.co/datasets/AI4Math/IneqMath

🏆 排行榜：https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

🔍 数据集可视化展示：https://ineqmath.github.io/#visualization

𝕏 推特：https://x.com/lupantech/status/1932866286427779586

本项目并非试图替代形式化系统，而是希望补足当前 LLM 推理评估的盲区 —— 在不依赖形式逻辑表达的前提下，仍然能对模型的推理严谨性进行系统、自动的检验，以更贴近人类思维的方式，衡量它们是否具备构造完整数学证明的潜力。

🔍 如何 “非形式化” 地评估不等式证明？

论文核心思路是：将不等式证明过程拆解为以下两种子任务：界限估计与关系预测。

对于同一道数学证明题目: 对于任意非负实数 a，b，请证明 a+b≥2√ab

两种任务分别把证明问题改写成了不同的形式:

1️⃣ Bound Estimation（界限估计）

对于任意非负实数 a，b，请判断两个式子的关系：a+b?2√ab

2️⃣ Relation Prediction（关系预测）

对于任意非负实数 a，b，请求出最大的常数 C 使得a+b≥C√ab恒成立。

这两类任务都可以用自然语言和 LaTeX 表达，适合大模型按步骤求解，同时保留了不等式证明中的创造性核心，避免了形式化证明工具带来的复杂负担。并且每道题目有唯一的正确答案，方便验证结果的正确性。

📘 IneqMath：首个非形式化但可验证的不等式证明数据集

研究团队基于上述任务结构，构建了 IneqMath 数据集，覆盖训练、测试与验证三部分：

训练集：包含 1,252 道不等式题目，配有分步证明和定理标签（共包含 83 种定理，如均值不等式、Chebyshev 不等式等，以及 29 个定理类别），适用于模型微调。
测试集：共 200 道题目，由国际数学奥林匹克（IMO）奖牌得主手工设计、资深数学家审核，强调复杂策略组合与逻辑链深度。
验证集：共 100 道题目，题型与测试集保持一致，主要用于调参和中期评估。

以下是 IneqMath 的训练和测试题目示例：

🧠 如何评估 LLM 的推理严谨性？

团队开发了一套由五种 “自动评审器” 组成的 LLM-as-Judge 框架，可以逐步分析语言模型的解题过程是否符合逻辑严谨性：

Final Answer Judge（最终答案是否正确）
Toy Case Judge（是否用特殊值推断出一般的结论，忽略了泛化过程. ）

例如，如果只通过代入 a = 1, b = 2 来得出对任何非负实数 a, b 都成立 a+b≥2√ab 的结论就是在用特殊值推断出一般的结论。

Logical Gap Judge（是否存在跳步、未解释的等价变形等逻辑偏差）

例如，对于一个复杂的函数 f (x)，直接说明 “经过复杂的数值计算我们知道 f (x) 的最小值在 x=1 取到 “但是没有给出具体的最小值求解过程的就属于逻辑偏差的一种，因为他跳过了关键的步骤。

Numerical Approximation Judge（是否存在不当近似）

例如，若

，但是后续的证明中全部把 f (x) 近似

的行为就属于不当近似。

Numerical Computation Judge（计算是否正确，包括基本代数运算或代入过程中的数值错误）

例如，把 23x76（应该等于 1541）计算成了 1641 就属于一种计算错误。

通过这套系统，研究者可以判断一个模型是否只是 “碰巧答对了”，还是在每一个推理节点上都做对了。

同时这些评审器在准确性上表现出与人类标注高度一致。如下图所示，评审器系统在与人工标注对齐的任务上达到了 F1 = 0.93 的表现，证明了这一方法既可靠又具可扩展性，可有效替代大规模人工审阅。

⭐️ 实验结果

重磅发现一：Soundness Gap 是真实存在的！

研究测试了包括 GPT-4、Claude、Gemini、Grok、Mistral、LLaMA 等在内的 29 款主流 LLM，发现：

🔹 Grok 3 mini：最终答案准确率高达 71.5%，但经逐步评审后骤降至 6.0%！

🔹 所有模型准确率下降幅度最多达 65.5%

🔹 开源推理模型：最佳也仅达 6% 准确率

🔹 聊天型大模型（chat LLMs）：整体准确率低于 5%

研究者指出，这意味着当前 LLM “猜得准但推不全”，逻辑链条存在 “虚假自洽” 的陷阱。

重磅发现二：模型越大 = 推理越好吗？未必！

实验发现，大语言模型在 “最终答案准确率” 上确实会随着模型规模提升而稳步增长，说明大模型在 “猜对答案” 这件事上确实更厉害了。但一旦我们开始评估推理过程是否严谨，情况就没那么乐观了：随着模型变大，“整体推理正确率” 提升有限、甚至不再提升。这意味着：更大的模型并不能自动学会更严谨的逻辑链条。换句话说，LLM 可以越猜越准，但证明过程还远谈不上靠谱。仅靠堆参数，解决不了推理的本质问题。

重磅发现三：多算≠更严谨

研究团队通过增加推理 token 数让大模型在解题时 “想得更久”。结果发现：推理链更长，只带来轻微提升，且很快进入饱和状态。换句话说，计算多了，推理依然不严谨。对复杂数学证明来说，“多想” 远不如 “想对”。

✨ 曙光初现：批判增强与定理提示可带来性能提升

尽管当前模型在逻辑严谨性上的表现仍不理想，扩大模型规模或延长推理过程也难以显著提升推理质量，但研究团队仍发现了一些确实有效的改进策略：

自我批判提升（Self-improvement via critic）：自我评判自己的作答，评判后重新对答案进行修改。📈 该策略为 Gemini 2.5 Pro 带来约 5% 的提升。
定理提示（Theorem Augmentation）：通过自动检索相关定理并作为提示提供给模型，帮助其在关键步骤做出更合理的推理选择。📈 Gemini 2.5 Pro 在这一策略下准确率提升约 10%。