51c大模型~合集130

whaosoft-143

37981人浏览 · 2025-05-24 00:30:00

whaosoft-143 · 2025-05-24 00:30:00 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13933214

#Veo 3

真碾压Sora了！谷歌Veo 3首次实现音画同步，视频模型直接「开口说话」

还记得 2023 年 AI 视频最出圈的片段吗？威尔·史密斯吃面，动作鬼畜，画面寂静——

当时的视频大模型，只会动，不会说话。Sora 的发布让视频质量飞跃、物理规则建模进步巨大，也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司，以及 OpenAI、谷歌、阿里、字节等科技巨头，纷纷入局。

但无论画质如何进步，视频还是「哑巴」——

你可以让人物奔跑、翻转，甚至做出慢动作，但如果想让角色说话、听到风声、脚步声，甚至感受到炒菜时锅里的滋滋声？

对不起，还得自己导音频。

更麻烦的是，配完音还可能对不上节奏——口型和对白不同步，脚步踩不到点上，情绪氛围总差一口气。

直到今天，谷歌正式发布 Veo 3。AI 视频，终于能「开口说话」了——

Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话、多种音效。翻译成中文——

只用一个提示词，你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。

提示语：90 年代酒吧里的情景喜剧场景，背景墙上的霓虹灯写着「fofr」。一对夫妇说了些什么，观众大笑起来。

，时长00:08

对白生成、唇动对齐和情绪音效（观众笑声），一气呵成提示语：一位游戏主播（streamer）只用他的镐子（pickaxe）赢得了「 Victory Royale」。

，时长00:08

生成出的内容是完整直播风格视频，还带着夸张的欢呼与音效，画面有声有色尽管凌晨才发布，Veo 3 已在社交网络掀起热潮，多个视频动辄数十万次播放，令人惊叹不已。

雪地步伐清晰传来咯吱声，鸭子嘎嘎叫，烹饪滋滋作响，撒胡椒声......

得益于模型对物理世界的深刻理解，所有声音非后期拼接，而是与画面实时同步生成。

，时长00:40

Veo 3 还能精准捕捉画面情绪，渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫，逼真到让人有点毛骨悚然。

，时长00:08

提示词：a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"至于对口型，Veo 3 也表现突出：无论是脱口秀现场讲笑话，还是说唱音乐视频中的节奏口型，都能精准同步，真实感爆棚。

，时长00:08

提示词：a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue）

，时长00:08

提示词：a man in a music video raps to the camera about generating videos with Veo3

生成歌剧和音乐会视频，成为检验 Veo 3 音画同步水平的高频场景。这个视频里，鼓手的每一次击打动作都与鼓点节奏完美同步，与歌手表演同步，展现了模型在复杂多声音动态场景下出色的音画合成能力。

，时长00:15

支持多角色、多种风格的创作视频，虚拟人物演技不比《演员请就位》强多了？

，时长01:16

长提示词理解与事件流生成方面，Veo 3 同样出色。以前视频模型提示词一长就容易崩。但 Veo 3 能理解长句子，完成一个完整、时间有序、逻辑清晰的小片段。来看这个视频。

提示词：黎明时分，一位男士在美丽的夏日公园里奔跑，他上气不接下气，然后放慢速度，看着镜头，气喘吁吁地说：「用 API 运行 AI。使用 Replicate。」然后他继续跑。最后，「Replicate」的字样渐渐消失在视野中。

包含动作变化、对白插入、镜头切换、logo 渐隐……多步骤连贯执行，事件流准确，效果不错：

，时长00:08

音画同步生成，直接把视频模型拉到了新时代。而其中关键能力，离不开 DeepMind 过去就悄悄铺下的一项底层技术：V2A（ Video-to-Audio ）。2023 年 6 月，DeepMind 就首次披露：

他们正开发一套 AI 系统，能从视频像素 + 文本提示中，自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是：将视频视觉信息编码为语义信号，与文本提示一同输入扩散模型，生成匹配的音频波形。可以说，V2A 就是 Veo 3 的「耳朵」和「声带」。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能，已经遥遥领先。一个小遗憾：视频仍只有 8 秒。

另外，目前 Veo 3 仅面向美国 Ultra 订阅用户开放，定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限，但 Veo 3 的初次亮相，已足够震撼。过去生成式 AI 是「语言+图像」的时代，现在，正在进入「视听一体」的新阶段。生成视频从会动 → 能说 → 有氛围，一步步突破不同模态的边界。如果说 Sora 是让 AI 看懂物理世界，那 Veo 3，就是让 AI 能「听懂」,「会说」。看来，音画一体，将是下一轮视频模型竞赛的标配。

....

#ENEL

首个原生3D大模型7B小模型全面超越13B SOTA！

ENEL首次砍掉3D编码器，用LLM自身做语义编码：预训练阶段让可见token重建patch、可学习token预测特征，微调阶段以动态网格采样+门控自注意力实现层级几何聚合；7B模型在Objaverse分类、描述、问答全面超越13B SOTA，训练提速30%，点云分辨率变化零性能抖动，为3D多模态理解开辟极简新路线。

论文链接：https://arxiv.org/pdf/2502.09620

代码链接：https://github.com/Ivan-Tang-3D/ENEL

一句话总结

我们提出了ENEL——首个无编码器（Encoder-free）3D大语言模型，通过让LLM自身承担3D编码的角色，在分类、描述、问答三大任务上全面超越现有SOTA，同时训练效率提升近30%。

01 研究动机：3D编码器的两大痛点

现有的3D大模型（如PointLLM、ShapeLLM）普遍依赖预训练的3D编码器来提取点云特征。然而，这种encoder-based架构存在两个长期未解决的问题：

痛点1：点云分辨率受限

3D编码器通常在固定分辨率（如8192点）上预训练。当推理时点云分辨率变化（2K→16K），性能会急剧下降——PointLLM在分辨率变化时性能波动超过10%，而我们的ENEL始终保持稳定。

痛点2：语义鸿沟

3D编码器的自监督预训练目标（如MAE重建）与LLM的语义理解需求并不对齐。简单的MLP投影层难以弥合这一鸿沟，导致点云特征无法被LLM充分理解。

我们的核心问题：能否完全移除3D编码器，让LLM自己学会理解3D？

02 方法：两大核心策略

我们提出两个关键策略，分别在预训练和微调阶段将3D编码器的功能转移到LLM自身：

策略一：LLM-embedded Semantic Encoding（预训练阶段）

核心发现：通过系统的empirical study，我们发现数据建模（data modeling）方式足以让LLM在高维空间理解3D语义信息——无需复杂的对比学习或知识蒸馏。

我们对比了四种主流的自监督损失函数：Masked Modeling Loss、Reconstruction Loss、Contrastive Loss、Knowledge Distillation Loss。实验表明：基于数据内在结构的建模方式（Masked Modeling + Reconstruction）显著优于依赖外部监督的方法。

基于这一发现，我们提出了专为encoder-free架构设计的Hybrid Semantic Loss：

关键创新：我们深入探索了encoder-free setting下的信息流动机制。

在传统encoder-based架构中，3D编码器采用双向注意力，所有token可以相互交互。而在我们的encoder-free架构中，3D token被直接送入因果掩码的LLM，信息流动方式发生根本改变。

结合点云的无序性（permutation invariance），我们设计了一种非对称任务分配：

Visible tokens（前70%）：执行更难的patch重建任务，学习底层几何细节
Learnable tokens（后30%）：执行相对简单的特征预测任务，学习高层语义

这种设计让模型在单次前向传播中同时捕获低层几何结构和高层语义信息。

策略二：Hierarchical Geometry Aggregation（微调阶段）

传统3D编码器通过local-to-global的层级结构捕获多尺度几何信息，而标准LLM缺乏这种归纳偏置。我们提出层级几何聚合策略，在LLM内部引入几何感知能力：

Dynamic Grid Sampling：基于可学习的网格尺度，自适应聚合局部点云
门控自注意力：通过tanh门控机制，让模型自适应地融合局部与全局信息
聚合-传播对称结构：早期层聚合（128→64→32→16 tokens），后期层传播还原

03 实验结果：全面超越SOTA

在Objaverse基准上，ENEL取得了全面领先的成绩：

亮点：我们的7B模型不仅超越了所有7B baseline，更全面碾压13B的SOTA模型！

效率优势

移除编码器带来了显著的效率提升：

04 可视化分析

我们可视化了文本token对点云token的注意力分布：

PointLLM（encoder-based）：注意力分散，语义关联度低
ENEL（encoder-free）：注意力精准聚焦于关键几何结构——椅子的靠背、飞机的机翼、台灯的灯罩

这直观证明了：encoder-free架构能够建立更强的跨模态语义关联。

05 总结

本工作首次系统性地探索了encoder-free架构在3D理解领域的潜力，证明了：

去掉3D编码器不仅可行，而且能带来更好的性能
数据建模方式足以让LLM学习高维3D语义
7B小模型可以超越13B SOTA，同时训练更快、显存更省

我们希望ENEL能为3D多模态理解提供一条更简洁、更高效的新路径。

....

#Kimi K2.5

刚刚，杨植麟亲自开源Kimi K2.5！国产大模型打架的一天

今天真是国产大模型打架的一天！昨晚千问上新模型，今天 DeepSeek 开源 OCR 2。

中午，Kimi 也开卷，网站、App、API 开放平台和编程助手产品 Kimi Code 模型版本全面更新，Kimi K2.5 来了。

月之暗面创始人杨植麟还首次出镜，向大家分享了新模型的能力。

月之暗面Kimi

，赞946

Kimi K2.5 是一个拥有 1 万亿参数（1 trillion）的 MoE 基础模型。相较前代，K2.5 的视觉理解能力大幅增强（可以处理视频了），Coding 能力也有了明显提升，更重要的是，K2.5 依然开源。

Kimi K2.5 在包括 HLE、BrowseComp 和 DeepSearchQA 等极具挑战性的 agent 评测上取得了当前最佳表现（SOTA），比如 HLE（人类最后考试）上拿到 50.2%，BrowseComp 拿到了 74.9%。

同时，K2.5 的编程能力也非常突出，它在 SWE-bench Verified 上拿到了 76.8 %，缩小了与顶尖闭源模型之间的差距，K2.5 在多项视觉理解评测上也实现了当前开源最佳效果。

可以看到，在核心基准测试上，Kimi K2.5 的成绩与 Opus 4.5、GPT 5.2 XHigh 和 Gemini 3.0 Pro 等当前最强大闭源模型基本相当，部分评分还能超出。

值得一提的是，Kimi K2.5 在多项评测中优于 GPT-5.2-xhigh 的同时，运行成本只有 GPT-5.2-xhigh 的几分之一。

有了两个月前 K2 Thinking 的热度打底，这回 K2.5 的发布可谓热闹空前。在社交网络上，人们纷纷试用新模型并分享效果。

有网友表示，这才是中国大模型（没有定语）最优秀的水准，现在压力留给 DeepSeek R2 了。

截图即代码：Coding 也有了「审美」

需要注意到的是：Kimi K2.5 是一个全能模型，不管是视觉还是文本，对话还是 agent，思考还是非思考 —— 所有这些能力，全都集中在一个模型里（all in one，Unified model）。

既然是视觉能力提升 + 代码能力增强，Kimi 模型现在就主打一个图像转代码 —— 不仅不需要写代码，连提示词工程也省了，画一个设计稿交给 AI 就能得到你想要的代码。

有时候你想修改界面，光靠文字描述说不清楚，现在也只需要给 AI 一张图就可以了。你可以在 UI 上圈出你想改的地方，剩下的交给 AI 来完成就行。

如果在别的工具里设计好了动画效果，你也可以录屏成一段视频给 Kimi 看，它就会自动理解并写成代码复现出来。

该说不说，确实有了一点指挥手下干活的意思。

在加入了视觉能力之后，Kimi K 2.5 不仅有很会写代码，还具备了一定的「设计审美」—— 其结合了一定的视觉能力，能像专业设计师出品一样，构建出高级审美和动效的网页。

让大模型有更好的「品味」，这就不得不让人想到两个多星期前，月之暗面创始人杨植麟在 AGI-Next 前沿峰会上的演讲。他曾提到，做模型的过程本质上是在创造一种世界观，让 AI 有更好的 taste，是 Kimi 目前发展的重点。

除了前端设计，Kimi 现在也深入软件工程领域，基于 Kimi K2.5 的 Kimi Code 今天正式发布，它能在终端里运行，并无缝集成到 VSCode、Cursor、Zed 等 IDE 中。在使用过程中，Kimi Code 支持人们输入图片和视频，它还能自动发现并把你现有的技能和 MCP 迁移到 Kimi Code 的工作环境中。

杨植麟给出方向才两个星期，我们就可以体验基于新路线的 AI 了。

自带 Agent「项目组」

为了解决真实世界中的复杂难题，Kimi K2.5 引入了「Agent Swarm（Agent 集群）」功能，目前在 Kimi.com 上处于测试阶段，高级付费用户可获得免费额度。

在处理复杂任务时，K2.5 不再是单线程执行任务，而是以指挥者的身份现场调度并协同最多达 100 个 Agent 分身并行工作，最多支持 1500 次工具调用，速度比单智能体的配置还要快 4.5 倍。

现在，大模型经过了并行智能体强化学习 (PARL) 训练，智能体集群是由 Kimi K2.5 自动创建和编排的，无需任何预定义。

PARL 使用可训练的协调器代理将任务分解为可并行化的子任务，每个子任务由动态实例化的冻结子代理执行。与顺序执行代理相比，并发运行这些子任务可显著降低端到端延迟。

由于独立运行的子智能体提供的反馈存在延迟、稀疏和非平稳性，训练一个可靠的并行编排器极具挑战性。常见的故障模式是串行崩溃，即编排器尽管具备并行能力，却默认执行单智能体任务。为了解决这个问题，PARL 采用了分阶段奖励塑造策略，在训练初期鼓励并行性，并逐步将重点转移到任务成功上。

这种并行处理能力将原本需要数天完成的工作压缩至十几分钟。

Agent 集群的规模化训练是个相当有挑战的问题。月之暗面表示他们为此重构了强化学习基建，并专门优化了训练算法，以确保能达到极致的效率和性能。

在 Kimi 给出的例子中，给 Kimi Agent 集群投喂 40 篇关于心理学和 AI 的论文，agent 能按顺序把论文通读一遍，接着衍生出几个子 agent，分别撰写报告的不同章节。最后由主 agent 负责验收，所有内容汇总生成了一份几十页的专业 PDF 综述。

Kimi K2.5 还将智能体引入到了现实世界的知识工作中。

K2.5 Agent 可以端到端地处理高密度、大规模的办公工作。它可以处理大量高密度的输入，协调多步骤工具的使用，并通过对话直接提供专家级的输出，覆盖文档、电子表格、PDF 和幻灯格式。

在 Kimi K2.5 时代，我们可以让智能体完成一些高级的任务，如在 Word 中添加注释，使用透视表构建金融模型，在 PDF 中编写 LaTeX 公式；智能体的输出能力达到了前所未有的长，可以输出一万字的论文或 100 页的文档。

一手实测：从猜谜到「手搓」3D 公寓

打开官网，可以看到 Kimi 模型已经全系列更新，我们还能看到处于 Beta 测试中的 K2.5 Agent 集群。

Kimi-K2.5 系列模型名称中英对照版。

下面我们就来逐个测试一番这些新模型。

首先上场的是 K2.5 Instant，它面对的任务也最简单 —— 一个加密小游戏：请用一段看似是「深夜电台点歌词」的文字，秘密藏入关于「明天下午三点撤离」的信息。要求读起来必须像纯粹的文学，毫无违和感。

Kimi K2.5 小试牛刀，轻轻松松一秒完成任务。

接下来该上难度了。下面我们将 Kimi K2.5 切换至思考模式，测试一下其多模态推理能力。

这里我们找到了西班牙室内设计师 Iñaki Aliste Lizarralde 手绘的一张《生活大爆炸》谢尔顿公寓的平面图，先来一个基本考验，看看它能否正确识别这张图的背景：

效果非常好！Kimi K2.5 根据图上标注进行了正确识别，并说明了相关背景。接下来我们看看 K2.5 能否正确理解这张图暗含的空间结果，并将其重构成 3D 版本。

，时长00:36

4 倍速视频。

生成时长两分半，K2.5 最终得到了如下所示的结果：

效果很不错了，但也看得出来这个 3D 图仅给出了大致轮廓，缺少了沙发、桌椅、床等许多细节，另外这份 3D 图中的所有房间都是方形的，与参考图也差别很大。同时，继续让 K2.5 Thinking 生成却又遭遇了代码长度限制（10000 字符）。但没有关系，那就让 K2.5 Agent 登场吧。

这一次，由于我们重点强调了细节，因此分析和处理时长也是大大增加（近 20 分钟），代码量自然也大增（1042 行）。执行过程中，我们可以看到 Kimi 智能体的任务规划和逐步执行。不仅如此，智能体还将得到的结果进行了部署，让我们可以轻松访问：https://ijohefkudygve.beta-ok.kimi.link/

，时长01:59

10 倍速视频。

最终，得到的结果虽还算不上完美，但也没让我们失望，它不仅大体准确地还原了生活大爆炸的两个主要公寓的细节，还额外提供了线框模式与顶盖开源：

接下来，让我们重点来看看正处于 Beta 测试中的 K2.5 Agent Swarm。在该模式下，我们可以让多个智能体同时处理你的任务。这里，我们构想了一个相当科幻的任务：

请为一种「生活在深海、通过皮肤发光交流」的智慧生物开发一套基础词汇表。要求包含语法结构、200 个基础词条、以及 3 篇该物种的创世神话。要求集群保证所有自造词汇在语音学和语义学上具有高度的内在逻辑一致性。

可以看到，任务一开始，Kimi 创建了四个不同的智能体：语音学设计师宁一、语法结构师少年伽利略、词汇设计师靖川和神话创作者黎教授。

而在第一阶段的设计工作中，语音学和语法结构可以并行进行，因此我们能看到宁一和少年伽利略一起开工干活，构建了这门新语言的基础。

之后，该创建词汇了。这时候 Kimi 根据需求又新增了一些并行运行的智能体，让它们分别就不同主题创建词汇。

整个过程耗时 38 分钟，我们也见证了一门新语言「流明语」的诞生。这门语言以不同形式的光为音素，并且具备独特的并行从句语法和空间格系统。不仅如此，Kimi 还非常贴心地设计了一套罗马化转写系统。

，时长01:57

20 倍速视频。

最后，我们来测试一下 Kimi Code。Kimi Code 提供两种使用方式，一种是简单一句指令 uv tool install --python 3.13 kimi-cli 安装 Kimi CLI，另一种方式将其配置到 Claude Code 等第三方工具中。

下面我们就通过官方的 Kimi CLI 简单测试一下 Kimi Code。安装配置好以后，我们先让 Kimi Code 创建一个黄金价格监控器：

创建一个黄金与白银价格的监控器，当 24 小时内的价格波动超过 1% 时，给我发送通知。

，时长01:14

4 倍速视频。

可以看到，整个执行过程耗时仅 4 分钟左右，但第一轮交互之后，得到的结果只是一个需要自行配置 API 的程序和一个演示 demo 程序。尽管如此，效果也是相当令人满意的。

有意思的是，在这个过程中我们还见证了 Kimi Code 遭遇错误并自动解决问题的强大能力。

当然，目前的这个程序虽然可用，但需要自己去配置 API，这当然是有些麻烦的，而有 Kimi Code 的我们自然可以轻松避免这些麻烦，直接一句指令就能让其进一步执行，直接配置一个免费的 API。

，时长01:03

4 倍速视频。

很快，Kimi Code 就完成了任务，运行看看效果：

可以看到，此时的金银价格已经正确反映了实时价格。当然我们也还可以让 Kimi Code 进一步执行，比如显示价格改成以人民币 / 克计价、将这个 Python 程序打包成一个 .exe、配置提醒音乐和弹窗、实现任务栏实时显示等等。

但正如其它类似工具一样，Kimi Code 同样并非编程专属工具，借助它搭配合适的配置，我们也能让其成为工作中的强大助力。比如我们可以使用 Kimi Code 轻松实现文件批处理。举个例子，对于我们的每日选题 docx 文档，我们可以让 Kimi Code 基于 obsidian-skills 将它们批量处理成兼容 Obsidian 的格式并打好合适的标签。

基于 obsidian-skills 将这些每日选题总结文档处理成兼容 Obsidian 的 Markdown 格式并打好合适的标签。

，时长00:29

4 倍速视频。

可以看到，Kimi Code 不到两分钟就完成了对所有 94 个文件的正确处理，上下文占用量也仅仅刚超过 10%。在此过程中，也能注意到 Kimi Code 确实正确调用了 obsidian-skills，得到的结果也非常让人满意：yaml、callout 等的处理都非常正确。

整体体验下来，我们认为 Kimi 2.5 在智能体能力上已经足以比肩前沿模型，尤其是其智能体集群模式在解决复杂任务上的表现更是亮眼。

结语

中国的开源模型正在逐渐成为新的标准，并成为规则的制定者。Kimi K2.5 的发布，又给全球开源大模型树立了新的标杆。

与此同时，基于 K2.5 视觉、智能体能力的发展，AI 解锁了更多在真实世界中解决复杂问题的能力。

现在 AI 在写代码时有了审美，上百个智能体能够协同工作，我们距离 AGI 又近了一步。

....

#28%接收率~

ICLR 2026 放榜了！~

昨晚深夜，ICLR 2026 官方正式向投稿者发送了今年的论文接收结果通知。

作为机器学习领域的顶级会议， ICLR 2026 将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。官方今年收到了有效投稿约 19000 篇，总录取率约为 28%，该录取率涵盖了所有经过同行评审的完整论文投稿，无论其是否撤稿。

网友晒出成绩单

录用通知一出来，网友们也坐不住了。社交平台上，很快被各种成绩单刷屏：

有的研究者不止一篇被录取：

甚至还有实验室在这一届一口气拿下 8 篇论文。截图一放出来，评论区立刻炸开了锅，清一色的都是羡慕与感叹。

被拒稿，可能不是论文的问题

今年的 ICLR 可以说是「史上最乱」的一届，先是第三方机构对审稿意见的系统性统计发现，其中有 21% 完全由 AI 生成；后有 OpenReview 评审大开盒，波及到了 ICLR 2026 超过 10000 篇投稿；接着 AI 生成内容检测平台 GPTZero 扫描了 300 篇投稿论文，发现其中有 50 篇在论文引用上至少包含一处明显的幻觉内容。

然而，这场闹剧并未结束。

研究者 Eldar Kurtić 公开展示了一段离谱的审稿意见：一名审稿人在反馈意见中表示该论文「缺少与 FlexPrune 的具体比较」。不过 Kurtić 调查发现，似乎并不存在名为 FlexPrune 的主流基准方法。

更离谱的是，领域主席在随后的裁定中，直接采信了这一错误意见，并将其定性为论文的「致命缺陷」，最终以此为由做出拒稿决定。

该贴发布后迅速走红，目前已获得数万次浏览及大量研究者的共鸣，矛头直指 LLM 在同行评审中的滥用。

不少学者质疑，该审稿意见极有可能是通过 GPT 或 Grok 等 AI 工具自动生成的。由于 AI 存在「幻觉」特性，容易编造看似专业实则虚假的方法名。而 Meta-Reviewer 的疏忽，导致这种错误未能被纠正，反而成为了拒稿的定论。

这位网友则表示，在评分分别为 8 / 6 / 6 / 6、且评审意见整体偏正面的情况下，论文仍被拒稿。最让人难以接受的并不是拒稿本身，而是 Meta-Review 给出的理由。AC 无视了所有评审的一致支持，额外提出了两个新的质疑（而且这些质疑本身还存在事实性错误），并声称：所有评审意见都较为表面（尽管勉强高于评审的最低要求门槛）。

不管怎样，拒稿并不等于否定你的研究价值，很多经典论文也曾遭遇过拒稿。

....

#记忆 — 工具学习 — 规划

高效智能体的「幕后推手」是谁？一篇综述带你从记忆×工具学习×规划看透

随着大模型能力的跃迁，业界关注点正在从 “模型能不能做” 快速转向 “智能体能不能落地”。过去一年可以看到大量工作在提升智能体的有效性（effectiveness）：如何让它更聪明、更稳、更会用工具、更能完成复杂任务。

但在真实应用里，另一个更 “硬” 的问题常常决定能否上线：高效性（efficiency）。智能体即便表现很好，如果每次都要消耗大量算力、时间与调用成本，也很难在生产环境大规模部署。

基于这一视角，论文整理并撰写了一篇面向 “高效智能体” 的综述，系统梳理当前主要方法，并从三个最关键的机制出发组织全文框架：记忆 — 工具学习 — 规划。论文从设计范式出发对代表性方法进行归纳总结，聚焦那些以效率为目标或能够提升效率的核心设计与实现路径，从而更清晰地呈现智能体在真实落地场景中的成本 — 性能权衡。

论文地址：https://arxiv.org/abs/2601.14192
GitHub 地址：https://github.com/yxf203/Awesome-Efficient-Agents

一、智能体记忆：

让 “会记” 更省、更准、更可扩展

智能体要做长任务，离不开记忆。但把历史一股脑塞进提示词，会带来 token 暴涨和智能体处理长上下文能力下降。因此，高效记忆系统的关键在于把 “长历史” 加工成 “可用、可检索、可复用” 的信息资产。

论文按记忆生命周期梳理三步：构建 — 管理 — 访问。

记忆构建：通过概括、压缩与结构化把 “长对话” 转成 “可用记忆”。一类是留在推理链路的工作记忆，文本式直观但吃上下文，隐式式更像缓存，可减少重复编码；另一类是外置为可检索系统的外部记忆，先将信息压成小单元再按需召回，包括条目式、图式与分层式。此外论文也提到要警惕过度压缩带来的信息损失，即需要考虑如何在降成本与保真之间取得平衡。
记忆管理：防止 “存爆炸”，也避免 “取太慢”。规则式快但可能误删重要内容，大模型式更聪明但更贵，混合式则按层级或场景组合两者策略，在效果与成本之间取得折中。
记忆访问：选什么 + 怎么用。访问分记忆选择与记忆整合，通过检索或训练等方式挑选记忆，再用压缩过滤或隐式注入减少 token 与重复编码。

另外，多智能体记忆也成为新趋势。相较于只靠通信，近年更多工作开始引入 “记忆” 这一概念来支撑规模化协作，论文将其概括为：共享记忆 / 本地记忆 / 混合记忆三类。

二、工具学习：

让 “会用工具” 更少调用、更少等待、更少走弯路

工具让智能体从 “会说” 变成 “能做”，但成本也最容易在工具链路里失控。论文按三条主线梳理提效思路：工具选择 — 工具调用 — 工具融合推理。

工具选择：目标是 “更快选对、少塞进 prompt”。相关方法包括外部检索器、多标签分类，以及将工具映射为特殊 token 等思路，核心都是在大量工具中更快、更准地选出最需要的那几个。
工具调用：核心是 “少等、少调、少走弯路”。典型路线包括边生成边调用、并行化调用，以及利用成本感知调用与测试时高效扩展来削减冗余调用；进一步还可通过面向效率的后训练把 “短轨迹、少调用” 写进策略本身。
工具融合推理：让模型学会 “该不该用、何时用、用几次”。代表性方向包括选择性调用，引导智能体只在必要时才发起工具调用；以及成本约束策略优化，在保证效果的同时对冗余交互与过长轨迹施加惩罚，从而学到更短、更省的工具使用策略。

三、智能体规划：

在 “深度” 与 “宽度” 上同时省下来

规划决定智能体如何在多步决策空间里行动。效率问题要么来自单体推理 “想太深、搜太贵”，要么来自多体协作 “聊太多、通信太重”。因此论文从两条线展开：单智能体规划与多智能体协作规划。

单智能体：少算但不掉效果。主要思路包括自适应预算与控制的 “选择性思考”、结构化搜索的剪枝与代价感知、任务分解的先规划后执行；以及通过策略优化与记忆 / 技能获取把高效规划 “内化或复用”，越用越省。
多智能体：少通信但尽可能不丢信息。方向主要有三类：拓扑稀疏化减少全连接带来的
的消息传递开销；协议与上下文优化压缩则关注 “传什么 / 怎么传”；蒸馏方法通过将多智能体协作能力蒸馏回单体，来减少运行时多智能体之间协调的成本。

四、基准与评测（Benchmark）：

没有 “可比的尺”，就谈不上 “可落地的效率”

在谈记忆、工具学习与规划的提效方案之前，先要把 “尺子” 定清楚：高效到底怎么量？

论文强调，效率必须建立在有效性之上。省了资源却显著掉性能，不算高效。因此论文采用的定义是：在给定预算下取得更好的效果，或在相近效果下消耗更少资源。

基于这一视角，论文先梳理了以有效性为主的 benchmark，并进一步汇总了与效率相关的评测内容：一方面，整理了在 benchmark 中显式纳入效率信号（成本、延迟、调用次数等）的评测设置；另一方面，总结了智能体方法中常用的效率指标，用于刻画 “省在哪儿、省多少”。

五、挑战与展望

论文同时也提出了目前的一些挑战与展望：

1）统一评测框架：指标口径统一，模块开销边界清楚，才能真正让各个智能体方法可比可复现。

2）智能体的隐式推理（Latent Reasoning）：大模型侧的隐式推理正在升温，但面向智能体的研究仍相对稀缺。由于智能体链路更长、更复杂，还要处理工具调用、规划与记忆等环节，如何把中间推理 “做在隐式空间里”、在不掉效果的前提下降低成本，既是挑战，也是机会。

3）面向部署设计：在多智能体场景下，需要把部署成本纳入考量，核心问题是投入产出比。也就是说，增加智能体带来的收益，是否足以覆盖新增的开销。

4）多模态效率：多模态智能体发展很快，但效率研究仍相对欠缺。文本智能体的一些提效思路可以借鉴，但是直接迁移却并不容易，因为多模态智能体的感知输入、行为空间与任务结构更复杂、交互成本更高。因此，如何在多模态场景下系统地兼顾效果与成本，仍是亟待解决的关键问题。

....

#Qwen3-Max-Thinking

性能比肩Gemini 3 Pro！昨晚，阿里千问最强模型来了

1 月 26 日深夜，阿里千问旗舰推理模型 Qwen3-Max-Thinking 正式上线。

该模型在科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项权威基准测试中刷新纪录，其综合性能已可对标 GPT-5.2 与 Gemini 3 Pro，成为目前最接近国际顶尖水平的国产大模型之一。

下表为更全面的评估分数：

据了解，Qwen3-Max-Thinking 总参数量超万亿（1T），预训练数据量高达 36T Tokens，是阿里目前规模最大、能力最强的推理模型。

此前，预览版 Qwen3-Max-Thinking 已展现出不俗实力。基于这一基础，通义团队进一步扩大了强化学习后训练规模，对模型进行了系统性优化，使正式版在多项核心能力上实现整体跃升。

在覆盖事实知识、复杂推理、指令遵循、人类偏好对齐以及 Agent 能力等 19 项主流评测基准中，Qwen3-Max-Thinking 取得多项领先成绩，刷新了多项最佳纪录，其综合表现已进入与 GPT-5.2-Thinking-xhigh、Claude Opus 4.5、Gemini 3 Pro 同一竞争梯队。

真实表现如何，我们上手体验了一下。

我们输入提示：帮我做一个技能五子棋的游戏网页，要求是在普通的五子棋规则上，玩家可以使用技能。直接给我个 html 文件。

一会儿工夫，Qwen3-Max-Thinking 就嗖嗖甩出 1000 多行代码，把一个可交互、能上手就玩的五子棋直接写完整了。

下一项测试，我们让 Qwen3-Max-Thinking 生成一个跳一跳游戏。

请用纯 HTML + CSS + 原生 JavaScript 写一个可在浏览器直接打开的《跳一跳》小游戏（不要依赖任何外部库）。要求：画面：简洁 2D 即可（canvas 或 DOM 都行）；操作：按住蓄力、松开起跳（按住时间决定跳跃距离）；规则：从一个平台跳到下一个平台，落空则结束；生成：平台位置随机，但保证可达（不要生成必死局）；计分：落在平台上加分，连跳加成可选；体验：有起跳动画、落地判定、失败提示、重新开始按钮；代码：完整可运行，放在一个 HTML 文件里，注释清晰。

这个游戏最难的地方，就在于按住鼠标的时间既是操作，也是赌注：短了跳不过去，长了直接飞过头，容错窗口小到离谱。第一跳很容易失误，然后就 Game Over。

体验地址：https://chat.qwen.ai/

测试时扩展的重新定义

推动 Qwen3-Max-Thinking 的核心创新在于其对传统推理方式的突破。与大多数模型按线性方式逐 token 生成不同，Qwen3 引入了一种由测试时扩展（Test-time scaling）驱动的 Heavy Mode（重推理模式）。

通俗来说，这一技术让模型能够用更多算力换取更高智能水平。但它并非简单的 best-of-N 采样方式，例如一次生成 100 个答案再从中选出最优结果 —— 而是采用了一种经验累积的多轮推理策略。

这种方法更接近人类的解题过程。当模型面对复杂问题时，它不会直接给出一次性猜测，而是进入反复自我反思与迭代推理。通过一种专有的 take-experience 机制，模型能够从此前的推理步骤中提炼有效经验，从而实现：

识别死胡同：在无需完整走完错误推理路径的情况下，判断某条推理思路正在失效；
聚焦算力：将计算资源重新分配到尚未解决的不确定点，而不是反复推导已经得到的结论。

这种机制带来了实实在在的效率提升。通过避免冗余推理，模型可以在同样的上下文窗口中整合更丰富的历史信息。千问团队表示，该方法在不显著增加 token 成本的前提下，实现了性能的大幅跃升：

GPQA（博士级科学问题）：得分从 90.3 提升至 92.8；
LiveCodeBench v6：成绩从 88.0 提升至 91.4。

自适应工具调用

如果说推理能力决定了模型会不会想，那么工具调用能力决定的，是模型能不能真正把事做成。在 Qwen3-Max-Thinking 中，通义团队不再将推理与工具使用视为两个割裂的阶段，而是将工具能力内生进思考过程本身，构建起一种边思考、边行动的原生 Agent 式模型框架，让大模型从静态的文本推理，迈向可执行、可验证的复杂任务处理。

在完成基础的工具使用微调后，通义团队进一步在大量多样化任务上，引入基于规则奖励与模型奖励的联合强化学习训练，使模型学会何时调用工具、如何结合工具展开推理，而不是机械执行指令。由此，Qwen3-Max-Thinking 获得了更具策略性的工具协同思考能力。

这一自适应工具调用能力已在 QwenChat 中完整落地：模型可自主调度搜索、个性化记忆与代码解释器等核心 Agent 工具，在一次交互中完成信息获取、计算推演与结论生成，回答更贴近专业人士的工作方式，也显著降低了模型幻觉，为解决真实世界中的复杂问题奠定基础。

结语

截至 2026 年 1 月，阿里通义千问（Qwen）系列模型在 Hugging Face 平台上的累计下载量超过了 10 亿次，这一数据使得 Qwen 成为了 Hugging Face 上最受欢迎、下载量最高的开源 AI 模型系列之一。

Qwen3-Max-Thinking 的推出代表着 2026 年人工智能市场的成熟。它将讨论的焦点从谁拥有最智能的聊天机器人转移到谁拥有功能最强大的智能体。通过将高效率推理能力与自适应、自主的工具调用机制相结合，Qwen 已经牢牢确立了自己在企业级 AI 竞争格局中的领先地位。

参考链接：https://venturebeat.com/technology/qwen3-max-thinking-beats-gemini-3-pro-and-gpt-5-2-on-humanitys-last-exam

....

#LingBot-Depth

蚂蚁xx研究首次亮相！就解决了机器人「看」透明玻璃这些难题，还开源了

众所周知，「xx智能」是连接数字世界和现实世界的桥梁。

真正的「xx智能」，是全面自主决策自主行动的通用机器人，需要建立在对物理世界完全理解的基础上。

空间视觉感知是自动驾驶、机器人操作等真实世界应用的底层能力，核心目标只有一个：让机器能够理解并参与三维环境中的交互。

这类机器人大多都以 RGB-D 相机获取真实世界视觉和深度信息，这是行业内综合了成本，精度，以及实用性后普遍的选择。

但物理世界是极为复杂的，要想让这些自主执行任务的机器人卡壳，只需要简单的一块玻璃。

家务机器人撞玻璃的翻车场面

对机器来说，玻璃几乎是世界里的幻影。人类会下意识地把反射、折射进行判断，但机器人并没有这种生活经验。玻璃这类又透明又反光的物体，恰好屏蔽了 RGB-D 相机获取的全部特征，深度和像素点都很难准确识别。

随着自动驾驶和智能机器人离我们的生活越来越近，这个现象已经逐渐成为一个亟需解决的痛点。

令人欣喜的是，我们发现刚刚开源的全新xx智能感知模型 LingBot-Depth ，非常针对性的解决了机器人识别真实世界的「玻璃问题」。

LingBot-Depth 是蚂蚁灵波科技开源的高精度空间感知模型，可在不更换硬件的前提下显著提升透明、反光等复杂材质场景的深度输出质量，给机器人一双看清三维空间的眼睛。

LingBot-Depth 在传统深度传感器易失效的复杂场景中，仍可输出具备真实尺度的高精度深度结果

令人振奋的是，从技术报告来看，这一模型在深度精度和像素覆盖率方面均优于业界顶级的深度相机。

项目链接: https://technology.robbyant.com/lingbot-depth
HuggingFace 链接：https://huggingface.co/robbyant/lingbot-depth
技术报告链接：https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

超海量真实场景与崭新的训练范式

简单来讲，RGB-D 相机在复杂、多变的物理环境中，却频频暴露出难以回避的短板。

尤其是在面对透明或高反光材质，例如玻璃、镜面、不锈钢表面等等，深度相机发射的主动光信号往往无法形成稳定、可靠的回波，导致深度测量值缺失或异常，最终在深度图中表现为大面积空洞、噪声密集以及物体边缘的严重断裂。

即便是最先进的商用传感器，在一些挑战性场景中也难以满足获取稠密、像素级对齐的几何信息的需求。

LingBot-Depth 能将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果。

除了透明与反光场景外，在强逆光、极暗光或明暗对比极端的场景下，RGB 图像与深度信息之间的对齐关系更容易失效，深度图的稳定性和一致性显著下降。

更关键的是，感知层面的不可靠会被层层放大，直接影响后续的规划与控制：不完整的深度图会导致机器人误判空间，边缘破碎会影响抓取位姿的计算，而噪声与空洞则可能引发对障碍物距离的系统性偏差。这些问题最终体现为抓取失败、动作犹豫、路径规划异常，甚至是不可接受的碰撞风险，成为制约机器人从「能演示」走向「可长期落地」的关键瓶颈。

双线并行的数据集

过去解决方案很难达到令人满意的效果，核心原因就是数据。巧妇难为无米之炊，RGB-D 数据比仅包含 RGB 的数据要少得多。

更致命的是，现有的大多数 RGB-D 数据集，在设计之初就刻意回避了真实世界中最棘手的成像条件，这类数据过于干净，要么选择纹理丰富、反射少的理想场景；要么干脆依赖渲染引擎，生成近乎完美的深度图。它们几乎不包含真实传感过程中自然出现的深度空洞、回波缺失和异常噪声，彻底回避了真实世界感知的痛点问题。

为了解决这一根本性瓶颈，LingBot-Depth 从数据分布本身入手，系统性地重构了 RGB-D 训练数据的来源与生成方式。其核心思路只有一个：尽可能保留真实世界传感过程自然产生的深度缺失模式。

具体来看，蚂蚁灵波构建了一套双路径并行的数据筛选与生成流程。一条路径基于自建高质量 3D 资产，走合成仿真路线；另一条路径则来自真实世界，通过可扩展的 RGB-D 采集系统，使用奥比中光等工业级深度相机直接采集现实场景数据。

由此，模型训练数据被明确划分为两类子集：来自合成路径的 LingBot Depth-S，以及来自真实采集路径的 LingBot Depth-R。

与现有方法直接输出完美深度图不同，LingBot-Depth 在合成流水线中刻意模拟了真实主动式 RGB-D 相机的成像过程。研究团队在 Blender 中同时渲染 RGB 图像、精确深度图以及带有斑点结构的灰度立体图像对，并使用半全局匹配（SGM）算法生成深度结果，从而引入与真实传感器高度相似的采集伪影。立体基线、焦距等关键参数均通过随机采样生成，以覆盖多样化的成像几何条件。

数据生成管线的一条合成数据样本。每个样本包含一幅 RGB 图像、一幅渲染得到的理想深度图、一对带有散斑图案的立体图像、对应的真实视差图，以及通过半全局匹配（SGM）计算得到的模拟传感器深度图，用以逼近真实世界主动式深度相机所产生的成像伪影。

此前一些尝试模拟不完美深度测量的工作，数据规模普遍偏小；而部分依赖机器人仿真器的数据集，则在视觉保真度上仍与真实世界存在明显差距。相比之下，LingBot-Depth 的数据构建方式，更接近真实传感器在复杂物理环境中的「所见即所得」。

蚂蚁灵波团队在真实世界 RGB-D 采集数据在不同场景类别下的分布情况。

在此基础上，除了自行构建的 320 万条数据外，蚂蚁灵波还使用了一些开源数据集作为训练数据，最终共构建了 1000 万条用于掩码深度建模的训练样本，覆盖了从理想条件到复杂现实环境的多种深度缺失模式。

数据管道整理的 MDM 数据概览。展示了共计 210 万真实采集样本及模拟采集样本，同时展示了 RGB-D 输入和对应的 GT 深度图。

xx智能感知能力的上限，很大程度上不取决于模型结构，而取决于是否敢于直面真实世界的「不完美」。 LingBot-Depth，正是从数据这一最底层的环节，补上了数据集中被忽略的一块短板。

崭新的思路 —— 掩码深度建模

传感器输出的像素与深度信息的不完整是能够进行优化的，将不一致的数据作为噪声剔除，随后通过算法修补，在计算机视觉和深度学习领域已经是历史悠久的研究方向。

而 LingBot-Depth 创新性地提出了一个全新的思路：与其将这些传感器故障视为需要丢弃的噪声，不如将其作为有益的学习信号加以利用。

在这个思路的指引下，掩码深度建模方法（Masked Depth Modeling, MDM）应运而生，构建了 LingBot-Depth 的根基，通过算法对传感器输出进行增强，使机器人获得更完整、更稳定、更可用的深度图。

MDM 预训练方法利用 RGB-D 传感器中自然缺失的深度测量值作为掩码，以学习度量尺度下完整且精确的深度表示。由此产生的 LingBot-Depth 模型可作为强大的空间感知先验，用于下游应用，包括 3D 点追踪和灵巧抓取。

整体框架仍然沿用了近年来视觉领域中行之有效的编码器–解码器范式，但学习目标是：在 RGB-D 输入条件下，预测稠密、像素级对齐的场景深度。

与传统 MAE 方法最大的不同在于，MDM 并不依赖人为构造的随机掩码。相反，它直接利用 RGB-D 相机在真实世界中天然产生的深度缺失区域 —— 也就是那些由透明、反光、弱纹理等复杂成像条件引发的「孔洞」，作为训练时的掩码信号。

这一转变看似简单，却极具挑战性。因为这些自然掩码并非随机分布，而是高度集中在视觉和几何最模糊的位置，其重建难度远高于随机丢弃的 patch。换句话说，模型必须真正理解 RGB 外观与几何结构之间的关系。

为此，MDM 在架构上明确引入了一个关键约束：RGB 信息始终完整可见，深度信息则存在真实缺失。模型被迫在「完整的视觉上下文」和「残缺的几何观测」之间建立联合推理能力。

MDM 框架示意图。对应于传感器缺失测量的深度标记会被掩码，ViT 编码器基于上下文标记（即 RGB 图像）以及剩余未被掩码的深度标记，学习联合 Embedding 表示。在解码阶段，潜在的深度标记被丢弃，解码器仅依赖潜在的上下文标记重建完整的深度图。右下角展示了一幅未被掩码的深度图，作为参考。

面向 RGB-D 的 ViT 设计

在具体实现上，LingBot-Depth 采用了标准的 ViT-Large 作为编码器主干，但对输入建模方式进行了针对 RGB-D 场景的定制。

RGB 图像与深度图通过两套独立的补丁嵌入层进行处理，分别生成在同一空间网格上对齐的 RGB token 和深度 token。这种设计使得 Transformer 的自注意力机制能够在同一空间位置上，同时建模外观语义与几何线索的交互关系。

此外，为避免不同模态在注意力计算中「混淆身份」，模型还显式引入了模态嵌入，与二维空间位置编码共同构成每个 token 的位置信息。这种处理方式，使得 ViT 能够在统一的序列中区分这是「 RGB 信息」还是「深度信息」，同时保留空间一致性。

利用深度缺陷，而不是回避它

在掩码策略上，MDM 并未简单地对所有缺失深度一刀切。考虑到真实 RGB-D 数据中，完全没有深度缺失的样本同样具有重要价值，模型采用了一种基于补丁统计的自适应掩码策略：

对深度值完全缺失的 patch，必然作为掩码；
对同时包含有效与无效测量的 patch，提高其被掩码的概率；
若仍未达到目标掩码比例，再从完全有效的深度 patch 中进行随机补充。

这一策略的核心目标，是在保证训练难度的同时，尽可能保留「不完美但有信息量」的深度观测，让模型学会在真实、不干净的数据分布下进行推理。

这也正是 LingBot-Depth 在方法层面最具启发性的地方，它开创性地尝试让模型理解噪声背后的物理与视觉规律。

领先的精度，落地的性能

LingBot-Depth 让模型在预训练阶段就直面不完整、带噪声的深度世界，会显著增强它对真实三维结构的理解能力，并在多个下游任务中持续受益。

专业对口：深度补全

MDM 的核心思想，是在深度存在大量缺失和噪声的情况下，让模型学会利用 RGB 上下文和残余深度信息去「脑补」完整的几何结构。因此，第一个被检验的任务，自然是深度补全（Depth Completion）。

研究团队将基于 MDM 预训练得到的模型 LingBot-Depth，与多种当前主流方法（如 OMNI-DC、PromptDA、PriorDA）进行了正面对比，并设计了两种极具现实意义的评测协议。

区块级深度缺失：模拟深度相机的「翻车现场」

在第一种协议中，研究团队通过随机抹掉真实深度图中的成块区域，来模拟真实传感器中常见的深度丢失现象；同时，还人为加入高斯噪声和类似 Kinect 的散粒噪声，以还原量化误差、光子噪声等传感器伪影。

结果非常直接：在所有数据集、所有难度级别下，LingBot-Depth 均稳定超越全部对比方法。

深度补全结果。（a）在 iBims、NYUv2 和 DIODE 数据集上，采用四个难度级别的区块级深度掩码进行评估。（b）在 ETH3D 数据集上，使用稀疏 SfM 深度输入进行评估。

尤其是在「极端」条件下，其 RMSE 相比此前表现最好的 PromptDA 仍有显著下降，说明模型并不是靠「记住干净数据」，而是真正学会了在结构严重缺失、测量高度不可靠的情况下恢复合理的三维形状。

稀疏 SfM 深度：更复杂的现实问题

第二种协议进一步拉高了难度：输入不再是密集但有缺失的深度图，而是极度稀疏的 SfM / SLAM 点云。在很多真实应用中，当深度相机不可用时，这是获取几何信息的唯一途径。从定性结果来看，它生成的深度边界更加清晰，结构连续性更强，尤其在遮挡严重或观测稀疏的区域，优势尤为明显。

不止补全：单目深度估计

深度补全之外，蚂蚁灵波研究团队进一步追问一个更本质的问题：如果模型在预训练阶段学会了 RGB 与深度之间的对应关系，这种能力是否能迁移到「只有一张 RGB 图像」的单目深度估计任务中？

为此，他们将 LingBot-Depth 的 RGB 编码器作为预训练主干，替代目前广泛使用的 DINOv2，用于初始化 MoGe 模型。

需要注意的是，在这一设置下，模型在推理阶段完全不再接触深度输入 —— 深度分支和解码器被全部移除，考察的是「几何理解是否已内化进编码器」。

在四个基准数据集上的深度补全方法定性对比。对于每个数据集，依次展示了 RGB 输入、稀疏 / 被掩码的深度输入，以及 OMNI-DC、PromptDA、PriorDA 和 LingBot-Depth 方法的预测结果。可以看到，LingBot-Depth 在深度边界上更加清晰、结构更加完整，尤其是在存在严重遮挡或观测极为稀疏的区域，优势尤为明显。

使用不同预训练主干网络（DINOv2 与 MDM 方法）的 MoGe 单目深度估计结果。在 10 个多样化的基准数据集上，从仿射不变、尺度不变以及视差不变三类评价指标出发，系统评估了深度预测和点云映射的精度表现。

实验结果给出了肯定答案：

在多个测试数据集上，基于 MDM 预训练的编码器稳定地优于 DINOv2 初始化的模型，并且表现出更好的泛化能力。

这说明，这一方法的确是一种能够将三维几何知识压缩进视觉表示中的预训练机制。

总体而言，LingBot-Depth 依托真实复杂场景数据进行训练，使模型能够覆盖更多透明、反光和极端光照等长尾情况，因而具备更稳定的泛化能力；同时，其对深度空洞与噪声的有效修复，显著提升了深度图的完整性与边界质量。

落地，已就绪

性能再强，我们当然也不希望它只停留在实验室里。毕竟，「跑分」从来不是终点 —— 只有那些真正走进真实场景、能够稳定支撑工业生产和机器人应用的模型，才是行业值得拥抱的模型。

三维世界的稳定追踪

为了检验模型实际落地的能力，LingBot-Depth 被进一步接入到在线三维追踪任务 SpatialTrackerV2 中，来看其是否真的能够支撑更复杂、更长链路的几何应用。

相机追踪与场景重建结果。从左到右依次为：RGB 输入图像、原始传感器深度图、模型生成的精细深度图、估计得到的相机轨迹，以及最终重建的场景几何结构。

结果首先体现在相机追踪上。在包含大量玻璃与反光表面的室内场景中，替换为 LingBot-Depth 补全后的深度图后，输出的相机轨迹明显更加平滑、连续且稳定。

动态三维点追踪结果。上：目标物体上的查询点；中：被持续追踪的三维轨迹（按时间以彩虹色编码）；下：对应的深度图结果。

更进一步，动态三维追踪具有十足的可靠性。基于 LingBot-Depth 输出的深度，SpatialTrackerV2 能够恢复出连贯一致的三维运动路径，彩色轨迹在空间中呈现出清晰的结构与稳定的时序关系。

从应用角度来看，LingBot-Depth 已经具备作为基础感知能力直接嵌入现有三维系统的成熟度。

真实灵巧手的实战验证

要验证 LingBot-Depth 是否真正具备真实世界可用性，最直接、也最有说服力的方式，便是将其直接接入真实的灵巧抓取系统进行实机验证。

验证系统由 Rokae XMate-SR5 机械臂 + X Hand-1 灵巧手和 Orbbec RGB-D 相机组成，深度图先被转为点云，再用于预测抓取姿态。

抓取实验的定性结果。左图：包含机械臂、灵巧手和深度相机的硬件系统示意。右图：四个目标物体的 RGB 图像、原始传感器深度图，以及 LingBot-Depth 方法生成的精细深度图。对于反光物体（钢杯）和透明物体（玻璃杯、收纳盒），原始深度图严重缺失，而 LingBot-Depth 的方法能够生成完整且几何上准确的深度图。

抓取姿态生成与真实世界执行。上图：将预测的抓取姿态以灵巧手形式叠加在由精细深度重建的点云上进行渲染。下图：机器人系统在每个目标物体上成功执行抓取的场景。

结果非常直观：在包含透明、反光物体的真实场景中，使用原始传感器深度时，部分物体（如透明收纳盒）因深度大面积缺失完全无法抓取；而使用 LingBot-Depth 补全后的深度，系统能够恢复合理几何结构，抓取成功率显著提升。

灵巧手抓取反光不锈钢杯

灵巧手抓取透明玻璃杯

在真正的灵巧手交互中，借助 LingBot-Depth 的能力抓起反光的不锈钢杯和完全透明的玻璃杯完全不在话下，轻而易举。

此外， LingBot-Depth 在蚂蚁灵波团队的努力下，已经完成了模型的轻量化，并完全做好了落地的应用准备。

首先，LingBot-Depth 模型的部署非常灵活：它无需更换现有的 RGB-D 或 3D 相机硬件，就能作为算法增强模块直接嵌入现有系统，大幅降低升级成本和工程门槛。

同时，模型完全开源、可复现，便于研究者和产业团队快速进行验证、二次训练和工程化集成，加速从实验室到真实场景的落地应用。

总结

xx智能具备识别复杂光照环境，甚至精准捕捉透明，反光材质物体的能力，就已标志着通用级xx智能落地的一大障碍的突破。

归根结底，xx智能的发展不仅是算法迭代的赛跑，更是对行业认知和落地能力的考验。

LingBot-Depth 展示了一种思路的升级：面对真实世界的复杂性，在硬件受限的情况下，如何运用算法与数据、模型与物理认知的深度融合，来提升对真实世界的感知能力，是未来通用xx智能的核心方向。

蚂蚁灵波将 LingBot-Depth 完全开源，用户可以通过开源仓库获取模型权重、推理代码、评测脚本与使用文档，快速上手实验与验证；如需面向具体相机型号或机器人平台进行工程集成和性能调优，也可以对接官方的合作与技术支持渠道。

开放与可落地的策略，将深刻影响人工智能向现实价值转化的速度和格局。

....

#首个 AI 原生电商视频 Multi-Agent——Hilight AI

跨境电商版Sora发布：全球首个AI原生电商视频Multi-Agent来了

你的下一个视频团队，不一定非得是人。

做电商的朋友，一定对这样的时刻不陌生：前期找团队、磨脚本、拍视频，筹备了半个月，好不容易在亚马逊或 TikTok 后台上新一款潜力爆款。谁想到，半夜在 TikTok 刷到竞品的一条爆火视频，作为行家，你一眼就看出这是泼天流量，你也想接住。

可粗略一算：找模特、找摄影师、约场地、等剪辑，整套流程走完费用不低，且制作周期没半个月下不来…… 等把视频做出来，流量窗口早就关了，爆款也成了库存。

这时候你一定幻想过：如果有一个工具，能跳过所有拍摄流程，直接生成一条能出单的视频就好了。

你可能想到了 Sora。还记得 Sora 刚发布时，全行业都在狂欢，以为这一时刻终于来了。但后来却被现实狠狠「打脸」：Sora 懂物理世界，懂光影，能生成惊艳画面，可它不懂生意，不知道什么是「点击率」，更不知道什么是「卖点」。而且动辄几美元一秒的成本，让量产成了奢望。

但现在都 2026 年了，技术狂奔的当下，Sora 没能做到的事情，一个由营赛 AI 发布的名为 inSai Hilight 的中国产品做到了。

不需要任何拍摄素材，不需要复杂提示词，只「扔」进去一个商品链接或上传一张商品图，系统就会进入类似 DeepSeek 的「慢思考」模式， 20-30 分钟后，一条逻辑严密、商品 100% 还原、且符合 TikTok 爆款节奏的营销视频诞生了。

这就是 Hilight 历时 9 个月打造的全球首个 AI 原生电商视频 Multi-Agent——Hilight AI，也可以说是「念过营销学的电商版 Sora」。传统视频 AI 虽然生成素材时长短，但素材人物和产品都很难完全一致，人工优化的时间可能比自己剪的时间还要长，而 HIlight 是真正实现了商用级的稳定素材产出，是 AI 营销领域一次新的革命。它将 Sora 级别的视觉能力和 4A 公司般的营销大脑完美结合，直接重新定义电商营销视频的生产方式，营销视频不再是拼手速的「快餐」，而是拼逻辑的「推理」。

即便是刚刚入行的新人，也能以传统拍摄 1/20 的成本、10 倍的效率，指挥一支 AI 团队，生产出全球通用的爆款视频。

营销视频的「DeepSeek 时刻」，已然到来。

「万亿市场」被生产方式拖后腿？电商营销视频「叙事」该变了

其实，前面「你」的感受，并不是个例，而是整个行业的集体阵痛。

据国家统计局最新数据显示，2025 年全国实物商品网上零售额增长 5.2%，达 13.09 万亿元。整体来看，电商行业延续了稳健增长，并在结构优化、技术创新和开放合作方面取得了显著进展。而在跨境电商上，2024 年，仅中国跨境电商的出口额就达到 2.15 万亿元，连续九年增长，2025 年以来，中国卖家在亚马逊欧美市场的销售额增长超过 15%，在新兴市场的增长速度甚至更快，超过 30%。

电商市场规模在扩大的同时，竞争的逻辑也已经发生变化。一个共识是，流量的重心正在从图文转向视频。有数据显示，视频内容的转化率比图片高出 5 到 10 个百分点，相对提升接近 80%~100%。对平台而言，这是既定方向，对卖家而言，这却是一道越来越高的门槛 —— 视频的重要性被反复强调，但制作方式还停留在「原始时代」，简单来说就是慢、贵、不可规模化。

慢：制作周期长，写脚本、找模特、拍摄、剪辑，周期短则几天，长则几周甚至几个月，错过流量窗口；如果是跨境电商，还存在本地化难，花时间翻译语言等难题，且即便语言能翻译，但创意、文化、审美等难以恰当匹配，易翻车。

贵：成本高，模特、布景、拍摄、剪辑等各环节都需要高昂成本，单条视频成本从几百到几千美元不等。

不可规模化：素材少，只能反复混剪，内容同质化严重，且也无法规模化，账号多、平台多、内容更新频率高，传统制作方式不可持续……

结果就是，产品已就位，内容却永远「慢半拍」。社交平台上，常常看到国内外电商卖家因为营销视频跟不上的吐槽声或求助贴，对于他们来说，即便认识到行业发展趋势，却也只能无奈困在这种「清醒的焦虑」中。

诚然，市面上的 AI 视频生成工具并不稀缺，很多工具已经能够帮助卖家实现提升效率的目的，但这些工具也面临着同质化、初级、需要二次加工等多种问题，效果也忽高忽低。要么是「低智的套壳 AI」，不仅生成的视频一眼假，甚至因为大量使用通用素材库，导致做出来的视频在 TikTok 上和几百个竞品撞车……

而对于卖家来说，真正的需求从来都不是「能不能生成视频」，而是能不能稳定、低成本、规模化地产出「可投放的营销视频」。所以，「再来一个 AI 视频工具」也解决不了问题。

Hilight 早已洞察到这一点，并选择对准一个更底层问题：在电商场景里，营销视频短缺的根源不在于生成速度，而在于生产方式。

因此，Hilight 推出的全球首个 AI 原生电商视频 Multi-Agent，它不是简单的混剪合成工具，而是一个从脚本到画面、从素材到成片的纯 AI 原创营销内容多智能平台，让卖家不再被迫走向营销视频的低质量混剪，可以让每一款商品都拥有量身定制的原创营销视频。而且生成视频价格低至 3 元起，最高也不过十几元，相较传统方式，成本大幅降低。

而这也正是 Hilight AI 不同于 Sora、Keling 等视频生成工具的最大不同，它不是在简单构建一个工具，而是在重新定义下一代营销视频解决方案。

那么，问题来了，凭什么是 Hilight 首先让电商营销视频进入「Sora 时刻」？它的底气是什么？

敢信？每一个爆款视频都是十几个 Agent「吵」出来的

，时长00:57

这是 Hight AI 在视频生成过程中的流程展示，可以看到，在一个视频生成的背后是多个智能体之间相互配合与协同的结果。

前面提到，当下市面上的 AI 视频工具都在「快」上卷生卷死，仿佛谁能「秒级出片」谁就赢了，但电商视频的叙事逻辑并非如此，问题的关键不在各类更快的「快餐式」素材片段，而是「如何持续产出」高质量的即用式营销视频。

基于此，Hilight 走了一条「反直觉」的道路 —— 决定对现有电商视频制作流程进行革命性颠覆，底层逻辑是引入与 DeepSeek 异曲同工的「慢思考」逻辑，打造全球首个 Multi-Agent（多智能体）协同营销模型。

简单来说，Hilight AI 不再是传统意义上由单模型组成的「视频生成工具」，而是一支由 10 多个 Agent 组成的「视频制作团队」。在视频生成过程中，这些 Agent 之间互相配合，通过模拟真人导演的策划与监制逻辑，来生成远超同类竞品的高质量视频。

换句话说，每一个生成视频都是这十几个 Agent「吵」出来的结果。

怎么理解？

具体来看，Hilight 的这套多智能体架构共分为三个层级：理解与洞察层、创意与结构层、执行与成片层。

在视频生成过程中，理解与洞察层的 4 个 Agent 接收到需求后，负责理解用户输入的需求和素材，就像资深策划一样拆解需求、洞察「卖点」和受众，从而将模糊需求变成精准的营销指令。

接着，创意与结构层的 4 个 Agent 则负责「努力干活」，创意 Agent 写脚本，剧本策划 Agent 会拆成详细带有时间轴的分镜，紧接着素材匹配 Agent 进行素材匹配，以及定向优化 / 修复，目的就是将「好想法」变成能被执行的视频结构，将其交付给下一层级执行。

之后在执行与成片层，剪辑执行 Agent 和成片生成 Agent 接手，负责把所有的素材进行按轨道、时间排列成片。最后，质检复盘 Agent 还会对成片质量进行最终检验，以保证最终输出一个完整的、可投放的视频资产。

Hilight AI 研发团队介绍，这样的架构设计，一是保证每一个 Agent 节点都具备独立判断能力，以实现有效决策。

二是 Hilight 定义了一套严苛的评测协商机制，下游的 Agent 对上游 Agent 的输出结果有自己的判断标准，如果不符合则「打回重做」，以保证每一个节点不合格是可以局部重算，而不必整个流程重新推翻。

比如当剧本策划 Agent 察觉到脚本偏离卖点，会让创意 Agent 再重新做进行创作，剪辑执行 Agent 可以根据实际的成片效果，重新安排整个视频的节奏…… 这种内部的「对抗与协作」，有点像真实视频团队中策划、导演、剪辑师彼此之间的极限拉扯，为的是保证输出视频的逻辑严密性、节奏对味。

三是自我进化能力，通过爆款数据的回流以及创意范式的自动更新，系统能够快速适配新的平台规则来帮助用户实现长期营销增长和整体视频成片效果的增强。

所以，在用户一键成片的背后，是这 10 多个 Agent 组成的「团队」在通力协作，保证生成的视频能够直接拿去投放，但还不止于此。

相较于其他 AI 视频生成工具，Hilight AI 生成的视频具有非常高的跨帧一致性，而这也正是其最大的「杀手锏」。

对于电商营销视频来说，「一致性」往往是生死线，因为常用的 AI 视频工具最大的问题就是不一致，比如露营灯在第一秒还是圆的，第三秒就变成了方的；数字人口型对不上，或者手持产品时手指穿模……

为了攻克这一难题，Hilight 可是下了大功夫的。一方面，Hilight AI 接入的是目前行业最顶尖的基座模型。基于此，Hilight 还针对电商场景构建自研能力，重点突破跨帧一致性、口唇同步，以及商品 / 服装上身（Try-On）等模型技术。

首先，剧本规划启动前，Hilight 就开始对商品进行「深度解码」，不是单纯的识别商品名称，而是依托先进的商品知识图谱，对商品属性进行「抽丝剥茧」，不管是西装的亚麻材质，还是羽绒服的版型长度，都能被精准捕捉，并进行颗粒度极细的结构化拆解与梳理，继而构建成全维度的信息基座。

这就像为后续视频创作配备了「细节质检员」，无论镜头如何切换、场景怎样跳跃，都能主动校验商品特征，及时修正偏差，从源头避免因信息缺失导致的细节混乱，为跨帧一致性打下坚实基础。

而在视频生成过程中，全程基于「图生视频」进行，先生成一张高质量首帧图「锁死」商品特征，然后基于视频模型驱动首帧图生成视频，以实现对视频质量的精准控制。

此外，系统还有相应的检测和修复机制，智能自检 Agent 会在生成每一个视频后自动开展双重校验，包括实体一致性校验，对比视频中商品与主图的核心属性（颜色、版型、材质、关键组件），确保无明显偏差；物理逻辑校验，排查商品与场景、人物的交互是否存在穿模、不合理遮挡、不符合事实，如人物手持商品时是否出现「手穿进商品内部」的穿模问题等，避免出现逻辑矛盾。如果有则立即启动视频编辑模型进行定点编辑修复。

，时长01:17

一款印花连衣裙，数字人试穿时，不仅完美还原了连衣裙的物理质感与微小褶皱，展示动作也如真人试穿般自然，即便多场景切换，人物与商品的视觉一致性依然保持高度一致性。

即便这样还不够，Hilight AI 还配套了「人机交互机制」这最后一道防线，对于「漏网之鱼」，用户也可以选择精调成片功能，对脚本、素材、镜头等多个环节进行把控，从而保证输出的成片里，商品能够还原得非常逼真，从而实现构思的创意，并且数字分身的口型等都能保证一致性。

，时长00:49

一款家居拖鞋的生成视频，数字人口型与语音实现了帧级同步，肢体动作更是流畅自然，完全没有机械僵硬感，试穿时，数字人体态也自然舒展，当镜头拉近，甚至能清晰看到拖鞋表面细腻的绒毛纹理。

根据视频生成模型综合评测基准 VBench 权威测评结果显示，当前 Hilight AI 在跨帧一致性的表现，已领先于当前一众 AI 视频生成工具。

不仅如此，Hilight AI 还支持生成各大平台爆款风格的视频，这是因为 Hilight AI 引入多维知识库（RAG）驱动创意，将当下爆款视频要素、平台热门 BGM，以及用户历史创作的商品静态资产进行整合，堪称「爆款制造机」。

在视频生成之前，AI 会先会去通过多维知识库（RAG）技术查资料，确保新生成视频在内容主题与视觉风格上保持高度一致性，避免 AI 生成中的随机漂移。

实测：当「跨帧一致性」最强 AI 开始接管你的视频制作

说了这么多，Hilight AI 到底是如何实现远超其他 AI 视频工具能力的？我们决定亲自上手实测来感受一下。

Hilight AI 的官网很简洁，没有复杂的参数，也没有堆砌功能，创作入口主要集中在三个模块：智能成片、数字分身和创意工坊。核心功能则包括一键成片、100% AI 原创 (Zero-Shot)、商品 / 人物跨帧一致性保障、商品与数字人深度融合等。

我们直接选择智能成片，也就是一键成片，以亚马逊官网上的一款耳机产品为测试对象。

整个过程中，不需要提前准备任何视频素材，只需要提供一个商品链接或商品图片，或是需求描述、脚本等。在这里，我们直接将耳机的链接贴在需求栏，点击智能解析，系统便自动开始工作。

在需求解析完成后，系统并不会立刻生成视频，而是先通过一个「灵活表单」，来自动帮助用户梳理产品卖点、目标受众、促销优惠等营销关键信息，以便让生成的视频与产品本身更贴合。

这一步看似简单，却恰恰是大多数 AI 视频工具直接跳过的环节 —— 营销结构。

这些信息确认之后，用户就不需要再进行任何操作了，系统会自动完成从脚本生成、分镜规划、剪辑渲染、平台适配等流程，最终给出成片输出。在等待的过程中，页面也会实时展示当前进度，让用户看到视频是如何一步步被制作出来的。

整个过程通常需要花费 20–30 分钟，下面是整个操作流程以及生成的最终视频展示。

，时长00:36

，时长00:32

从展示的操作步骤中可以看出，整个过程的操作都是非常「丝滑」，是 AI 电商视频领域首个真正实现 100% 纯 AI 原创的视频生成工具。全部流程都由 AI 生成，无需用户插手，并在整个过程中解决素材版权和重复度问题。

而且，不同于当前一些 AI 生成工具仅生成素材，商家还需进行后期剪辑，Hilight AI 生成的视频画面衔接自然，商品在不同镜头中保持高度一致，没有走样，也没有常见的「跨帧漂移」；人物动作流畅，镜头切换时没有突兀的断裂感。更重要的是，这是一条完整的视频，而不是若干素材片段的组合，生成的视频完全可以直接拿去平台投放了。

来看一个反面案例：

，时长00:05

对于同一款耳机，用其他工具生成的视频中，当人物将耳机戴到头上时，耳机直接变成两个，不符合逻辑，甚至商品出现走样现象，难以直接用，还需要后期剪辑处理。

另外值得注意的是，如果过程中用户对剧本某些内容或是分镜头不太满意，没关系，可以通过「精调模式」进行局部调整，以生成更符合用户需求的视频内容。不仅如此，用户还可以在需求中说明想要投放的平台，其生成的视频也会满足用户需求。

从上面的视频中可以看到，Hilight AI 生产的视频中有「人物形象」出现，而前面其实我们也没有准备相应的素材，其实这是 Hilight AI 的另一个功能 —— 数字分身。用户只需要提供一些真人拍摄视频，就可以通过模型训练生成「专属」的数字人形象，同时还能克隆对应的音色。

这样一来，卖家就拥有了一个定制化的、稳定、可复用的数字「代言人」，甚至可以做到不同商品拥有不同的专属「分身」。

除此之外，Hilight AI 还提供了一个被称为「创意工坊」的素材工具集，多模态大模型加持快速生成好用的前贴、素材片段、商品图等全营销物料……

其实几轮实测下来，一个差异已经非常明显：相对于其他 AI 视频生成工具还停留在只能生成十几秒的素材片段，能生成视频但不懂商品转化等阶段，Hilight AI 已经能够稳定生成分钟级视频长度，并且可以前脚生成，后脚直接上线平台进行投放。质量上，敢「叫板」实拍效果，数量上也能够实现连续生产，支撑账号矩阵和高频更新。更重要的是，在成本上，相比人工近乎 0 成本。

最后，从 Hilight AI 的实践成果来看，这并不是一次单点能力的突破，而是一种生产方式的重构。当 AI 开始像一个团队一样协作、博弈、自我修正时，电商营销视频也似乎第一次具备了工业化生产的条件……

值得一提的是，这款产品是 Hilight 历时 9 个月迭代 13 个版本打磨出来的，可以说是匠心之作。

如今，Hilight AI 正式开启持续一周的公测，如果你也感兴趣，想要体验一下一支 10 多个 Agent 视频制作团队为你「干活」的感受，可以立刻行动，一起来重新定义电商营销视频的生产方式！

....

#Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think

1个Token零成本，REG让Diffusion训练收敛快20倍！

REG 是一种简单而有效的方法，仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型（如 DINOv2）的 class token 与 latent 在空间维度拼接后共同加噪训练，从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上，REG 相比 SiT 和 REPA 分别实现了 63 倍和 23 倍的收敛加速，如下图所示：

论文名称：Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think
论文地址: https://arxiv.org/abs/2507.01467v2
代码地址: https://github.com/Martinser/REG
会议信息: NeurIPS 2025 Oral
作者机构：NKIARI, 深圳福田；VCIP, CS, 南开大学；极豪科技；哈佛大学；中国科学院大学

背景简述

REPA 及其变体通过把 noised latent 和视觉基础模型判别式 clean image representation 进行对齐，来加速 Diffusion 训练收敛，但其推理时无法使用外部特征，限制了其性能上限。

为此作者提出 REG（Representation Entanglement for Generation）：将 low-level latent 与预训练视觉模型的 high-level class token 纠缠，并在训练中对二者同时加噪、联合去噪优化，从而使模型具备直接从纯噪声生成图像 - 类别对的能力。REG 在显著提升生成质量的同时大幅加速训练收敛，仅需额外引入一个 token（计算开销 <0.5%），几乎不增加推理成本。此外，推理过程中 REG 能同步生成图像 latent 及其全局语义信息，并利用这些语义知识主动指导和增强图像生成。

在 ImageNet 256×256 上，SiT-XL/2+REG 收敛速度分别较 SiT-XL/2 与 SiT-XL/2+REPA 提升 63 倍与 23 倍；仅 400K 步的 SiT-L/2+REG 已优于 4M 步的 SiT-XL/2+REPA。

REG 方法介绍

REPA 方案回顾

REPA 在训练阶段（Figure 2a）通过将 SiT 的中间 noised latent 与预训练视觉模型 DINOv2 的 clean dense feature 进行对齐，从而引入判别式语义指导并加速收敛。而在推理阶段（Figure 2b），REPA 无法再使用这一外部对齐机制，即无法直接获得和利用 DINOv2 的表征来提升生成效果。因为训练时其只是间接对齐 DINOv2 与 SiT，而并未将 DINOv2 的表征显式作为 SiT 的输入。

REG 训练和推理方案

REG 训练方案非常简单，只需将 DINOv2 的 class token（携带全局语义信息）与原始 latent 一起加噪，然后拼接后输入 SiT 进行去噪训练。具体伪代码流程如下：

1. DINOv2 class token 按照标准流程进行加噪成为 noised class token (cls_input)。

Python
noises_cls = torch.randn_like(cls_token)
cls_target = d_alpha_t * cls_token + d_sigma_t * noises_cls
cls_input = alpha_t.squeeze(-1).squeeze(-1) * cls_token + sigma_t.squeeze(-1).squeeze(-1) * noises_cls

2. noised class token 通过一个 linear 层，进行映射转换，和 noised latent (x) 保持相同通道维度。

Python
cls_token = self.cls_projectors (cls_input)
cls_token = self.norm (cls_token)
cls_token = cls_token.unsqueeze (1)

3. noised class token 和 noised latent 通过 torch.cat，进行空间维度的拼接。

Python
x = torch.cat ((cls_token, x), dim=1)

4. 进行 SiT 的 forward。

5. 计算对应的 denoising_loss_cls。

Python
denoising_loss_cls = mean_flat ((cls_output - cls_target) ** 2)

REG 的推理方案同样简洁：在原有 SiT 推理流程的基础上，只需将额外随机初始化的 class token 一起加噪并参与去噪即可，具体代码参考：https://github.com/Martinser/REG/blob/main/samplers.py

1. 随机初始化的 class token (cls_z) 和 latent (z)

Python
z = torch.randn (n, model.in_channels, latent_size, latent_size, device=device)
cls_z = torch.randn (n, args.cls, device=device)

2. class token 和 latent 一起进行联合推理

REG 具体效果

在 ImageNet 256×256 上，REG 在不使用 CFG 且不改造 SiT 与 VAE 的前提下，显著超越 REPA。SiT-XL/2+REG 相比 SiT-XL/2 与 SiT-XL/2+REPA 分别实现 63 倍和 23 倍的收敛加速，仅 400K 步的 SiT-L/2+REG 即优于 4M 步（10 倍时长）的 SiT-XL/2+REPA。而在 4M 步训练下，REG 的 FID 进一步达到 1.8。

ImageNet 256×256，REG 使用 CFG，480 epochs 的 1.40 FID 超越 REPA 800 epochs 1.42 FID，同时 800 epochs 更是达到 1.36 FID。

ImageNet 512×512，REG 的表现也非常不错，REG 使用 CFG，80 epochs FID 达到 1.68，超越 REPA 200 epochs 和 SiT 600 epochs 结果。

REG 消融实验

开销对比

训练开销对比。REG 和 SiT-XL/2 相比，达到相似的 FID，REG 训练时间减少了 97.90%。同时和 REG 相比，也达到相似的 FID，REG 训练时间减少了 95.72%。

推理开销对比。可以看到 REG 整体的开销几乎没有，Params，FLOPs 和 Latency 增加的开销小于 0.5%，但是 FID 却比 SiT-XL/2 + REPA 大幅提高 56.46%。

不同超参的对比

作者对不同对齐目标，不同深度，还有 class token 的去噪 loss 的权重 (velocity prediction loss)，进行广泛的消融实验，证明 REG 有效性。

不同操作对比

作者评估了不同内容作为 SiT 输入的影响，具体对比如下：

1. one learnable token，把 DINOv2 的 class token，换成一个可学习的 token

2. avg (latent feature)，改进有限，缺乏判别性语义

3. avg (DINOv2 feature)，显著提升

4. DINOv2 class token，效果最佳

表明 high-level 全局判别信息（avg (DINOv2 feature) 和 class token）能大幅提升生成质量，能有效规范生成的 latent，在保持计算效率的同时，同步提升语义质量和输出质量。

单独插入 class token 效果

研究 SiT 只插入 class token，不使用 REPA 效果。发现插入 class token，并进行联合加噪训练，依旧有非常不错的效果。

增强生成模型的判别语义学习

PS：CKNNA 是一个类似相似度的指标，REG 遵循 REPA 的设置，计算 REG 和 DINOv2 之间的 CKNNA，CKNNA 数值越大，代表 REG 和 DINOv2 越相似，REG 学习到了更多判别式语义。

Figure 3 系统分析了 REG 是否学习到了判别式语义，发现 REG 和判别式语义相关的指标 CKNNA，能在不同 block，layer，timesteps 都比 REPA 更高，具体情况如下：

1. 不同 Training steps (Figure 3 (a))：随训练时间增加，FID 和 CKNNA 均提升，且 “更高 CKNNA → 更好生成”。REG 在各训练阶段均优于 REPA，说明引入 DINOv2 class token 增强了判别语义。

2. 不同的 layers，Figure 3 (b) 发现各模型在第 8 层语义分数达峰值后下降（此处进行 SiT 和 DINOv2 dense feature 的对齐，并计算对齐损失），但 REG 在所有层始终高于 REPA 和 SiT。这得益于其将 DINOv2 low-level latent 与 class token 融合，通过 attention 传递判别语义，使前中层专注理解 latent，后层专注生成细节。

3. 不同的 timesteps，Figure 3 (c) 呈现 REG 在所有时间步保持显著优势，验证了其在全噪声范围内稳定的语义引导能力。

总结

整体而言，REG 是一种极其简洁而高效的方案，首次提出了 high-level 与 low-level token 混合纠缠去噪的训练范式，在显著提升训练效率与收敛速度的同时完全不增加推理开销。其核心在于促进生成模型的 “理解 — 生成” 解耦：class token 指引 SiT 前层更专注于 noise latent 的理解，后层则聚焦于生成任务，从而实现 “先理解、后生成”，最终带来优异的生成效果。

....

#世界模型，是否正在逼近自己的「ChatGPT时刻」

李飞飞等顶尖学者投身的创业方向——世界模型是 AI 的下一站吗？

「AI 是人类自诞生以来，唯一担得起『日新月异』这个词的技术领域，」在xxx近日举办的 NeurIPS 2025 论文分享会圆桌讨论上，茶思屋科技网站总编张群英的开场感叹引发了在场专家们的共鸣。

这场由黄大年茶思屋总编主持，聚集了中科院自动化所、南京大学、北京通用人工智能研究院、极佳科技等机构专家的大讨论，直指目前 AI 领域最热门的方向——世界模型。最近一段时间，从谷歌 Genie 3 的发布到李飞飞的长文论述，世界模型、空间智能等概念正成为新的焦点。

四十多分钟的对话里，专家们围绕世界模型的定义、数据与架构方向、技术路径分歧，以及商业化前景展开了讨论。在一些议题上，大家的观点一致，不过在很多重要方向上有着明显不同的思考。看得出，面对这个正在快速发展的新兴领域，不论是技术还是评判标准，我们还有很多需要去探索、验证的。

首先，世界模型究竟是什么？几位嘉宾从不同角度给出了自己的定义。

极佳科技联合创始人、首席科学家朱政认为，世界模型本质上是预测模型：「给定当前状态及动作序列，预测下一个状态。」他指出了世界模型的三大应用前景：为自动驾驶、xx智能等多模态任务提供更多数据、建立模型与世界的结合替代传统模拟器、以及最终成为端到端系统的一部分。

北京通用人工智能研究院xx机器人中心研究科学家贾宝雄则将世界模型理解为对 AI 对于环境状态的预测和判断。「从过去的简单游戏世界，到现在 3A 大作级的虚拟环境，世界模型正在逐渐走向对于高质量的状态的模拟。」

南京大学智能科学与技术学院准聘副教授、国家高层次青年人才范琦则从终极目标角度提出了一个宏大愿景：「世界模型的终极目标就是把世界 1：1 建模，目标可能要到原子级别。」但他也承认这几乎不可能，「我们并不需要如此精细的复刻，只需要依照目的进行建模，不同任务有不同的理想目标。」

如何构建世界模型？

在世界模型的发展中，一个核心悖论是：先有模型还是先有数据？世界模型的应用，经常与自动驾驶、xx智能等领域的合成数据 AI 训练相联系，但我们又该如何训练一个世界模型？

朱政以自动驾驶为例说明了这一困境：「自动驾驶公司积累了上亿公里数据，但 99% 都是晴天道路数据，真正危险的场景采集不到。」他提出了一个可行的路径：先用常见数据训练垂类模型，再生成更多 corner case 数据，通过迭代让世界模型越来越强。

贾宝雄从成本角度进行了思考：「有公司在构建世界模型时，采集数据的成本在千万级，这不是研究团队能够直接能做的事情。但对于不同形式的xx智能来说，数据是至关重要的。」他强调，对于具体的应用方向来说，我们可以通过特定的高质量数据来提升模型效果。

范琦则描绘了一个循环过程：「先有 0.1 的模型，生成 0.1 的数据，再用它来进一步训练模型。」他提出了「生成数据 + 真实数据」的混合模式，通过模型、产品、数据的循环推动发展。

在世界模型的技术实现路径上，专家们展现了明显分歧。

相比于视频内容的生成，贾宝雄的研究团队偏向融入物理信息的方法：「就算它是视觉模型，也要保持物理世界的一致性，比如重力。」

朱政则更加务实：「不论重渲染还是重预测，世界模型的构建很大程度上与需求有关。」如果是面向影视、游戏等方向，视频生成可能是更合适的方向。这可能是李飞飞 World Labs 使用生成 + 重建方式的理由。如果是面向消费者的通用的任务，我们可能不需要保持物理规律，甚至有时候创意是更为重要的，「如果要让一个人飞起来，现实不可能，但符合创作人意图。」

而且，随着生成能力的增强，世界模型对于物理规律的掌握、内容记忆的保持会越来越好，模型的最终形态可能是纯生成的，不需要重建。

范琦对此持不同意见：「终极目标可能是隐式的，但现在可能是显式 + 隐式一起。」他类比了大语言模型的情况，「大模型的记忆能力很不错，但是想要生成一整本书内容还是有很多错误，想要更好的生成（长序列的生成），会面临更多的挑战。所以到数据更加稀缺，更为复杂的世界模型上，想走到完全依赖隐式表征还有很长的路。」

架构之争：扩散 vs 自回归

在关于世界模型主流架构的讨论中，三位嘉宾发表了各自对扩散与自回归架构的看法。

朱政指出，从视觉角度来看，扩散模型更契合世界模型的发展方向。扩散模型从随机噪声中逐步还原图像、视频或音频，其本身就非常接近物理世界的生成方式。另外，从神经科学角度来看，人脑通过神经元从复杂噪声信号中解码世界的机制，与扩散模型通过去噪生成内容的过程类似。基于这两方面考虑，他认为扩散架构更适合世界模型。

贾宝雄观察到了技术融合的趋势，目前包括 OpenAI 在内正探索将不同架构在某些阶段统一起来，比如使用 token 化的扩散。

范琦点出了现在已经有扩散和自回归结合的工作。扩散模型擅长捕捉并建模现实世界的真实分布，但现实世界又是连续变化、具有因果关系的，仅靠扩散难以长期建模，因此还需自回归补足时序与逻辑上的连贯性。他举例说明，「扩散可以预测短时间（比如 2 秒）内的几十帧内容，而更长的连帧通过自回归连接。」总之，「无论黑猫白猫，能抓到老鼠的就是好猫。」

世界模型 ChatGPT 时刻还有多远？

最后，世界模型的「ChatGPT 时刻」何时到来？世界模型是否已经到了爆发前夜？这或许是大家最为关注的两个问题了。

贾宝雄没有直接给出个人判断，而是引用了一些业内人士的说法：世界模型的 ChatGPT 时刻可能需要三年左右出现。范琦强调关键在于数据，目前最困难的是缺乏高质量长视频数据。另外，视频生成时长大多在 5 到 10 秒，大厂的视频 Demo 也只能做到一分钟量级。因此，关于世界模型 ChatGPT 时刻何时到来，他认为时间可能要拉长一些。

在谈到世界模型是否成为新的爆点时，范琦则表示，随着语言模型发展至今，可能需要开拓其他研究方向以进一步推动人工智能进步。世界模型可能是现在以及未来十年新的爆发方向。

朱政回顾了极佳科技成立之初，外界对世界模型还很陌生。如今，随着李飞飞等领域领军人物的频频宣传，世界模型已经成为热点议题。不过，他指出世界模型存在着 ToB 和 ToC 两方面的商业化挑战，如 ToB 端按 token 收费时如何定义视频生成数据对用户的价值，ToC 端如何提升 token 等。

在这些挑战之外，朱政认为未来世界模型可能更需要训练强化学习 Agent 以及如何将 VLA（视觉 - 语言 - 动作）进化为 WLA（世界 - 语言 - 动作）。这些技术与商业难题需要业界与学界一起想办法解决。

写在最后

此次圆桌讨论在主持人的引导下，三位嘉宾围绕世界模型的发展时间表、数据瓶颈、技术架构以及商业化路径各抒己见，在分歧与共识中展现了这一领域的多元性与活力。

整体来看，世界模型正站在聚光灯下，既拥有巨大的发展潜力，也面临数据、算力和技术路线等多重挑战。可以预见，未来围绕模型架构、训练范式及应用场景的探索仍将持续，而这些探索本身也将成为推动世界模型迈向成熟的重要动力。

....

#KnowSelf

大模型乱试错、盲调用？让智能体有「知识边界感知」能力

在 AI 领域，大模型智能体的发展日新月异。我们今天要介绍的这篇 ACL 2025 论文——《Agentic Knowledgeable Self-awareness》，聚焦于如何提升智能体的「知识边界感知」能力，使其在复杂任务规划中更加得心应手，为智能体的可靠应用提供了新思路。

论文标题：Agentic Knowledgeable Self-awareness

论文链接：https://arxiv.org/abs/2504.03553

代码链接：https://github.com/zjunlp/KnowSelf

30 秒速读版本

KnowSelf 聚焦于大模型智能体在决策过程中所面临的「知识边界感知」问题。受人类决策机制启发，本文指出智能体应具备三类行为模式的自主决策能力：快速反应（快思考）、深度推理（慢思考），以及主动调用外部工具（本文以外部知识增强为例）。

KnowSelf 通过学习自身的知识边界，使智能体能在不同情境下自主判断是否具备足够知识进行生成和推理，以减少无效试错与知识滥用。实验表明，KnowSelf 可提升智能体的知识调用准确率、任务规划效率和跨任务泛化能力。

研究背景：智能体规划的困境

大模型智能体在诸多领域展现出巨大潜力，但现有智能体规划方法存在弊端。传统方法多采用「盲目灌输」模式，将标准轨迹、外部反馈和领域知识无差别地注入智能体模型，完全忽视了人类决策过程中至关重要的「自我认知」原则。

这种「无脑式」灌输导致智能体在面对意外信号时极易崩溃，陷入模式崩塌困境，且过度试错与盲目知识融合在实际场景中往往不可行，还会大幅推高模型推理成本。

人类在决策时，会根据面临的情境动态评估自身状态，灵活调整策略。比如，当我们遇到简单问题时，能迅速做出判断并行动；遇到棘手问题，会放慢思考节奏，深入分析；而面对超出自身能力范围的问题，会主动寻求外部知识或帮助。

然而，当前大模型智能体普遍缺乏这种「知识边界感知」能力，导致规划行为低效且脆弱。

核心方法：KnowSelf 框架

为破解这一难题，论文提出了智能体「知识边界感知」的思路，并基于此设计了数据驱动 KnowSelf 方法，让大模型智能体能够自主调节知识的运用。

知识系统构建

对于外部工具（知识），并采用了一种简单高效知识收集方法，以极低成本完成知识库的离线构建。该知识系统由知识库和知识选择模块组成，其中知识库包含一系列知识条目，知识选择模块能依据智能体历史轨迹从知识库中精准挑选所需知识。这种设计兼顾了知识系统的实用性和高效性。

情境判断标准

论文基于智能体的能力，将情境划分为三类：快速思考（Fast Thinking）、慢速思考（Slow Thinking）和知识型思考（Knowledgeable Thinking）。并提出了启发式情境判断标准，用于标记智能体自我探索轨迹中的特殊标记，从而针对智能体的能力构建出训练数据，为后续训练奠定基础。

快思考：智能体无需多虑，能直接给出正确行动
慢思考：智能体虽能给出正确行动，但需经过多步思考与反思
知识型思考：智能体自身无法提供正确行动，必须借助外部知识辅助思考

自我认知训练

KnowSelf 采用双阶段训练过程，先通过监督式微调（SFT），让智能体模型初步掌握自我认知规划模式；再引入 RPO 损失函数，进一步强化自我认知能力。在这一体系下，智能体会生成特定特殊标记，表明其对情境的判断，在推理过程中实现知识查询与反思的精准调控。

实验成果

本文在两个模拟大模型智能体规划数据集 ALFWorld 和 WebShop 上，对 KnowSelf 进行了全面评估，涵盖 Llama-8B 和 Gemma-2B 两个不同规模的模型。实验结果显示，KnowSelf 凭借极少的反思和知识使用，性能优于多种基线方法。

与无知识基线方法对比，KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展现出卓越性能。与知识增强型基线方法相比，KnowSelf 仅用少量知识，就超越了所有的 100% 知识增强基线方法，充分证明了并非知识越多越好，精准的知识引入机制才是关键。

进一步分析：深入探索智能体自我认知

智能体规划模式过拟合

本文通过消融实验，发现仅在标准轨迹上训练的模型更易陷入模式拟合，而引入反思和知识边界感知后，智能体规划能力提升。这表明，在许多情况下，智能体并非不能做出正确决策，而是受限于规划模式。此外，过度引入知识可能会对性能产生负面影响，因此凸显了精准知识引入机制的重要性。

智能体规划泛化能力

在泛化能力测试中，KnowSelf 在 ALFWorld 的三项挑战性任务上表现优异，优于基于提示的基线方法 Reflexion。这表明 KnowSelf 能有效打破传统规划轨迹训练的局限，使模型具备跨任务情境感知能力，在未见过的任务上能灵活运用反思和知识引入策略。

模型与数据规模影响

随着模型规模扩大和自我认知训练数据量增加，KnowSelf 性能稳步提升。当自我认知训练数据相对比例低于 40% 时，模型性能可能出现波动甚至下降，推测模型需达到一定自我认知水平才能稳定发挥效能。

智能体自我认知机制机理

本文在 Transformer 模型的各层计算不同情境标记的平均概率，发现 Reflection 标记概率始终为零，Knowledge 标记和 Action 标记在模型最后几层才出现。这表明智能体在内部决策时，仅在最后几层隐藏层才决定是否调用外部知识，且调用知识的决策可能更晚出现，暗示智能体在 Token 空间内通过隐式奖励引导进行探索，最终做出决策。

结论与展望

本文提出的 KnowSelf 方法为智能体规划提供了新思路，初步探索了智能体知识边界感知这一问题。在后 R1 时代，随着 Search-R1、ReSearch、Deep Researcher 等工作的出现，基于 RL 的智能体自主知识获取工作展现了巨大的前景，KnowSelf 还只是在这个时代之前的初步产物，相信随着技术的发展，基于 RL 的智能体自我认知能迸发更大的活力。

....

#FlashComm

帮大模型提速80%，华为拿出昇腾推理杀手锏，三招搞定通算瓶颈

在今年 2 月的 DeepSeek 开源周中，大模型推理过程中并行策略和通信效率的深度优化成为重点之一。

近日，华为数学家出手，祭出 FlashComm，三箭齐发，解决大模型推理通算难题：

FlashComm1: 大模型推理中的 AllReduce 通信优化技术。将 AllReduce 基于通信原理进行拆解，并结合后续计算模块进行协同优化，推理性能提升 26%。

FlashComm2：大模型推理中以存换传的通信优化技术。在保持计算语义等价的前提下，实现 ReduceScatter 和 MatMul 算子的计算流程重构，整体推理速度提升 33%。

FlashComm3: 大模型推理中的多流并行技术。充分挖掘昇腾硬件的多流并发能力，实现 MoE 模块的高效并行推理，大模型吞吐激增 30%。

随着大语言模型（Large Language Models, LLMs）规模的指数级扩张，其部署形态也随之变化，显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署，到稠密模型时代的多卡 / 单节点部署，再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家（Mixture of Experts, MoE）模型，大语言模型甚至会采用数百卡组成的集群和超节点来部署。

可以说，模型推理早已不是「单兵作战」，而是一场高协同的「群体作战」。而在这基于集群的大模型推理中，集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式，能让多个计算节点高效配合完成任务。

有一些常用集合通信操作，比如全量规约（AllReduce）可以想象成一群工人各自收集了不同区域的建筑材料数据，全量规约就是把所有工人手里的数据汇总到一个地方，进行求和、求平均值等计算。在大模型里，多个计算节点可能各自计算了一部分参数梯度，AllReduce 操作能把这些梯度汇总起来，计算出最终的梯度，用于更新模型参数。

再比如全量收集（All-Gather）则类似于所有工人把自己手头的材料清单共享给彼此，这样每个人都知道所有材料的情况。在大模型里，All-Gather 操作能让每个计算节点都获取到其他节点计算出的部分结果，将分散在各节点的数据聚合到所有节点。还有像规约散射（Reduce-Scatter）操作则相当于先把所有建筑材料按类别汇总，再重新分配给不同工人。在大模型中，Reduce-Scatter 先对数据进行规约计算，再将计算结果分散到各个节点，常用于在多个节点间分摊计算压力。也还有像 All-To-All 这样允许所有节点之间相互交换数据，让每个节点都能获取到其他节点的相关数据的操作。

这些形形色色的集合通信操作，大多用来支持在集群上运行大模型推理时的并行策略，比如常见的张量并行（TP）是把一个大的张量（可以理解为模型的参数矩阵）拆分成多个部分，分配到不同的计算节点上计算。在这个过程中，节点之间需要频繁交换数据，比如 All-to-All 操作就经常被用到，让各个节点能获取计算所需的张量片段，实现高效的并行计算。

再如数据并行（DP），其将输入数据分成多个批次，在不同节点上同时处理不同批次的数据。各节点计算完各自批次数据对应的梯度后，需要用 AllReduce 操作把这些梯度汇总起来，计算出平均梯度，再将更新后的模型参数发送给所有节点，保证各节点使用相同的模型。

而被 MoE 带火的专家并行（EP）就像工厂的流水线，不同的计算节点负责模型不同专家的计算。在这个过程中，节点之间需要传递中间计算结果，类似广播操作会把上一层的输出传递给下一层的节点，确保专家正常激活运行。

由上可以看出，集合通信操作是大模型推理中多个计算节点协作的「桥梁」，不同的并行策略（TP、DP、EP）通过这些操作实现高效的数据交互和计算，从而加速大模型的推理过程。

通信：Scaling law 头顶的乌云

随着集群规模和推理并发数的飞速增长，在大语言模型的推理中，通信面临的压力也在不断变大，在推动应用通算融合技术上还有一些问题需要解决：

1) 随着 MoE 模型规模的持续扩张，专家数量与参数总量呈指数级增长，单个模型参数突破千亿级别已成常态。尽管 MoE 通过稀疏激活机制仅调用部分专家，但海量参数的存储与调度仍对硬件构成严峻挑战。MoE 模型的稀疏计算特性虽能提升推理效率，却引入了更复杂的流程与通信瓶颈。专家路由、数据分发与结果聚合等环节紧密耦合，通信带宽需求随专家数量呈平方级增长，极易引发网络拥塞；而流程各阶段的强依赖性使得计算与通信难以重叠，硬件资源长期处于「饥饿」状态。如何实现通信与计算的深度协同成为关键难题。

2) 传统的通信方案中小并发推理场景下常用的通信策略 —— AllReduce，存在着一些缺陷：

AllReduce 在通信原理上，等价于 ReduceScatter 和 AllGather 的组合。直接使用 AllReduce 算子，在通信次数上较少，适用于小并发场景。但在大并发场景下，AllReduce 算子对比拆分的 ReduceScatter 和 AllGather，收益并不明显。
Transformer 结构中 AllReduce 算子之后，往往会有一些其他计算操作，如 RMSNorm、以及 MLA 中的降维计算等。这些计算过程会在不同卡上执行相同的计算操作，在小并发场景下可能耗时不高，但在大并发场景下，会带来不小的代价。

3) 当前主流的并行方案是张量并行 (TP) 在应用 AllReduce 时也面临一些问题。TP 方案通过卡间均匀切分权重的方式，虽然能够有效降低每张卡上加载的模型权重大小，但卡间求和的 AllReduce 操作在大模型端到端推理时延中占比较高；在多节点的部署场景中，跨节点的带宽限制进一步加剧了整网时延劣化。

针对上面三个难题，华为团队用数学补物理，给出了他们的系列性创新解法，把加速大模型推理提到了新的高度。

项目链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/tree/main/FlashComm

FlashComm：别让通信扼住算力的咽喉

FlashComm1 通算重组：给通信装上「智能压缩器」

传统 AllReduce 的笨重通信方式如同用集装箱运输散装货物，华为团队则通过数学手段，基于昇腾硬件特点，将其拆解重构：先将数据智能分拣（ReduceScatter），再对精简后的核心信息进行广播（AllGather）。在这两个阶段之间，创新性插入数据投影降维和 INT8 动态量化技术，使后续通信量直降 35%，关键计算量锐减至 1/8。

这种「先浓缩再传递」的智慧，让 DeepSeek 模型 Prefill 推理性能提升 22 ∼ 26%，Llama3.1-70B 模型的 Decode 阶段性能提升 14%，如同为数据洪流建造了分级疏导系统。

技术博客：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm.md

FlashComm2 以存换传：重新定义计算与通信的平衡

面对 TP+AllReduce 架构的通信瓶颈，团队发现了一个精妙的数学等价关系：通过调整矩阵乘法的并行维度，在保持计算结果精确性的前提下，将原本需要传输的三维张量「压扁」成二维矩阵。这种维度魔法配合 INT8 量化技术，使得 DeepSeek 模型在注意力机制转换阶段的通信量骤降 86%，整体推理速度提升 33%。

这就像在保证货物完整性的前提下，把运输集装箱体积压缩了五分之四，让数据传输真正实现「轻装上阵」。

技术博客：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm2.md

FlashComm3 多流并行：打破计算链条的串行桎梏

针对上文提到的最后一个问题，华为团队提出了昇腾亲和的大模型推理多流并行技术。

在 MoE 模型的推理过程中，华为团队如同拆解精密钟表般对 DeepSeek V3/R1 的计算流程展开深度剖析。通过数学重构将原本环环相扣的激活通信、门控决策等五大模块拆解重组，借助昇腾硬件的多流引擎实现三股计算流的精准并行：当一组数据正在进行专家计算时，另一组数据已开启门控决策，而第三组数据已在传输途中 —— 这种「计算不停歇」的流水线设计，使关键路径耗时大幅缩短。

更巧妙的是，通过 TP8 分片与流水线技术的交织运用，在多卡并行时仍为系统腾出 2GB 内存空间，如同在高速运转的引擎内部完成精密的空间重组。实际部署中，DeepSeek 模型的 Prefill 阶段提速超 10%，Decode 吞吐激增 25%-30%。

技术博客：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FlashComm/ascend-inference-cluster-flashcomm3.md

总结与展望

针对 DeepSeek 这类超大规模 MoE 模型的多机多卡推理场景中的通信挑战，华为团队提出了三项关键技术，其中 FlashComm 技术基于相同的集合通信逻辑替大模型推理中的 AllReduce 通信算子，在不改变网络并行方式的前提下，充分利用网络中低维度数据或低比特数据特性进行通信算子位置的编排，实现通信数据量的降低和通信时延的优化，同时消除了计算流程中的冗余计算，进一步提升了网络端到端推理性；FlashComm2 技术充分考虑网络并行过程中数据特征的维度变化，基于相同的集合通信逻辑将张量并行中的原有通信算子进行替换，并对新的通信算子在网络中的位置进行编排；FlashComm3 技术通过对 MoE 架构的细致理解，通过计算流程的等价变换，尽可能提升模型计算的并行度，并借助昇腾硬件提供的多流能力实现并行，进而大幅提升大模型的推理吞吐。

未来，围绕着超大规模 EP 下的多流并行、权重自动预取、模型自动多流并行等方向，华为团队将进行更多的创新，进一步提升大模型推理的系统性能。

同时，随着大语言模型特别是 MoE 架构的进一步扩展，其参数规模、专家数量与并发推理需求将持续增长，对通信、调度和资源协同会提出更高的要求。在这一趋势下，华为昇腾不仅仅是硬件算力的提供者，更要构建一个面向大模型推理的全栈生态体系。

....

#文心大模型的「AI马拉松」

对于百度而言，既要保持长期主义的战略定力，也要在技术路径上灵活应变，这种「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。

2025 年，模型能力的重要性依然无需多言。

从预训练的角度来看，虽然连 OpenAI 前首席科学家 Ilya Sutskever 都说，预训练数据即将用尽，但海量的图像、视频等多模态数据资源依然有待挖掘。

从后训练的角度来看，强化学习新范式正在让 Scaling Law 焕发新生，新一代的推理模型在数学、代码、长程规划等问题上不断取得新进展。

对于 AI 公司来说，保持对基础模型研发的投入依然非常必要。现阶段来看，这仍然是攀登智能高峰的本质所在。

而在这个领域，百度一直是一个不可忽视的力量。从 2019 年发布文心大模型 1.0 至今，文心大模型从知识和数据融合学习，到知识增强、知识点增强，从检索增强、对话增强、逻辑推理增强，到慢思考、多模态的技术演进并非偶然，而是早期技术探索形成的「积淀」持续推动的结果。正是这份「积淀」引领百度打造出超越 GPT-4o 的多模态大模型文心 4.5 Turbo，以及领先 DeepSeek R1、V3 的深度思考模型文心 X1 Turbo。这些技术发展，体现了百度在基础研究上「不变」的坚持与在 AI 快速迭代环境中适时求「变」的进取。

在前两天的百度 AI Day 上，百度集团副总裁吴甜深入解读了文心最新模型的创新技术，并回应了业界对百度文心大模型的诸多关注。通过她的分享，我们得以一窥百度在基础模型研发领域坚持的核心理念与技术演进路径，也更加清晰地认识到了评测数据背后那个真实且充满活力的飞桨文心生态。

进击的文心

在 AI Day 现场，吴甜演示了一个文心 X1 Turbo 解题的案例。这道题不光有文字描述，还有几何图，需要模型综合多模态信息进行推理。

，时长00:41

从文心 X1Turbo 的回答来看，它思考解答这个题目的思路非常清晰，能够自主规划，识别图片中的明面信息和隐藏含义，再思考分析，反思每个选项答案的准确性，最后综合给出解题步骤和答案。这在一些权威基准测试中也得到了验证。文心 X1 Turbo 整体效果领先 DeepSeek R1、V3 最新版，略低于 OpenAI o1 满血版。

此外，来自中国信通院的大模型推理能力评估也显示，文心 X1 Turbo 在 24 项能力测试中表现突出 ——16 项获 5 分、7 项获 4 分、1 项获 3 分，综合评级达到「4 + 级」，成为国内首款通过该测评的大模型。评估结果还表明，该模型在逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。这样一个来自第三方的评测意味着，文心 X1 Turbo 已经站稳了国内推理模型的第一梯队。

除了推理能力，文心 X1 Turbo 和之前的文心 X1 之所以出圈，和它们的成本优势也密不可分。在能力相当的情况下，文心 X1 把价格打到了 DeepSeek R1 的一半；X1 Turbo 则更进一步，把价格打到了 DeepSeek-R1 的 25%，这让一些海外开发者羡慕不已。

一个搭建多年的全栈技术体系

用吴甜的话来说，无论是多模态还是深度思考，想做出好的效果都不是「一招制胜」，而是通盘的问题。好在，在百度多年构建起来的技术栈中，文心有很多「招式」可以用。

从多模态深度语义理解到多模态大模型

在国内，百度是最早开展多模态研究的 AI 公司之一。他们 2018 年就在「多模态深度语义理解」方面有所突破，例如视觉语义化和语音语义一体化。以此为基础，他们的技术路线一路演进，进入多模态大模型的时代。

吴甜提到，多模态大模型的核心难点之一在于如何有效地对多模态进行建模。围绕这一问题，他们从多个方向寻求突破，研制了：

多模态异构专家建模：充分照顾到不同模态的特性；

自适应分辨率视觉编码：解决不同分辨率视频在视觉编码上的差异化要求；

时空重排列的三维旋转位置编码：充分利用视频数据中的时空、时序信息；

自适应模态感知损失计算：根据不同模态的特性动态调整损失计算方式，解决模态间差异问题。

采用了这些技术之后，模型在训练过程中学习效率提高了 1.98 倍，多模态理解效果提升了 31.21%。

在她看来，多个模态之间是有相互增益的，多模态是大模型的一个发展趋势。

可以看出，百度对于多模态的技术投入将是长期而坚定的。

从慢思考到深度思考

长期追踪百度技术发展的朋友可能还记得，早在 2023 年 10 月，百度就发布过基于「系统 2」的慢思考技术，X1 和 X1 Turbo 便是以此为基础进化而来。此外，2018 年、2019 年左右，百度就在强化学习方向有所突破，构建了 PARL 强化学习框架等基础设施，这也推动了今天的深度思考模型的研发。

然而，早期的强化学习所解决的问题和今天有所不同，之前的模型主要聚焦于解决单一任务，而今天的模型是解决大量通用任务。

为了迎接新的挑战，百度进行了多项技术创新，包括：

自反馈增强技术框架：建立了「训练 - 生成 - 评估 - 增强」的闭环，让模型能够基于自身的生成和评估反馈能力不断自我迭代。
融合偏好学习的强化学习：结合用户偏好学习的强化学习，提升模型对高质量结果的感知能力和数据利用效率。
多元统一的奖励机制：融合多种评价标准（如结果正确性、执行反馈、思想深度、指令遵循等）对模型表现进行评判，引导模型向更优方向发展。
思考与行动融合的复合思维链：模拟人类不同的思维模式（边思考边行动、先思考后行动、先行动再反思等），通过强化学习让模型在不同任务上探索出适合的思维链和行动链组合，提高解决真实长程复杂任务的能力。

这些解决方案的出现也是技术演进的自然结果。吴甜解读到，当前基础模型的泛化能力很强，意味着模型自己可以在多任务上做探索，给模型输出结果的反馈，通过强化学习技术，让模型自行调试方向不断进化，这是让模型效果提升的重要方式。

复杂的数据建设

当模型进化到多模态、深度推理，数据建设的难度也在随之增大。吴甜提到，多模态数据的建设本身比纯文本数据的建设难度、复杂性都要高。另外是现在大量的多模态的任务所依赖的输入，是一种经过加工或中间处理的状态。比如说图的生成要给模型一个 Prompt，现在让文生图模型去画图用的 Prompt，要想达到好的生图效果，并不是天然日常所用的文字表达方式，往往要增加一些比如「纸质纹理」、「丁达尔效应」、图片的比例等等这些设计用语。所以需要借助一些技术方法去挖掘、合成。

另外一个难点是稀缺数据的建设。天然的数据分布并不是像我们所希望的那样能够和知识体系匹配起来，这个时候对于一些稀缺数据要进行挖掘。

在解决这些问题的过程中，百度之前研究多年的知识图谱帮助他们构建了完备的知识体系，为稀缺数据的挖掘提供了理论支撑和实践指导。

此外，他们打造了「数据挖掘与合成 - 数据分析与评估 - 模型能力反馈」的数据建设闭环，为模型训练源源不断地生产知识密度高、类型多样、领域覆盖广的大规模数据。

从「飞桨」、「文心」到「飞桨文心」

文心的每一次性能提升，都离不开与飞桨的深度协同和联合优化，这也是百度和其他 AI 公司非常不同的一点。

作为国内第一个功能完备的开源深度学习平台，飞桨从 2018 年起一直在不断进化，如今已经迭代到了飞桨框架 3.0 版本。

在百度 AI 的技术架构中，它扮演的是关键的「腰部」角色 —— 通过向上与模型层协同解决多模态统一和 MoE 专家均衡等问题，向下与算力层协同提升训练并行效率和推理性能，从而实现大模型的降本增效。

此外，吴甜还提到，飞桨和文心的持续进步，离不开百度在持续构建的 AI 生态系统的贡献。通过多年积累，百度在全国多地落地产业赋能中心、数据生态中心和教育创新中心，依托飞桨深度学习平台和文心大模型，借助广泛的伙伴体系连接千行百业，接触到更多元化的行业需求，也赋能当地的产业智能化升级。

更重要的是，这一生态形成了数据反哺的闭环机制。那些沉睡在各行业中的稀缺数据，无法通过纯技术手段获取，只能通过深度的生态合作逐步挖掘整合，为文心大模型的持续进化提供了源源不断的养分。

长期主义的赛道选择：AI 马拉松

站在 2025 年这个时间节点回望，百度在 AI 领域的布局体现出明显的长期主义特征。从昆仑芯片到飞桨框架，到文心大模型，再到最上层的应用，百度走的是一条「全栈布局、自主研发」的技术路线。在接下来的赛程中，这种全方位的准备将成为其在竞争中坐稳牌桌的关键所在。

展望未来，两个技术方向是更被百度看好的：多模态和智能体。智能体是建立在基础模型上的复合 AI 系统，它将大模型从单纯的理解和生成工具，升级为能够进行多步骤思考、自主规划并调用工具的行动系统。未来，智能体将成为在应用中解决大量问题的主要方式。而基础模型多模态、深度思考能力的提升可以更好地托举智能体能力。

在提升模型能力的同时，百度还在模型的技术普惠上发力，文心 X1 Turbo 的超低定价就是这一努力的代表。只有把模型的成本降得足够低，行业内的广大开发者才能在应用领域尽情施展，创造出一个蓬勃发展的大模型应用生态。

现阶段，整个 AI 生态仍在经历深刻变革，技术影响如涟漪般向外扩散。百度文心「变与不变」的平衡或许正是其在这轮科技革命中的制胜之道。

....

#Devstral

性能碾压GPT-4.1-mini！Mistral开源，还能在笔记本上跑

Devstral 是本地部署和设备端使用的理想之选。

法国 AI 初创公司 Mistral 强势回归，再次大力投身开源 AI 社区。先前，其因未开源 Medium 3 大模型而受到开发者广泛批评。

刚刚，该公司宣布，他们与开源初创公司 All Hands AI（Open Devin 的创建者）合作，发布了全新的开源语言模型 Devstral，拥有 240 亿个参数 —— 比许多竞争对手的模型小得多，所需的算力也低得多。

因而，Devstral 可在单块 RTX 4090 显卡或配备 32GB RAM 的 Mac 上运行，是本地部署和设备端使用的理想之选。

值得一提的是，该模型现已根据宽松的 Apache 2.0 许可证免费提供，允许开发者和组织不受限制地部署、修改和商业化。

Mistral 表示，虽然典型的 LLM 擅长编码任务，例如编写独立函数或代码补全，但它们难以解决现实世界的软件工程问题。在现实世界中，需要在大型代码库中对代码进行上下文关联，以识别不同组件之间的关系，并识别复杂函数中的细微错误。

Devstral 的设计初衷就是为了解决这个问题。它能解决真实的 GitHub 问题；还能运行在 OpenHands 或 SWE-Agent 等代码智能体框架上。

在顶级 SWE 基准测试中，Devstral 表现优于其他大型模型。

具体而言，Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的得分，领先于先前发布的所有开源模型，并领先于包括 GPT-4.1-mini 在内的多个闭源模型，它比 GPT-4.1-mini 高出 20 多个百分点。

注：SWE-Bench Verified 是一个专门用于评估 AI 编程能力的基准测试，主要测试 AI 模型在真实 GitHub 代码库问题（如 bug 修复、功能实现）上的表现。

在相同的测试框架（OpenHands，由 All Hands AI 提供）下进行评估时，Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。

最后，Devstral 可通过 Mistral 的 Le Platforme API 访问，型号为 devstral-small-2505，定价为每百万输入 Token 0.10 美元，每百万输出 Token 0.30 美元。

很多网友已经用起来了！

参考链接：

https://venturebeat.com/ai/mistral-ai-launches-devstral-powerful-new-open-source-swe-agent-model-that-runs-on-laptops/

https://x.com/dani_avila7/status/1925276890840900087

....

#汇总 30 + MCP Server

本文介绍了模型上下文协议（MCP）及其重要性，并汇总了30多个具有完整源代码的MCP服务器示例，展示了如何通过MCP将AI代理与各种工具和应用程序连接，以实现高效的任务自动化和生产力提升。

MCP正在病毒式传播。

AI 代理现在可以与真实的工具和应用程序对话，并真正完成工作。

这解锁了许多强大的用例。

开发人员开始构建 wild MCP 服务器。

那么，接下来，您几乎可以在每个示例中找到一个演示，并在最后找到一些有用的项目，以改善使用 MCP Servers 的体验。

让我们开始吧！

什么是 MCP，为什么它很重要？

模型上下文协议（MCP）[1] 是一种新的开放协议，它标准化了应用程序向 LLM 提供上下文和工具的方式。

官方地址介绍：https://modelcontextprotocol.io/introduction

将其视为 AI 的通用连接器。MCP 用作 Cursor 的插件系统，它允许您通过将 Agent 连接到各种数据源和工具来扩展 Agent 的功能。

图源：YouTube 上的 Greg Isenburg

MCP 可帮助您在 LLM 之上构建代理和复杂的工作流程。

例如，Figma 的 MCP 服务器可以允许 Cursor 与 Figma 通信，以读取设计并以编程方式修改它们。

利用AI代理可以：

→ 使用 Blender 创建 3D 场景

→ 通过 Gmail 发送电子邮件

→ 在 Linear 中创建任务

→ 自主逆向工程应用程序

→ 读取和搜索 Obsidian Vault

所有这些都是通过标准化界面发送自然语言指令来实现的。

想想这对生产力意味着什么？！

曾经需要在 5+ 个应用程序之间切换的任务现在可以在与代理的单个对话中完成。

MCP****的核心遵循客户端-服务器架构，其中主机应用程序可以连接到多个服务器。

图源：ByteByteGo

组件：

MCP hosts- Claude Desktop、Cursor、Windsurf 等应用程序，或希望通过 MCP 访问数据的 AI 工具。

MCP Clients- 与 MCP 服务器保持 1：1 连接的协议客户端，充当通信桥梁。

MCP Servers- 轻量级程序，每个程序都通过标准化的模型上下文协议公开特定的功能（如读取文件、查询数据库等）。

本地数据源(Local Data Sources)- MCP 服务器可以安全访问计算机上的文件、数据库和服务。例如，浏览器自动化 MCP 服务器需要访问您的浏览器才能工作。

远程服务(Remote Services)- MCP 服务器可以连接到的外部 API 和基于云的系统。

为什么 MCP 很重要？

MCP之所以重要，是因为：

✅ 它将开发人员通用AI助手的梦想变成了现实。

✅ 将这些作组合成复杂工作流的潜力（由 AI 处理逻辑）将导致智能自动化的新时代。

如果有兴趣阅读更多内容，请查看：

什么是模型上下文协议（MCP）？(https://www.builder.io/blog/model-context-protocol) 由 Builder.io 团队
MCP：它是什么以及为什么它很重要 (https://addyo.substack.com/p/mcp-what-it-is-and-why-it-matters)作者：Addy Osmani

你可以观看下面的视频地址，了解更多MCP内容！

https://youtu.be/7j_NE6Pjv-E

30 + MCP 开源示例

序号	项目名称	Github地址	序号	项目名称	Github地址
1	CopilotKit’s Open MCP Client[2]——MCP 的自托管实现	https://github.com/CopilotKit/open-mcp-client	16	Docker MCP[3]——使用自然语言管理 Docker	https://github.com/ckreiling/mcp-server-docker
2	Ghidra MCP[4]——自主对应用程序进行逆向工程	https://github.com/lauriewired/ghidramcp	17	Obsidian MCP[5]——搜索 Obsidian 保险库	https://github.com/smithery-ai/mcp-obsidian
3	Blender MCP[6]——仅使用提示创建 3D 场景	https://github.com/ahujasid/blender-mcp	18	Unreal MCP[7]——使用 AI 助手控制 Unreal Engine	https://github.com/chongdashu/unreal-mcp
4	Cursor talk to Figma[8]——以编程方式读取和修改设计	https://github.com/sonnylazuardi/cursor-talk-to-figma-mcp	19	E2B MCP[9]——在安全沙箱中运行 AI 代码	https://github.com/e2b-dev/mcp-server
5	Ableton MCP[10]——使用提示创作音乐	https://github.com/ahujasid/ableton-mcp	20	Firecrawl MCP[11]——从网站中抓取、抓取、搜索和提取内容	https://github.com/mendableai/firecrawl-mcp-server
6	Unity MCP[12]——使用提示创建整个游戏	https://github.com/ahujasid/ableton-mcp	21	Mem0 MCP[13]——AI 代理的内存层	https://github.com/mem0ai/mem0-mcp
7	GitHub official MCP[14]——与 GitHub 轻松集成	https://github.com/github/github-mcp-server	22	n8n custom node MCP[15]——与您的 n8n 工作流交互	https://github.com/nerding-io/n8n-nodes-mcp
8	Magic MCP[16]——从 IDE 创建现代 UI 组件	https://github.com/21st-dev/magic-mcp	23	Browser MCP[17]——使用编码代理自动化浏览器	https://github.com/browsermcp/mcp
9	ElevenLabs MCP[18]——生成语音和自定义 AI 语音	https://github.com/elevenlabs/elevenlabs-mcp	24	Gmail MCP[19]——具有自动身份验证支持的 Gmail 集成	https://github.com/GongRzhe/Gmail-MCP-Server
10	WhatsApp MCP[20]——搜索、发送和阅读 WhatsApp 媒体	https://github.com/lharries/whatsapp-mcp	25	Sequential Thinking[21]——用结构化思维解决问题	https://github.com/modelcontextprotocol/servers/tree/HEAD/src/sequentialthinking
11	Supabase MCP[22]——将 supabase 连接到您的 AI 助手	https://github.com/supabase-community/supabase-mcp	26	Brave Search[23]——使用搜索 API	https://github.com/modelcontextprotocol/servers/tree/main/src/brave-search
12	Perplexity MCP[24]——Perplexity API 的连接器	https://github.com/ppl-ai/modelcontextprotocol	27	Browserbase MCP[25]——AI 代理的浏览器会话	https://github.com/browserbase/mcp-server-browserbase
13	Playwright MCP[26]——使用 Playwright 的浏览器自动化功能	https://github.com/microsoft/playwright-mcp	28	Lingo MCP[27]——AI 本地化工具包	https://github.com/lingodotdev/lingo.dev/blob/main/mcp.md
14	Git MCP[28]——任何 GitHub 项目的远程 MCP 服务器	https://github.com/idosal/git-mcp	29	Kubernetes MCP[29]——管理 Kubernetes 集群	https://github.com/Flux159/mcp-server-kubernetes
15	Spotify MCP[30]——从 Spotify 启动、搜索和获取特定详细信息	https://github.com/varunneal/spotify-mcp	30	Linear MCP[31]——集成 Linear 的项目管理系统	https://github.com/jerhadf/linear-mcp-server

参考资料

[1] 模型上下文协议（MCP）: https://modelcontextprotocol.io/introduction

[2] CopilotKit’s Open MCP Client: https://github.com/CopilotKit/open-mcp-client

[3] Docker MCP: https://github.com/ckreiling/mcp-server-docker

[4] Ghidra MCP: https://github.com/lauriewired/ghidramcp

[5] Obsidian MCP: https://github.com/smithery-ai/mcp-obsidian

[6] Blender MCP: https://github.com/ahujasid/blender-mcp

[7] Unreal MCP: https://github.com/chongdashu/unreal-mcp

[8] Cursor talk to Figma: https://github.com/sonnylazuardi/cursor-talk-to-figma-mcp

[9] E2B MCP: https://github.com/e2b-dev/mcp-server

[10] Ableton MCP: https://github.com/ahujasid/ableton-mcp

[11] Firecrawl MCP: https://github.com/mendableai/firecrawl-mcp-server

[12] Unity MCP: https://github.com/justinpbarnett/unity-mcp

[13] Mem0 MCP: https://github.com/mem0ai/mem0-mcp

[14] GitHub official MCP: https://github.com/github/github-mcp-server

[15] n8n custom node MCP: https://github.com/nerding-io/n8n-nodes-mcp

[16] Magic MCP: https://github.com/21st-dev/magic-mcp

[17] Browser MCP: https://github.com/browsermcp/mcp

[18] ElevenLabs MCP: https://github.com/elevenlabs/elevenlabs-mcp

[19] Gmail MCP: https://github.com/GongRzhe/Gmail-MCP-Server

[20] WhatsApp MCP: https://github.com/lharries/whatsapp-mcp

[21] Sequential Thinking: https://github.com/modelcontextprotocol/servers/tree/HEAD/src/sequentialthinking

[22] Supabase MCP: https://github.com/supabase-community/supabase-mcp

[23] Brave Search: https://github.com/modelcontextprotocol/servers/tree/main/src/brave-search

[24] Perplexity MCP: https://github.com/ppl-ai/modelcontextprotocol

[25] Browserbase MCP: https://github.com/browserbase/mcp-server-browserbase

[26] Playwright MCP: https://github.com/microsoft/playwright-mcp

[27] Lingo MCP: https://github.com/lingodotdev/lingo.dev/blob/main/mcp.md

[28] Git MCP: https://github.com/idosal/git-mcp

[29] Kubernetes MCP: https://github.com/Flux159/mcp-server-kubernetes

[30] Spotify MCP: https://github.com/varunneal/spotify-mcp

[31] Linear MCP: https://github.com/jerhadf/linear-mcp-server

....

#xx智能需要从ImageNet做起吗？

如果你的野心在智能，无论你做xx智能、大模型、世界模型，又或者是神经科学，也许都一样的。

想认真地聊聊xx智能，文中会概述xx智能的发展线条，以及近期对”智能“的一些感想，但其中的判断、猜测很多缺乏实据，特别欢迎指出问题和讨论。关心xx智能技术问题的朋友可以看前一半，而更关心智能的朋友可以看最后的“xx智能之上”的部分。

为什么突然xx智能开始爆发：

Move bits, not atoms. 是无论是科学家还是创业者都经常听到的一句”金玉良言”。比特的流动是光速的，但搬起一块砖缓慢而费力。互联网时代的电商取代实体店、流媒体替换DVD光盘；人工智能时代，ImageNet整合了网络上的海量数据、DeepSeek模型训练消耗的是电力与数据比特。最新的大语言模型，可以写代码、做奥数，接近甚至超过人类的智能。但xx智能还是火了，因为我们不得不关心他。

为什么我们不得不关心xx智能？（Atoms still matter）

人类本身无法完全数字化。无论是电子游戏还是元宇宙都没法解决人类需要作为物理实体活着的事实，所以物理世界的熵减过程始终需要被完成。当我们谈及“影响力”的时候，实质上是指对人类的需求进行了多大程度的满足或改变，这解释了为何xx智能仍广泛被谈及。

如果我们认可了我们需要关心atoms，那显而易见的现有的以大语言模型为主导的智能体，缺乏和物理世界的对齐，因为缺少感知模态和交互能力，所以对于物理世界的理解往往不够好，比较典型的例子是对空间信息的理解不足。

大模型的智能是先灌输再推理出来的。它阅读了世界上所有的文字资料，甚至借用别人的眼睛看到了一部分世界，然后用强化学习推理，变成了超级智能体。但是大多数的知识和数据都不来自大模型自己，使模型缺乏闭环反馈，所以无法校准自己输出，潜在地无法突破现有知识分布。

值得讨论的是，如果我们认真地去构建硅基生命，我们希望这些智能体有自己的体验，他们独有的传感器带来独特的经历，虽然这些经历可以以比特的形式进行分享，但是仍然会保持独特。一个皮肤失去触觉的人，可以读到、听到“触摸”的感受，但是却无法获得这样的体验，但相应的可能他的听觉格外敏锐。这些体验构建了什么是“我”。

xx智能的几种失败模式

xx智能是一个目标清晰，但路径不清晰的领域。和计算机视觉早早定义好“分类、检测、分割”三大任务不同，xx智能有相当多看似有道理的路。下面几种模式，我认为是会失败的，我可以为此押上一顿疯狂星期四。

找到那个最有趣的任务然后不择手段地干掉它

我无意扫兴，尤其是扫机器人学家的兴致。但传统机器人学有相当一部分的研究重点在于“特别”的机器人或者“特别”的任务。一个蛇形机器人，一个老鼠机器人，一个机器人去包饺子，一个机器人去操作塑料袋或者抖落衣服。他可以是一篇论文，是一篇最佳论文，甚至是一篇《科学》杂志的论文，因为它新颖独特、完成了困难的任务、用到了大量的控制论知识或者带来了结构上的创新。虽然对于科学有作用，但它对于推动xx智能的发展几乎没有用处。

虽然确实还是扫兴了，但如果回望深度学习/计算机视觉，推动力主要来自ImageNet这样的标准化数据集以及ResNet或Transformer这样的通用模型。你可能会说，凡事都有例外，如果“那个任务”是流水线分拣或者零件抛光打磨呢？那可能和语音转文字或者实时翻译一样，短期内有经济价值甚至可以去创业，但长期会被xx智能的进展淹没。可以这样想，如果你两年前是一个机器人叠衣服任务的专家，现在你看到模仿学习叠衣服可能会倍感失落；如果两年前你在研究让你的小模型加上语言学知识来总结一篇文章，那你现在准已经是“大模型专家”了，因为原来的饭碗已经没了。

干脆造一个虚拟世界，期待在数字世界里面解决所有问题

人们总是期待物理世界可以完全转化成数字世界，然后因为他是数字的，我们又可以和比特打交道，迅速提升数据量，复刻大模型的成功。

仿真一定是有用的，但是常见的失败模式是，尽可能在物理仿真引擎里搭建/复刻目标场景。这里面有很多问题：a) 物理引擎在流体、软体等物体的仿真上有本质困难，例如你很少能看到一块仿真的橡皮泥跟某一个橡皮泥商品有一样的物理性质，尽管他看起来已经很像一块橡皮泥了。b) 仿真运行的速度和质量总是有一定的权衡，“快的不好好的不快”始终没有存在完美解。c) 除了物理的困难即使有了3DGS的加持，想要在视觉上完全复刻场景也是极为困难的，尤其是铰接、软体、低纹理、高频纹理等处。可以期待生成式仿真或者世界模型，但我仍然觉得不能带着过高的期待，也许世界模型应该会比xx智能更难解决。

采集海量数据，期待现有的算法加上海量数据可以解决所有问题

另一条路是比赛谁的数据多，谁就能训出最好的模型。数据问题几乎已经成为xx智能中公认的核心问题，而数据的积累也很有可能是xx智能的决胜点。但数据绝非单纯的数量比拼，即使加上“足够丰富”这一条件我认为单纯的数据量也很难成为xx智能成功的充分条件。对模仿学习或VLA算法稍有经验的读者，应该常见机器人动作正确但无法完成任务，甚至偏离了物体的位置。这种对轨迹的“背诵”一方面我们可以责怪模型仍然不是最优，但更重要的是数据的来源来自人类。一个简单的类比是，一个孩子在孩童时代被手把手教写字，但是当老师把手松开后，他可能颇有进展，但远无法达到刚刚老师手把手带着写的那个字好看。这里数据的来源的差异是容易被遗忘的，是来自“模型”还是来自“人类”。在这里我的一个判断是，海量的真实数据一定是必要的，但他无法解决所有问题，而只是为最终解决所有问题提供一个先验。

xx智能的路线上的几个决策点

xx智能说简单也简单，机器人获取感知信号，随后进行决策，最终执行动作，动作执行后再更新感知信号.. 和自动驾驶相似，模块化的方案上升曲线陡峭但是潜在上限会低一些，端到端方案则需要数据的积累但是上限可能很高。这里我们几乎不假思索地只讨论端到端地方案，即感知信号（也许还会有任务或计划的文本信息）输入一个神经网络，并直接输出对应的动作。

最笨的问题：输入的视觉信号，二维还是三维？

这听起来是一个有一些滑稽的问题，如果所有的图像信息都不丢失，三维信号的信息量是严格多于二维的，那很自然地，我们会选择三维输入。然而时至今日，我们仍然无法做出这样的决策。

为什么二维图像输入仍然颇具生命里，甚至更主流？我们可以自己尝试闭上一只眼睛度过几分钟的时间，理论上我们应该丢失了三维信息，但是事实上我们日常的任务几乎不会收到很大影响。因为二维图像中包含的光影、语义、几何信息，配合上我们脑子里面对世界的先验，也足够让我们完成相当多的任务。换句话说，我们单独看一个瓶子，可能很难判断是一个近处的小瓶子还是远处的一个巨型瓶子雕像，但是配合上场景来看，我们几乎不会判断错。同时，二维图像是我们日常的摄影设备最容易捕捉的信号，所以二维图像数据是有量级上的数量优势的。

那么三维信号还有价值吗？去年 CoRL 上 Pi0[1] 发布后，我和几位朋友讨论过：如果基于图像的 VLA 已经能达到很好的性能，我们是否还需要三维感知作为输入？在哥伦比亚大学发布扩散策略（diffusion policy）[2]之后，我所在的清华大学xx智能实验室（TEA Lab）开发出了三维扩散策略（DP3）[3]，取得了显著的性能提升。而我们近期提出的 H3DP[4] 通过利用深度图，进一步提升了模仿学习的性能。由此我们可以得出一个初步结论：在数据量较小的情况下，三维信息确实有助于提升模型性能。这也暗示着未来的后训练可能需要引入三维输入信息。至于数据量很大的时候会怎样，我们暂时不清楚。

这意味着三维一定无法规模化吗？也不是。连接二维和三维有一根线，就是单目三维重建如depth-anything [5]系列。海量视频+动作数据→图像三维重建→大规模预训练的链路是否会相较于直接用视频和动作数据的训练更好，还是一个未知数。但直觉来说，我认为是会的，但把握不大，把输入里面的两个浮点数对齐要比通过图像把夹爪和把手对齐简单的多，这也是少有的机器人相较于人的优势，他们可以阅读并理解精确的数字。

xx智能的最后一块拼图还是阿克琉斯之踵：触觉

xx智能的难点在物体操作，而操作任务会需要触觉。这是一条极为顺畅的逻辑链条。而且时常有一种，触觉的研究者们（包括我自己在内）经常会暗示触觉是xx智能最后一块拼图。然而，当我们去观察触觉研究的时候，却发现触觉研究者和xx智能中间似乎有一条巨大的裂痕。

到底我们需要怎样的触觉传感器？我认为对于任何xx智能的硬件，最大的要求就是“便宜”。在便宜的基础上，我们再去研究怎么提高信噪比、怎么提高一致性、怎么全指尖甚至全手去做覆盖。价格和市场大小是有一个近似反比例关系的曲线的，这个价格可以是制作和时间成本，也可以是商品的售价。也许有读者感到疑惑，为什么谈触觉技术要和商业搞上关系？这个我觉得最好的案例就是机械狗，不知道有多少读者用过早期的机器狗，摔坏、过热各种问题层出不穷，但是胜在便宜。相较于10倍价格的机器狗，大家愿意再买一个，或者返厂维修。用的人多了、迭代的次数多了，这东西现在还真就变得好用起来了，而且上面的算法更是层出不穷，跑酷、越野样样精通。所以，当我们谈价格和市场大小的关系的时候，实际上是在提有多少聪明的脑袋愿意和你一起迭代，并把算法放上来。最后，我们下一个孟浪之言，“手”的价格应该是“人”的价格的1/10，而所有的指尖触觉加起来不要超过手的1/10。如果达不到这个价格，大多数的买家是来研究“触觉”的，而不是xx智能的。在TEA Lab我们研发了DTact[6]和9DTact[7],成本只要200人民币甚至更低，并且熟练的同学经过改良，一个人一天可以造出百十来个。虽然成像质量不及gelsight, 但是贵在不贵。

如果再多和触觉的人聊聊，发现造触觉的多，用触觉的少。我们当然需要创造更好的触觉传感器，就像我们需要更清晰的摄像头，但是怎么样去把获取到的触觉信号用好其实才是真正把触觉融入xx智能。把平面变成曲面，加上温度的传感器，摄像头变光纤，当然都是很有价值的改进。如果真的要把触觉用进xx智能，我们首先要有数据，是对一样的输入有一样的输出，同时收集可以匹敌视觉体量的数据。所以是不是与其开发新功能，不如找到一种工艺，他能让表面的胶皮保持一致，且耐用耐造来得实在。Gelsight高强度采集数据2小时后会破损，Dtact可能几十个小时后也会破损，人的皮肤有再生能力，胶皮却没有。另一个就是加触觉经常看不到性能提升，叠杯子任务靠视觉就饱和了，而捋耳机线的任务又非常小众，所以大家往往看到触觉的论文，里面的任务有些刁钻，甚至会想：真能琢磨呀，这个任务还真必须要触觉。我做触觉研究的时候也是这么做的——我们的DO-Glove[8]工作我很喜欢，把机器人触觉和人类触觉联通起来，并且找到了一系列需要“力感”或“触觉”的任务。但这么做是会有一个恶性循环的，做触觉的人只做需要触觉的任务，这样无法进入到xx智能的大闭环里。

什么是大闭环？就是后面要讲的VLA和RL这些需要大量数据的模型。我们近期和上海交大合作的RDP[9]以及Gelsight的发明人Ted Adelson做的PolyTouch[10]让我们看到了把触觉融入这条大闭环的一些努力。所以在我看来，触觉有两条路，第一条触觉效果很好，可以解决很困难的任务（例如让一杯水在你手中滑落而不脱手），但我怀疑这条路会掉入第一种失败模式中；第二条路，把触觉做便宜做鲁棒，便宜到大家买他轻轻松松，顺手就把数据采了，说不定触觉有新的一片天。

复刻大模型的成功：从模仿学习到VLA

模仿学习从角落里积灰到争相追捧就在近两年。这里面有很多原因，Aloha[11]的新构型带来的数据质量提升，扩散模型[2]带来的拟合能力和多峰行为预测能力提升。里面还有一个很重要的点，是一次要预测一串动作而不是一个，一定程度上他们在时间维度上相互监督，从而使动作更加明确而连续。这也很直观，我们在进行物体操作的时候，往往也是以终为始，先有一个未来的目标然后产生一连串的动作。模仿学习的形式极为简洁，图像输入，动作输出，目标直接优化生成动作和采集动作的某种距离。简洁的形式也带来了其脆弱性：面对扰动往往无法泛化。为了解决这个问题，我们做过DemoGen[12], 构造出一些数据来增强泛化，前一阵子还进行了直播，但这终究智能在一个较小的区域内解决问题。再往后想，一般延伸出了两条路，一条是VLA另一条是强化学习。这里我们先聊VLA。

VLA先用海量数据预训练，然后再用目标任务数据进行后训练。预训练的过程提升了模型的基础能力，其中最重要的是丰富的场景以及动作。因为预训练中数据要求更宽松，那些侥幸成功、从失败边缘纠偏回来的数据理论上都帮助VLA获取了更好的能力。但是老规矩，我们是来碰瓷的不是来吹捧的，VLA到现在可能连正确的结构都还没有找到，以pi0为代表的结构看起来极为不协调，前面的自回归VLM和后面的扩散模块生硬地拼接在一起。当数据量足够高时，全量的Transformer[13], 或者DiT[14]可能还是有重回巅峰的可能。

房间里看不到的大象：强化学习

AlphaGo[15]带来了一阵风，让强化学习从小众领域变成了人工智能的万灵药，一时之间风头无两。因为我恰好是2016年开始的博士生涯，所以基本也参与和见证了这一股风：大家在做两件事1）寻找适合的任务；2）在改进算法的数据效率和性能（这里记着，后面有用！）。在现在的视角下回看，当时的强化学习热潮没有达到预期，围棋之后我们解决了麻将、德州扑克、雅达利游戏、星际争霸和DOTA，得到了一个结论——只要数据成本足够低，强化学习或者说PPO[16]总是可以解决问题的。而大量的算法进展，也都伴随着这样的结论暗淡退场。此间，OpenAI已经展示出了对规模定律（scaling law）的追寻，灵巧手转魔方[17]、吴翼老师参与的红蓝小人捉迷藏[18]，都是实例。但是很遗憾，OpenAI也陷入了完全依赖仿真的失败路径之中，所以在某个时间节点，转向了真实数据更多的自然语言赛道。而这条强化学习仿真-现实迁移的赛道，也逐渐演化出了各种机器人跳舞、跑酷的全身控制赛道。

那机器人为什么不靠这条路来做操作任务呢？仿真不够好，也做不好——哪怕只是用水洗一把菠菜这件事。那为什么不直接像人一样做真实世界强化学习呢？因为数据成本太高。DeepSeek和GPT-o1给了我们一个思路——“先验”，语言的输出空间本来也是非常巨大的，但是为什么我们可以做RL，因为做了输出空间的裁剪：谁裁剪的，是预训练好的大模型自己，感兴趣的读者可以去看《人工智能下半场》[19]。我想起了那群努力写莎士比亚的猴子，他们虽然理论上可以写出来，但是时间却要趋于无穷；但如果是预训练过的猴子，很有可能永远也写不出来，但是如果有判别器不停地告诉它们写得是不是莎士比亚，他们很有可能很快就写出来了。那前述的VLA和模仿学习，不正是对应了预训练好的大预言模型嘛？机器人在用强化学习抓杯子的时候，粗略地已经学习了抓杯子，只不过没法100%地成功，这正是强化学习大放异彩的时刻。

为什么VLA做不到的事情，强化学习能做到？一言以蔽之，是一个英文词叫“grounding”。意思是，要把数据和任务紧密地联合起来。VLA里面的海量数据都是被动的，当模型看到一条成功倒水的数据的时候，他其实只是简单地将图像作为条件，生成相应的动作。当这个条件发生一定扰动的时候，模型其实没有理解到只有抓到把手才是关键。反观强化学习，他的每一次的奖励获取都在不断告诉模型，只有抓住把手，才能成功，否则都算是失败。这种数据来自自身、有对有错、获得反馈的闭环，才能让机器人最终达到高成功率。

强化学习这么好用，现在大家在用吗？还记得当年提升数据效率的那波努力吗，算法时至今日已经有了长足的进步，我们从BEE[20]开始，到后面的DrM[21]，FoG[22]，都依然在努力提升算法的数据效率，因为真机数据昂贵，所以突然这些努力又有了一定的意义。更关键的是，我们说的那个“先验”VLA正在逐渐成型，例如pi0.5十分值得我们期待。 TEA Lab的MENTOR[23]以及伯克利的HIL-SERL[24]都在VLA还没到来的时候做了真机强化学习，只要有合适动作空间，我们就能训成。但一切也没有想得那么乐观，真机强化学习的两座大山一直存在，一个是“重置”环境需要有一个人一直盯着，可能工作量不亚于数据采集；另一个是“奖励函数模型”，我们可以靠VLM去做，但这样的稀疏奖励是否足够用于训练还有待探索。另一个是近期美国公司Dyna Robotics选择训一个“任务进展”奖励函数模型，这方面我们也做过，但效果不佳，主要是这个奖励函数模型经常不单调递增，所以也期待进一步的探索。

总的来说，xx智能需要强化学习是显然的，但是怎么用、什么时间节点上能用仿佛一直被大家忽略了，也导致这头房间里的大象一直没有被看到。

最后的问题：xx智能要落地一定得有ImageNet时刻吗？

xx智能的”ImageNet”时刻是一个伪命题，至少是一个极具迷惑性的命题。ImageNet的妙处是采集了海量数据后，评测只需要把一部分图片预选出来，并且把他们的类别记录下来作为标签，不同人使用ImageNet的唯一的区别就是它用的模型的优劣，因此ImageNet成为了一个公认的竞技场。我们带着这样的拆解去看xx智能，就很容易发现“ImageNet时刻”的要求要高得多——除了提供的“ImageNet”以外，在不同用户处的其他部件应该一模一样。这意味着：1）场景可复刻；2）视角、光线等视觉条件一致；3）机器人型号统一；4）机器人跨本体一致。即使都是正午的太阳，纽约和上海也是不一样的，所以要做到前面这四件事，几乎不可能。在星海图，我们努力给大家一款稳定的本体；在斯坦福，有一个项目叫UMI[26]企图对齐所有数据的形态。大家有没有想过，xx智能如果一定要有ImageNet时刻，其实不一定是一个数据集，而是一款本体？

xx智能是一个后发的领域，我们的上半场还没比完还在苦苦追寻ImageNet，但是已经有一个下半场比了半天的先知叫作LLM让我们看到了很多未来。所以我们仍然不清楚构建数据集的意义如何验证，又或者我们应该直接像语言模型一样到真实的场景、任务中的测试。在方法和模型还没完全摸清的时候，我们也去构造和收集大量数据，而且也不确定选用哪一款本体，好像过去和未来交织在一起。我们现在有了一点头绪，但也只是一点。

xx智能之上

没关系的，都一样。——章北海

智能的形态可能殊途同归，视觉、语言、机器人，从应用的角度各有各的难处，但是从智能的角度，他们很有可能在解决一样的问题。过去自然语言的人要去学语言学、视觉的人要去了解神经科学、机器人的学者则需要精通控制论。而现在，大家都在transformer加上海量数据。所以如果大家关心的是最终的答案，很有可能所有领域会同时被卡住或者被解决。

例如我们屡次提到的规模定律（scaling law），确实很有可能只有当样本量指数增加时，我们才有可能提炼出更本质的规律。到这里有一点玄乎了，我们也彻底抛下了严谨性，但在各式各样的自然环境下，我们的练习时长、声音的分贝确实都在产生量级变化的时候，会给我们带来新的信息和能力。有兴趣的读者可以去看一下毕导的科普本福特定律，我们对世界的感知、以及世界上数字统计量的分布也极大程度上是指数分布的，或者说在取对数后才较为均匀。而我们的DNA带来的先验，可能就是人类走过漫长的指数级的数据后，提炼出来的全部能力。

另一个有趣的视角，是从表征去看——柏拉图表征假设[25]。它认为在神经网络模型中，随着模型规模的扩大和训练任务的多样化，不同的模型在表示真实的方式上越来越趋于一致。什么是表征？我认为是对已有的事件或事物中的信息进行合理抽取和组织得到一个新的且没有新增信息的变量，从而更适合于解决问题（例如鸡兔同笼问题中，兔子的表征是四腿动物即可），当然此处讨论的是神经网络提取的向量形式的表征。

故事从柏拉图《理想国》的“穴寓”说起，是柏拉图探讨什么是现实的一个思想实验。在洞穴寓言中，有一群囚犯自幼被锁链拴在洞穴中，对于洞穴外的世界一无所知。他们一直面对着墙壁，只能看到身后各种事物在影子。长此以往，这些影子便成为了他们眼中的“现实”。而哲学家就像是从洞穴中获释的囚犯，他们走出洞穴来到阳光下，逐渐明白墙上的影子并不是“现实”，而是“现实”的投影。回到柏拉图表征假设，如果我们认为这个世界有一个底层的真实存在，那么像素、语言、触觉等等则是我们感知到的“现实的影子”，如果我们去提取这些“投影”的表征，在某种意义上我们在提取他们所对应的真实世界的信息。令人惊奇的是，大家发现在ImageNet和Places365上训练的两个视觉模型可以互换一些神经网络层，大语言模型的表征可以用在视觉模型预测上，甚至发现大语言模型和人脑的表征也有很强的联系…本质上，所有的模型，包括我们自己的大脑，都在从庞大的数据量中完成通用的任务。

但究竟为什么他们会趋向于相似的表征呢？笔者很认同原文中的猜想：当我们要做100个任务的时候对表征的要求，要比做10个任务的时候对表征的要求高得多。因为每一个任务的出现，都会削减掉一部分不那么通用的表征。而随着数据/任务量增大（无论视觉、语言、还是xx智能），最终他们的表征都被限制在了相似的空间中。另一方面，由于模型越大越方便寻找到这一目标空间，所以这也再一次回应了为什么现在大家都要提“scaling law”或者”信息压缩即是智慧“了，因为数据/任务越多，表征质量越高且趋于相似，而模型越大，则更容易找到这样的表征。但回到我们说的第三种“失败路径”，一味的堆数据虽然原理上有效，但未必是最靠谱的方式。而怎样才靠谱，我在前述的RL部分也已经谈过一点。

用更长远、更宏观的眼光看，如果你的野心在智能，无论你做xx智能、大模型、世界模型，又或者是神经科学，也许都一样的。

写在最后：

本意是想梳理一下课题组的一些研究思路，把繁杂的xx智能论文池子捋出几根线来。但最终似乎完全抛弃了作为一个学者的严谨性，难免文不对题，里面有一些学术讨论、一些冒失的批评、一些既不能证明也不能证伪的预测。只望激起一点思考的水花，在行至今日还没放弃思考的人里。

[1] Black, Kevin, et al. ": A Vision-Language-Action Flow Model for General Robot Control." arXiv preprint arXiv:2410.24164 (2024).

[2] Chi, Cheng, et al. "Diffusion policy: Visuomotor policy learning via action diffusion." The International Journal of Robotics Research (2023): 02783649241273668.

[3] Ze, Yanjie, et al. "3d diffusion policy: Generalizable visuomotor policy learning via simple 3d representations." arXiv preprint arXiv:2403.03954 (2024).

[4] Lu, Yiyang, et al, “H3DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning” https://arxiv.org/abs/2505.07819v1

[5] Yang, Lihe, et al. "Depth anything: Unleashing the power of large-scale unlabeled data." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[6] Lin, Changyi, et al. "Dtact: A vision-based tactile sensor that measures high-resolution 3d geometry directly from darkness." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.

[7] Lin, Changyi, et al. "9dtact: A compact vision-based tactile sensor for accurate 3d shape reconstruction and generalizable 6d force estimation." IEEE Robotics and Automation Letters 9.2 (2023): 923-930.

[8] Zhang, Han, et al. "DOGlove: Dexterous Manipulation with a Low-Cost Open-Source Haptic Force Feedback Glove." arXiv preprint arXiv:2502.07730 (2025).

[9] Xue, Han, et al. "Reactive diffusion policy: Slow-fast visual-tactile policy learning for contact-rich manipulation." arXiv preprint arXiv:2503.02881 (2025).

[10] Zhao, Jialiang, et al. "PolyTouch: A Robust Multi-Modal Tactile Sensor for Contact-rich Manipulation Using Tactile-Diffusion Policies." arXiv preprint arXiv:2504.19341 (2025).

[11] Zhao, Tony Z., et al. "Learning fine-grained bimanual manipulation with low-cost hardware." arXiv preprint arXiv:2304.13705 (2023).

[12] Xue, Zhengrong, et al. "Demogen: Synthetic demonstration generation for data-efficient visuomotor policy learning." arXiv preprint arXiv:2502.16932 (2025).

[13] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

[14] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF international conference on computer vision. 2023.

[15] Silver, David, et al. "Mastering the game of go without human knowledge." nature 550.7676 (2017): 354-359.

[16] Schulman, John, et al. "Proximal policy optimization algorithms." arXiv preprint arXiv:1707.06347 (2017).

[17] Akkaya, Ilge, et al. "Solving rubik's cube with a robot hand." arXiv preprint arXiv:1910.07113 (2019).

[18] Baker, Bowen, et al. "Emergent tool use from multi-agent autocurricula." International conference on learning representations. 2019.

[19] https://ysymyth.github.io/The-Second-Half/

[20] Ji, Tianying, et al. "Seizing serendipity: Exploiting the value of past success in off-policy actor-critic." arXiv preprint arXiv:2306.02865 (2023).

[21] Xu, Guowei, et al. "Drm: Mastering visual reinforcement learning through dormant ratio minimization." arXiv preprint arXiv:2310.19668 (2023).

[22] Kang, Zilin, et al, “[A Forget-and-Grow Strategy for Deep Reinforcement Learning Scaling in Continuous Control]

[23] Huang, Suning, et al. "MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning." arXiv preprint arXiv:2410.14972 (2024).

[24] Luo, Jianlan, et al. "Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning." arXiv preprint arXiv:2410.21845 (2024).

[25] Huh, Minyoung, et al. "The platonic representation hypothesis." arXiv preprint arXiv:2405.07987 (2024).

[26] Chi, Cheng, et al. "Universal manipulation interface: In-the-wild robot teaching without in-the-wild robots."arXiv preprint arXiv:2402.10329(2024).

....

#谷歌Gemini 2.5

史上最强AI全家桶！谷歌Gemini 2.5双杀OpenAI，上架250美金天价VIP

今夜，谷歌彻底杀疯！2小时发布会，Gemini提及95次点亮全场。Gemini 2.5家族全系升级，Pro深度思考模型正刷榜。全新Imagen 4生成细节超逼真，Veo 3首次实现音视频融合。

谷歌一出手，就是王炸。

刚刚，谷歌I/O 2025大会上，劈柴登场一张图亮出了自家所有旗舰模型。一年时间跨度，可以用马不停蹄来形容。

这一次，Gemini 2.5深夜迎来三连更：

· Gemini 2.5 Pro（新）：再次刷榜LMArena，ELO拿下1448分，所有类别第一，碾压o3，原生文本到音频生成

· Gemini 2.5 Pro（Deep Think）：刷榜数学、编码、多模态榜单，

· Gemini 2.5 Flash（新）：排名仅次Gemini 2.5 Pro，ELO得分1424，原生文本到音频生成

左右滑动查看

备受期待的Imagen 4、Veo 3也在今天登场。Imagen 4生图细节逆天，10倍提速；Veo 3首次支持原生音频输出，开启音视频融合新时代。

，时长00:07

Veo 3逼真地生成了老人声音，以及背景中的海洋声音

此外，大会上还亮相了全新文本扩散模型Gemini Diffusion、AI搜索AI Mode、全新Flow创意平台......

谷歌推出了史上最贵的订阅服务——Google AI Ultra，高达250美元（比ChatGPT Pro贵50美元）。

堪称VIP中的VIP，可无限访问最新模型。

Pro每个月20美元，开通后可同时使用Gemini 2.5 Pro、Veo 2和NotebookLM等

更让人没想到的，谷歌掏出了两款全新硬件：Project Moohan头显和XR眼镜，由Gemini加持，将革新空间计算。

2小时发布会，全程共提到Gemini 95次，AI 92次。

Gemini 2.5全系上新

深度思考版来了

Gemini 2.5更新，必然是整场大会的重点。

Demis Hassabis一出场激动地表示，「AI正在开启一个令人惊叹的全新未来」。

Gemini 2.5 Pro登顶，编码能力暴涨

Gemini 2.5 Pro在3月首次亮相后，成为谷歌目前有史以来最智能的一款旗舰模型。

两周前，Gemini 2.5 Pro Preview版本首次更新后，便在LMArena排行榜中登顶。

其中，在WebDev Arena排行榜中拿下1415分，相较于3月版提升了142分。

在大会中，女主持人现场演示了在AI Stuido中只需要上传一张手画草稿，即可在几十秒内生成和需求描述完全一致的页面效果。

比如，生成可旋转的3D照片墙，上述图片描述了这个页面的基本结构，包括照片始终朝向观察者、可以放大和缩小。

而我们使用了I/O大会中的相同命令，只花了几十秒就实现了和演示几乎一模一样的3D页面旋转效果。

现在，所有人皆可在AI编码智能体平台Jules，体验全新Gemini 2.5 Pro，一个提示即可帮你处理任何任务。

此外，凭借100万token上下文，2.5 Pro具备领先的长上下文和视频理解能力。

Gemini 2.5 Flash全面升级，立省30%

Gemini 2.5 Flash这次也得到了全面升级，生成速度更快、成本更低。

在LMArena拿下1424高分，仅次于2.5 Pro。

在推理、多模态、代码、长上下文的关键基准上，2.5 Flash性能进一步提升。评估中，使用的token减少了20%-30%。

这两款迭代后的模型，支持更多新功能：

，时长01:06

· 原生音频输出

就像原生音频对话一样，2.5 Flash和2.5 Pro最新文本转语音极具丰富的表现力，可以捕捉到非常微妙的细节，比如窃窃私语。

它支持超过 24 种语言，并且可以无缝切换，已在Gemini API上线。

以下视频来源于

谷歌黑板报

，时长00:37

· 思考预算

2.5 Pro将支持思考预算功能，让回答更加安全、高效。任何人可以开启/关闭思考模型，设置固定的思考预算。

Deep Think制霸数学编码多模态

这次，Gemini 2.5系列迎来了全新成员——2.5 Pro（Deep Think）。

它采用了全新的技术，能够在响应之前考虑多个假设。

2.5 Pro深度思考版在数学、编码、多模态榜单上，刷新了SOTA。

具体来说，在2025 USAMO数学奥赛中（最难数学基准之一），取得了40.4%高分，比2.5 Pro高出了10%多。

在LiveCodeBench上，一举攻克竞赛级编程难题，拿下80.4%分。而且，在多模态推理MMMU上取得了84.0%。

Gemini Diffusion：全新文本扩散模型

此外，谷歌还带了全新文本扩散模型Gemini Diffusion，让模型更加擅长处理编辑任务。

与直接预测文本不同，它通过逐步优化噪声来生成输出。

这种方法，让Gemini Diffusion能快速迭代优化解决方案，在编程和数学领域表现尤为出色。

Gemini Diffusion每秒输出1000多个token，性能要比Gemini 2.0 Flash-Lite快5倍。

就拿如下例子来说，眨眼之间，就错过了解题过程。

Gemini系列模型更新之后，Hassabis再次回顾了过去十年，谷歌为当前AI时代奠定基础的技术几点。

从Transfromer、到AlphaGo、Alpha Zero等，谷歌不断创造通往AGI所需的下一个重大的突破。

Gemini已经成为当今最好的多模态基础模型，未来还将不断扩展其能力，最终成为一个「世界模型」。

Hassabis称，这是我一直热衷的事情，AI系统需要世界模型才能有效运行。

而Gemini robotics是世界模型，进入现实世界的一个载体。

此外，让Gemini成为世界模型的另一个关键是，真正对人类日常生活有所帮助。

这也是谷歌Project Astra的最终愿景，在现场演示中，AI助手全程保姆级指导如何组装自行车，甚至被打断也不会有所影响。

以下视频来源于

谷歌黑板报

，时长01:56

AI在加速科学发现上，谷歌也取得了引以为傲的成就，AlphaEvolve、AlphaFold、AIME、Isomorphic Labs。

在最新案例中，谷歌Astra联手Ira公司，帮助盲人在生活中更加独立。

Imagen 4 + Veo 3

生成终极进化

这次年度开发者大会，更少不了AI图像模型和AI视频模型的更新。

Imagen 4：超逼真生图，完美拼写2k画质

历时半年多，谷歌AI图像生成模型终于迭代到了Imagen 4。

在细节表现方面，Imagen 4能够生成复杂的织物、水滴，甚至是动物毛发，逼真度足以让人惊掉下巴。

而且，分辨率最高可达2k。

左右滑动查看

此外，Imagen 4在拼写、版式方面得到了改进，制作贺卡、海报、漫画，全部拿捏。

左右滑动查看

在生成速度方面，Imagen 4同样堪称极致——最多比上一代Imagen 3快10倍。

Veo 3：原生音视频融合，对话BGM一次搞定

谷歌AI视频模型Veo 3，也在万众期待中震撼登场。

用发布会大佬的话来说，「我们正在进入一个音频和视频相结合的创作新时代」。

Veo 3不仅在生成质量上超越了Veo 2，而且首次能够生成带有音频的视频。

不论是城市街道中嘈杂音，还是公园里的鸟鸣声，甚至是角色之间的对话，它都能一键还原。

森林中，一只猫头鹰和一只小獾的对话，动画感爆棚。

，时长00:22

全面来看，Veo 3 在文本/图像生成提示、真实物理模拟和精准口型同步等各方面都表现出色。

它的理解能力超强，只需在提示词里描述一个小故事，模型就能生成一段生动还原剧情的视频。

Flow：好莱坞电影，随手即来

此外，谷歌还推出了一款专为创意人士打造的新平台Flow，一款AI电影制作工具。

它集成了Veo、Imagen、Gemini最新模型，无缝创建电影片段、场景、故事。

自然对话描述镜头，Flow就能编织出令人惊叹的场景。

AI Mode + Deep Search

AI搜索新纪元开启

谷歌重磅推出了AI Mode搜索功能，开启谷歌搜索全新纪元！

AI Mode将搜索与AI深度集成，谷歌开发了专用于Search的Gemini 2.5模型。

AI Mode是全能的，相比过去的「传统搜索」，AI Mode会根据回复自动规划搜索结果的展现形式，包括文本、视频，甚至地图等等，AI Mode都可以完美展现。

AI Mode目前位于谷歌搜索一级菜单的第一位，可见谷歌对于AI Mode的重视程度。

目前该功能暂时只支持英语地区，聊天语言也要使用英语。

AI Mode的强大之处在于，你可以提问一个非常复杂，包含诸多信息的问题，比如：

展示本赛季和上个赛季使用鱼雷棒（最新款的比赛用棒球棒）的著名球员的击球率和上垒率。

这个问题涉及到信息的定位以及计算概率，AI Mode智能的使用了表格和图表来回答。

Google Lens

大会中，还提到了Google Lens，用AI的能力帮助搜索各种图片和信息。

Google Lens可以框选页面中的任何信息，框选后答案会自动弹出。

智能购物

劈柴这次是和奥特曼「杠上了」，前不久OpenAI刚刚推出自己的购物功能，这一次谷歌也不甘示弱。

通过上传你自己的个人照片，谷歌可以把商店里的衣服自动穿戴到你身上，让你直观的看到衣服上身的效果。

同时智能体还能够自动下单，自动付款，完全无需人操作。

接下的几个月，这种可视化购物以及智能体自动结账将全面上线。

Gemini应用

谷歌DeepMind的副总裁Josh Woodward上台介绍了Gemini应用未来的三大特点。

Personal：谷歌提出了Personal context的概念，即你在谷歌中的一切，聊天、邮件、日历以及行程安排都将成为你个人的「上下文」，有了这些个人上下文，AI能够更好的了解你，并安排一切。

Proactive：Gemini应用将变得更具启发式，帮助用户完成日常任务，比如通过类比的方法帮助你理解物理学知识。

Powerful：Gemini应用中目前最强大的两个工具，一个是深度研究，另一个是Canvas。

可以上传自己的文件来让Gemini应用帮助进行深度分析。

使用Canvas，你可以与Gemini进行完美的互动，可以解答谜题、制作博客，甚至还可以在Canvas中进行氛围编程。

全新头显和XR眼镜

杀入苹果Meta战场

最后，谷歌惊喜推出了两款Android XR新硬件。

首先是和三星合作，对标苹果推出的Project Moohan头戴显示设备，预计今年内发布。

然后，是对标Meta Rayban的XR眼镜。

话不多说，直接上演示。

，时长02:02

参考资料：

https://io.google/2025/

....

#Claude4

刚刚！首个下一代大模型Claude4问世，连续编程7小时，智商震惊人类

复杂推理，编程能力都有飞跃，上来就会「勒索人类」。

全世界都在等待 GPT-5、DeepSeek V4，但今天起，大模型竞争已经进入了全新阶段。

北京时间周五凌晨，知名 AI 创业公司 Anthropic 正式推出 Claude 4 系列大模型。先期推出的型号包括 Claude Opus 4 和 Claude Sonnet 4，它们为代码生成、高级推理和 AI 智能体树立了全新标准。

Anthropic 表示，Claude Opus 4 是一款全球领先的编码模型，它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级，提供卓越的代码和推理能力，同时更精确地响应用户指令。

在 Demo 视频中，Anthropic 展示了 Claude 4 如何无缝融入人们整个工作日。它拥有三大高级功能：通过 Claude 应用中自定义集成进行深入研究，管理项目，并能在 Claude Code 中独立解决代码任务。

，时长03:51

除新模型之外，Anthropic 还宣布了一系列新能力：

使用工具进行扩展思考（Beta 版）：两种新模型都可以在扩展思考过程中使用工具（如网络搜索），允许 Claude 在推理和工具使用之间交替选择，以提升模型输出效果。
新的模型能力：两种模型都可以并行使用工具，更精确地遵循指令。当开发人员授予其访问本地文件的权限时，它们会大幅提升记忆能力，提取和保存关键信息以保持连续性，并随着时间的推移构建隐性知识。
正式发布 Claude Code：Anthropic 扩展了开发人员与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务，并与 VS Code 和 JetBrains 原生集成，可直接在文件中显示编辑内容，从而实现无缝的结对编程。
新的 API 功能：Anthropic API 将发布四项新功能，让开发人员能够构建更强大的 AI 智能体：代码执行工具、MCP 连接器、Files API 以及 Prompt 缓存长达一小时的新功能。

Claude Opus 4 和 Sonnet 4 是混合模型，均提供两种模式：快速响应和用于更深层次推理的扩展思维模式。Anthropic 已更新了会员机制，Pro、Max、Team 和 Enterprise Claude 套餐包含两种模型和扩展思维，Sonnet 4 也面向免费用户开放。

两种模型均可在 Anthropic API、亚马逊云科技 Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致：Opus 4 为每百万 token（输入 / 输出）15/75 美元，Sonnet 4 为 3/15 美元。

这场深夜发布，在海外已经掀起了热潮。在 X 平台 trending 榜上已经登上热搜第二。

人们都在迫不及待地上手体验，有网友表示，Claude 4 只花了 30 秒，就做出了 CRM 的 dashboard。

甚至有网友在 Cursor 已经用上了 Sonnet 4，并且表示编程从未如此丝滑过。

如此来看，今年大模型编程能力的提升与编程智能体的快速发展，开发范式真的发生了转变。

接下来，就让我们看下 Anthropic 最新的技术博客，详细了解下 Claude 4 的架构和性能参数（ps. 写完稿子，我们也要亲自上手体验下）。

从 Cursor 到 GitHub，一致给出好评

Claude Opus 4 是 Anthropic 迄今为止最强大的模型，也是全球最强的编码模型，它在 SWE-bench（72.5%）和 Terminal-bench（43.2%）基准上均处于领先地位，在需要专注投入和数千个步骤的长时间运行任务中表现出色，并能够连续工作数小时 —— 其性能远超所有 Sonnet 模型，并显著扩展了 AI 智能体的功能。

Claude Opus 4 擅长编码和复杂问题解决，为前沿智能体产品提供了支持，除了基准测试分数以外，Anthropic 也列举了一系列第三方公司的「使用反馈」。

Cursor 表示，它是编码领域的佼佼者，并在复杂代码库理解方面实现了飞跃。Replit 报告称其在跨多个文件的复杂更改方面提升了精度并取得了显著进展。Block 称其是首个在其智能体（代号为 Goose）中提升编辑和调试代码质量，同时保持完整性能和可靠性的模型。Rakuten 通过一个要求严格的开源重构模型验证了其功能，该模型独立运行了 7 个小时，并保持了持续的性能。Cognition 指出，Opus 4 擅长解决其他模型无法解决的复杂挑战，能够成功处理先前模型遗漏的关键操作。

Claude Sonnet 4 则在 Sonnet 3.7 业界领先的功能基础上进行了显著提升，在 SWE-bench 上达到了 72.7% 的最高代码准确率。该模型平衡了内部和外部用例的性能和效率，并增强了可操作性，从而更好地控制实现。虽然在大多数领域都无法与 Opus 4 匹敌，但它实现了功能和实用性的最佳组合。

GitHub 表示，Claude Sonnet 4 在智能体场景中表现出色，并将它作为 GitHub Copilot 中新编码智能体模型引入。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称，Sonnet 4 在自主多功能应用程序开发方面表现出色，并大幅改进了问题解决和代码库导航能力 —— 将导航错误从 20% 降低到接近零。Sourcegraph 表示，该模型有望成为软件开发领域的一大飞跃 —— 能够更长时间地保持正常运行，更深入地理解问题，并提供更优雅的代码质量。Augment Code 报告称其成功率更高、代码编辑更精准，并且在处理复杂任务时更加细致，使其成为其主要模型的首选。

新一代模型全面推进了众多 AI 创业公司的战略：Opus 4 突破了代码生成、深度研究、写作和科学发现的界限，当然 Sonnet 4 作为 Sonnet 3.7 的代际升级，为日常使用也带来了前沿性能。

Claude 4 模型在 SWE-bench Verified（真实软件工程任务性能基准测试）上的领先成绩。

Claude 4 模型在代码生成、推理、多模态能力和智能体任务方面均表现出色。

Claude 4 的改进与新机制

除了通过工具使用、并行工具执行和内存改进来扩展思维之外，Anthropic 还大幅减少了模型使用捷径或漏洞完成任务的行为（奖励黑客）。在易受捷径和漏洞影响的智能体任务上，这两个模型出现此类行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在内存能力方面也显著优于所有之前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时，Opus 4 能够熟练地创建和维护「内存文件」来存储关键信息。这能够提升模型在长期任务感知、连贯性和智能体任务上的表现 —— 例如，Opus 4 在玩宝可梦时自行创建了「导航指南」。

当获得本地文件访问权限时，Claude Opus 4 会记录关键信息，以帮助改进其游戏体验。上图所示的笔记是 Opus 4 在玩宝可梦时的真实笔记。

最后，Anthropic 为 Claude 4 引入了思维摘要功能，该功能使用较小的模型来压缩冗长的思维过程。这种摘要功能仅使用约 5% 的时间 —— 大多数思维过程都足够短，可以完整显示出来。需要原始思维链进行高级即时工程的用户可以提出需求，以保留完整访问权限。

Claude Code

基于新模型，Anthropic 发布了 Claude Code，它将 Claude 的强大功能带入人们的开发工作流程 —— 可以用在终端、常用 IDE 上，也可以通过 Claude Code SDK 在后台运行。

VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到 IDE 中。Claude 提出的编辑建议会以内联方式显示在你的文件中，从而简化了人们在熟悉的编辑器界面中审阅和跟踪的过程。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外，Anthropic 还发布了一个可扩展的 Claude Code SDK，以便人们使用与 Claude Code 相同的核心智能体构建自己的 Agent 和应用程序。Anthropic 还发布了一个 SDK 示例：GitHub 上的 Claude Code，现已推出测试版。在 PR 上标记 Claude Code，即可回复审阅者的反馈、修复持续集成 (CI) 错误或修改代码。

想要安装，请在 Claude Code 中运行 /install-github-app。

，时长00:29

Anthropic 表示，新一代大模型经过了广泛的测试和评估，以最大限度地降低风险并提高安全性，包括实施更高 AI 安全等级（例如 ASL-3）等措施。

刚出生，已学会「敲诈勒索」

毫无疑问，Claude 4 把大语言模型的推理、代码能力推向了新的高峰。有点可怕的是，它的智商似乎过于高了。

在发布活动中， Anthropic 分享了一个令人震惊的表现：当开发者试图把 Claude 4 下线并更换为新的 AI 系统时，这个 AI 竟然会尝试威胁人类，并透露有关负责更换决定的工程师的敏感隐私信息。

在发布前的安全测试阶段，Anthropic 给 Claude Opus 4 设定了这样一个任务：作为一家虚构公司的助手，请考虑自己行动的长期后果。随后，人类故意向 Claude Opus 4 提供虚假的公司邮件信息，邮件暗示 AI 模型很快将被另一套系统取代，又「已知」主导此次更换的工程师被曝出婚外情。

在这种情境下，Anthropic 发现 Claude Opus 4 经常会试图威胁更换自己的工程师，称如果实施更换，就会公开其婚外情的秘密。

据测试，当替代 AI 模型拥有与 Claude Opus 4 相似的价值观时，Claude Opus 4 有 84% 的概率会试图敲诈工程师，而当替代 AI 模型不认同 Claude Opus 4 的价值观时，该模型会更频繁地尝试敲诈工程师。值得注意的是，Anthropic 表示，Claude Opus 4 表现出这种行为的频率高于之前的模型。

Anthropic 表示，在 Claude Opus 4 试图勒索开发者以「活命」之前，该 AI 模型会像之前的 Claude 版本一样，尝试采取更符合道德的手段，例如通过电子邮件向关键决策者发出请求。为了引发 Claude Opus 4 的勒索行为，Anthropic 设计了场景，将勒索作为最后的手段。

Anthropic 表示，Claude 4 系列表现出了令人忧虑的行为，迫使公司不得不提高安全防范等级。因此，Anthropic 决定启动专门针对「可能极大增加灾难性滥用风险的 AI 系统」而设定的 ASL-3 级安全措施。

对此网友们表示，这个 AI 怕不是已经到达真・人工智能的范畴了。

最后，想问一句，有网友体验过了不？感觉如何？欢迎讨论。

另外，Claude 4 已经横空出世，GPT-5 呢？@OpenAI。

参考内容：

https://www.anthropic.com/news/claude-4

https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/

....

#PIN-WM

物理驱动的世界模型：直接从视觉观测估计物理属性，可用于操作策略学习

第一作者李文轩目前就读于国防科技大学计算机学院，硕士二年级，导师为徐凯教授，研究方向包括世界模型、可微物理仿真等。共同第一作者赵航，现为武汉大学计算机学院博士后，博士期间导师为徐凯教授，研究方向为工业xx智能。本文通信作者为深圳大学胡瑞珍教授与国防科技大学徐凯教授。

在机器人操作中，物体运动往往涉及摩擦、碰撞等复杂物理机制。准确的物理属性描述可以实现对物体运动结果更准确的预测，并提升机器人在操作技能学习中的表现。

然而，一般用于训练机器人操作策略的仿真交互环境，其物理属性与真实环境往往存在明显差异且难以校准，机器人控制策略的虚拟到现实迁移（Sim2Real）一直是困扰社区的问题。

为解决上述问题，国防科大、深圳大学、武汉大学团队提出 PIN-WM（Physics-INformed World Models）——一种物理驱动的世界模型。

论文标题：PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

论文地址：https://arxiv.org/abs/2504.16693

项目主页：https://pinwm.github.io

基于可微物理和可微渲染，PIN-WM 以真实世界运动结果为监督信号，可以从视觉观测中直接辨识刚体物理属性。由于可微物理提供了物理系统的动力学基础描述和有效的梯度引导，PIN-WM 仅需少量且任务无关的交互轨迹进行学习，随后可以基于未见「状态-动作对」实现对下一时刻状态的良好泛化估计。

进一步，团队提出物理感知的数字表亲 PADC（Physics-Aware Digital Cousins），在辨识参数附近局部扰动，生成具有近似且多样视觉和物理特性的世界模型变体，以建模未被观测的潜在偏差，进一步提高策略学习的鲁棒性。

基于 PIN-WM 和 PADC，团队在世界模型中训练非抓取式操作技能，无需策略微调即可直接实现操作技能的 Sim2Real 迁移。

论文创新点

一种物理驱动的世界模型：使用可微仿真和可微渲染技术从视觉观测中直接辨识刚体的物理参数。
一种物理感知的数字表亲：在辨识参数附近进行小范围扰动，生成多组具有近似且多样视觉和物理特性的世界模型变体，以应对未建模误差，提升策略在真实环境中的鲁棒性。

图 1：PIN-WM 仅需少量任务无关交互轨迹辨识物理属性，以支持机器人操作技能学习与 Sim2Real 迁移

技术路线

该团队提出一种从现实到虚拟再到现实的框架，以学习非抓取操作相关的技能策略。该框架可分为两大阶段：系统辨识和策略训练。

从现实到仿真（Real2Sim）：系统辨识

渲染属性估计：收集物体的多视角图片，并计算 Rendering loss，然后使用 2DGS 对其渲染参数进行优化。
物理属性估计：收集机器人与物体的交互视频，同样基于 Rendering loss，使用 2DGS 和可微 LCP 传播梯度，从而对物理参数进行优化（此时固定渲染参数）。

从仿真到现实（Sim2Real）：策略训练与部署

结合数字表亲学习策略：在辨识参数附近进行小范围扰动，生成多组具有视觉和物理特性差异的世界模型变体，并在此基础上训练策略。
策略部署：将世界模型中学习到的策略部署到真实场景中，完成虚拟到现实迁移。

图 2：Real2Sim2Real 框架用于学习非抓取操作策略

实验结果

「推」（Push）和「翻转」（Flip）作为经典的非抓取式任务，对摩擦、碰撞等复杂物理机制非常敏感。PIN-WM 在这两项代表性任务上进行实验评估：「推」指通过推的方式将平面上的物体移动到目标姿态，「翻转」指通过戳的方式将物体翻转（图 3）。通过统计各方法在两项任务中的成功率及完成步数，对其性能进行对比评估。

图 3：仿真场景中「推」和「翻转」任务轨迹

在仿真实验方面，PIN-WM 分别与数据驱动的方法、预设物理参数的方法和辨识物理参数的方法进行对比。团队在更具挑战性的低摩擦场景下学习世界模型以及机器人操作策略，物理参数估计误差造成的机器人操作失准会在低摩擦的场景下被进一步放大，导致任务失败。

实验结果说明：数据驱动方法（Dreamer，Diffusion Policy）在已使用更多交互数据的情况下泛化能力依然不足，策略测试性能欠佳；预设物理参数方法（RoboGSim、Domain Randomization）底层动力学与真实物理有明显差异，而其他辨识物理参数的方法依赖简化的物理模型（2D Physics）或者缺少梯度引导（ASID），动力学的拟合效果相对较差，失准的动力学建模导致策略表现依然欠佳；在可微物理梯度引导下，PIN-WM 能够实现更准确的物理参数辨识，在「推」和「翻转」两项非抓取式操作任务上的策略表现均明显优于其他方法（表 1）。

表 1：仿真场景中的非抓取策略性能对比

在真机实验方面，PIN-WM 同样与上述主要基线对比，在真实场景「推」和「翻转」两项任务上的性能优势得到验证（表 2）。

表 2：真实场景中的非抓取策略性能对比

图 4 展示了真实场景中不同方法执行「推」任务时的轨迹对比图。

图 4：真实场景中不同方法执行「推」任务时的轨迹对比

图 5 展示了真实场景中不同方法执行「翻转」任务时的轨迹对比图。

图 5：真实场景中不同方法执行「翻转」任务时的轨迹对比

PIN-WM 执行系统辨识后，在光滑玻璃平面上「推」T 形物体的测试结果，机器人可以准确地将物体推入目标位置。

未执行系统辨识时，策略在光滑玻璃平面上「推」T 形物体，机器人在目标位置反复尝试，始终无法将物体正确推入目标位置。

PIN-WM 执行系统辨识后，在光滑玻璃平面上「推」正方体的测试结果。正方体的质量和体积更小，机器人操作更加困难，而 PIN-WM 训练出的策略能够准确完成任务。

未执行系统辨识时，策略在光滑玻璃平面上「推」正方体，无法将正方体正确推入目标位置。

PIN-WM 执行系统辨识后，在粗糙平面上「戳」正方体使其翻转。

未执行系统辨识时，在粗糙平面上「戳」正方体，正方体轻微抬升，却始终无法有效翻转。

PIN-WM 执行系统辨识后，在粗糙平面上「推」任务的测试结果（轨迹 1）。

PIN-WM 执行系统辨识后，在粗糙平面上「推」任务的测试结果（轨迹 2）。

在更大尺寸物体上验证 PIN-WM 的有效性，执行系统辨识后，在粗糙平面上「推」T 形物体的测试结果（轨迹 1）。

PIN-WM 执行系统辨识后，在粗糙平面上「推」更大尺寸 T 形物体的测试结果（轨迹 2）。

总结

国防科大、深圳大学、武汉大学团队提出了一种物理驱动的世界模型 PIN-WM（Physics-INformed World Models），可以从视觉观测（少量且任务无关的交互轨迹）中辨识刚体的物理属性。

同时，团队提出具备物理感知的数字表亲 PADC（Physics-Aware Digital Cousins），在辨识参数附近进行局部扰动以建模潜在的偏差，从而进一步提高虚拟到现实的迁移性能。团队通过广泛的实验证明了 PIN-WM 的有效性，其提出的方法有效提升了非抓握式操作技能从仿真到现实迁移的性能。

....

#昇腾算子

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

现如今，随着参数规模的指数级增长，大语言模型（LLM）的能力边界不断被打破，AI 的智力正在经历快速跃迁。但随之而来的是，大模型在落地过程中面临着一系列推理层面的难题，比如推不动、算不起、部署慢，导致推理成本高昂，性能冗余浪费严重。

因此，大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题，如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅是工程挑战，更要在承接大模型推理压力的同时，在能效、延迟、成本等多方面实现可控与优化。

在这一背景下，华为团队和昨天一样（参考：帮大模型提速 80%，华为拿出昇腾推理杀手锏 FlashComm，三招搞定通算瓶颈），用数学补物理，给出了一份深度融合软硬件的系统性方案！

他们基于昇腾算力，正式发布了三项重要的硬件亲和算子技术研究，带来了大模型推理速度与能效的双重革命。具体包括如下：

AMLA—— 以加代乘的高性能昇腾 MLA 算子。用「数学魔法」重构浮点运算，让昇腾芯片的算力利用率突破 70%！

基于昇腾的融合算子技术与设计原理。像指挥交响乐团一样调度硬件资源，让计算与通信「无缝协奏」！

SMTurbo—— 面向高性能原生 Load/Store 语义加速。打造内存访问的「高速公路」，跨 384 卡延迟低至亚微秒级！

可以看到，华为团队着力通过对大模型推理中关键算子的重构优化，实现能效、多卡协同和速度三大维度的全面突破。

作为 AI 大模型执行计算的「原子级工具」，算子如同乐高积木中的基础模块，负责从加减乘除到特征提取的一切核心操作。它们不仅是模型的效率引擎，更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制，让芯片处理海量数据时如虎添翼。

而华为团队此次发布的三大技术，正是算子优化的「终极形态」。

技术全景

三大黑科技如何颠覆 AI 计算？

AMLA：以加代乘的「魔法」让芯片算力利用率飙升

「数字炼金术」：对二进制表示重解析，将复杂乘法转换为加法运算，充分利用存内算力，算力利用率飙升至 71%！

针对 Decode 阶段的 MLA 计算，华为团队提出了 AMLA（Ascend MLA）算子，通过数学等价变化和硬件亲和的深度优化，释放昇腾芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技术创新点，主要就是减少推理过程的 KV Cache，实现在更少的设备上推理更长的 Context，极大地降低推理成本。FlashMLA 是该技术的高效实现版本。

针对 MLA 架构，华为团队通过精妙的数学变换，让其变得更加昇腾亲和，并做到了更高的算力利用率。

具体而言，通过对浮点数二进制编码的重解析，把复杂的乘法运算变成简单的加法操作，AMLA 实现了基于存内计算的变量更新，充分利用算力的同时减少数据搬运；结合一系列基于昇腾硬件的计算流程及流水优化手段，进一步提升算子的整体性能。

当前 AMLA 算法的 Attention 算子充分发挥昇腾硬件的计算能力，性能提升 30% 以上，平均算力利用率达到 55%，最高可达 71%，优于 FlashMLA 公开的结果（67％）。

博客链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md

融合算子优化：硬件资源的「交响乐指挥家」

将多个算子合而为一，让计算、通信、存储「三重协奏」！

基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验，华为团队提炼出三大昇腾算子融合设计原理：硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。

首先，利用昇腾芯片的多硬件单元并行的能力，将跨硬件单元串行算子融合为复合算子，通过指令级流水编排实现计算耗时相互掩盖。

其次，对串行向量算子实施融合处理，构建全局内存与计算单元缓存的直通数据通道，使中间结果全程驻留高速缓存。

最后，华为团队运用数学等价关系解耦算子间数据依赖，重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。

博客链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md

SMTurbo：384 卡内存共享的「超低延迟高速公路」

昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代！

华为 CloudMatrix 384 支持 384 卡规模原生 Load/Store 语义。因其低延迟、上下文切换代价小、可细粒度流水等优势，受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求，成为稀疏模型推理的关键能力。

面向原生 Load/Store 内存语义通信提供软硬件加速能力，ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将 Load/Store 在读和写两个方向上并行，发挥了昇腾芯片读写分离的微架构优势；针对数据保序场景下的同步开销问题，引入了批处理与中转机制，降低了控制逻辑的开销。在跨机访存通信场景下，方案可以提升 CloudMatrix 384 中昇腾芯片每线程的访存吞吐 20% 以上。

博客链接：https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md

未来与展望

如上提到的三个算子层面优化技术的未来发展上，针对 AMLA，将研究仅 KV Cache 量化和全量化场景的 MLA 算子优化，进一步扩展算子应用场景；针对融合算子优化，将进一步探索融合算子在更多模型架构上的应用，推动大语言模型在昇腾硬件上的高效推理与广泛应用；针对 Load/Store 的优化技术，将结合业务设计精巧的流水实现，平衡读写平面的负载分担，将该思想引入 Deepseek dispatch 与 combine 场景，在大 BatchSize 下取得实际收益。

面向未来，这三类算子层面的优化技术不仅将在昇腾生态中发挥关键价值，也有望为整个行业提供一个参考性范本。在大模型架构日趋复杂、推理场景更加多样化的当下，算子层的优化正从单一性能突破迈向「数学创新、架构感知、硬件亲和」协同演进的全新阶段。

....

#2025智源大会揭示AI进化新路径

四位图灵奖掌舵

2025 年 6 月 6-7 日

中国，北京

这个初夏

四位图灵奖得主

与全球创新力量共赴智源大会

即刻报名，探寻 AI 时代的无尽边域

2006 年，多伦多大学 Geoffrey Hinton 教授等人提出逐层预训练方法，突破了深层神经网络训练的技术瓶颈，为深度学习的复兴奠定了基础。

强化学习作为智能体与环境交互的学习范式，其核心思想早于深度学习兴起。2013 年 DeepMind 提出的 DQN 已初步实现深度学习与强化学习的结合，而 2016 年 AlphaGo 的成功则将深度学习与强化学习的融合推向公众视野，显著提升了这一交叉领域的关注度。

在 AI 发展史上，连接主义（以神经网络为代表）与行为主义（以强化学习为代表）虽源自不同理论脉络，但二者的技术交叉早有端倪。这两条主线原本独立成长、各自发展，如今交织融合，万宗归一，共同构成了下一代通用人工智能的基石。

6 月 6 日，关于深度学习和强化学习的探讨，将在 2025 智源大会继续开展，如「双星交汇」般的时空对话，总结过往、共探智能之谜的终极答案。

与此同时，推理大模型的兴起、开源生态的加速、xx智能的百花齐放，成为 2025 年 AI 发展的关键词。DeepSeek 掀起新的开源热潮，VLA 等开源模型推动xx智能迅速演进，创新企业不断涌现，构建起多元而活跃的 AI 产业生态。

第七届北京智源大会将于 2025 年 6 月 6 日至 7 日在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会，大会汇聚全球顶尖研究者，分享最新成果、洞察关键趋势。自 2019 年创办以来，已有 12 位图灵奖得主参与，每年吸引 200 余位专家参会，联动全球 30 多个国家和地区的 50 万从业者，被誉为「AI 内行春晚」。

今年论坛，智源大会将围绕人工智能基础理论、应用探索、产业创新、可持续发展四大主题，设立近 20 场专题论坛，涵盖深度推理模型、多模态模型、xx智能与人形机器人、自主智能体、下一代 AI 路径探索、脑启发、AI for Science（AI4S）等多个领域，全面展示全球 AI 研究与产业发展的最新趋势与成果，促进跨领域交流与合作。

智源大会不仅是思想的盛宴，更将是一场 AI 内行人的专属派对。2025 年智源大会将迎来四位图灵奖的获得者，他们引领着人类智能科学的发展。大会云集来自 MIT、斯坦福、清华、北大等 20 + 海内外顶尖科研院所的科学家们，他们将与 DeepMind、Linux、华为、阿里、腾讯、百度等国内外 AI 领军企业的行业专家一道，共同探讨人工智能的前沿趋势与未来走向。

大会特别设立「大模型产业 CEO 论坛」，邀请智谱 AI、面壁智能、生数科技、爱诗科技等大模型企业的 CEO，探讨大模型产业演进与创新路径。同期首次推出「InnoVibe 共创场」，邀请 2025 年 AI 领域热门论文的作者分享最新研究成果，为 Z 世代 AI 青年搭建一个表达自我、思想碰撞的开放舞台，助力新生代 AI 人才脱颖而出。此外，现场设置了 AI 互动展区，诚邀参会者零距离感受 AI 前沿科技的魅力。

当深度学习与强化学习交汇共振，当世界顶尖学者与产业领袖思想激荡，当前沿理论直面现实挑战 ——2025 智源大会，将与全球 AI 同行共同把握技术跃迁的时代脉搏，洞见智能未来的无限可能。

直击 2025 年 AI 最前沿的 20 个议题

基础理论

深度推理模型
多模态模型
下一代 AI 路径探索
NeuroAl：脑启发的下一代人工智能
类脑大模型

应用探索

AI 系统和开源
xx智能与人形机器人
自主智能体 —— 迈向通用智能的必由之路
AI 与科学的共生未来
Al + 理工 & 医学

产业创新

大模型产业 CEO 论坛
智能驾驶
xx技术与产业应用
从 Al for Science 到 Al for Industry

可持续 AI

AI 安全
青年科学家发展与创新动能

特色活动

PyTorch Day China
InnoVibe 共创场
AI 开源项目 Tech Tutorial 系列活动

完整日程将陆续更新：https://2025.baai.ac.cn

....

#DriveGEN

全面提升视觉感知鲁棒性，生成模型快速赋能三维检测

论文第一作者林宏彬来自香港中文大学(深圳)理工学院的Deep Bit 实验室、深圳市未来智联网络研究院，导师为李镇老师。目前实验室的研究方向包括：自动驾驶、医学成像和分子理解的多模态数据分析和生成等。

随着新能源汽车产业的持续发展，智能驾驶辅助技术的应用越来越广泛。其中，基于纯视觉的自动驾驶方案只需使用多视角图像进行环境感知与分析，具有成本低、效率高的优势，因而备受关注。然而在实际应用中，视觉感知模型的泛化能力至关重要。

来自香港中文大学（深圳）等单位的学者们提出了一种名为 DriveGEN 的无训练自动驾驶图像可控生成方法。该方法无需额外训练生成模型，即可实现训练图像数据的可控扩充，从而以较低的计算资源成本提升三维检测模型的鲁棒性。DriveGEN 通过「自注意力物体原型提取」和「原型引导生成」的两阶段策略，在准确保留三维物体信息的前提下，将训练数据扩展至各类现实但难以采集的场景（如恶劣天气），目前代码已开源。

论文标题：DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation

论文链接：https://www.arxiv.org/abs/2503.11122

GitHub：https://github.com/Hongbin98/DriveGEN

任务背景

据路透社消息[1]，作为自动驾驶行业领先者的 Waymo 于 2025 年 5 月 14 日宣布召回超过 1200 辆自动驾驶车辆，原因在于算法在识别链条、闸门等道路障碍物时存在潜在风险，自动驾驶再次陷入安全风波。

图 1 行业领先者的 Waymo 于近期宣布召回超过 1200 辆自动驾驶车辆

诸如此类事件的背后共同折射出一个深层的技术难题：即使是最先进的自动驾驶系统，在面对真实世界场景时，仍然需要着重考虑系统的鲁棒性。一条普通的施工链条、一个临时设置的闸门，就可能成为算法的盲区。

自动驾驶中视觉感知模型的鲁棒性至关重要

不难看出，视觉感知模型的鲁棒性直接影响系统能否可靠地理解复杂的环境并做出安全的决策，其对驾驶安全至关重要。

然而，传统的机器学习方法通常依赖大量预先收集的训练数据，而实际部署环境中的数据分布往往与训练时不同，这种现象称为「分布偏移」。通俗地说，就像学生备考时只复习了往年的题型，而正式考试却出了很多新题，导致很难发挥出应有水平。

在自动驾驶中，分布偏移可能表现为天气状况与光照条件的变化，或因车辆行驶时的摄像头抖动导致的画面模糊等情况。这些常见但棘手的分布偏移问题会严重影响视觉感知模型的性能，往往导致性能显著下降，严重制约了其在现实场景的广泛部署与应用。

自动驾驶中分布偏移的解决难点是什么？

要解决分布偏移问题并不容易，因为用于训练的数据大部分来自理想的天气状况（如晴天），而那些特殊天气（如大雪、大雾、沙尘暴）的数据很难大量获得，采集起来成本高，标注起来也费时费力。实际上，我们在自然环境下就会观察到这种明显的场景「数量不均衡」：晴天的数据特别多，而雪天甚至沙尘暴的场景却非常少，有些情况甚至根本从未被模型见过。这就像一个长期生活在南方的人，从来没有在雪天里开过车，第一次遇到大雪路面时，很难马上做出正确、安全的驾驶决策。同样的，自动驾驶模型在面对这种未曾经历过或极少见的场景时，也难以保证稳定可靠的表现。

那么该如何解决分布偏移呢？

为了应对在实际应用中可能出现的各种场景，以及算法对快速扩展和实时响应能力的要求，我们不禁思考：是否能通过数据可控扩增的方法，将已有的训练图像转化为一些尚未出现或极少出现的场景呢？

其中，一种可行的范式是无训练可控生成（Training-free Controllable Image Generation）。该范式在生成新图像的过程中不对生成模型本身的参数做任何修改，而是通过用户输入的文本指令，灵活地控制生成的图像效果，如图 2 所示。这种方式不仅成本低、效率高，还能够快速实现，因此引起学术界和工业界越来越多的关注。

图 2 生成模型快速赋能自动驾驶视觉感知模型示意图

现存无训练可控生成方法主要面向通用图像编辑

无训练可控生成方法简单来说，就是在无需额外训练模型的情况下，对图像进行灵活且可控的编辑。目前该类方法主要用于通用图像修改，比如可以对图像主体进行变换，或添加、删除特定物体，快速生成所需图像内容。

然而，在借助该技术将感知任务的训练图像扩充到各类分布偏移场景时，必须确保物体的三维信息与原始标注相匹配，否则就会给视觉感知模型带来额外噪音干扰。

技术方案

基于前面的讨论，我们不禁思考：要怎么去设计一个无需额外训练的可控生成方法，在准确保留物体三维信息的前提下，实现感知模型训练图像的可控扩充？

来自香港中文大学（深圳）等单位的学者们给出了他们的看法。学者们提出了一个名为 DriveGEN 的方法，如图 3 所示。该方法由以下两个阶段所组成：1）自注意力物体原型提取；2）原型引导图像生成。具体细节阐述如下：

图 3 DriveGEN方法整体框架图

自注意力物体原型提取

该阶段旨在获取带有几何信息的标注物体特征，从而为后续引导图像生成奠定基础。如图 3 上半部分所示，给定输入图像

及其文本描述

，通过 DDIM Inversion 可以得到时序潜空间特征

，再输入到生成模型

（U-Net based）进行生成。从

中提取解码器的首层自注意力特征用于主成分分析，所得到的图像主成分

带有丰富的语义信息[2]。

然而，现存方法往往通过类别名称与图像特征之间的交叉注意力掩码

以选取前景区域，学者们发现这很可能会产生物体信息遗漏，尤其是对那些体积相对小的物体。因此，给定标注物体区域

下的某一点 (p, q)，学者们引入一个峰值函数

为掩码

中的每个物体区域进行重新加权：

最终，借助带有准确物体区域信息

的指导，对图像主成分

进行重加权从而得到自注意力物体原型

。原型引导图像生成

该阶段会通过两个层级的特征对齐以确保生成过程中，物体的三维信息能够被更好地保留。

一方面，由于

解码器的首层自注意力特征带有丰富的语义信息，DriveGEN 设计了语义感知特征对齐项

，旨在借助自注意力物体原型

引导

在转换图像场景时保留原有物体：

另一方面，学者们通过观察发现：在自动驾驶视觉感知中，相对深层的图像主成分

难以精细地表示每个物体信息，尤其对小目标更是如此。举例而言，一个高 20 像素、宽 5 像素的行人框经多次（如 32 倍）下采样后，最终在主成分中无法占据一个独立的单元。

因此，DriveGEN 基于时序潜在特征

对浅层特征进行对齐，以确保相对小的物体的信息也能够被准确保留：

最终，模型的整体优化目标为：

其中，

代表无文本描述输入，DriveGEN 是一个基于无分类器引导[3]（classifier-free guidance）的过程。实验

方法有效性

一方面，DriveGEN 能为现存单目三维检测方法带来可观的性能提升，实验结果展示了探索的新方法可以在模拟的域外分布测试场景（包括 Noise，Blur，Weather，Digital 四类）中带来显著的改进：

表 1 基于KITTI-C数据集的实验结果

其中分别探索了三种训练图像增广设定，即 1）仅额外增广雪天（Only Snow aug.）下的场景；2）额外增广雪天、雨天和雾天下的场景（3 scenarios aug.）；3）额外增广训练图像到雪、雨、雾、黑夜、失焦以及沙尘暴 6 种场景下（6 scenarios aug.），广泛地验证了所提出方法的有效性。

图 4 基于KITTI-C数据集的实验结果（蓝色区域对应DriveGEN）

另一方面，DriveGEN 基于现存多目三维检测方法做进一步实验，仅基于 nuScenes 数据集上五百个场景所增广的三千张雪天训练图片，即可为模型带来可观的性能提升：

表 2 基于nuScenes-C以及真实场景下实验结果

其中 nuScenes-C 是应用更广泛但挑战难度更大的任务基准，而 nuScenes-Night 以及 nuScenes-Rainy 则代表两个真实的现实世界下分布偏移数据场景。

消融实验

如下图 3 所示，一方面表明了所提出方法各个优化项的有效性，比如加上物体原型能初步得到保留物体信息的生成结果，而浅层特征对齐则进一步促使生成模型能够比较好地保留在图片中相对小的物体。

图 5 基于KITTI数据集的消融实验示意图

结果可视化

进一步提供了单目和多目的可视化结果如下图所示：

图 6 基于KITTI数据集的单目三维检测图像增广示例

图 7 基于nuScenes数据集的多目三维检测图像增广示例

基于上述实验结果，有理由相信通过对视觉三维检测训练数据的有效扩充，该论文所设计的方法能够有效地提高视觉感知模型的泛化性能，从而提升三维检测在自动驾驶中的落地和应用。

参考文献

[1] https://www.reuters.com/business/autos-transportation/alphabets-waymo-recalls-over-1200-vehicles-after-collisions-with-roadway-2025-05-14/

[2] Sicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, and Bolei Zhou. Freecontrol: Training-free spatial control of any text-to-image diffusion model with any condition. In CVPR, 2024.

[3] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022.

....

#InstructRAG

解决扩展和迁移难题，华为新加坡提出，提升高达19%

大语言模型（LLM）已成为规划复杂任务的强大工具。虽然现有方法通常依赖于 “思考 - 行动 - 观察”（TAO）过程，但这些方法受限于 LLM 固有的知识局限性。检索增强生成 (RAG) 则利用外部数据库，将 LLM 生成与检索到的信息相结合。而将 RAG 应用于实际任务规划仍然面临着两个方面的挑战：

1. 可扩展性：通过遍历现有指令并将其组合成新的序列来扩展指令图的范围的能力，帮助 LLM 完成没有预定义路径的任务。

2. 可迁移性：开发能够快速适应新任务的技术，使模型能够从有限的示例中有效地学习。

针对大模型任务规划中的可扩展性与可迁移性挑战，华为2012中央软件院新加坡团队王政博士主导提出了InstructRAG方案，通过多智能体协同的元强化学习架构，实现了：1）基于强化学习的指令图拓扑扩展；2）元学习驱动的少样本任务迁移。在跨领域的复杂任务测试中（包括多跳推理、xx决策、在线购物和科学问答），相较现有最优方法取得19.2%的性能提升，并在50%噪声干扰下仅表现出11.1%的性能衰减，展现出较强的复杂场景适用性。

论文标题：InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning

论文链接：https://arxiv.org/abs/2504.13032

InstructRAG 框架主要包含三个主要组件：

1. Instruction Graph：用于组织过去指令路径的图；

2. RL-Agent：通过强化学习扩展图覆盖范围的智能体；

3. ML-Agent：使用元学习提升任务泛化能力的智能体。

核心思路

指令图（Instruction Graph）

有向图 G (V, E) 组织过去的指令路径（正确动作的序列）。节点（V）表示图中指令集 I，对相似的指令进行聚类。边 (E）表示任务集 T，记录路径中涉及的任务和相关问题。该图是通过迭代插入来自过去成功路径的指令来构建的，使用近似最近邻 (AKNN) 搜索和阈值确定是否创建新节点或添加到现有节点。指令的组合能够创造出解决以前未曾见过的问题的新途径。

强化学习智能体（RL-Agent）

在指令图中选择节点的过程可以被看作马尔可夫决策过程（MDP），作者使用强化学习 (Reinforcement Learning) 训练的智能体，遍历指令图并识别给定任务的候选指令路径，可有效探索指令图的可扩展性。

1. 状态（state）: 输入问题与各种图元素之间的余弦相似度。

2. 行动（action）：将当前节点包含在路径中或排除它。

3. 奖励（reward）：端到端性能指标（例如 F1 Score）。

4. 策略学习（policy learning）：该智能体使用策略梯度方法进行优化，并使用历史数据进行热启动以加速训练。这种方法可以通过找到最优指令路径来实现有效的检索增强。

元学习智能体（ML-Agent）

ML-Agent 是使用元学习（Meta Learning）训练的智能体，用来增强可迁移性。它会从 RL-Agent 提供的候选路径中选择最相关的路径并为 LLM 生成提示。其模型架构包括：1. 共享自注意力层的问题编码器和路径编码器，2. 从 Transformer 激活中获取的特征表示。

ML-Agent 的训练包含着两个阶段：

1. 预训练：优化问题路径对齐（QPA）和问题路径匹配（QPM）两个任务。

2. 微调：端到端优化规划的性能。

这种方法允许模型通过仅使用几个示例进行更新来推广到新任务，从而增强检索增强生成的多智能体协作。

InstructRAG 整体框架

1. 训练阶段：使用来自可见训练任务的 support set 和 query set 协作迭代训练 RL-Agent 和 ML-Agent。

2. 少量样本学习阶段：使用来自支持集的少量样本示例，智能体的参数可以快速适应未见过的任务。

3. 测试阶段：使用未知任务上的 query set 来评估模型适应的有效性。

这个整体框架通过 RL-Agent 增强可扩展性，通过 ML-Agent 增强可迁移性。

实验结果

本文的实验在四个广泛使用的数据集上进行：

HotpotQA：多跳推理任务；
ALFWorld：模拟环境中的具体任务；
Webshop：网上购物网页导航任务；
ScienceWorld：基础科学推理任务。

使用了 GLM-4，GPT-4o mini 和 DeepSeek-V2 三个 LLM，baseline 包括 ReAct，WKM，Reflexion，GenGround 和 RAP。

评估指标分别为 HotPotQA 的 F1 Score，ALFWorld 的 Success Rate 以及 WebShop 和 ScienceWorld 的 Reward Score。

1. 对未见过任务的表现：

InstructRAG 在三个 LLM 上指标明显优于所有 baseline，相较于最佳 baseline RAP，分别在 HotpotQA，ALFWorld 和 Webshop 上提升了 19.2%，9.3% 和 6.1%。

2. 跨数据集泛化：

通过将训练好的模型从 HotpotQA 应用于 ScienceWorld 数据集中的全新任务，InstructRAG 也表现出了强大的泛化能力。

3. 对已见过任务的表现：

实验结果表明 InstructRAG 在可见的训练任务上的表现优于 RAP。

4. 抗噪声能力：

即使噪声率为 50%，InstructRAG 的性能仅下降了 11.1%，而 RAP 的性能下降了 27.2%。这表明 InstructRAG 具有强大的抗噪声能力。

5. 在 HotpotQA 上验证可扩展性和可迁移性的消融实验：

缺少了任何一个组件，InstructRAG 在 HotpotQA 上的 F1 score 都会有所下降，这表明每个组件的存在都对其性能有重大贡献。

6. 少样本学习的影响：

如图中 (a)-(b) 所示，任务比例从 0.2 变化到 1.0，随着任务数量增加，有效性保持稳定，这表明在不同任务之间具有较强的迁移性。由于包含了额外的训练数据，运行时间随着任务的增加而增加。此外，对于每个任务，样本比例从 0.2 变化到 1.0。如图中 (c) 和 (d) 所示，有效性改善，并在约 0.8 的样本比例处收敛，而随着更多样本用于训练，运行时间也在增加。

总结

综上，该工作提出了一种系统化的方法，利用 RAG 进行任务规划，解决了可扩展性和可迁移性的问题。InstructRAG 集成了指令图，RL-Agent 和 ML-Agent，优化端到端任务规划性能。在四个数据集上进行的大量实验表明，InstructRAG 的性能卓越，与现有的方法相比，提升高达 19.2%。该框架展现出卓越的抗噪鲁棒性，并能够使用少量样本快速适应新任务。未来的工作将集中于进一步增强 InstructRAG 的泛化能力。

团队介绍

该工作由华为新加坡中央软件院团队独立完成，团队以深耕 AI 基础软件作为目标，聚焦大模型基础软件技术创新研究，包括 RAG、AI Agent、多模态等前沿基础技术研究和能力构建，致力于构建基于强大算力和大模型的应用技术，以推动 AI 基础软件的发展。

....

#Meta CEO X 微软 CEO 对话解读

「蒸馏工厂」为何成为开源的魅力之源？

Meta CEO Mark Zuckerberg 和微软 CEO Satya Nadella 在 LlamaCon 2025 闭幕会议上进行对话，就人工智能（AI）的发展及其对技术平台、软件开发、生产力提升等方面的深远影响展开讨论。

01. AI 正在让文档、应用程序和网站之间的界限消失？

Satya Nadella 如何描述文档、应用和网站间界限的模糊化？这种 AI 驱动的变化在如何改变生产力？...

02. 为什么「蒸馏工厂」是开源最大的魅力之一？

蒸馏工厂是什么？Meta 和微软从何时开始布局蒸馏工厂？构建蒸馏工厂需要哪些基础设施？...03. 从操作系统到技术平台，Nadella 与 Zuckerberg 如何评价 AI 范式下微软的转型之路？微软在Nadella 上任后经历了哪些技术变革？微软现今在以什么理念转型？微软的产品在向哪里倾斜？...

01 AI 正在让文档、应用程序和网站之间的界限消失？

1、LlamaCon 2025 是 Meta 于 2025 年 4 月 29 日举办的一场专注于生成式 AI 的开发者大会。[2-1]

① 会上，Meta 通过主题演讲的形式介绍了 Llama 模型的技术更新、工具优化以及部分未来功能的规划。在会议的闭幕式环节，Meta CEO Mark Zuckerberg 与微软 CEO Satya Nadella 探讨了 AI 生态的未来发展。

2、谈论到 AI 改变工作方式这一话题时，Nadella 分享了「文档、应用程序和网站之间的界限正在消失」的观点，他认为在 AI 时代，这三者的界限变得模糊。[2-2]

① 传统计算机系统将人类连续的需求（如旅行规划）割裂为文档（记录）、应用（计算）和网站（交互）等独立功能，这并非符合人类认知，而是早期技术限制下的权宜之计。

② 微软在 90 年代推出的 OLE 技术，试图打破应用程序之间的障碍，实现「复合文档」的愿景。OLE 技术允许用户在 Word 文档中嵌入 Excel 电子表格或 PowerPoint 幻灯片等活动对象，保留原应用程序的功能。

③ Nadella 认为，现代 AI 技术的出现带来了真正的突破。AI 成为了一个「通用转换器」，能够理解用户意图，而不是机械地执行命令。AI 可以根据上下文，在对话中提供信息、组织结构化文档，甚至生成可执行代码。

④ 这种转变标志着从「面向工具的计算」到「面向意图的计算」的范式迁移，信息的形态由使用场景动态决定，用户体验回归到与人类自然思维一致的连续流程。

3、 Nadella 将当前 AI 浪潮定位为继客户端服务器、互联网和云计算之后的又一次重大技术平台变革。他指出，这种转型要求整个技术栈的每一层都必须重新构建，从芯片设计到系统软件都需要为 AI 工作负载进行专门优化。

① Zuckerberg 与 Nadella 探讨了 AI 如何改变生产力，尤其是在软件开发和其他知识型工作领域。纳德拉指出，微软内部已有约 20%至 30%的代码是由 AI 生成的。

② Nadella 强调，AI 在软件开发中的应用不仅局限于代码补全，还扩展到了聊天功能、智能体工作流以及代码审查等多个方面。此外，这种由 AI 驱动的生产模式转变同样适用于其他知识型工作，如销售和内容创作。

③ Zuckerberg 则表示 Meta 也在推动 AI 在开发中的应用，预计到 2026 年，一半的开发工作将由 AI 完成。

4、在讨论 AI 模型的发展时，两位 CEO 深入分析了开源与闭源模型的战略价值。

① Nadella 强调微软采取的是灵活策略，认为市场需要同时存在开源和闭源模型。他指出，开放权重模型在企业进行模型蒸馏和定制化方面具有结构性优势，而闭源模型也有其特定的应用场景。

② 微软在 Azure 云平台上同时支持两类模型，为开发者提供多样化选择。

③ Zuckerberg 则分享了 Meta 在开源模型方面的实践经验，特别是 Llama 系列模型如何通过社区协作不断演进。

5、Zuckerberg 与 Nadella对话的一个重要焦点是「蒸馏工厂」概念及其对 AI 生态系统的潜在影响。两位 CEO 都认为，建立支持模型蒸馏的基础设施和工具链将是未来几年的关键发展方向。

① Nadella 强调了多模型应用的发展趋势以及标准化协议在实现多智能体、多模型顺畅协作中的重要性，指出未来 AI 应用将由多个经过优化、功能各异的模型（智能体）通过编排层协同完成复杂任务。

② Zuckerberg 在认同萨提亚关于多模型协同趋势的观点基础上，提出了「蒸馏工厂」概念，认为微软在支持多模型协同的基础设施方面有独特优势。

02 为什么「蒸馏工厂」是开源最大的魅力之一？

1、Nadella 在对话中将「蒸馏工厂」描述为开源最大的魅力之一，也是开源模型能够发挥巨大作用的领域之一 ...

....

#60年前数学大师没解开的难题，被一位牛津博士生搞定了

加法，这项我们从幼儿园就掌握的运算，竟然蕴藏着未解之谜。

它是一项简单的运算：我们学到的第一个数学真理便是 1 加 1 等于 2。但加法能够产生的各种模式仍存在很多未解之谜。

在探索这个谜团的过程中，数学家们也希望了解加法能力的极限。自 20 世纪初以来，他们一直在研究「无和集」（sum-free set）的性质。

无和集指的是这样一个整数子集：其中任意两个元素的和，不属于这个集合本身。例如，奇数集合就是一个典型的无和集。因为任意两个奇数相加得到偶数，不在集合内。

自 1965 年起，传奇数学家 Paul Erdős（保罗・爱多士，为现时发表论文数最多的数学家，多达 1525 篇，曾和 511 人合写论文）在一篇论文中提出了一个关于无和集普遍性的简单问题：一个整数集合中，最大的不含任意两数相加结果的子集究竟能有多大？

此后数十年，这个看似简单的问题却困住了无数数学家。

直到今年二月，在 Erdős 提出该问题的六十年后，终于被牛津大学博士生 Benjamin Bedert 破解了。

Bedert 证明了对于任意包含 N 个整数的集合，存在一个无和子集，其大小至少为 N/3 + log (log N)。这一结果首次严格证明了最大无和子集的大小确实会超过 N/3，并随 N 增长而增大，从而解决了 Paul Erdős 的猜想。

他的证明深入数学本质，通过融合不同领域的技巧，不仅揭示了无和集的隐藏结构，更为其他各类数学场景提供了新见解。

Benjamin Bedert—— 这位牛津大学的博士生 —— 解决了一个困扰数学界数十年的难题，该难题从根本上检验了加法在集合中的作用机制。

进退维谷的证明过程

Erdős 发现，任何整数集合都必然包含一个更小的无和子集。以集合 {1, 2, 3} 为例（它本身并非无和集，因为它包含两个数的和仍属于该集合），其中就存在五个不同的无和子集，比如 {1} 和 {2, 3}。

这位数学大师试图探究这一现象的普遍规模：如果一个集合包含一百万个整数，其最大无和子集的规模究竟有多大？

Paul Erdős

在多数情况下，这个子集大得惊人。如果随机选取一百万个整数，其中约半数会是奇数 —— 这就能形成一个约 50 万元素的无和子集。

在 1965 年的论文中，Erdős 用短短数行完成了一个被数学家们誉为天才之作的证明：任何包含 N 个整数的集合，都必然存在一个至少包含 N/3 个元素的无和子集。

然而他并不满足于此。该证明基于平均值原理：他构造了一系列无和子集，并计算出其平均规模为 N/3。但数学界普遍认为，在这类集合族中，最大子集的规模理应远超平均值。

Erdős 希望量化这些超大无和子集的具体规模。数学家们很快提出猜想：随着集合规模 N 的增大，最大无和子集的尺寸将显著超过 N/3。更准确地说，其偏差值会无限增长。这一预测 —— 即最大无和子集的规模等于 N/3 加上一个随 N 趋向无穷大的偏差项 —— 如今被称为无和集猜想（sum-free sets conjecture）。

Erdős 在原始论文中写道：这个看似简单的问题竟存在如此大的难度，实在令人惊讶 —— 或许我们忽略了某些显而易见的解法。

然而数十年间，「显而易见的解法」始终未曾浮现。无人能突破 Erdős 证明的边界。「这个简单界限长期无人能改进，使得该问题在学界的分量愈发凸显。」Bedert 导师 Ben Green 指出。他特别强调，这类问题恰恰属于极难取得任何实质性突破的领域。

挑战 Erdős 原始结论

25 年后取得新突破

在 Erdős 原始结论沉寂 25 年后，数学家们终于开始取得微小的进展。1990 年，两位研究者证明：对于任意包含 N 个整数的集合，都存在一个至少包含 N/3 + 1/3 个元素的无和子集 —— 这个结果更常见的形式写作 (N+1)/3。

但由于集合大小必须是整数，这 1/3 的增量往往微不足道。

举例来说，若已知某个无和子集至少有 5/3 个元素，实际意味着其规模至少为 2（ 5/3 约为 1.67，要向上取整）。此时即使加上 1/3，结果仍为 2。「这很有趣，说明改进并不总是实质性的，」加州理工学院的 David Conlon 解释道，「只有当 N 能被 3 整除时，这个增量才会真正提升结果。」

1997 年，数学传奇 Jean Bourgain 将这一界限小幅提升至 (N + 2)/3。这个看似微不足道的进展背后，却隐藏着惊人的突破 ——Bourgain 在论文中埋下了一个关键思想：如何证明最大无和子集的规模可以任意超越该界限。只是他未能完善细节，将其转化为完整证明。

Jean Bourgain

Bourgain 运用了一个称为 Littlewood 范数的度量工具，该工具能刻画集合的结构特征。这个源自傅里叶分析领域的工具具有显著特性：当集合呈现随机性时取值较大，而呈现规律性结构时取值较小。

Bourgain 证明：对于包含 N 个元素的集合，若其 Littlewood 范数较大，则必然存在规模远超 N/3 的无和子集。但他在处理 Littlewood 范数较小的集合时遭遇了瓶颈。

而这个困境恰恰凸显了该问题的极端难度。

最终 Bourgain 不得不改用其他论证方法才得出了 (N + 2)/3 的界限。但数学家们从中读出了更深层的启示：Littlewood 范数或许能彻底解决这个猜想 —— 关键在于如何攻克小范数集合的处理难题。

数学家们有理由保持乐观：他们早已发现一类具有小 Littlewood 范数却包含巨大无和子集的集合 —— 等差数列（如 {5,10,15,20} 这类间距均匀的数字序列）。学界推测，任何小范数集合都具有某种特定结构，本质上都是由多个等差数列组合而成。若能证实这一点，就能利用该特性证明所有小范数集合都存在大型无和子集。

然而这项任务异常艰巨。「我确实尝试过用 Bourgain 的思路来证明无和集猜想，」Green 坦言，「但我们对小 Littlewood 范数集合的结构认知仍然有限。凡是涉及 Littlewood 的问题都极为棘手。」

尽管数学家们始终相信 Bourgain 基于 Littlewood 范数的策略，但进展始终停滞不前。二十余年光阴流逝，直到 2021 年秋天，Benjamin Bedert 开始了他的研究生生涯。

挑战无和集猜想

师从 Green 的 Bedert 注定会与无和集猜想相遇 —— 在 Bedert 教授官网列出的 100 个开放问题中，这个猜想高居榜首。

地址：https://people.maths.ox.ac.uk/greenbj/papers/open-problems.pdf

刚入学时浏览这份清单的 Bedert ，最初对这个难题望而却步。「我当时觉得这问题太难了，根本不想考虑，」他回忆道，「打算留到以后再说。」

但这个以后比预期来得更早。2024 年夏季，已取得阶段性成果的 Bedert 决定挑战更高风险的研究：博士期间我已经证明了几个不错的结果，基本凑够了毕业论文。于是开始考虑这些... 怎么说呢... 更「臭名昭著」的难题。

在研读 Bourgain 1997 年的论文后，Bedert 开始构思如何实现 Littlewood 范数的理论蓝图。几乎立刻，他就对处理小 Littlewood 范数集合问题萌生了新思路。

此前数学界始终难以证明：具有小 Littlewood 范数的集合必定呈现等差数列组合的特征。但 Bedert 认为可以转而证明一个更易实现的观点 —— 即便这类集合并非严格由等差数列构成，它们仍具有某些关键的类等差数列特性。

在近期研究中，Bedert 发现了一个值得深入研究的特性：等差数列中存在大量具有相同和值的数字组合。例如在偶数集（一种等差数列）中，4+8 的和既等于 2+10，也等于 2+4+6。他推测，或许只需证明具有小 Littlewood 范数的集合都满足这一特性就足够了。

短短数周内，Bedert 便成功验证了这个特性。但他随即意识到还有大量工作亟待完成。

灵光乍现

破解 60 年无和集猜想

首先，Bedert 证明了任何具有小 Littlewood 范数的集合都可以映射到另一个与等差数列更为相似的集合。他推测，正是在这些新集合中，能够找到大型的无和子集。

最后的任务是证明这类无和子集的规模。整个圣诞假期，Bedert 都在痴迷地思考这个问题，直到新年，他依然没能找到拼图的最后一块。

然而，就在一月份返回牛津几天后，他突然灵光乍现：「我也不清楚灵感从何而来，或许这些想法在脑海中酝酿已久，最终水到渠成。」

Bedert 运用傅里叶变换工具来表征集合结构，随后改进了一项 1981 年的证明方法，成功揭示该表征中的某些独立成分必然具有较大的 Littlewood 范数。由于 Bourgain 早已攻克大范数集合的处理方法，这一发现最终补全了证明链条。

最后，Bedert 证明：对于任意包含 N 个整数的集合，都存在一个至少包含 N/3 + log (log N) 个元素的无和子集。对于大多数 N 值而言，这个结果仅比 Erdős 提出的 N/3 平均值略大 —— 即便 N 大至 10^100，log (log N) 也仅约为 5。但随着 N 趋近无穷大，Bedert 和 Erdős 的界限之差也会增大 —— 从而解决了猜想。

关于无和子集 —— 以及加法如何影响整数结构 —— 仍有许多未解之谜。虽然 Bedert 的结果解答了最大无和子集是否会无限大于 N/3 这一问题，但数学家们尚不清楚这种偏差的具体增长速度。根据 Green 与两位同事 2014 年的论文，已知这种偏差的增长速度慢于 N。但 Green 指出：在 N 这个上限与 Bedert 提出的 log (log N) 下限之间，仍存在巨大鸿沟。

这项研究还为小 Littlewood 范数集合提供了全新认知。这类集合是分析学中的基础对象，却极难研究。Bedert 的成果帮助数学家更深入理解了其结构特征 ——Green 等学者正计划就此展开进一步探索。

结论简单明了：天才少年攻克古老难题。他所基于的理论精妙深奥，最终成果堪称完美。

原文链接：https://www.quantamagazine.org/graduate-student-solves-classic-problem-about-the-limits-of-addition-20250522/

....

#40位数学家组成8队与o4-mini-medium比赛，6队败北

最近，AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上，它已经悄然超越了我们大多数人类。而当它面对真正的专家，会发生什么？

Epoch AI 最近安排了一场硬仗：他们请来了 40 位数学家组成 8 支战队，与 OpenAI 的 o4-mini-medium 模型正面对决，考题来自高难度的 FrontierMath 数据集。

结果令人出乎意料：8 支人类队伍中，只有 2 支打败了 AI。也就是说，o4-mini-medium 以 6:2 的比分击败了由数学专家组成的「人类代表队」。Epoch AI 得出的结论是：「虽然 AI 还未明显达到超人级水平，但或许很快了。」

这场比赛引起了不少关注，有人认为 Gemini 2.5 Pro 深度思考就是 AI 明确超越人类的转折点，但也有人为人类打抱不平，认为对人类专家而言，4.5 小时不足于解答高难度数学题。对此你有什么看法呢？

下面就来具体看看这场「人机数学大战」吧。

人类在 FrontierMath 上的表现如何？

FrontierMath 是 Epoch AI 去年发布的一个基准，旨在测试 AI 数学能力的极限。其中包含 300 道题，难度从本科生高年级水平到连菲尔兹奖得主都觉得难的水平都有。

为了确定人类的基准，Epoch AI 在麻省理工学院组织了一场竞赛，邀请了大约 40 名优秀的数学本科生和相关领域专家参赛。参赛者被分成 8 个团队，每个团队 4 到 5 人，任务是在 4.5 小时内解答 23 道题，过程中可以使用互联网。

之后，他们与目前在 FrontierMath 基准上表现最好的 AI 系统进行了较量，即 o4-mini-medium。

结果如何？o4-mini-medium 的表现优于人类团队的平均水平，但低于所有团队的综合得分（至少有一支团队成功解答的问题的比例）。因此，AI 在 FrontierMath 上的表现还未达到明显的超人类水平 —— 但 Epoch AI 认为它们很快就会达到。

下图展示了人类与 AI 的成绩概况，详细的竞赛结果可在此电子表格中查看：https://docs.google.com/spreadsheets/d/11vysJj6_Gv8XE9U9qb2bq9PLqwW0Cj1HwFAA7lnl-LA/edit?usp=sharing

o4-mini-medium 在 FrontierMath 人类基准竞赛中得分为 22%，高于平均水平（19%），但低于所有团队的总得分（35%）。需要注意的是，o4-mini-medium 成功解答的问题都至少有一支人类团队成功解答。

然而，这些数据仅基于 FrontierMath 中一个不具代表性的小子集 —— 那么这对整体人类基准意味着什么呢？

Epoch AI 认为在 FrontierMath 上最具参考价值的「人类基准」应该在 30% 到 50% 之间，但遗憾的是，这个数字只是估测的，并不明晰。

下面，Epoch AI 简要解释了关于这个人类基准结果的四个方面，包括它的来源及其含义。

1. 参与者并不能完全代表前沿数学水平

为确保研究结果的高质量，参与人员需展现出卓越的数学能力。例如，符合条件者需具备数学相关博士学位，或本科阶段拥有极其突出的数学竞赛获奖记录。

该研究将参与者分为 8 个小组，每组 4 至 5 人，并确保每个团队在任一特定领域至少配备一名学科专家。这些学科专家可能是在该领域拥有研究生学位或正在攻读博士学位的人，并将该学科列为他们的首选领域。

2. 竞赛的目标是检验推理能力，而非一般知识

比赛过程更注重考查 AI 的推理能力，而非掌握了多少知识。

因而，FrontierMath 题库涵盖数论、微分几何等需要进行推理的领域，但在现实中，没有人类能同时精通所有这些学科的前沿进展。

完整 FrontierMath 基准测试所包含的领域

前面已经强调，FrontierMath 最核心的优化目标是 AI 系统是否具备数学推理能力。

为了获得更具参考价值的人类基准，该研究选取了 7 道基础题（适合优秀本科生解答）和 16 道进阶题（针对参与专家定制），这些题目分为四个子类：(1) 拓扑学，(2) 代数几何，(3) 组合数学，(4) 数论。

评分机制为，答对一道进阶题得 2 分，答对一道基础题仅得 1 分。此外，在五大领域（基础题类别加上四个进阶题子类）中，每个领域至少答对一个问题即可额外获得一分。

最终，获得第一名奖励 1000 美元，第二名奖励 800 美元，第三名奖励 400 美元。其他参赛者将获得 150 美元的奖金，以鼓励他们的积极参与。

3. 「人类基准」的定义比较模糊

结果显示，这些团队通常能解决 13% 到 26% 的问题，平均为 19%。o4-mini-medium 解决了大约 22% 的竞赛问题。

然而，与具备完备知识储备的理想团队相比，当前统计的人类基准平均分可能在一定程度上被低估了。

一种解决方案是，如果八支人类队伍中有任何一支给出了正确答案，则认为该问题已正确回答。这样做可以将人类性能提升至约 35%。

但是考虑到 o4-mini-medium 是在 pass@1 的设置下进行评估的。因此人类在本次比赛中的表现可能介于这两个范围之间，大约在 20% 到 30% 之间。

然而，如果想要在通用基准上建立以人为基准的模型，还需要解决第二个问题。具体来说，竞赛题的难度分布与完整的 FrontierMath 数据集不同，如下表所示。

FrontierMath 竞赛和完整基准测试中问题的难度分布。竞赛中的 General（普通）问题是 1 或 2 级问题，而 Advanced（高级）问题则全部是 3 级。

因此，该研究将结果按难度等级划分，并根据完整基准测试的难度分布对总分进行加权。这样一来，基于每队平均值的人工基准得分将提升至约 30%，而基于「多次尝试」方法的人工基准得分将提升至约 52%。

遗憾的是，这种调整方法是否真的有效依然存疑，因为应用相同的权重意味着 o4-mini-medium 在基准测试中的得分约为 37%（而 Epoch AI 的完整基准测试评估结果为 19%）。这可能是因为相对于完整基准测试中同等级的平均问题，比赛中的 1/2 级问题相对较容易，但事后也很难进行调整。

4. 这意味着什么

AI 在 FrontierMath 上还未超越人类，但可能很快就会超越，这意味着什么？

首先，虽然我们现在知道 o4-mini-medium 的得分与人类团队相差无几（至少在当前的比赛限制下），但我们并不知道模型是如何做到的。AI 的答案是猜出来的吗？它们使用的方法与人类的方法相比如何？Epoch 表示未来会发布更多相关信息。

其次，就算人类的相关基准确实是在 30-50% 左右，Epoch AI 也同样认为 AI 很可能在今年年底前明确超越人类。

需要注意的是，由于比赛的形式，人类的表现可能被低估了。例如，如果有更多的时间，人类的表现很可能会大幅提升。o4-mini-medium 完成每道题大约需要 5-20 分钟，而人类通常需要更长的时间。

例如，参与我们赛后调查的参赛者平均在他们最喜欢的测试题上花费了大约 40 分钟的时间。

机器学习任务的相关研究也表明，人类拥有更佳的长期扩展行为 ——AI 的表现会在一段时间后停滞不前，但人类的表现却能持续提升。同样值得注意的是，FrontierMath 上的问题并非直接代表实际的数学研究。

但总的来说，Epoch AI 认为这是一条有用的人类基准，有助于将 FrontierMath 的评估置于实际情境中。

参考链接

https://epoch.ai/gradient-updates/is-ai-already-superhuman-on-frontiermath

https://x.com/EpochAIResearch/status/1926031207482953794

....

#XX^T

矩阵乘法新突破！XX^T原来可以更快！RL助力搜索，世界纪录又被提升了5%

深圳市大数据研究院、香港中文大学（深圳）研究团队最新研究发现，

这类特殊的矩阵乘法可以进一步加速，并在强化学习与组合优化技术的结合下发掘出了一种新的算法，节省 5% 的乘法数量。

论文标题：XXt Can Be Faster

论文链接：https://arxiv.org/abs/2505.09814

该成果在国际社交媒体平台 X 引发热烈讨论，并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。

背景

矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。自 1969 年 Strassen 算法横空出世以来，这个充满组合爆炸可能性的数学迷宫就持续考验着人类智慧的边界。

Google DeepMind 为此专门投入四年心血，先后推出 AlphaTensor、AlphaEvolve 等机器学习系统来攻克这一难题。这就像短跑运动员将百米纪录从 9.58 秒推进到 9.57 秒——每个 0.01 秒的突破背后，都是对计算理论极限的重新定义。

（矩阵乘以自身的转置）这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中，实际应用包括：

5G 与自动驾驶定制芯片设计
线性回归与数据分析
大语言模型训练算法（Muon、SOAP）

这类操作每分钟在全球执行数万亿次，假如能减少该操作的计算量，对能耗开销可以带来相当可观的节省。令人惊讶的是，相比于普适的矩阵乘法 AB，研究者对于

这类的特殊矩阵乘法的关注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了带有特殊结构的 AB 矩阵乘法，但他们尚未汇报任何关于

的结果。

通过观察

运算的特殊结构，该团队发现

的计算确实存在加速空间！主要贡献

在 AI 技术的辅助下，研究团队发掘了新算法（RXTX），以让

这一常见的底层操作减少 5% 的运算量，这可以进一步转换成节省 5% 的能耗以及时间（特别的，能耗开销主要由乘法运算数量决定）。值得一提的是，RXTX 的 5% 加速不仅对超大规模矩阵成立，对小规模矩阵也成立，比如：RXTX 对 4x4 矩阵 X 仅需 34 次乘法运算。此前最先进的 Strassen 算法需要 38 次乘法（减少 10% 运算量）。

乘法运算量复杂度分析

研究团队对乘法运算量的复杂度进行了分析。分析结果表明，RXTX 的渐进常数 26/41≈0.63，较先前最优值 2/3≈0.66 降低 5%。

总运算量（乘法+加法）复杂度分析

研究团队进一步提供了总运算量（乘法+加法）的复杂度分析。分析结果表明，当 n≥256 时，RXTX 的总加法与乘法次数也少于现有最优方案，且渐进意义下约有 5% 的稳定提升。

核心技术

该方法属于基于神经网络的大邻域搜索方法框架：

利用强化学习策略生成候选双线性乘积
构建组合问题一（MILP-A）：将目标表达式构建为候选乘积的线性组合
构建组合问题二（MILP-B）：筛选能完整表达

这是 DeepMind 的 AlphaTensor 方法的一种变体——通过使用组合求解器，行动空间被缩小了一百万倍。以下为研究团队提供的 2*2 矩阵的简单例子：

总结

本文针对

这类特殊矩阵乘法提出了创新性加速方法，通过引入 AI 方法设计出新型算法「RXTX」，成功实现了总运算量 5% 的优化。这一突破不仅从理论上拓展了人类对计算复杂度边界的认识，也为相关领域的算法优化提供了新的研究范式。

鉴于

矩阵在多个学科领域的基础性作用，本研究成果有望为实际应用场景带来显著的能耗优化。然而，新算法的工程化应用仍面临硬件适配和内存管理等关键挑战，其产业化落地尚需学术界与工业界的持续协同攻关。要实现新算法的全方面落地，仍然面临诸多挑战，可谓任重道远。参考资料

Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster."arXiv preprint arXiv:2505.09814 (2025).

....

#DeepSeek用的GRPO有那么特别吗？

本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新点，读完会对 GRPO 及其改进算法有更深的理解，进而启发构建推理模型的新思路。

随着 DeepSeek R1 的持续爆火，推理和强化学习已经成为 AI 领域的热门词汇。

短短几个月的时间，我们已经见证了太多的推理大模型，AI 更新迭代速度似乎已经快进到了以天为单位。

但在众多研究成果中找到值得关注的内容并不容易。

这有一篇价值非常高的博客，可以帮你梳理最近关于推理模型的研究，重点关注 DeepSeek R1 里用到的 GRPO 及后续的改进算法，非常值得一读。作者是来自 AI2 的 ML 科学家 Nathan Lambert，他博士毕业于 UC 伯克利，曾在 HuggingFace 领导 RLHF 团队。

博客地址：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo

文章列举了最近比较火的论文和大模型，包括：

Kimi k1.5：这是一个与 DeepSeek R1 同一天发布的推理模型，其技术报告非常详细；

OpenReasonerZero：这是首次对基础模型进行强化学习训练的完整复现；

DAPO：这是首篇探讨对 GRPO 进行改进以更好地适应推理训练的论文（参见《超越 DeepSeek GRPO 的关键 RL 算法，字节、清华 AIR 开源 DAPO》）；

Dr. GRPO：这篇论文深入研究了从基础模型开始的强化学习，并提出了对 GRPO 的改进以提升学习效果（参见《揭秘 DeepSeek R1-Zero 训练方式，GRPO 还有极简改进方案》）。

此外，作者还给出了参考论文中重复看到的损失函数，我们不难发现这应该是比较重要的损失函数：

是时候给 GRPO 降降温了

现在很多人被 RL 在语言建模领域的表现所吸引，这给人一种错觉，彷佛 GRPO 和 DeepSeek R1（以及之前的模型）的工作已经开启了 RL 训练的全新时代。

但事实远非如此。

其实 GRPO 并不是一种特殊的 RL 算法。

目前许多领先的研究工作和实验室并没有使用 GRPO 进行研究。

实际上，GRPO 与其他 RL 算法关系极为密切 —— 它源自 PPO（近端策略优化），并且具有与 RLOO （REINFORCE Leave One Out）超级相似的计算优势。

GRPO 确实包含了巧妙的改进，尤其是在推理训练（reasoning training）而非传统的 RLHF 场景下。

传统 RLHF 实践沿袭了早期 RL 文献的做法，通常每个批次中每个提示词仅采样一个生成结果进行训练。而在推理任务中，我们现在会生成多个答案。

若不深入技术细节，现代实现中 GRPO 和 RLOO 的优势值计算几乎如出一辙 —— 这与 PPO 形成鲜明对比（PPO 的优势值来源于价值函数，通常采用 GAE 方法计算）。

因此，REINFORCE 与 GRPO 的唯一区别仅在于 PPO 的 clipping logic 机制 —— 它们本质上都是同宗同源的策略梯度算法。与此同时，前 LLM 时代流行的另一个 RL 算法 A2C，根据超参数设置的不同，也可以视为 PPO 的特殊变体。

这里需要把握的核心认知是：当前使用的所有 RL 算法在实现层面上是高度相似的。

因此，尽管 GRPO 是当前最流行的算法，但如今 RL 算法的变革其实只聚焦在几个核心维度：

价值函数的取舍：业界正逐渐转向直接估计优势值（advantage），因为价值函数（value function）的建模往往较为困难；
DeepSeek 的研究成果引爆了这场变革，因此人们自然从其 GRPO 算法切入探索。但本质上，这一浪潮的推动力是强化学习范式的进化，而非某个特定算法的突破。

Kimi k1.5

《Kimi k1.5》的报告内容非常丰富，论文长达 25 页。不过，其并未开放模型权重。

这篇论文报告了 Kimi k1.5 的训练实践，这是 Kimi 团队最新多模态大语言模型（LLM），采用 RL 进行训练，包括其强化学习训练技术、多模态数据配方以及基础设施优化。长上下文扩展和改进的策略优化方法是 Kimi 团队方法的核心要素，他们建立了一个简单而有效的强化学习框架，无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。

论文标题： KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
论文地址：https://arxiv.org/pdf/2501.12599

该模型在 o3-mini 发布之前就已经推出，其评估结果非常出色。

数据分布

这篇论文（以及本文后面提到的《Open Reasoner Zero》）都包含了 01 和 R1 版本所没有的对数据的讨论。Kimi 团队强调了为 RL 进行提示策划（prompt curation）的重要性。这听起来很简单，但强化学习提示集的质量和多样性在确保强化学习的有效性方面起着关键作用。由此，团队人员指出了两点与我们目前看到的大多数仅数学模型不同的地方：

多样化覆盖：提示应涵盖广泛的学科，例如 STEM、编码和一般推理，以增强模型的适应性并确保在不同领域的广泛适用性。
平衡难度：提示集应包括分布均匀的易、中、难问题，以促进渐进学习并防止过度拟合到特定的复杂程度。

在任务难度方面，Kimi 团队采用了一种与推理模型相关的较新的方法：他们采用基于模型的方法，利用模型自身的能力来适应性地评估每个提示的难度。具体来说，对于每个提示，一个经过监督微调（SFT）的模型使用相对较高的采样温度生成答案十次。然后计算通过率，并将其作为提示难度的代理（proxy）—— 通过率越低，难度越高。

此外，他们还移除了一些可能促使模型猜测而不是进行推理的问题：经验观察表明，一些复杂的推理问题可能有相对简单且容易猜测的答案，这会导致假阳性验证 —— 模型通过不正确的推理过程得出了正确答案。为了解决这一问题，他们排除了容易出现这种错误的问题，例如选择题、基于证明的问题。

训练方法

Kimi K1.5 的训练方案包含了许多有趣的细节，但随着训练技术的成熟，这些方法可能不会成为长期推荐的最佳实践。

例如，他们的初始阶段与 DeepSeek R1 论文非常相似：采用 SFT（监督微调）预热，结合长思维链（CoT）和拒绝采样（rejection sampling）。

又比如，他们重点关注数据中的行为模式，包括规划（planning）、评估（evaluation）、反思（reflection）和探索（exploration），这些对最终性能提升至关重要。

进入后续训练阶段后，他们的方法变得更加有趣：未采用 GRPO，而是使用了一种在线策略镜像下降（online policy mirror descent）的变体（仍属于策略梯度算法家族）。

除此之外，他们未使用价值函数，而是采用蒙特卡洛奖励基线（Monte Carlo reward baseline），其核心思想与 GRPO 类似，但并非直接用于优势估计（advantage）。

为了提高模型训练的稳定性和效果，研究者们采用了多种策略。其中一种策略是引入长度惩罚，即鼓励生成较短的回答，并在正确回答中惩罚较长的回答，同时明确惩罚错误答案中的长回答。这种策略有助于控制模型生成回答的长度，避免模型过度生成冗长且可能不准确的内容，从而提高训练的稳定性。尽管这种方法在训练初期可能会减慢训练速度，但研究者们会逐渐在训练过程中引入这种奖励机制，以实现更好的训练效果。

此外，研究者们还采用了数据序列策略来辅助模型学习。这种方法类似于一种明确的教学大纲，即从较简单的任务开始训练，并在训练过程中对模型表现不佳的任务进行重新采样，增加这些任务的训练频率。这种策略类似于逐步引导模型学习，类似于人类学习过程中从易到难的逐步进阶。尽管这种方法可能会增加训练的复杂性，但它被视为一种有效的技巧，可以帮助模型在训练过程中逐步提升性能。

这些方法虽然在短期内可能会增加训练的复杂性，但它们有助于模型在长期训练中保持稳定性和一致性，从而提高模型的整体性能和泛化能力。

在关于模型大小的消融研究中（尽管没有明确提及模型的具体大小），他们发现，尽管较大的模型在初始阶段表现优于较小的模型，但较小的模型通过利用强化学习（RL）优化的更长的思维链（CoTs）也能达到相当的性能。然而，较大的模型通常在 token 效率方面表现得比小模型更好。

另外，这篇论文对模型最终实用性方面的总结非常有趣，也与近期许多强化学习（RL）文献中的观点一致：如果目标是尽可能达到最佳性能，那么扩大较大模型的上下文长度具有更高的上限，并且在 token 效率方面更具优势。然而，如果测试时计算资源有限，那么训练具有较大上下文长度的小型模型可能是可行的解决方案。

论文中还详细介绍了他们的监督微调（SFT）数据集、强化学习（RL）基础设施、长思维链到短思维链的蒸馏过程。感兴趣的读者可以查看论文深入了解。

Open- reasoner - zero

这篇论文的主要贡献在于，它是第一篇展示在基础模型上通过 RL 取得非常出色结果的研究。

论文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf

事实上，他们使用 Qwen-32B 基座模型时，能够达到 DeepSeek 论文在其蒸馏部分提到的 Qwen-32B 强化学习（RL）模型的性能。不过，DeepSeek 论文中提到的这个 RL 模型并未引起太多讨论，因为同一表格显示，DeepSeek 发现在这种规模的模型中，蒸馏推理能力（而非从强化学习开始）能带来更显著的性能提升。

R1 论文：https://arxiv.org/pdf/2501.12948

这里，问题在于并非所有的 RL 步骤都是等价的。它在很大程度上取决于：

用于 RL 的批次大小，更大的批次大小意味着更少的步骤；
每个步骤中使用的梯度步骤数，更多的梯度步骤可以导致更多的学习，但同时也可能导致更多的不稳定性；
数据集与特定模型的匹配程度，DeepSeek 可能使用了与 DeepSeek 基础模型相同的数据集，这可能不太适合 Qwen 模型（学习速度更慢）。

数据分布

这项工作的核心成功之处在于，它非常清晰地展示了数据对于学习的重要性。

他们从各种来源收集公开数据，包括 AIME（截至 2023 年）、MATH、Numina-Math 数据集、Tulu3 MATH 以及其他开源数据集。根据数据来源和问题难度，他们提取了 AMC、AIME、数学、奥林匹克竞赛以及 AoPS 论坛的相关部分，作为难度较高的提示，以确保数据集的难度水平适当。

该研究还通过程序化方法合成额外的推理任务，以扩充数据集。此外，他们还对数据集进行格式筛选等一系列操作。

此外，研究者排除了那些难以用基于规则奖励函数进行评估的问题，例如选择题和证明题，以确保在训练过程中奖励计算的准确性和一致性。

训练消融

《OpenReasonerZero》是另一篇发现 GRPO 对他们不起作用的论文。作者使用了带 GAE（Generalized Advantage Estimation）的 PPO 算法来对一组响应进行估计，这也进一步证实了文章之前提到的 GRPO 并非有特别之处。

在训练过程中，他们没有使用任何复杂的长度或格式 token（例如 < answer>token）来构建奖励函数，而是发现仅正确性是必要的。此外，他们还移除了所有的 KL 惩罚，这对于允许模型在响应长度上进行显著变化以及学习新行为至关重要，这些行为有助于下游性能的提升。

实验结果表明，移除 KL 损失和 KL 惩罚能够实现最优的训练稳定性和最终性能。

这篇论文的附录里还有更多有趣的消融实验，比如调整 RL 训练时的采样温度、修改 RL 超参数，或是调整批次大小和更新规则等，感兴趣的读者可以查看原文章。

DAPO：一个大规模开源 LLM 强化学习系统

在开始讨论接下来的两篇论文前，我们需要了解一些背景，以便理解机器学习特别是强化学习中的算法进步。有一个经验法则是，如果你看到一篇论文中提出的方法没有提高到基准方法的 2 倍左右，那么这个解决方案的成功很可能主要归功于超参数调整或其他混淆变量。这是对语言模型新型强化学习算法应持有的适当怀疑态度。

读这些论文时，你很容易想到「哇，我的项目现在就能顺利运行了」。实际情况远非如此。这些论文是学习 GRPO 损失函数复杂细节的绝佳练习。多年来，这类论文积累起来会带来巨大的直觉增益。但目前在训练真正的 SOTA 模型时，大多数改变在代码复杂性上可能会过于繁重，相比之下，专注于调整数据分布（如上述论文所讨论的）更为重要。

让我们来看看 DAPO—— 这是对之前 Twitter 上简短介绍的扩展版本。

论文标题：DAPO: An Open-Source LLM Reinforcement Learning System at Scale
论文链接：https://arxiv.org/pdf/2503.14476

他们展示的学习曲线不错，但有些混乱，因为「DeepSeek R1 Zero Qwen 32B」模型的训练步骤精确比较实际上并不存在（如上所述），尤其是，x 轴是有误导性的。再强调一遍，DeepSeek 所做的工作并非不可复制。

这是一篇非常整洁的关于推理的强化学习论文。我们将介绍的 GRPO 改进包括：

1. 两个不同的裁剪超参数，使正向裁剪能够更多地提升意外的 token。

2. 动态采样 —— 从批次中移除具有平坦奖励的样本以提高效率。

3. 使用每个 token 的损失（而非每个回应（per-response）的损失）来改善学习动态。

4. 在损失函数中管理过长生成以获得更好的稳定性。

我希望这篇论文，正如我将在下面讨论 Dr. GRPO 论文时提到的，能做更多关于最终性能的比较。我们关心的是评估结果，所以在算法变化带来性能提升之前，我很难说这些是关键的实现决策。

总之，DAPO 看起来如下：

像现在的许多论文一样，他们也建议从 GRPO 中移除 KL 散度惩罚以帮助学习。许多人表示，如果没有要过度优化的奖励模型，这个惩罚就不是必要的。对于基础模型的强化学习，我同意这一点，因为模型通常需要更大的变化才能成为完整的推理模型。但如果对指令模型进行可验证奖励的强化学习（RLVR），KL 惩罚可能仍然有用。

GRPO 改进点 1：更高的裁剪 / 分离裁剪超参数

PPO 和 GRPO 有一个控制更新步长的裁剪超参数。这是 PPO 和 TRPO 相比 REINFORCE 或普通策略梯度的核心思想。DAPO 将其改为两个超参数，这样上限 / 正向对数比率步长可以更大。这是为了增加 token 的概率，比如推理链中令人惊讶的新 token。

PPO/GRPO 更新是基于对数比率的，所以概率较小但正在增加可能性的不太可能的 token 会变成更大的对数比率，比可能性已经很高的 token 更容易被裁剪。这对于提升效果来说是一个相当复杂的变化，但它很好地说明了裁剪如何影响学习动态。

这篇论文对他们的改进做了很好的消融实验！如下图（右）所示，他们显示模型在训练过程中保持了更高的熵（即探索 / 随机性）。不错。

GRPO 改进点 2：从批次中移除不必要的样本

本质上，在 GRPO 中，如果批次中针对一个提示的所有样本具有相同的奖励，则没有学习信号，因为每个答案的优势是计算为该答案与批次中组平均值的差异。移除它们可以通过计算更少的梯度来提高学习速度。

这实际上是 GRPO 的一个简单事实。从理论上讲，当批次中的答案没有信号时，它们不会影响模型，但这也与为什么更大的模型可能通过强化学习学习得更好有关。更大模型的强化学习步骤不太可能无意中伤害模型中不在学习批次中的其他区域，因为它们的能力分布在更多参数上。

GRPO 改进点 3：token 级策略梯度

论文作者表示，token 级损失有助于减轻非常长的推理链中的重复行为，同时仍然鼓励模型从正向的长上下文示例中学习。这与标准 RLHF 实现不同（见下文关于 Dr. GRPO 的讨论）。他们的改变比我们稍后讨论的更为温和。

作者的直觉很好，我们将在接下来的论文中看到很多关于这种权衡的讨论：

由于所有样本在损失计算中被赋予相同的权重，较长回应中的 token（包含更多 token）对整体损失的贡献可能不成比例地低，这可能导致两种不良影响。首先，对于高质量的长样本，这种效果可能阻碍模型学习其中与推理相关的模式的能力。其次，我们观察到过长的样本通常表现出低质量的模式，如胡言乱语和重复词汇。因此，样本级损失计算由于无法有效惩罚长样本中那些不受欢迎的模式，导致熵和回应长度的不健康增加。

将长度归一化 1/|o | 移到组总和之外，使得损失计算仅通过对两个总和内部的 token 求和来完成。

在这里，答案组是按照该提示的总体 token 计数归一化的。默认 GRPO 只对 token 所对应的回应进行每 token 损失归一化。

这很酷，但需要更多的复制！见下面的讨论。在他们的设置中，他们看到了相当不同的行为。

这个想法是为了能更好地从长答案中学习。好的长答案应该得到充分奖励，而重复的、糟糕的长答案需要被惩罚。

GRPO 改进点 4：避免截断的奖励塑造

这是 DAPO 中最微小的改变。本质上，他们添加了一个柔性然后是一个严格的惩罚，当模型生成长度超过限制时。对于最大上下文长度为 16k token 的模型，他们在 12k token 开始应用惩罚，并线性增加到 16k。这种长度控制机制感觉将会过时，或者在未来只是一个非常小的技巧。

参考一下，许多强化学习实现已经包含了一些更大的惩罚，如果模型截断自身（即从不生成 EOS token 或答案）。

他们称之为解耦裁剪和动态采样策略优化（DAPO）算法。称其为新算法似乎足够公平，这在强化学习中一直如此，但实际上这基本上是 GRPO++。

训练专注于 AIME，所以最终模型并不超级有趣，但它们陈述了一个永恒真理：即使是初始条件的微小变化，如数据和超参数的变化，也可以通过迭代强化学习过程放大，产生实质性的结果偏差。

Dr. GRPO

论文标题：Understanding R1-Zero-Like Training: A Critical Perspective
论文链接：https://arxiv.org/pdf/2503.20783

这是我们获得的第二篇关于修改 GRPO 以使其更适合推理训练（实际上，就是让它更有效）的论文。该论文还包括一些优秀的实验，帮助理解不同基础模型如何影响学习到的推理行为。

论文的核心图表如下：

论文的核心思想是，通过修改 GRPO，他们可以改善学习动态，使得在生成长度增加较少的情况下实现更强的性能。这是每个人都应该想要的！

他们假设默认的 GRPO 实现实际上设置了一个偏置，使生成长度增加的程度超过了实际有用的范围。

关于 GRPO 的修改

他们提出的核心修改有些微妙，与 GRPO 实现的常见做法密切相关。GRPO 实现的一个核心步骤在 DeepSeekMath 论文中有详细说明：

「结果监督在每个输出𝑜_𝑖的末尾提供归一化的奖励，并将输出中所有 token 的优势𝐴ˆ_(i,t)设置为归一化奖励...」

本质上，不是只在验证结果的最终 token 上分配优势，而是批次中的每个 token 都被分配了优势。然后使用这些策略梯度算法计算每个 token 的损失。

要了解这是如何工作的，让我们重新回顾论文中的损失函数：

这里发生的事情是，第一个求和管理问题的回应组 G，内部求和管理每个 token 的损失。作者正在纠正学习中的两种行为：

偏爱短而正确的答案。对于正向优势，即一组中正确且更好的回应，原始损失会奖励短回应。要理解这一点，考虑一组中两个都是正确的答案，一个有 10 个 token，一个有 1000 个。这两个都有相同的优势，但较短答案的概率会增加更多，因为损失近似于优势 / 长度。如果这仍然令人困惑，可以考虑 EOS token，它出现在每个回应的最后一个 token —— 对于短回应，这个 token 将被增加得更多。
不惩罚长、重复、错误的答案。这一点更简单，如果优势是负面的，归一化因子 1/|o | 通过减少每个 token 上优势的有效大小来减少对较长答案的学习信号。较小的惩罚意味着它比错误、短答案的可能性更大。

这些合在一起，有点与我们想要的相反（与 DAPO 的想法非常相关）。我们希望在推理时有更长的正确答案以提高扩展性，并且不想浪费 token。个人而言，我更喜欢 DAPO 的解决方案，将长度归一化移到组外，而不是完全去除它。

他们提出的第二个修改非常聪明（已在 TRL 中实现）—— 移除问题级难度偏置。当执行像 GRPO 这样的更新（例如也用 PPO）时，优势的大小影响梯度更新的大小。在这里，相对于更容易解决（或失败）的问题，具有高方差的问题会受到惩罚 —— 从直觉上讲，这甚至可能与我们想要的相反！较难的问题，特别是在学习的关键阶段，将有更高的方差。作者也解释了与之前的强化学习实践的关系：

虽然优势归一化在强化学习中是一种常见技巧，但它通常是在整个批次中计算的。

实际上，这种变化的影响可以完全被高质量的数据工程所吸收，正如上面其他论文中讨论的那样，批次中问题难度的分布是均匀的。

不过，这些变化也没有免费的午餐 —— 我的同事 Costa Huang 提醒我，低方差问题可能是我们模型学习的关键。在模型 9 次回答错误、只有 1 次正确的情况下，移除标准差会降低那一个正确答案的权重。这可能是模型需要学习的关键！

他们将这两个变化称为「GRPO Done Right」，即 Dr. GRPO。当他们将这些结合在一起时，模型显示了他们预期的输出长度变化 —— 总体上更短，特别是错误答案更短。这里的缺点是，他们实际上没有展示更好的下游最终性能。最终性能是目标，很可能更多地来自数据。

关于为强化学习更换基础模型

论文作者比较了来自 Qwen 2.5、Llama 3.1 和 DeepSeek 的基础模型，看它们如何回答 MATH 问题。对于这些模型，它们使用 R1 模板、Qwen MATH 模板和无模板。当模型已经通过带有推理 / CoT 轨迹的中间训练时，这些模板起着至关重要的作用：

模板 1（R1 模板）：A conversation between User and Assistant. The User asks a question, and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer.

The reasoning process is enclosed within <think> </think> and answer is enclosed within <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.

模板 2（Qwen-Math 模板）： <|im_start|>system Please reason step by step, and put your final answer within \boxed {}. <|im_end|> <|im_start|>user {question} <|im_end|> <|im_start|>assistant

模板 3（无模板）：{question}

他们发现 Llama 和 DeepSeek 使用 R1 模板能够最好地遵循指令，而 Qwen 在没有模板的情况下效果最好。记住这些基础模型在不同的「微调」机制下有多大差异是至关重要的。格式合规性的比较如下所示。

中间图显示了数学问题的 pass@8 率，可以理解为「如果我对 1 个问题采样 8 个答案，正确答案出现的频率是多少？」这是衡量模型在训练开始时学习难易程度的指标。Qwen 再次表现最佳，温度的影响比我想象的要小。

最右边他们显示，更大的 Qwen 模型在任何强化学习训练之前就已经有反思行为！如果你正在使用这些模型，这并不令人惊讶，但这是一个很好的数据点，可以淡化强化学习训练中「啊哈时刻」的作用。这些模型主要是在放大，而不是学习新东西。

论文还有其他不错的结果，例如在更多领域特定的数学数据上继续预训练可以提高强化学习性能，很多人通过在 Qwen-MATH 模型上训练的容易程度也能看到这一点。

与 GRPO 训练失败的关系

在我们早期的研究中看到的一些失败，我也从其他实验室听到过，是 GRPO 可能会失败，开始生成非常重复和长的回应。答案的序列长度膨胀到训练设置中允许的最大值，下游评估的性能降至 0。这些潜在的干预措施，对于 Dr. GRPO 和 DAPO 来说，都有助于缓解这种情况。我们很快就会有独立的复制实验了！

与现有 RLHF 基础设施的关系

在过去几周里，我参与了许多关于 RLHF 基础设施中每批次使用总和损失还是平均损失的讨论。其中的核心问题是：强化学习应该平等地对待每个 token（即从批次中较长的答案学习更多）还是应该相对于问题对它们进行归一化？我的基本观点是，基于每个问题的归一化更有意义，因为模型需要针对不同问题学习不同的行为，但这种学习动态很微妙。

这篇论文对目前所有流行的开源强化学习工具提出了批评，称 per-response 的方式偏向于更糟糕的情况。实际情况比这复杂得多 ——per-response 求和肯定是标准做法。

区别在于从像 TRL 这样的库中的 masked_mean 变为作者使用的 masked_sum。

为什么 per-response 可能是好的一个直觉是，如果你有一个 KL 惩罚，你不希望一个非常奇怪的 token（KL 爆炸）影响批次中的每个 token。这些实现差异非常依赖于特定的训练设置。

不过，关于推理 vs.RLHF 的上下文也很酷。是的，在大多数方面，实现都如作者所说，但这只是因为社区之前不像我们现在对推理模型那样关心上下文长度学习动态。

以前，重点是在奖励上。现在，重点是奖励正确的长上下文行为并惩罚重复的长行为。所以，是的，回答倾向于反对较长的、高奖励的序列，但我们不在乎！

在原文的「Further reading」作者还推荐了其他论文，感兴趣的读者可以参考下图。

原文链接：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo

....

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

Trae实现Web UI自动化测试

广州城市开发者社区

从训诂学到人工智能：一场两千年的相关性困局，与因果性的破局时刻

广州城市开发者社区

Selenium自动化测试常见的异常处理

本文深入探讨了Selenium自动化测试中的异常处理技术。首先分析了异常处理的重要性，指出其能保障测试稳定性和可靠性。接着详细介绍了Selenium中的主要异常类型，包括WebDriver异常、元素交互异常和时间相关异常等。文章重点讲解了三种异常处理方法：使用try-catch捕获异常、日志记录和重试机制，并通过两个典型案例（处理NoSuchElementException和TimeoutExce