51c大模型~合集174
在这一套训练范式下,GUI-Owl的框架适配能力显著提升,在没有特意训练过的Mobile-Agent-E和Agent-S2两个第三方框架下,GUI-Owl的效果都能优于Qwen2.5-VL和Seed1.5-VL这些通用模型,同时大幅领先UI-Tars这些GUI专用模型。除此之外,基于多模态大模型的GUI智能体框架凭借出色的表现广受关注,在足够细致的任务拆分下,具备强大推理能力的大模型能够充分发挥自
自己的原文哦~ https://blog.51cto.com/whaosoft/14152348
#Mobile-Agent-v3
通义实验室Mobile-Agent-v3重磅来袭,一夜刷爆各大榜单,手机电脑皆可适配,强大性能不再依赖闭源大模型
近年来,GUI智能体的热度水涨船高,例如ChatGPT Agent可以在沙箱电脑中查资料、写代码、做PPT;Claude-4具备电脑操作能力并适配MCP协议;千问系列的多模态模型能够端到端调用电脑和手机的操作接口。除此之外,基于多模态大模型的GUI智能体框架凭借出色的表现广受关注,在足够细致的任务拆分下,具备强大推理能力的大模型能够充分发挥自己的优势,完成更真实的GUI任务。
然而,不少开发者在接触GUI智能体时发现了几大痛点:
现有方案依赖于开发者的真实设备,如果设备不支持智能体的操作接口,则无法适配。
大部分通用模型的GUI专业能力较差,体现在不具备坐标定位能力或定位不准、无法准确的理解复杂UI、部分场景缺乏操作经验等,直接端到端使用效果往往较差。
经过训练强化的GUI模型虽然在专业能力上提升显著,但是由于通用能力的丢失,无法适配到主流的智能体框架,大部分情况下只能作为框架中的一个工具使用。
效果较好的框架,输入的图片数量和输入输出的token往往较多,在闭源大模型付费调用的条件下成本难以控制,此外由于调用存在通信时间,操作的时延也无法保证。
由于智能体框架往往需要多个不同的角色,且每个角色都有自己特定的任务,为了保证效果从而需要部署多个模型来适配不同角色,造成资源浪费。
这些问题让广大的开发者苦不堪言,也直接限制了很多效果出色的模型和框架在实际场景的应用。
那么有没有一种可能,我既要求不依赖自己的设备,又要求模型的GUI专业能力强,还要求它可以适配到主流的智能体框架,此外还要求模型可以本地部署,且整个框架只需要这一个模型,这样问题不就都解决了吗?随着通义实验室全新开源的GUI-Owl专用GUI模型和Mobile-Agent-v3多智能体框架,这一切成为了现实。
下面是一个结合Web搜索和PC办公软件使用的例子,任务是:在Edge浏览器中搜索阿里巴巴的股价。然后在WPS中新建一个表格,在第一列填入公司名,在第二列填入股价。
,时长11:20
在移动端同样可以适配,下面是一个操作手机的例子,任务是:帮我在小红书搜一下济南旅游攻略,按照收藏数排序,并收藏第一篇笔记。
,时长05:14
首先,Mobile-Agent-v3接入了阿里巴巴云平台,该平台可提供多样的云设备沙箱,例如云电脑和云手机。当使用Mobile-Agent-v3时,开发者不需要在自己的设备上进行调试,而是直接使用已经提前适配好的云设备,从而告别对真实设备的依赖。
针对GUI专业能力的提升,GUI-Owl继承了Qwen2.5-VL强大的GUI理解和定位能力,在此基础上,我们构建了一套精细化的能力强化方案。这套方案分为三个层面:任务规划、动作语义理解和UI元素定位。
在任务规划能力上,我们不仅仅是简单地投喂操作轨迹,而是从成功的轨迹数据中提炼出完成任务所需的关键操作步骤(Key Steps),并结合Qwen3-235B等超大规模语言模型的知识进行蒸馏,构造出高质量的规划训练数据,让模型学会如何拆解复杂任务。
在动作语义理解上,为了让模型理解操作与界面变化间的因果关系,我们将轨迹中的“操作前截图”和“操作后截图”作为输入,让模型反向预测出中间发生了什么操作,从而深刻学习每个动作对GUI状态的改变。
在核心的UI元素定位能力上,我们通过多种方式构造了多样化、大规模的定位数据集。这包括:
- 利用A11y Tree(可访问性树)提取UI元素的边界框和功能描述。
- 创新性地引入SAM (Segment Anything Model) 对PC端截图进行区域分割,解决了PC界面元素密集、难以处理的痛点,再由多模态大模型在分割后的小区域内进行更精准的元素描述和定位。
- 使用OmniParser v2等先进的GUI分割模型对生成的数据进行交叉验证和过滤,剔除低质量的标注(如IoU低于0.5的边界框),确保数据的精确性。
- 利用OCR技术构建精细到单词和字符级别的定位数据,实现了超高精度的文本定位能力。
更进一步,我们引入了先进的强化学习(RL)框架来对齐模型的决策行为。 我们采用了TRPO(Trajectory-aware Relative Policy Optimization)算法,该算法着眼于整个操作轨迹的最终成败来计算奖励,而非单个步骤的得失,这对于需要长序列操作的GUI任务尤其有效。 通过这种方式,模型的决策更符合真实世界的任务成功标准。
这一系列“组合拳”使得GUI-Owl在ScreenSpot-V2、ScreenSpot-Pro、OSWorld-G和MMBench-GUI L2四个定位榜单上都实现了SOTA的效果。除此之外,在衡量GUI理解能力的榜单MMBench-GUI-L1上,GUI-Owl同样是SOTA的效果。
针对框架适配能力的提升,GUI-Owl在训练时加入了大量推理数据。这些数据并非随意生成,而是源自我们精心设计的“自我进化轨迹生产框架”(Self-Evolving GUI Trajectory Production)。该框架让GUI-Owl在云环境中执行任务(Roll-out),并通过一个“轨迹正确性判断模块”来评估每一步操作的好坏,筛选出高质量的成功轨迹用于模型的迭代训练,形成一个不断自我增强的闭环。 除此之外,我们还从Mobile-Agent-v3的多智能体协作过程中蒸馏推理数据,让GUI-Owl学习更复杂的、多视角的思考模式。 在这一套训练范式下,GUI-Owl的框架适配能力显著提升,在没有特意训练过的Mobile-Agent-E和Agent-S2两个第三方框架下,GUI-Owl的效果都能优于Qwen2.5-VL和Seed1.5-VL这些通用模型,同时大幅领先UI-Tars这些GUI专用模型。
在部署成本和调用开销方面,GUI-Owl绝对是目前的最优选择之一。仅7B的模型参数量,在端到端场景下仅依赖单图输入,远低于UI-Tars的5张图输入。GUI-Owl之所以能够大大减少历史图片的输入,依赖于其独特的“思路-总结-操作”三段式输出结构。在每次决策时,模型会先输出详细的“思路”(Reasoning),然后生成一个精简的“总结”(Summaries),最后才是具体的“操作”(Action)。在多轮交互中,我们只需将这个几十个字的“总结”存入历史记录,就能有效替代多张历史截图, 从而在不丢失关键信息的前提下,将输入的token长度降低数千,大幅降低推理开销和延迟。
对于智能体框架往往需要多个模型配合的问题,GUI-Owl也有对应的解决方案。在Mobile-Agent-v3框架中,我们将复杂的任务流拆解为四个不同的智能体角色:
- 管理者(Manager Agent):负责进行战略规划,将用户的高级指令拆解成有序的子目标列表。
- 执行者(Worker Agent): 负责操作执行,根据当前界面状态选择并执行最合适的子目标。
- 反思者(Reflector Agent):负责自我修正,对比操作意图和实际结果,判断操作是否成功并提供反馈。
- 记录员(Notetaker Agent):负责上下文记忆,在成功操作后提取并存储关键信息(如验证码、地址等)。
GUI-Owl一个模型就能胜任所有这些角色。 在训练阶段,我们使用Mobile-Agent-v3中所有角色的数据对GUI-Owl进行训练,使其学会根据不同的上下文“扮演”不同的角色。因此,相比于需要部署多个模型的框架,Mobile-Agent-v3仅需一个GUI-Owl模型即可驱动,大幅降低部署成本。
Mobile-Agent-v3目前已开源,欢迎各位开发者下载使用项目地址:https://github.com/X-PLUG/MobileAgent
#gemini-2.5-flash-image-preview
谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%
昨晚,神秘且强大的图像生成与编辑模型 nano banana 终于正式显露真身。没有意外,它果然来自谷歌,并且也获得了一个正式但无趣的名字:gemini-2.5-flash-image-preview。
据介绍,该模型具有「SOTA 的图像生成与编辑能力、惊人的角色一致性以及闪电般的速度」。
下面是谷歌官方分享的一些示例:
,时长00:15
从其名字也可以猜测,谷歌应该还有一个非 flash 的 gemini-2.5-image 模型 —— 其性能应该会更加强大,但速度会更慢。
现目前,gemini-2.5-flash-image-preview 已经在 Google AI Studio 和 Gemini API 中提供了预览。用户可以免费试用。
可以看到,gemini-2.5-flash-image-preview 支持 32k 上下文,提供了温度(可以控制模型的创造力)以及一些高级设置。
然而,遗憾的是,该模型尚不支持对中文输入执行图像生成和编辑,而是会给出文本响应。
另外,在 Gemini 中,用户只需选择 2.5 Flash 并使用合适的提示词,也可以使用该模型。
价格方面,gemini-2.5-flash-image-preview 输入/输出文本的价格是 0.3/2.5 美元,输入/输出图像的价格是 0.3/30 美元。知识截止时间是 2025 年 6 月。
大概计算下来,该模型生成每张图像的成本大约为 0.039 美元(约 0.28 元),远低于 OpenAI 的图像生成成本。
具体功能(尤其是图像编辑)上,谷歌官方博客介绍说他们尤其注重在不同图片间保持人物形象的一致性。
「我们知道,当你编辑自己或熟悉的人时,哪怕是细微的差别都会显得刺眼 ——『差一点但不完全一样』的效果就是感觉不对。正因如此,我们的最新更新专门针对这一点,让你的朋友、家人,甚至宠物,无论是尝试 60 年代的蜂窝头发型,还是给吉娃娃穿上芭蕾舞裙,都能始终看起来像他们自己。」
你只需要给 Gemini 一张照片,并告诉它你想要修改的地方,就能加上独特的个人风格。该模型可以帮你把自己和宠物放在同一张照片里,把房间背景换成新壁纸的效果,或者把你带到世界上任何你能想象的地方 —— 同时保持「你就是你」。完成后,你甚至可以把编辑过的照片再次上传到 Gemini,把新图变成一段有趣的视频。
谷歌还分享了一些玩法示例。
换装或换场景:上传一张人物或宠物的照片,该模型会在任何新场景下都保持他们的外貌一致。你可以尝试不同的服装、职业,甚至看看你在另一个年代会是什么样子 —— 但始终还是你自己。
,时长00:10
谷歌甚至还专门构建了一个演示模板应用来展示不同年代的你是什么样。
地址:https://aistudio.google.com/apps/bundled/past_forward
合成照片:你现在可以上传多张照片,把它们融合成一个全新的场景。比如,把你和狗狗的照片合成在篮球场上,生成一张完美的合影。
,时长00:08
多轮编辑:你可以不断修改 Gemini 生成的图像。比如,从一间空房间开始,先刷墙,再加书架、家具或茶几。Gemini 会一路协助你,只改动你指定的部分,同时保留其余部分。
,时长00:20
混合设计:把一张图的风格应用到另一张图的物体上。比如,把花瓣的颜色和质感应用到一双雨靴上,或者用蝴蝶翅膀的花纹设计一件连衣裙。
,时长00:15
原生世界知识:该模型还能够利用 Gemini 的世界知识,从而解锁全新的应用场景。为了展示这一点,谷歌在 Google AI Studio 中构建了一个模板应用,它可以将一个简单画布变成交互式教育导师。
地址:https://aistudio.google.com/apps/bundled/codrawing
此外,谷歌还提到所有在 Gemini 应用中生成或编辑的图片都会带有可见水印,以及谷歌的隐形 SynthID 数字水印,以清晰标识它们是 AI 生成的。
该模型一上线就迎来了一波测试热潮,谷歌首席科学家 Jeff Dean 直接以身入局,将自己 P 成了一个足球运动员卡牌角色。
诺奖得主、DeepMind 创始人兼 CEO Demis Hassabis 也来了一张个人形象照。
网友们也是各洒创意,分享了很多有趣结果。
(左右滑动查看图片)
感兴趣的读者也可以访问我们之前的测试报道《谷歌偷偷搞了个神秘模型 Nano-Banana?实测:强到离谱,但有 3 大硬伤》。
排行榜
gemini-2.5-flash-image-preview 正式上线后不久,各个榜单也开始晒出该模型的成绩表现。
在 Artificial Analysis 图像编辑排行榜上,该模型直接跃升至第一位,获得了 1212 的 ELO 分数。
而在其文生图榜单上,字节跳动的即梦 3.0 和 OpenAI 的 GPT-4o 还有少量优势。
不过,在投票人数更多的 LM Arena 的榜单上,gemini-2.5-flash-image-preview 在这两个任务上都已经成为冠军。
下面展示了在各个指标上更详细的分数,其中 gemini-2.5-flash-image-preview 在角色一致性、创意、图表、事物 / 环境等方面优势明显,而在风格化方面,GPT-4o 目前最为领先。
你已经尝试过 nano banana /gemini-2.5-flash-image-preview 了吗?感觉如何?
参考链接
https://x.com/googleaistudio/status/1960344388560904213
https://blog.google/products/gemini/updated-image-editing-model/
https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
#Robot Trains Robot
手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
人形机器人的运动控制,正成为强化学习(RL)算法应用的下一个热点研究领域。当前,主流方案大多遵循 “仿真到现实”(Sim-to-Real)的范式。研究者们通过域随机化(Domain Randomization)技术,在成千上万个具有不同物理参数的仿真环境中训练通用控制模型,期望它能凭借强大的泛化能力,直接适应动力学特性未知的真实世界。尽管这类 “零样本迁移”(Zero-Shot Transfer)方案在多种运动任务上取得了卓越表现,但其本质目标是训练一种在任何环境下都 “能用” 的保守策略。这种策略牺牲了机器人在特定真实环境中的性能上限,因为对于最终落地而言,真实世界的表现才是唯一重要的标准。
为了突破这一瓶颈,近期一些工作开始探索在仿真预训练后,利用少量真实数据对模型进行微调。例如,来自英伟达和 CMU 等机构的研究者提出的 ASAP [1],通过训练一个残差网络来快速补偿仿真与现实的动态差异;而学界经典的 RMA (Rapid Motor Adaptation) 算法 [2] 也被应用于双足机器人,通过一个适配模块从历史动作中推断环境动力学信息 [3]。然而,这些工作大多仍着眼于对动态偏差进行一次性补偿,交互范式也更偏向于离线学习,并未在真实环境中对模型本身进行持续的在线调整。由于人形机器人本身极不稳定,任何微小的失误都可能导致昂贵的硬件损坏,因此在真实环境中直接进行强化学习训练,长期以来被视为一个难以逾越的障碍。
从人类父母教授婴儿学步的过程中汲取灵感,我们创造性地提出,使用一个 “教师” 机械臂在现实世界中 “手把手” 地指导 “学生” 人形机器人进行在线强化学习。
,时长00:28
在这一过程中,教师机械臂扮演了多重关键角色:它既是保护安全的 “吊索”,防止学生摔倒 ;也是自动重置的 “帮手”,可以在失败后迅速扶起学生继续训练;它还是敏锐的 “信号源”,通过力传感器收集宝贵的训练数据,为学生提供在真实环境中不易获得的奖励信号;更是智慧的 “教练”,通过设置课程学习(Curriculum Learning)进度和施加对抗性扰动,在训练初期帮助学生快速适应环境,再循序渐进地提升训练难度,增强学生的学习效率和策略的鲁棒性。
,时长00:19
我们将这一创新的软硬件协同系统命名为 RTR (Robot-Trains-Robot),凸显了由机器人教师提供主动物理辅助,对于实现人形机器人真机强化学习有重要意义。同时,为解决真实世界数据采集成本高昂的难题,团队还提出了一种新颖的强化学习算法,通过仅优化一个与环境动力学相关的低维隐变量来快速调整机器人的行为,极大地提升了样本效率。这一算法上的贡献进一步解放了真机强化学习的潜力,在评测中显著超越了 RMA 等传统的在线系统识别基准。
论文标题:Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids
论文地址:https://arxiv.org/abs/2508.12252
方法
具体来说,RTR 系统由硬件和算法两部分构成:
硬件设置:教师与学生的协同生态系统
RTR 的硬件系统由 “教师” 和 “学生” 两组机器人组成。
教师系统:核心是一台带有力 - 矩(Force / Torque)传感器的 UR5 六轴机械臂。四根弹性缆绳将机械臂的末端与人形机器人的肩部相连,这种柔性连接可以平滑地传递辅助力,避免刚性连接带来的冲击。在行走任务中,一台可编程的跑步机作为辅助,确保学生始终在教师的臂展范围内。一台迷你 PC 作为教师系统的 “大脑”,统一处理力反馈信号并控制机械臂与跑步机的行为。
学生系统:学生基于开源的 ToddlerBot 人形机器人 [4],它拥有 30 个自由度,体型紧凑且硬件坚固,适合长时间的连续训练。开源的机器人设计使得根据需要对其进行修改更加便捷,一台独立的工作站则负责运行强化学习算法,并在学生手机数据的同时持续将最新的策略模型发送给学生执行。
算法设计:三阶段式高效 Sim-to-Real 微调
为了最大化数据效率,RTR 提出 Sim-to-Real 过程分为三个阶段:
1. 仿真训练具有环境适应性的策略。在大量域随机化的仿真环境中,训练一个接受编码了环境物理参数(如摩擦力、阻尼等)的隐变量 z 作为输入的控制策略。该隐变量通过 FiLM (Feature-wise Linear Modulation) [5] 层融入策略网络,使得机器人的策略能够根据不同的动力学环境进行自适应调整。
2. 优化通用初始隐变量。由于真实世界的物理参数未知,直接部署第一阶段的模型会面临 “真实环境中隐变量 z 该如何设置” 的难题。为此,我们参考域随机化方法的思路,首先在仿真中优化一个 “通用” 的隐变量
,使其在所有见过的仿真环境中都能取得不错的平均表现。这个
能够引导策略产生能够适应各种环境的动作输出,成为了真实世界微调的可靠起点。
3. 真实世界在线微调。将仿真训练的策略加上通用隐变量
作为环境状态输入,部署到真实机器人上。在教师机械臂的辅助下,冻结策略网络参数,仅在线优化低维的隐变量 z 。这种隐变量的优化方式,用极少的数据量就能快速使机器人的步态适应真实世界的动力学特性,实现了极高的微调效率和稳定的微调过程。相比之下,直接使用 PPO 等强化学习算法在真实世界微调策略网络本身,极易让策略不再稳定而产生危险的动作。
,时长01:01
实验验证
我们通过行走和 “荡秋千” 两个任务,全面验证了 RTR 系统的有效性。
仿真到现实微调的行走任务中,我们是让机器人在跑步机上精准地追踪目标速度。消融实验证明了 RTR 系统设计的优越性:
教师的辅助效果:与固定的吊架相比,能够主动顺应机器人运动的 “柔性” 机械臂(XY Compliant)显著提升了学习效果。同时,从高额辅助逐渐过渡到零辅助的 “课程学习” 策略(Z Schedule),优于全程高辅助或全程低辅助的固定策略。
微调算法的数据效率:RTR 提出的 “微调隐变量” 方法,在数据效率和最终性能上均优于微调整个策略网络或微调残差网络的基线方法。仅需 20 分钟的真实世界训练,RTR 就能将在仿真中预训练的行走策略速度提升一倍。
我们还进一步设计了对比实验,验证了使用 FiLM 层向策略网络添加关于环境动态的隐变量条件输入,其效果优于直接将环境动态变量拼接到策略网络的观测中。基于 RTR 提出方法的真机微调效果,也要强于 RMA 为代表的在线参数识别基线。
除了 Sim-to-Real 任务,我们还设计了纯真实环境强化学习的 “荡秋千” 实验,以展示 RTR 系统在直接强化学习任务中的潜力。在这个任务中,人形机器人需要学会协调双腿,像孩子一样荡起秋千,以最大化摆动幅度。教师机械臂通过实时力反馈感知学生的摆动相位,在适当时机给予 “推动”(帮助)或 “阻尼”(扰动)。实验结果表明,有教师主动参与的 “帮助” 和 “扰动” 课程学习,其效率高于教师仅作为固定吊架的方案,同时教师感知到的力信息,始终作为重要的奖励信号指导学生训练。整个学习过程从零开始,在 20 分钟内就学会了幅度明显的周期性摆荡动作。
总结与展望
RTR 框架的提出,不仅为解决当前人形机器人真机部署与训练的瓶颈提供了切实可行的方案,更重要的是,它引入了主动力辅助这一全新的范式来帮助机器人在真实世界学习。这一极具扩展性的框架在未来可以通过使用承载能力更强的工业机械臂或带有力传感的龙门吊系统,将 RTR 的成功经验推广到全尺寸人形机器人,乃至其他各类复杂机器人系统的真实世界强化学习任务中。
作者介绍
本文的共同第一作者为清华大学交叉信息研究院许华哲组博士生胡开哲,与斯坦福大学 C. Karen Liu 和 Shuran Song 组博士生史浩辰。文章在胡开哲于斯坦福大学访问期间完成。共同通讯作者为斯坦福大学计算机系教授 C. Karen Liu,与斯坦福大学电子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 会议接收,项目代码已全部开放,更多信息可以参考项目网站:robot-trains-robot.github.io,
参考文献:
[1] He, Tairan, et al. "Asap: Aligning simulation and real-world physics for learning agile humanoid whole-body skills." arXiv preprint arXiv:2502.01143 (2025).
[2] Kumar, Ashish, et al. "Rma: Rapid motor adaptation for legged robots." arXiv preprint arXiv:2107.04034 (2021).
[3] Kumar, Ashish, et al. "Adapting rapid motor adaptation for bipedal robots." 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022.
[4] Shi, Haochen, et al. "Toddlerbot: Open-source ml-compatible humanoid platform for loco-manipulation." arXiv preprint arXiv:2502.00893 (2025).
[5] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.
#NVFP4
DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
前些天,DeepSeek 在发布 DeepSeek V3.1 的文章评论区中,提及了 UE8M0 FP8 的量化设计,声称是针对即将发布的下一代国产芯片设计。
这件事一下引发了巨大反响,不仅是关于新一代国产芯片设计、大模型在国产芯片训练的话题,也顺势引发了大家对大模型量化策略的关注。
FP8,其全称为 8-bit floating point(8 位浮点数),是一种超低精度的数据表示格式,相较于 FP32(单精度)或 FP16(半精度)等传统浮点格式,FP8 可以在尽量保持数值稳定性和模型精度的前提下,进一步降低存储和计算开销(参见xx文章:用FP8训练大模型有多香?微软:比BF16快64%,省42%内存)。
在英伟达之外,微软、Meta、英特尔、AMD 等也都在研究 FP8 训练与推理,有成为业界「新黄金标准」的趋势。
如今,DeepSeek 采用非主流的 FP8 量化策略,隐隐展现出国产大模型与国产芯片芯片软硬结合的优化策略与英伟达的高兼容策略的不同发展路径。
UE8M0 FP8 具有鲜明的战略意义。DeepSeek 选择在模型端率先采用并公开声明使用 UE8M0 格式,将其训练与 scale 策略与该精度绑定。这等于由大模型端主动提出标准,迫使硬件和工具链进行适配,加速了国产软硬件一体化的生态建设。
不知道是不是巧合,在 DeepSeek 为国产芯片准备的 FP8 量化策略的提出不久,就在今天,英伟达也在低精度量化领域再次发力。只不过这次不是 FP8 量化的新进展,而是向 FP4 量化跃进。
英伟达将其最新的 NVFP4 策略拓展到预训练阶段,声称能够以匹配 16 位的精度进行训练,并以 4 位的速度和效率运行。
英伟达称:「在预训练中使用 NVFP4,可显著提升大规模 LLM 训练效率和基础设施效能。这不仅是一次渐进式优化,而是一种重新定义大规模模型训练方式的根本性转变。」
在「AI 工厂」时代,算力是进步的引擎,数值精度已不再是后端细节,而是一种战略优势。NVFP4 4 比特预训练为效率与可扩展性设定了新的标准,推动高性能 AI 模型开发进入全新阶段。
目前,NVFP4 训练仍处于研究阶段,正在探索并验证 4 位精度在大规模模型预训练中的潜力。围绕 NVFP4 的合作与实验正积极推进,参与方包括 AWS、Cohere、Google Cloud、Kimi AI、Microsoft AI、Mistral、OpenAI、Perplexity、Reflection、Runway 等领先组织。
对于英伟达在更低位的探索,评论区的网友意见不一,有人认可 NVFP4 在提升训练速度以及降低成本和能耗方面的积极作用,认为其有望推动更多行业进入高效、可持续的 AI 时代。
还有人提到 NVFP4 与 Jetson Thor 的结合有望对现实世界的应用产生深远影响。Jetson Thor 是英伟达前几日发布的新一代机器人专用芯片,通过大幅提升算力,可以适配xx智能新算法,支持人形机器人等各种形态。
二者可能的结合,一方面在训练端带来更高的能效与速度优化,另一方面在边缘、推理场景充分利用高性能低功耗的计算能力,最终从训练到部署形成高效的完整闭环。
不过也有人不买账,针对英伟达声称的更环保(greener),他认为,虽然新的数据格式带来了种种优化,但并不代表 AI 的总体算力需求和能耗会因此减少,也无法从根本上改变 AI 持续扩张造成的能源与资源压力。
什么是 4 比特量化(4-bit quantization)?
4 比特量化指的是将模型中的权重和激活值的精度降低到仅仅 4 位。这相比常见的 16 位或 32 位浮点数格式,是一次大幅度的精度压缩。
在预训练阶段使用 4 比特量化非常具有挑战性。因为需要在保持训练速度提升的同时,谨慎地处理梯度和参数更新,以确保模型精度不会丢失。
为了达到这个目标,英伟达必须使用专门的技术和方法,把原本高精度的张量(tensor)映射到更小的量化值集合中,同时仍然维持模型的有效性。
更少的比特如何释放 AI 工厂的更大潜能
近些年来,AI 的工作负载呈现爆炸式增长 —— 不仅仅是在大语言模型(LLM, Large Language Model)的推理部署中,还包括基础模型(foundation model)在预训练和后训练阶段的规模扩张。
随着越来越多机构扩展计算基础设施,用来训练和部署拥有数十亿参数的模型,一个核心指标逐渐凸显:AI 工厂能维持多高的 token 吞吐量,从而解锁下一阶段的模型能力。
在推理(inference)环节,精度格式已经经历了多次革新:从最初的 FP32(32 位浮点数)到 FP16,再到 FP8,最近甚至发展到 NVIDIA 发布的 NVFP4,用于 AI 推理。实践表明,像后训练量化(PTQ)这样的方法,已经能够借助 NVFP4 显著提升推理吞吐量,同时保持准确性。
然而,在更上游的预训练阶段,挑战依然存在 —— 目前大多数基础模型仍依赖于 BF16 或 FP8 来维持稳定性和收敛性。
预训练恰恰是 AI 工厂消耗最多计算力、能耗和时间的环节。算力预算有限,GPU 时钟周期稀缺,开发者必须精打细算 —— 从每一个比特、每一个 token,到每一个训练周期都要计算在内。吞吐量在这里不只是一个抽象指标,它直接决定了:能够训练多大规模的模型,可以运行多少实验,又能多快迎来新的突破。
这就是 4 位精度真正具备颠覆性意义的地方。
通过减少内存需求、提升算术运算吞吐量、优化通信效率,4 比特预训练能够让 AI 工厂在相同的硬件条件下处理更多的 token。只要配合合适的量化方法,它的精度表现可以与 FP8 或 BF16 相当,同时还能显著提升吞吐量。
这意味着:
- 模型收敛速度更快;
- 单位算力能运行更多实验;
- 可以训练出前所未有规模的前沿模型。
换句话说,更少的比特不仅仅是节省成本,它还拓展了 AI 工厂的能力边界。
NVFP4 预训练量化方案
为了实现 4 位精度的预训练,英伟达开发了一套专门的 NVFP4 预训练方案,解决了大规模训练中动态范围、梯度波动以及数值稳定性的核心挑战。
Blackwell 是 NVIDIA 首个原生支持 FP4 格式的架构。GB200 和 GB300 上巨大的 FP4 FLOPs 吞吐量,通过加速低精度矩阵运算,同时保持大模型收敛所需的规模和并行性,从而实现高效的 4 比特训练 —— 使其成为下一代基于 FP4 的 AI 工厂进行预训练的理想选择。
下图 1 显示了 Blackwell Ultra 的 GEMM 性能测量结果,相比 Hopper 代实现了 7 倍加速。现代大语言模型(LLM)在本质上依赖矩阵乘法,尤其是在其全连接层或线性层中,矩阵乘法是核心计算元素。因此,这些运算的效率至关重要。
FP4 精度能够更快、更高效地执行这些运算,所观察到的 GEMM 加速意味着整个预训练过程都显著加快,从而缩短训练时间,并支持更大规模模型的快速开发。
图 1:测得的 GEMM 性能显示,GB300 相比 Hopper 实现了 7 倍加速,通过更快的 FP4 优化矩阵乘法加速了核心 LLM 训练操作。
为了实现高效的低精度训练,NVIDIA 的 NVFP4 预训练方案采用了多项关键技术,这些技术是基于性能和精度精心选择的,包括:
1. 利用 NVFP4 的微块缩放增强数值表示
Blackwell 引入了对 NVFP4 的原生 Tensor Core 支持。NVFP4 是一种 4 位数值格式,可用于权重和激活值,采用微块缩放技术 —— 每 16 个 4 位元素共享一个公共缩放因子。相比 MXFP4 将块大小设为 32 元素,NVFP4 将块大小缩小至 16 元素,从而减少异常值的影响,实现更精确的缩放。更细粒度的缩放降低了量化误差,提升了模型整体精度。
2. 使用 E4M3 缩放因子的 NVFP4 高精度块编码
缩放因子精度在量化质量和精度中至关重要。不同于仅限于 2 的幂(E8M0)且易产生高舍入误差的 MXFP4,NVFP4 使用带额外尾数位的高精度 E4M3 缩放因子。这允许更细粒度的缩放,更有效利用有限的量化区间,并在块内更准确地表示数值。
3. 重塑张量分布以适应低精度格式
LLM 预训练期间的梯度和激活值通常存在大幅异常值,这会影响低精度量化。对 GEMM 输入应用 Hadamard 变换,可将其分布重塑为更接近高斯分布,从而平滑异常值,使张量更容易被精确表示。这些变换对模型结构是透明的,可在前向和反向传播的线性层中应用。
4. 使用量化技术保持数据一致性
为了确保训练稳定高效,英伟达采用保持前向和反向传播一致性的量化方法。诸如选择性二维块量化等技术,有助于在整个训练周期中保持张量表示的对齐。这种一致性对于最小化信号失真、改善收敛行为、增强整体鲁棒性至关重要,尤其是在 NVFP4 等低精度格式下。
5. 通过随机舍入减少偏差
与传统(确定性)舍入总是向最接近的可表示值舍入不同,随机舍入会根据数值在两个可表示值之间的位置,按概率向上或向下舍入。这一步骤对于减少舍入偏差、保持训练期间梯度流动以及最终提高模型精度至关重要。
图 2:英伟达的 NVFP4 预训练技术,用以实现高效低精度训练。
万亿级 Token 规模下的精度与稳定性
要让低精度格式在大规模预训练中实用,必须同时保证模型精度和收敛稳定性。
为了评估 4 位精度在大规模模型训练中的可行性,英伟达在一个 120 亿参数的混合 Mamba-Transformer 架构模型(12B Hybrid Mamba-Transformer)上进行了 FP8 和 NVFP4 的实验。
该模型类似于 NVIDIA Nemotron Nano 2,它在包含 10 万亿个 token 的超大数据集上进行训练,采用分阶段数据混合策略:在训练的 70% 阶段切换到不同的数据集混合,在预训练的 90% 阶段进行第三阶段数据切换。
该 12B Hybrid Mamba-Transformer 模型的一个版本最初使用 8 精度(FP8)进行训练。之前的研究表明,FP8 的精度与 16 位精度非常接近,因此 FP8 被作为英伟达的基线进行对比。
随后,英伟达成功地从零开始使用 NVFP4 训练同样的 12B 模型,证明这种新的低精度格式可以支持万亿级 Token 规模的完整预训练。并且,NVFP4 在训练过程中表现出稳定的收敛性,没有通常困扰超低精度训练的不稳定性或发散问题。
下图 3 显示,NVFP4 的验证损失曲线在整个训练过程中与高精度基线(即 FP8)的损失曲线高度一致。上述量化技术确保即使在大幅降低位宽的情况下,4 比特预训练的动态表现仍与高精度训练非常接近。
图 3:在对 120 亿参数的 Hybrid Mamba-Transformer 模型进行预训练时,对比使用 FP8 与 NVFP4 精度在 10 万亿 tokens 下的验证损失结果显示,NVFP4 的损失曲线在整个训练过程中与 FP8(基线)的曲线高度吻合。
随后,英伟达使用 NVFP4 预训练 120 亿参数的 Hybrid Mamba-Transformer 模型,并与更高精度的 FP8 基线在多个下游任务与智能领域进行了对比。
如下图 4 所示,在所有领域中,NVFP4 的准确率表现均与 FP8 相当,甚至在代码领域实现了反超,展现了其有效性。该结果进一步强化了最初的假设:即使在万亿 token 规模下,NVFP4 依然是大语言模型预训练的稳健选择,验证了其在高效大规模前沿模型训练中的潜力。
图 4:分别使用 FP8 精度(基线)和 NVFP4 精度,对 120 亿参数的 Hybrid Mamba-Transformer 模型进行预训练,此时的下游任务准确率对比。
聪明训练,而不是一味加码
根据英伟达的说法,NVFP4 格式正在重新定义 AI 训练的格局,并可以为实现速度、效率和有目的创新设立新的标杆。通过实现 4 比特预训练,NVFP4 让 AI 工厂更快、更可持续地扩展,为全新的生成式 AI 时代打下基础。
另外,作为一种动态且不断演进的技术,NVFP4 将持续为前沿模型团队创造新的机遇,推动节能高效和高性能的 AI 发展。凭借计算效率的突破,4 比特预训练将赋能更先进的架构、更大规模的训练和 token 处理,从而为未来的智能系统注入新的动力。
原文地址:https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/
#OpenAI员工闪辞Meta回归
入职不到30天,赵晟佳也反悔过
距离 Meta 宣布成立超级智能实验室仅过去两个月,陆续已经有多位研究员离职了。
昨天被爆出离职的有两位,一位是专注于强化学习的 Rishabh Agarwal(去向未定);另一位是已经在 Meta 工作了 12 年、参与了 PyTorch 构建的 Bert Maher(确定加入 Anthropic)。可参考《一天之内,Meta 痛失两员大将,小扎钞能力失效?》。
就在外界还在热议 Meta 一天之内痛失两员大将之际,今天又传出了新的离职消息。
据外媒 WIRED 报道,两位前 OpenAI 研究员加入不到一个月就重返老东家了。
一位名叫 Avi Verma,此前是 OpenAI 的研究员。另一位是 Ethan Knight,他早年也在 OpenAI 工作过,是从马斯克的 xAI 跳槽至 Meta 的。
另外,Meta 生成式 AI 产品管理总监 Chaya Nayak 也将加入 OpenAI。
有意思的是,据多位直接知情人士透露,在扎克伯格宣布赵晟佳(ChatGPT 联合创始人)为超级智能实验室首席科学家之前,他曾试图回到 OpenAI,甚至签署了入职文件。这一细节耐人寻味。
对于这些人员的出走,网友也是看热闹不嫌事大:「他们是 Sam 安插在 Meta 团队里的卧底吧?这反转也太快了。」
还有人表示:「人才总会向共鸣的地方聚拢。如果同一周内就有两个人回到 OpenAI,从数学上讲,这不是巧合,而是趋势。缺乏凝聚力的系统,终将从内部崩塌。」
对此,Meta 发言人 Dave Arnold 表示:「在激烈的招聘过程中,有些人会选择留在现有工作岗位,而不是开始一份新工作。」
并补充道:这很正常。
这些人员的离开表明 Meta 超级智能实验室的开局并不顺利。扎克伯格曾以九位数的薪酬吸引人才加入,这种薪资待遇更常见于职业体育明星而非科技工作者。现在看来,高薪也留不住有抱负的科研人员。
此前,在 Meta 挖角狂潮刚开始时,OpenAI 高层曾明显感到不安。CEO Sam Altman 在给员工的备忘录中批评 Meta 的行为令人反感。他写道:我已经数不清他们试图从我们这里挖走了多少人去做他们的首席科学家。
现在看来,Sam 的担忧好像有点多余。
接下来,我们看看这两位研究员的背景。
Avi Verma
Avi Verma 本科毕业于斯坦福大学。
他于去年 6 月加入 OpenAI ,之后接受了扎克伯格的邀请加入 Meta。现在已重返 OpenAI。
在此之前,他在特斯拉工作了近四年,于 2020 年 10 月以实习生身份开始工作,最终以高级机器学习工程师的身份离职。
看来,Avi Verma 还来不及把 Meta 写进简历,就已选择离开。
Ethan Knight
Ethan Knight 本科毕业于斯坦福大学。2018 年加入 OpenAI,致力于 AI 安全方面的工作。之后在特斯拉工作了 5 年之久,在此期间担任计算机视觉科学家,他是团队的核心技术骨干之一,深度参与了特斯拉 FSD(全自动驾驶)系统的研发工作。他的工作重点是利用摄像头和人工智能进行环境感知,这是特斯拉纯视觉自动驾驶方案的核心。
他被招入 Meta 的超级智能实验室后仅任职不到一个月,就选择离开,回到 OpenAI。
参考链接:https://www.wired.com/story/researchers-leave-meta-superintelligence-labs-openai/
#We-Math 2.0
全新多模态数学推理数据集 × 首个综合数学知识体系
本文作者来自北京邮电大学、腾讯微信、清华大学。共同第一作者为北京邮电大学博士生乔润祺与硕士生谭秋纳,其共同完成的代表性工作 We-Math 于 ACL 2025 发表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多个顶会中有论文发表。本文的通讯作者为博士生导师张洪刚与微信视觉技术中心李琛,We-Math 系列工作为乔润祺在微信实习期间完成。
- 论文标题:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
- 论文链接:https://arxiv.org/abs/2508.10433
- 主页链接:https://we-math2.github.io/
- 代码链接:https://github.com/We-Math/We-Math2.0
- 数据集链接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard
近期,多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。然而,在逻辑性与知识系统性要求极高的数学任务中,模型仍然达不到像人类一样进行严密推理的水平,这一问题仍然是开放性难题。
对此,我们仍然认为理想的学习范式应该是让模型先掌握所需的知识,再进一步提升泛化能力。基于这一思考,我们提出了 We-Math2.0:
1. MathBook Knowledge System:我们首先搭建了一个系统性、完整、相对正交的知识体系:包含 5 个层级,491 个知识点与 1819 个知识原理,覆盖了小学、初中、高中以及部分大学及竞赛的知识。
2. MathBook-Standard:基于知识体系,我们发现开源数据集存在无法完整覆盖、知识无法完成解构等问题,对此我们选择对每个知识体系进行手动构建题目、画图,并结合一题多图、一图多题两种思想,实现每个知识原理对应包含多个问题。
3. MathBook-Pro:我们希望进一步构造一个以模型为中心的数据空间来提升泛化能力。基于 MathBook-Standard 与知识体系,我们通过题目所需知识点数量、视觉复杂度、场景复杂度等三个维度对题目难度进行延展,将一条训练数据拓展为 8 个不同难度的样本。
4. 训练策略:基于所构建的数据集,我们首先通过 1000 条数据进行 SFT 冷启动微调,旨在改变模型的输出范式,进一步首先利用 MathBook-Standard 的数据,构建了均值奖励,旨在通过以知识原理为单位对模型进行奖惩。在此基础上,我们利用 MathBook-Pro 的数据,构建了动态调度训练(知识调度与模态调度)从而提升模型的泛化能力。
5. MathBookEval: 为了进一步评测模型在全面知识与推理深度层面的能力,我们提出了包含 1000 条样本的 MathBookEval
为了实现严谨、高质量、具备高复杂度的图像数据,我们的全部数据均为手动利用 Geogebra 专业化软件新渲染而成,我们希望先通过手动构造高精度的数据来验证这一思想的可行性。
目前不仅在 X 上收获了一定的关注度,并且荣登 Huggingface Paper 日榜第一名!
We-Math 2.0
知识体系(MathBook knowledge system)
我们按照「定义 — 定理 — 应用」的思想构建了包含 5 个层级、491 个知识点、1819 个知识原理的知识体系,确保数学概念之间的层次关系与逻辑关联得到清晰呈现,知识点之间、知识原理之间尽可能相互独立。
具体而言,每个知识点均对应若干条基本原理。例如,在「三角形的面积」这一知识点下,细分为「三角形面积的基本公式」、「海伦公式」、「三角函数法面积公式」等不同的知识原理。
做法层面:一方面由人类专家基于教材、维基百科和国家课程标准设计初始结构;另一方面,收集开源数据集通过 GPT-4o 进行初步打标,并通过层次聚类生成知识体系。最终,由专家对两者进行融合与修改,形成高质量的知识体系。
可以在我们的网站当中看到可视化的知识体系。
MathBook-Standard:双向数据扩展策略
MathBook-Standard 采用「一题多图」和「一图多题」的双向数据扩展策略,每道题目都标注了对应的多层级知识点,并严格覆盖所提出的 1819 个数学知识原理。
具体而言,「一题多图」是为同一道题生成不同的视觉变式,例如,一个关于三角形的种子问题可以通过改变角度生成不同类型的三角形图像(如锐角、直角、钝角三角形),从而提升模型在同一知识原理下的泛化能力;「一图多题」则由专家基于同一图像设计多个针对不同知识原理的新问题,全面考察不同的数学知识。
- 数据集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard
MathBook-Pro
聚焦以模型为中心的学习路径,MathBook-Pro 首次实现了针对多模态数学题目的三维难度建模。具体来说,我们从以下三个维度对每个种子问题进行难度扩展:
- 推理步骤复杂度:通过增加题目涵盖的知识点数量(不少于 6 个),系统性提升题目的逻辑难度。
- 视觉复杂度:在保持核心几何结构不变的基础上,利用 GeoGebra 增加辅助元素或调整几何配置,逐步增强图像的视觉难度。
- 语境复杂度:将问题描述从简明的数学叙述拓展到更为复杂的现实或抽象情境,提升模型对语义和语境的理解能力。
每道种子题目可在这三大维度内扩展为 7 个难度层级,为后续的动态调度和强化学习训练提供坚实基础,助力模型实现更稳健的泛化能力。
- 数据集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)
训练策略
SFT 冷启动
首先,我们精选了 1,000 条涵盖全部知识原理的数据,通过监督微调(SFT)实现模型冷启动,让模型初步掌握知识导向的推理链,激发潜力。随后,我们采用 GRPO 算法进行两阶段渐进式强化学习:
预对齐强化学习
基于 MathBook-Standard,在每组包含相同知识原理的问题中,采用均值奖励计算。对于一组变体题目:
奖励计算为:
具体而言,平均奖励不仅聚焦于单个问题,还反映了模型对同一知识原理下所有问题掌握情况,从而提供更全面的评价。
动态调度学习
基于 MathBook-Pro,动态调度策略能够根据模型的错误类型,智能地调整训练数据。MathBook-Pro 为每个种子问题构建了一系列难度逐渐增加的变体,如下所示:
其中,s,v,c 分别表示在推理步骤、视觉和语境上的复杂度增量,这就为每个种子题目形成了一条从基础推理到高级推理的渐进路径,基于此展开的增量学习机制如下:
- 知识增量调度:对于从
-
- ,若模型在
-
- 上表现不佳,那么会先在
-
- 上进行训练,其中包含多个针对新增知识点所设计的单知识原理问题。
- 模态增量调度:当从
-
- 或
-
- 时,如果模型无法解决后者,则调度学习对应的
-
- 或
-
- ,该集合包含专门聚焦新增视觉复杂或语境抽象部分的训练样本。
实验结果
主要结果
- 较 Baseline 有稳定提升:我们基于 Qwen2.5-VL-7B 开发了 MathBook-7B,并在四个主流数学推理测试集(MathVista、MathVision、MathVerse、We-Math)上进行了评估。结果显示,MathBook-7B 的平均性能较 Qwen2.5-VL-7B 提升超过 5%。
- 优异的知识泛化能力:在 MathVista 和 We-Math 测试集上,MathBook-7B 展现出优异的知识泛化能力,能够高效解决多领域的复杂多步问题及其子问题,性能超过了其他强化学习方法的基线模型。
- 用相对较少的数据解锁较大的潜力:MathBook-7B 最终用 10K 左右的数据量训练即达到与大规模数据集同等效果,充分凸显了高质量数据与结构化知识体系的高效性。
消融实验分析
- 每个模块均有性能提升,预对齐强化学习最有效:冷启动微调与两阶段强化学习策略均提升了模型性能。特别是预对齐强化学习后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的结果,这凸显了知识学习在增强数学推理能力方面的关键作用。
- SFT 带来的性能提升有限,但对于释放强化学习的潜力至关重要:SFT 有效改变了模型推理范式,为后续 RL 优化提供了基础,从而显著提升了整体性能。(可以从后续的案例分析中看到变化)
- SFT 人类自然的语言形式优于结构化形式:通过对 SFT 数据范式与规模进行分析,我们发现,采用自然语言形式的 CoT(Chain-of-Thought)作为 SFT 数据优于结构化推理链,更能激发模型灵活推理能力的提升。
- SFT 少量数据足以释放强化学习的潜力:扩大 SFT 数据规模并非总能带来更好的性能 —— 在少量精心挑选的 SFT 数据上训练的模型,其表现可与大规模数据集模型媲美,甚至更优。
实例分析
我们在附录中提供了具体的回答案例。对比表明,通过在 SFT 阶段改变了输出范式,MathBook-7B 能够提供更简洁、更精准的推理过程。例如,在 MathVision 测试集上,MathBook-7B 的回答更加简洁,平均响应长度减少,但仍保留了所有必要的知识推理步骤,解决了基线模型「过度思考」的问题。我们认为这种思路可以与构建自我思考、自我反馈的方法结合,旨在让模型在正向推理过程中高效有效地利用知识推理。
MathBookEval 中的实验结果
- 知识点数量影响显著:模型准确率与题目知识点数量呈负相关,尤其在涉及 7-10 个知识点时,大多数模型准确率低于 50%,凸显多步推理的挑战性,验证了知识点数量作为难度指标的有效性。
- 代数与几何表现差异明显:模型在代数题上表现较好,准确率普遍超过 50%;但在几何题上表现较差,反映出空间推理能力的不足。
We-Math 系列工作
我们希望通过 We-Math 系列工作,以长期且持续系统性的努力,推动多模态数学推理的发展。其愿景希望让模型像人类一样可以依据知识解决问题,同样也能在未来成为人类的学习助手。
具体而言,We-Math (ACL 2025) 聚焦于模型的评测,2.0 版本更加聚焦于模型的训练,现阶段我们通过手动构建高精度的知识体系与题目验证了这一思路的有效性。
从数据集的角度看,2.0 版本更希望凸显 MathBook-Standard 的高质量与知识覆盖全面性而 MathBook-Pro 则更多的是传达一个有更多可能性的思路,后续我们也会进一步依照知识体系与三维空间探索大规模自动构建的可能性。
此外,2.0 版本我们也会将全部的图像数据与 GGB 源文件开源,我们认为这不仅会对多模态推理有所贡献,也会对 AI for Education 有着一定的贡献,相信在未来,知识学习会是很重要的基石。
#ICLR最严新规来了
拒稿警告,靠大模型「偷摸水论文」被堵死
刚刚,又一个人工智能国际顶会为大模型「上了枷锁」。
ICLR 2025 已于今年 4 月落下了帷幕,最终接收了 11565 份投稿,录用率为 32.08%。
就在今天,ICLR 2026 出台了大语言模型(LLM)使用政策,以明确规范论文作者与审稿人在研究过程和审稿过程中使用 LLM 的做法。
这届会议将于明年 4 月 23 日至 27 日在巴西里约热内卢举办。
此次发布的所有政策均以 ICLR《道德准则》为基础,旨在确保学术诚信,同时规避 LLM 可能带来的风险,如事实幻觉、剽窃或数据失实。
以下是两项核心政策:
政策1:任何对 LLM 的使用都必须如实披露,这遵循了《道德准则》中「所有对研究的贡献都必须得到承认」以及「贡献者应期望……为其工作获得认可」的政策。
政策2:ICLR 的论文作者和审稿人最终要为自己的贡献负责,这遵循了《道德准则》中「研究人员不得故意做出虚假或误导性的声明,不得捏造或伪造数据,也不得歪曲结果」的政策。
违反上述政策的投稿将面临具体处罚,其中最严重的后果之一是直接拒稿 (desk rejection)。
具体应用场景说明
为阐明政策的实际应用,ICLR 官方列举了几个关键场景:
- 辅助论文写作
作者在使用 LLM 辅助润色语法、调整措辞甚至草拟章节后,必须明确披露其使用情况。作者对论文的全部内容,包括 LLM 生成的任何错误或不当内容,承担全部责任。
- 辅助研究
当 LLM 被用于提出研究思路、生成实验代码或分析结果时,同样需要披露。人类作者必须对 LLM 贡献的有效性和准确性进行验证。ICLR 强调,即使研究工作由 LLM 大量完成,也必须有一名人类作者来承担最终责任。
- 辅助撰写审稿或元审稿意见
审稿人或领域主席 (Area Chair) 在撰写审稿或元审稿意见时使用 LLM 必须披露。审稿人不仅要对审稿意见的质量和准确性负责,还必须确保使用 LLM 的过程不会泄露投稿论文的机密信息。违反保密规定可能会导致该审稿人自己提交的所有论文被直接拒稿。
- 禁止「提示词注入」
严禁作者在论文中插入旨在操纵审稿流程的隐藏「提示词注入」(例如,用白色字体诱导 LLM 给出好评)。详见xx报道:真有论文这么干?多所全球顶尖大学论文,竟暗藏 AI 好评指令
这种行为被视为串通 (collusion),是一种严重的学术不端行为。论文作者和审稿人都将为此负责。
ICLR 不是孤例,其他顶会也有相关规定
随着大语言模型能力的持续增强,应用范围不断拓展,其触手也伸向了论文写作。从论文撰写到审稿反馈,LLM 的使用能够显著提升效率。
与此同时,过度依赖或不当使用 LLM 也引发了担忧,并导致一些学术不端现象的出现,包括虚假引用、抄袭拼接或责任模糊,这些都对科研诚信以及学术评价的公正性构成了挑战。
而作为人工智能领域最具影响力的科研平台,各大顶会投稿数量正以每年数以千计的规模递增,不可避免地面临着 LLM 所带来的种种压力。
为了确保研究成果得到公平的评判并对审稿过程进行有效监督,近年来,包括 NeurIPS、ICML 以及如今的 ICLR 等国际顶会都相继制定 LLM 使用细则,以约束论文作者和审稿人的行为。
其中,NeurIPS 2025 规定了:
「允许 LLM 作为工具,但论文作者若将其作为核心方法则必须详细描述;审稿人则严禁将任何机密信息(如稿件内容)输入 LLM,仅可在不泄密的前提下用于辅助理解或检查语法。」
网站地址:https://neurips.cc/Conferences/2025/LLM?utm_source=chatgpt.com
更早时候的 ICML 2023 规定:
「禁止提交完全由大语言模型(如 ChatGPT)生成的论文文本,但允许使用其编辑和润色作者自己撰写的文本,以防范剽窃等潜在风险。」
网站地址:https://icml.cc/Conferences/2023/llm-policy?utm_source=chatgpt.com
其他如 IEEE 相关会议也规定了:
「需要负责任地使用生成式 AI 作为辅助研究的工具,但强调人类作者和审稿人必须对工作的科学诚信与保密性负全部责任。对于作者,必须在致谢部分明确声明所用 AI 工具及具体用途,并对所有内容的准确性和原创性负责,同时严禁利用 AI 伪造数据。对于审稿人,则出于严格的保密原则,绝对禁止将所审稿件的任何信息输入到任何 AI 系统中。」
网站地址:https://www.ieee-ras.org/publications/guidelines-for-generative-ai-usage?utm_source=chatgpt.com
ACM 相关会议同样有类似规定:
「如果使用 LLM(如 ChatGPT)生成文本、表格、代码等,必须在致谢或正文中明确披露对应工具和使用方式;仅用于语言润色的小规模修改可以不用披露。」
网站地址:https://www.acm.org/publications/policies/frequently-asked-questions?utm_source=chatgpt.com
可以预见,越来越清晰的 LLM 使用细则,将进一步促进 AI 工具的透明、合理使用,并形成更系统的学术规范。
#BGE-Reasoner
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架
人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有顶尖团队面前的核心难题。这个难题,就是推理密集型信息检索(Reasoning-Intensive IR)。
它不仅是当前 RAG 和 AI Agent 技术发展的关键瓶颈,更对大模型智能体和深度研究(DeepResearch)等应用场景的成败具有决定性意义。
正当全球研究者都在为此寻求突破之际,我们看到了一项来自中国的贡献:BGE-Reasoner。
BGE-Reasoner 由来自中国科学技术大学、智源研究院、北京邮电大学与香港理工大学等机构的联合团队研发,是一套用于推理密集型信息检索任务的创新的端到端解决方案。通过系统性的查询理解、向量检索与重排序,该方案可显著提升搜索引擎在推理密集型信息检索任务中的表现。
在权威评测基准 BRIGHT 上,BGE-Reasoner 取得 45.2 的测试得分,以显著优势刷新了该基准的最佳纪录。
作为 BGE 系列模型的又一重要里程碑,BGE-Reasoner 不仅实现了性能上的突破,更为解决推理密集型检索这一行业难题提供了一套行之有效的新范式。从技术洞察来看,本次成果的核心创新主要体现在以下三个方面:
- 一个可复制的框架: 提出了一个由 Rewriter、Embedder 和 Reranker 组成的三阶段模块化框架,为处理复杂查询提供了清晰、高效的工程范式。
- 数据驱动创新: 探索并证明了利用大模型合成高质量、多领域推理训练数据的可行性,巧妙地解决了该领域训练数据稀缺的核心瓶颈。
- 强化学习赋能: 成功将强化学习应用于 Reranker 训练,让模型在面对困难样本时具备了更强的推理和泛化能力。
相关模型权重、训练代码及训练数据即将面向社区开放,进一步推动该领域的研究与应用发展。
项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner
简介
推理密集型信息检索(Reasoning-Intensive IR)是近年来兴起的一类新型信息检索任务。与传统检索不同,它不仅依赖语义匹配,还需要综合运用深层逻辑推理、多步语义链以及相关背景知识,才能在查询与目标文档之间建立起正确的语义关联。
为推动该领域研究,香港大学、普林斯顿大学和斯坦福大学联合提出了首个面向推理密集型检索的权威评测基准 BRIGHT。该基准汇集了来自 StackExchange、LeetCode、数学竞赛等领域的真实查询,并将其与需要多步推理才能识别的相关文档进行配对,用于评估检索系统在复杂推理场景下的能力。
在 BRIGHT 基准下,传统依赖关键词匹配或简单语义相似度的方法往往难以定位真正相关的目标文档,暴露出当前检索系统在复杂推理场景中的不足。因此,如何在推理密集型检索中提升系统性能,成为推动检索增强生成(RAG)在复杂推理任务中发展的关键问题。
图 1. 不同于基于关键词和直接语义匹配的检索任务,BRIGHT 评测基准关注于推理密集型场景下的检索任务
在这一背景下,BGE-Reasoner 在推理密集型检索任务中展现出卓越性能。在 BRIGHT 榜单中,它超越了此前由蚂蚁、百度、字节跳动、人民大学、滑铁卢大学等机构提交的成果,并以领先第二名 3.6 分的优势刷新纪录。与此同时,其内置向量模型 BGE-Reasoner-Embed 也大幅超越了 Seed1.5-Embedding、Qwen3-Embedding、GTE 等当前最强基线模型,展现了显著的性能提升。
图 2. 在 BRIGHT 榜单上,BGE-Reasoner 取得 SOTA 表现于 8 月 21 日荣登第一名,BGE-Reasoner-Embed 使用原生查询即表现出色,在向量模型中取得 SOTA 结果,榜单链接:https://brightbenchmark.github.io
图 3. BGE-Reasoner 及 BGE-Reasoner-Embed 与基线模型在 BRIGHT 上的检索表现对比图
技术分析
BGE-Reasoner 采用信息检索中的经典三模块体系:
- 查询理解 —— BGE-Reasoner-Rewriter:对初始查询进行理解与改写,生成更适合检索的优化查询;
- 向量模型 —— BGE-Reasoner-Embed:与 BM25 协同利用改写后的查询进行检索,获取候选文档集合;
- 排序模型 —— BGE-Reasoner-Reranker:对候选文档进行重排序,得到更为准确的排序结果。
在实际工作流程中,用户的原始查询首先经过 BGE-Reasoner-Rewriter 改写,然后由 BGE-Reasoner-Embed 与 BM25 并行检索得到候选文档,最后交由 BGE-Reasoner-Reranker 进行精排。系统通过集成多路结果,输出最终排序,完成端到端的推理式检索流程。完整框架如下图所示:
图 4. BGE-Reasoner 的端到端检索流程示意图
数据合成。不同于传统的开放式问答场景,推理密集型信息检索场景下的训练数据十分稀缺。为了解决这一问题,智源及合作机构的研究团队诉诸于基于大语言模型的数据合成策略。具体来说,基于现实场景中存在的知识密集型语料库,合成出针对特定场景的高质量推理密集型查询,然后借助于大语言模型强大的理解能力为每个查询构造出高质量的正例和负例。最终构造出一份覆盖数学、代码等多个领域的高质量推理密集型检索训练数据,为后续各个模块的训练提供支撑。
查询理解。在查询理解模块中,研究人员基于前述合成数据,借助推理能力较强的教师模型生成多条推理路径,并通过拒绝采样策略筛选高质量结果以构建训练样本。随后,利用这些训练数据对 Qwen2.5-7B-Instruct 模型进行微调,从而显著提升其在查询理解与改写方面的能力,最终得到 BGE-Reasoner-Rewriter。
向量模型。内嵌的向量模型 BGE-Reasoner-Embed 基于 Qwen3-8B 基座模型进行微调。依托高质量的合成训练数据,模型在推理密集型检索任务中的能力得到了显著增强。在 BRIGHT 基准下,无论是基于原始查询还是 GPT-4 推理查询,BGE-Reasoner-Embed 均取得了当前向量模型中的最佳检索表现,充分验证了所构建合成数据的有效性。
排序模型。内嵌的排序模型 BGE-Reasoner-Reranker 基于 Qwen3 系列基座模型进行微调。结合任务场景下的相关性定义,模型能够在查询与候选文档之间展开细粒度推理,识别关键信息片段并准确评估相关性。在训练过程中,引入强化学习以提升模型在困难样本上的推理能力;在推理阶段,模型通过测试时扩展(test-time augmentation)获取更加稳健的相关性评分,从而进一步增强排序性能。
图 5. BGE-Reasoner-Reranker 的推理过程示意图
总结
BGE-Reasoner 的卓越表现充分验证了强化学习与合成数据在推理密集型信息检索中的重要作用,为未来 Agent Search 的发展提供了关键支撑。
智源研究院将持续深耕向量模型与检索增强技术,不断提升 BGE 系列模型的能力与通用性。未来期待与更多科研机构及产业伙伴合作,共同推动检索与人工智能的发展,欢迎研究者与开发者关注并使用 BGE 系列模型,共建开放繁荣的开源生态。
#国家定调「人工智能+」
中国AI十年三步走,战略解读来了
十年时间,中国将全面AI化。
中国 AI 进入新的十年,从产业赋能升级至社会重构。
2025 年 8 月,国务院印发《国务院关于深入实施“人工智能+”行动的意见》(以下简称《行动意见》),为人工智能发展描绘了至 2035 年的战略蓝图。
从文件定位、发展目标到重点任务,这份「顶层设计」释放出中国 AI 发展的新方向:它不再只是产业升级的工具,而是推动中国现代化的基础设施和新质生产力核心。
为实现这一目标,文件提出「三步走」——
- 到 2027 年,率先实现人工智能与 6 大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超 70% ;
- 到 2030 年,我国人工智能全面赋能高质量发展,新一代智能终端、智能体等应用普及率超 90%,智能经济成为我国经济发展的重要增长极,推动技术普惠和成果共享;
- 到 2035 年,我国全面步入智能经济和智能社会发展新阶段,为基本实现社会主义现代化提供有力支撑。
十年后,AI 要像电力、互联网一样全面普及,成为社会的「底层设施」。
近期目标( 2027 年):点状突破,六大领域加速落地,
智能终端与智能体成为关键载体
未来两年,要率先实现从技术突破到场景落地,重点聚焦六大领域:科技、产业、消费、民生、治理、全球合作。
作为推动人工智能广泛应用的关键载体,新一代智能终端和智能体普及率需突破 70%。
正如天使投资人、资深人工智能专家郭涛在接受《第一财经》采访时所指出的,这些领域的共同特点是数据入口清晰、商业闭环明确、技术扩散效应强,契合「以点带面」的推进逻辑,将成为政策落地的核心抓手。
在科学技术领域( AI for Science, AI4S ),AI 不再只是辅助工具,而有望成为未来科研的新范式,甚至为哲学社会科学开辟全新研究路径。
例如,文件首次提出建设科学大模型,推动科研从「0到1」的范式革命;同时,AI 也将改变研发链条,大幅缩短实验室与市场之间的距离。
在产业领域,既要推动 「三大支柱产业」(工业、农业、服务业)的智能化改造,也要孕育全新的 「智能原生产业」。
其中,「智能原生企业」是政策亮点:它们以 AI 为底层逻辑构建业务,正如「互联网原生公司」(如美团、滴滴)在移动互联网时代崛起一样,AI 时代将涌现出基于智能体的客服平台、AI 驱动的自动化设计公司等新型企业形态,成为未来政策重点扶持对象。
尤其在服务业,AI 应用前景最为广阔,智能体与新一代智能终端(AI 手机、AI PC、智能助手)将成为新的服务入口。
在消费领域,AI 不仅推动生产端效率提升,也将深度重塑服务形态与产品形态,直接面向个人和家庭,提升生活品质与消费体验。
- 产品层面:汽车、手机、电脑、机器人、家居、穿戴设备都将以 AI 作为「大脑」,实现万物互联。
- 服务层面:从数字化便利进化到「认知与情感消费」,未来 AI 不止是「帮你买」,更能陪伴与启发。
在民生领域,AI 将真正「走进生活」,从 工作、教育、健康到文化与社交,构建一个更智能的工作方式、更个性化的学习模式、更有温度的社会。政策还鼓励 AI 在文化生产中创造更多具有「中国元素」的作品,强化文化自信。
在治理领域,AI 将全面提升治理现代化水平。社会治理,从智慧城市到智能政务,实现人机共治。安全治理,构建立体化智能安全体系,强化国家安全。生态治理,借助 AI 推动「美丽中国」建设,支撑绿色转型。
在全球合作领域,中国将倡导 「普惠共享」路线,与「安全限制」模式形成对比,为全球人工智能治理贡献中国方案。
中期目标( 2030 年):
从点到线,智能经济成为增长极
到 2030 年,「 AI+」的内涵将从六大领域,进一步扩展到「智能经济」方方面面,成为驱动国民经济的「重要增长极」。
届时,新一代智能终端与智能体的应用普及率,也将从 2027 年的 70% 提升至 90% 以上。90%,意味着几乎每个行业、每个组织乃至大部分个人用户都在使用智能终端或智能体,AI 从场景落地走向经济驱动。
这一趋势并非空想。 Nature 曾报道非营利研究机构 METR 提出的「智能体摩尔定律」:智能体的能力大约每 7 个月翻一倍。按照这个节奏,大约到 2028 年末, AI 就能自动完成很多人类现在要花一个月才能完成的任务。如果 2027 年智能体普及率能够达到七成,那么在技术指数级迭代的推动下,2030 年突破九成或许也是水到渠成。
值得注意的是,文件同时强调了技术普惠和成果共享,体现出社会公平和价值分配意识。
远期目标( 2035 年):从线到面,智能社会、现代化的有力支撑
到 2035 年,AI 将从智能经济的重要增长极,全面渗透到智能社会,成为中国现代化的有力支撑。
智能社会,不仅仅是经济层面的变革,更是社会层面的深刻转型。AI 将渗透到人们生活的方方面面,包括公共服务、城市治理、个人生活等,形成一个高效、便捷、可持续的智能生态系统。
基本实现社会主义现代化,表明 AI 的发展已经成为实现国家长期发展目标的重要支撑。
模型、数据、算力、开源:四位一体,推动 AI 产业加速发展
最近一段时间,国内 AI 公司不断发布新一代开源大模型,Design Arena 排行榜上前 15 位的开源 AI 模型全部来自中国。
在 Hugging Face 发布的中国 AI 社区 7 月开放成果中,包括阿里、智谱、昆仑万维、月之暗面、腾讯、阶跃星辰等在内的多家厂商先后开源了 33 款大模型。
此前还有机构 Interconnects(深度聚焦前沿 AI 研究的高质量内容平台)汇总了国内顶尖的 19 家开源模型实验室,包括 DeepSeek 这样的顶级机构,以及一些通过技术报告和小众模型崭露头角的新兴学术实验室。
此次《行动意见》也明确提出要支持人工智能开源社区建设,促进模型、工具、数据集等汇聚开放,培育优质开源项目。对此,政府鼓励高校将开源贡献纳入学生学分认证和教师成果认定,支持企业、高校、科研机构等探索普惠高效的开源应用新模式。
模型、数据和算力正成为全球 AI 竞争的「三个制高点」,中国通过开源浪潮与政策引导的结合,正在形成科研、产业与应用的合力,推动AI产业进入新一轮加速发展阶段。
《行动意见》明确提出要全面提升模型、数据和算力的基础支撑能力。
在模型方面,强调加强人工智能基础理论研究和模型基础架构创新,推动训练与推理效率的提升,探索模型应用新形态,并建立健全模型能力评估体系,确保模型迭代可控可验。
在数据方面,意见提出建设高质量数据集,完善数据产权与版权制度,推动公共财政资助项目形成的版权内容依法合规开放,探索基于价值贡献度的数据成本补偿与收益分成机制,支持发展数据标注、数据合成等技术。
在算力方面,意见明确支持人工智能芯片创新与超大规模智算集群建设,完善全国一体化算力网,推动「东数西算」等枢纽作用发挥,同时鼓励标准化、可扩展的算力云服务。
监管与安全:中国 AI 治理进入制度化新阶段
从「模型幻觉、算法歧视」到备案制度,监管也即将全面升级。
《行动意见》不仅强调要在算法、数据、算力基础设施和应用系统等各个环节构建安全能力,还明确提出要正视和应对当下 AI 发展带来的典型风险(全文提及「安全」共 12 处),例如模型的黑箱问题(不可解释性)、幻觉(生成虚假或不可靠信息)、算法歧视(对群体或个体的偏见)。
它与国际上强调的「可解释 AI 」和「负责任 AI 」理念高度呼应,体现了中国在人工智能治理中力图兼顾安全与发展的整体思路。
实际上,今年国家各部门也都密集出台了不少关于人工智能治理方面的政策文件。
比如 3 月 14 日,国家网信办、工信部、公安部、广电总局四部门联合发布《人工智能生成合成内容标识办法》,将于 2025 年 9 月 1 日开始施行。该办法要求所有AI合成内容都必须依法打「电子水印」。
具体来说,服务提供者对 AI 生成的文字、图片、音视频、虚拟场景等内容强制添加显式和隐式标识,保障公众知情权与追溯性;传播平台需核验标识并提醒公众;应用上架需审查合规;用户发布须主动声明并标识,严禁篡改或删除标识。
3 月 21 日,国家网信办、公安部发布《人脸识别技术应用安全管理办法》,自 2025 年 6 月 1 日起施行。
该办法核心在于严格规范人脸识别的使用,要求明确目的、必要性和最小化原则,需取得单独同意并保障未成年人权益;数据应本地存储并限期保存,重要应用须备案;对于身份验证,不得强制以人脸识别作为唯一方式,应提供替代手段;公共场所采集需合理合法,禁止在私密空间布设设备;系统必须采取加密和安全防护措施,违法违规将依法追责。
结语
早在 2017 年,国务院就发布了《新一代人工智能发展规划》,成为首个国家级 AI 战略。
不过此次《关于深入实施“人工智能+”行动的意见》具有更加鲜明的专项聚焦和系统性,首次聚焦 「人工智能+」融合应用,从科技、产业、消费等六大领域进行系统性部署,体现出针对单一前沿技术的专项政策指导。
而且该意见更注重务实管用,针对人工智能在应用落地中存在的重硬轻软、应用碎片化、开源社区活跃度不高等问题,针对性提出系列举措。坚持分业施策,针对每个领域分别提出与人工智能的融合发展方向,形成各行业「人工智能+」思路主线。
政策文件链接:
国务院关于深入实施“人工智能+”行动的意见
https://www.gov.cn/zhengce/content/202508/content_7037861.htm
国家发展改革委有关负责同志就《关于深入实施“人工智能+”行动的意见》答记者问
https://www.gov.cn/zhengce/202508/content_7037920.htm
人工智能生成合成内容标识办法
https://www.gov.cn/zhengce/zhengceku/202503/content_7014286.htm
人脸识别技术应用安全管理办法
https://www.cac.gov.cn/2025-03/21/c_1744174262156096.htm
新一代人工智能发展规划
https://www.gov.cn/gongbao/content/2017/content_5216427.htm
参考链接:
https://www.yicai.com/news/102794683.html
#Atom-Searcher
Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品
尽管 LLM 的能力与日俱增,但其在复杂任务上的表现仍受限于静态的内部知识。为从根本上解决这一限制,突破 AI 能力界限,业界研究者们提出了 Agentic Deep Research 系统,在该系统中基于 LLM 的 Agent 通过自主推理、调用搜索引擎和迭代地整合信息来给出全面、有深度且正确性有保障的解决方案。
OpenAI 和 Google 的研究者们总结了 Agentic Deep Researcher 的几大优势:(1)深入的问题理解能力(Comprehensive Understanding):能够处理复杂、多跳的用户提问;(2)强大的信息整合能力(Enhanced Synthesis):能够将广泛甚至冲突的信息源整合为合理的输出;(3)减轻用户的认知负担(Reduced User Effort):整个 research 过程完全自主,不需要用户的过多干预。
现存最先进的 Agentic Deep Research 系统往往基于由可验证结果奖励指导的强化学习训练,尽管该训练范式带来了显著的性能收益,但仍存在以下核心问题:
- 梯度冲突(Gradients Conflicts):在基于可验证结果奖励的强化学习范式中,即使中间的推理过程或研究策略是有效的,只要最终答案错误,整个推理轨迹都会受到惩罚。这种粗粒度的奖励设计在中间推理步骤与最终答案之间引入了潜在的梯度冲突,阻碍了模型发现更优的推理能力和研究策略,从而限制了其泛化能力
- 奖励稀疏(Reward sparsity):基于结果的强化学习仅依赖最终答案生成奖励,导致每个训练样本只能提供稀疏的反馈信号。这严重限制了策略优化的效率,因为它增加了对更大规模训练数据和更长训练周期的依赖。
以上两个限制限制了 Agentic Deep Research 系统的性能上线,为决解这两大限制,来自蚂蚁安全与智能实验室团队提出了 Atom-Searcher,进一步推动了 Agentic Deep Research 系统的性能边界。
- 论文标题:Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
- 论文:https://arxiv.org/abs/2508.12800
- Github: https://github.com/antgroup/Research-Venus
- Huggingface: https://huggingface.co/dikw/Atom-Searcher
方法介绍
本研究提出了一种创新性的 Agentic Deep Research 系统训练框架 Atom-Searcher,结合监督微调(SFT)与基于细粒度奖励的强化学习构建强大的 Agentic Deep Research 系统。
与现存 Agentic Deep Research 训练框架相比,Atom-Searcher 创新地提出了 Atomic Thought 推理范式,引导 LLM 进行更加深入、可信和可解释的推理;然后引入 Reasoning Reward Model(RRM)对 Atomic Thought 式的推理过程进行监督,构建细粒度的 Atomic Thought Reward(ATR);进而提出一种课程学习启发的奖励融合策略将 ATR 与可验证结果奖励进行聚合;最后基于聚合奖励进行强化学习训练。
Atomic Thought 推理范式
针对 Agentic Deep Research 系统中 LLM 生成的推理轨迹(<think>)包含过多冗余 tokens 且推理深度欠缺的问题,Atomic Thought 范式将 <think> 分解为更加细粒度的 “功能单元”,如 <Verification>、<hypothesis > 等,该范式有助于引导 LLM 的推理过程更加符合人的认知行为,且高度模块化的方式能大大减少无意义 tokens。更进一步,为激发 LLM 自主将 < think > 分解为 Atomic Thoughts(<Verification>、<hypothesis > 等)的能力,作者们精心构建了 1000k 高质量 Atomic Thought 指令微调数据,对 LLM 进行 SFT。
细粒度 Atomic Thought Reward 构建
在 Agentic Deep Research 系统中,直接使用 Reasoning Reward Model(RRM)对推理过程进行监督,往往因为 < think > 中的低信噪比(过多冗余 tokens)而效果不佳。而 Atomic Thought 的提出,很好地解决了该问题,除了减少了 < think > 中的冗余 tokens,Atomic Thoughts(<Verification>、<hypothesis > 等)还为 RRM 提供了监督锚点,清晰的模块化结构使得 RRM 能够准确地评估每个功能单元的质量。因此,作者们引入 RRM 对 Atom-Thoughts 进行监督,从而得到细粒度的 Atomic Thought Reward,用于缓解强化学习训练中的梯度冲突和奖励稀疏问题。
课程学习启发的奖励聚合策略
基于可验证结果的奖励的 Agentic Deep Research 系统之所以存在梯度冲突问题,是由于基于结果的奖励在 token 级别的奖励分配上过于粗糙。具体来说,它将中间推理步骤的正确性完全归因于最终答案,常常在不考虑各步骤实际贡献的情况下对其进行奖励或惩罚。这种错位在优化过程中会引发梯度冲突。为解决这一问题,我们将 ATR 与结果奖励相结合,利用 ATR 作为辅助信号来校准结果奖励,从而缓解梯度冲突。
然而,使用静态的奖励加权系数无法与训练动态保持一致。具体而言,在训练初期,模型能力尚有限,难以生成完全正确的答案,但更有可能探索出对最终正确解有贡献的有用 “原子思维”。如果此阶段仅依赖基于结果的奖励,这些有益的原子思维可能因最终答案错误而遭到不公正的惩罚;相反,一些有害的原子思维也可能被错误地强化,导致严重的梯度冲突,因而需要 ATR 进行较强的校准。随着训练的推进,模型能力逐步提升,其推理轨迹与正确答案的对齐程度也日益提高。因此,梯度冲突逐渐减弱,而来自 ATR 的过度校准可能会引入不必要的噪声,反而损害最终的准确性。
强化学习训练
基于混合奖励,本文采用了 GRPO 算法进行强化学习训练。并使用了 Loss Masking 策略保证训练的稳定性。具体而言,在原始的 GRPO 框架中,损失函数会计算整个推理路径中所有 token 的梯度。但在 Atom-Searcher 中,模型的输出路径包含由外部环境检索得到的内容(如搜索结果),这些内容不是模型生成的,也不可训练。为了避免模型在训练时被这些静态、不可控的内容误导,本文采用了 Loss Masking 机制,将检索结果部分的 token 排除在损失计算之外。
实验效果
主实验
Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表现均十分亮眼。在 In-Domain Benchmarks (NQ、 TQ、HotpotQA、2Wiki)上 Atom-Searcher 相较于最优 baseline——DeepResearcher 取得了 8.5% 的平均性能提升,在 Out-of-Domain Benchmarks(Musique、 Bamboogle、 PopQA)上 Atom-Searcher 相较于最优 baseline——DeepResearcher 取得了 2.5% 的性能提升。
消融实验
作者们证明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的贡献,并证明了相较于传统的 < think > 推理范式 Atomic Thought 范式为 RRM 提供了有效的监督锚点,从而带来了性能提升
案例分析
作者们通过案例分析对比了 Atom-Searcher 与最优 baseline——DeepResearcher 的推理过程。展示了 Atom-Searcher 的优势:(1)Atom-Searcher 在其推理过程中自主生成了 Atomic Thoughts,展现出更接近人类的认知行为,例如问题分析、提出解决方案假设、预测错误以及规划下一步操作,使其推理过程更加深入且清晰;(2)Atom-Searcher 会触发更多的搜索调用,从而获取更丰富的外部信息,以确保答案的正确性。这些优势表明,Atom-Searcher 在更复杂的 Deep Research 任务中具有巨大潜力。
#李航新书《机器学习方法(第2版)》发布
打磨7年,有了强化学习,赠书20本
每个领域的发展,都离不开几本奠定基础的经典书籍,人工智能亦是如此。
此前,李航老师的《统计学习方法》《统计学习方法(第 2 版)》可以说是机器学习宝典,很多学生、老师都将此书奉为必读书籍。
然而,随着 AI 技术的快速发展,特别是深度学习的飞跃式进展,一本仅覆盖传统机器学习的教材,已无法全面反映当前机器学习技术的全貌。
因此,李航老师在前两版的基础上,又推出了《机器学习方法》,新增深度学习内容。
而近期,AI 圈对于强化学习的关注也在迅速升温。从大模型与智能体的融合尝试,到强化学习在游戏、机器人控制、决策优化中的广泛应用,这一方向再次成为焦点。然而,此前许多教材对此涉及较少,甚至完全缺席,导致很多人无法系统学习。
现在这个问题也解决了。李航老师全新上线新书《机器学习方法(第 2 版)》,将强化学习独立成篇,系统介绍了强化学习的基本框架与代表算法,包括马尔可夫决策过程、多臂老虎机问题、深度 Q 网络等。
全书共分为 4 篇( 或 4 册),对应监督学习、无监督学习、深度学习和强化学习 4 个主要分支。
至此,《机器学习方法(第 2 版)》构建起了一个覆盖监督学习、无监督学习、深度学习与强化学习的完整知识框架,为希望系统学习 AI 的读者提供了由浅入深、循序渐进的学习路径。
第 1 篇:介绍监督学习的主要方法,包括线性回归、感知机、支持向量机、最大熵模型与逻辑斯谛回归、提升方法、隐马尔可夫模型和条件随机场等。
第 2 篇:介绍无监督学习的主要方法,包括聚类、奇异值分解、主成分分析、马尔可夫链蒙特卡罗法、EM 算法、潜在语义分析、潜在狄利克雷分配等。
第 3 篇:介绍深度学习的主要方法,包括前馈神经网络、卷积神经网络、循环神经网络、Transformer、扩散模型、生成对抗模型等。
第 4 篇:介绍强化学习的主要方法,包括马尔可夫决策、多臂老虎机、近端策略优化、深度 Q 网络等。
《机器学习方法(第 2 版)》第 4 篇部分目录
除了新增篇章,《机器学习方法(第 2 版)》还增加了若干监督学习方法,如线性回归;基于读者的反馈,新书对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改,删除了一部分目前已不常用的技术,如部分机器学习优化算法。
书中每章会介绍一两种机器学习方法,详细叙述各个方法的模型、策略和算法。从具体例子入手,由浅入深,帮助读者直观地理解基本思路,同时从理论角度出发,给出严格的数学推导,严谨翔实,让读者更好地掌握基本原理和概念。
《机器学习方法(第 2 版)》第 4 篇部分内容,可以看出有公式,有图表,非常适合当教材。
为满足读者进一步学习的需要,书中还对各个方法的要点进行了总结,给出了一些习题,并列出了主要参考文献。
习题示例,利于读者巩固知识
进一步的,为了增加可读性,整本书中尽量统一了符号用法;修改了大大小小几十处错误;重新绘制了几乎所有的插图。
本书主要定位为大学教材或辅助读物,以及专业人员的参考书。假设读者已具备一定的微积分、线性代数、概率统计和计算机科学知识。本书并不试图涵盖所有内容,而是希望对最基本、最常用的技术进行透彻的讲解和分析,帮助读者学习和掌握。
李航老师表示,该书从 2018 年开始写作,中间历经 2022 年出版的《机器学习方法》第 1 版(增加了深度学习内容),至 2024 年 12 月完成《机器学习方法(第 2 版)》,历经 7 年时间,按照李航老师最初写作《统计学习方法》时的规划,完成了最终版。
作者介绍
李航,ACM Fellow,ACL Fellow,IEEE Fellow。京都大学毕业,东京大学博士。曾就职于 NEC 公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室,目前在字节跳动 Seed 部门工作。主要研究方向为自然语言处理、信息检索、机器学习、数据挖掘。
最后,还有个好消息,李航老师的《机器学习方法(第 2 版)》将限量免费赠送 20 本。
我们将从留言中选取 20 位点赞数最高的读者,把这本书送到你手中。
#开发者私下更喜欢用GPT-5写代码
Claude还坐得稳编程王座吗?
一直以来,Anthropic 的 Claude 被认为是处理编程任务的最佳模型,尤其是本月初发布的 Claude Opus 4.1,在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中,Claude Opus 4.1 相较于前代 Opus 4 又有提升,尤其在多文件代码重构方面表现出显著进步。
不过,在刚刚过去的这个周末,Claude 最强编程模型的地位似乎开始动摇了。OpenAI 同样本月发布的 GPT-5 在编程赛道获得了越来越多人的青睐与使用。
有人发帖称,他基本已经完全不用 Claude Opus 了。现在同时开着几个 Codex 标签页,让 GPT-5-high 分别在三个代码库(HVM、Bend、Kolmo)上处理不同的任务。AI 编程进展从未如此迅速。他的工作基本上就是将定义清晰的任务交给 Codex,然后审查代码输出。
他还特意强调,这不是 OpenAI 打的广告。他只是觉得这个模型真的非常强大,而人们没有看到这一点。大多数人还只是将聊天机器人当作「女友」或其他用途,而不是用来协助完成复杂的编程任务。
不过,他也表示自己依然热爱 Anthropic,并在 VIM 编辑器中使用 Opus 进行代码补全,速度要比 GPT-5-high 快得多。
另一位推特博主、CoreView 联合创始人兼 CTO Ivan Fioravanti 也表示,他现在主要用 Claude Code,但 Codex-CLI 搭配 GPT-5 reasoning high 逐渐获得了他的更多信任。至于谷歌的 Gemini CLI,他都没开始深入研究。
不仅如此,他在需要直接执行的任务中同样在用 GPT-5 reasoning。
一位全栈产品开发者表示,「GPT-5-high 是目前为止他用过的最好的编程模型。」
该模型在指令遵循方面表现出色,可以放手让它处理更复杂的任务。此外,它在大规模重构任务中尤其给力,只要下指令「把这个改得更像那个」,它就能处理得很好。
粉丝近 20 万的推特大 V、e/acc 思潮创始人表示,根据他在旧金山听到的一些「小道消息」,现在很多人私下里其实更喜欢用 GPT-5 来写代码,这和流行的「Claude 更擅长编程」的叙事恰恰相反。
看到自家模型受到了越来越多人的喜爱,OpenAI 联合创始人兼总裁 Greg Brockman「坐不住」了,发推自夸道「用 GPT-5 写代码感觉太棒了」。
更多的人并认可了 GPT-5 的强大编程能力。
从这些人的反馈来看,GPT-5 编程能力更强似乎已经成为了一个不争的事实。与此同时,reddit 社区今天有一个帖子提到,「GPT-5 的幻觉率和通用实用性显著优于 Claude。」
帖子的主角是一位软件工程师,主要使用大语言模型来做编程、架构等工作。他开始注意到,Claude 在很大程度上其实是个「偏科型选手」(one-trick pony)。该系列模型只在写代码时表现出色,但一旦超出这个领域,幻觉率就高得离谱,结果也很差。
不过,他还是要给 Claude 加一分,它在写作上的「温度感」更强一些,尤其把它当成学习伙伴时。而 GPT-5 作为学习伙伴时,经常会把答案伪装成一个追问。相比之下,Claude 则保持了一种更严格的学习伙伴风格,它会引导你逐步接近答案,而不是直接把答案给你。
然而,GPT-5 的幻觉现象较少,搜索功能也相当不错。他举例称自己之前在找一款带有非常具体尺寸、颜色等要求的收纳抽屉。GPT-5 思考了大约 2.5 分钟,并进行了多次搜索,最后给了他一个几乎完全匹配的结果。而在那之前,他自己在 Amazon、Walmart、Target、Wayfair 等网站上搜了两个小时都没找到。最后他直接下单买了 GPT-5 推荐的那款。当他把完全相同的查询交给 Claude Opus 4.1 时,它不仅给出的尺寸选项比他要求的小得多,还找了一堆借口。
与此同时,在健康医疗类的问题上,Claude 的幻觉非常严重,这很危险。它经常把一些内容当作事实来说,但这些内容恰恰与医学界公认的结论完全相反。相比之下,GPT-5 的幻觉率要低得多。
也许正如最后这样网友所言,一开始并不信任 GPT-5,但用过之后发现:它在各个领域的表现确实都不错。
已经用上 GPT-5 一段时间的小伙伴们,你们现在的感觉怎么样呢?欢迎评论区探讨。
参考链接:
https://x.com/gdb/status/1959523328642703827
https://x.com/VictorTaelin/status/1958543021324029980
https://x.com/buildleansaas/status/1959686114375352641
https://x.com/BasedBeffJezos/status/1958942764747694593
#K2Sight
慕尼黑工业大学等提出:教AI像放射科专家一样思考,仅用1.5%数据即超越70亿参数大模型
如何让AI精准地读懂医学影像,并根据报告中的描述(如“右上肺叶有结节影”)在图像上定位病灶?这是一个医疗AI领域的核心难题。通用大模型(如GPT-4V)在自然图像上表现优异,但在面对复杂、罕见的医学术语和微妙的视觉模式时常常“失明”。而现有的专用医疗大模型,则依赖于海量的、昂贵的标注数据和巨大的计算资源进行训练,门槛极高。
本篇介绍的论文是《Knowledge to Sight: Reasoning over Visual Attributes via Knowledge Decomposition for Abnormality Grounding》,由慕尼黑工业大学、帝国理工学院、伦敦国王学院等顶尖学府的研究者们共同提出。他们带来了一个名为 K2Sight 的全新框架,彻底改变了医疗视觉语言模型(VLM)的训练范式。
K2Sight的核心思想是“授人以渔”而非“授人以鱼”。它不再让模型死记硬背海量病例,而是通过知识分解(Knowledge Decomposition)的方法,教会模型像放射科专家一样,将复杂的医学概念拆解为可观察的视觉属性(如形状、密度、位置),并进行推理。
这一方法取得了惊人的成果:研究者仅使用了SOTA医疗大模型所需数据量的 1.5%,就训练出了一个仅有0.23B(2.3亿)参数的紧凑模型。该模型在异常定位任务上的表现,不仅媲美甚至超越了7B(70亿)参数的巨无霸模型,mAP50指标最高提升了 9.82%!
- 论文标题:Knowledge to Sight: Reasoning over Visual Attributes via Knowledge Decomposition for Abnormality Grounding
- 作者:Jun Li, Che Liu, Wenjia Bai, Mingxuan Liu, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel
- 机构:慕尼黑工业大学、慕尼黑机器学习中心、帝国理工学院、特伦托大学、Helmholtz AI and Helmholtz Munich、伦敦国王学院
- 论文地址:https://arxiv.org/pdf/2508.04572v1
- 项目地址:https://lijunrio.github.io/K2Sight/
研究背景:医疗VLM的“数据饥渴症”
异常定位(Abnormality Grounding),即根据文本描述定位图像中的病灶,是实现自动化辅助诊断的关键一步。然而,这项任务对AI来说极具挑战。
为了解决这个问题,研究界的主流做法是“大力出奇迹”——使用数百万级别的“影像-报告”对来预训练一个巨大的、专用的医疗VLM。这种方法虽然有效,但其高昂的数据和计算成本限制了技术的普及和快速迭代。
K2Sight:从“知识”到“视觉”的优雅桥梁
K2Sight提出了一种全新的、数据高效的训练范式。其核心是知识分解,即将抽象的医学知识“翻译”成模型能够理解和定位的具体视觉指令。
整个框架分为两个阶段:
- 知识分解 (Knowledge Decomposition) :首先,从医学知识库(领域本体)中提取临床概念的定义。然后,利用大语言模型(LLM)将这些复杂的定义分解为一组标准化的、可解释的视觉属性,主要包括形态(shape)、密度(density)和解剖位置(location)。例如,对于“肺不张(atelectasis)”,它会被分解为“线状或楔形(shape)”、“密度增高(density)”、“位于肺部(location)”等一系列简洁的指令式提示。
- 语义引导训练 (Semantic-Guided Training) :在训练阶段,模型不再接收完整的、冗长的放射学报告,而是接收这些经过分解的、高度结构化的视觉属性提示。模型的目标是学习将图像中的特定区域与这些具体的视觉指令进行对齐。这种方式为模型提供了更明确、更结构化的监督信号,极大地提升了学习效率。
通过这种方式,K2Sight为模型搭建了一座从抽象知识到具体视觉特征的桥梁,使其能够以一种更接近人类专家的方式进行推理,而不是仅仅依赖于数据驱动的模式匹配。
实验结果:小模型迸发大能量
K2Sight的有效性在多个实验中得到了充分验证。
性能对比
通用视觉语言模型(VLM)能否胜任异常定位任务?结果表明,仅通过增加模型规模并不能解决异常定位的挑战,通用视觉语言模型在临床定位任务中面临明显局限。
K2Sight 能否将紧凑型通用视觉语言模型提升至专业水平?结果表明,结构化监督和基于视觉的提示可以使通用视觉语言模型在有限数据条件下达到专业模型的性能水平。
研究者使用K2Sight框架训练了两个紧凑模型,K2Sight-Light (0.23B) 和 K2Sight-Base (2B)。消融实验证明,引入知识分解(w/ KD)后,无论模型大小,其在两个数据集(VinDr-CXR, PadChest-GR)上的性能都得到了持续且显著的提升。
可视化效果
下图的可视化结果直观地展示了K2Sight的优越性。与70亿参数的SOTA医疗VLM(MAIRA-2)相比,K2Sight模型(特别是K2Sight-Light)生成的定位框更精准、更贴合病灶的实际边界,展现了其卓越的细粒度定位能力。
对未见疾病的泛化能力
更令人印象深刻的是,K2Sight表现出强大的泛化能力。在面对训练中未曾见过的疾病时,K2Sight模型依然能够准确地定位,其性能稳定地优于通用的VLM基线模型。这表明K2Sight学到的是通用的视觉属性推理能力,而非针对特定疾病的死记硬背。
论文贡献与价值
- 提出K2Sight框架:开创了一种数据高效的训练范式,通过知识分解将领域知识与视觉特征明确地联系起来。
- 推动医疗AI民主化:证明了紧凑、高效的模型在特定训练策略下可以达到甚至超越大型模型的性能,极大地降低了研发和部署高性能医疗AI的门槛。
- 提升模型可解释性:通过将决策过程分解为可理解的视觉属性,K2Sight天然地比“黑箱”模型具有更好的可解释性。
- 开源社区贡献:研究者开源了代码和模型,为社区提供了宝贵的工具,将推动相关领域的研究进展。
总而言之,K2Sight的研究指明了一条通往更智能、更高效、更可信的医疗AI的道路。它证明了,深刻地理解问题、巧妙地构建学习任务,其价值远胜于盲目地堆砌数据和参数。
#InternVL 3.5
上海AI Lab最新开源:硬刚 GPT-5 还把效率玩明白
上海AI Lab又发力了!刚刚推出了开源多模态模型InternVL 3.5,在通用性、推理能力和推理效率方面显著推进了InternVL系列的发展!与前代产品相比,InternVL3.5系列通过我们提出的级联强化学习(Cascade RL)框架实现了更优的性能,该框架通过离线RL阶段实现稳定收敛,并通过在线RL阶段进行精细对齐。这种由粗到细的训练策略在下游推理任务(例如MMMU和MathVista)上带来了显著提升。为了优化效率,我们提出了一种视觉分辨率路由器(ViR),它能动态调整视觉标记的分辨率而不会损害性能。结合ViR,我们提出的解耦视觉-语言部署(DvD)方法将视觉和语言处理组织成一个异步的三阶段流水线,从而实现重叠执行并最大限度地减少流水线停顿。在一系列基准测试中,InternVL3.5在通用多模态能力、数学和多模态推理、文本理解、图形用户界面(GUI)代理、xx代理和真实世界理解任务上均取得了领先表现,显著缩小了与GPT-5等顶级商业模型的性能差距。我们相信,我们的开源模型和代码将推动多模态AI研究及其在现实世界中的应用。
- 代码链接:https://github.com/OpenGVLab/InternVL
- 模型链接:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
模型概览
模型架构
InternVL3.5 的整体架构如图 2 所示,主要由三个核心组件构成:动态高分辨率文本分词器、InternViT 视觉编码器,以及一个连接视觉与语言模态的连接器。该模型采用两阶段训练范式,包括大规模的预训练阶段和多阶段的后训练阶段。在预训练阶段,模型通过联合优化文本和多模态语料库来学习通用的视觉-语言表示。在后训练阶段,我们采用三阶段策略:监督微调(SFT)、级联强化学习(Cascade RL)和视觉一致性学习(ViCO),以进一步提升模型的指令遵循、推理和视觉理解能力。
- 动态高分辨率文本分词器:我们采用 Qwen3 或 GPT-OSS 分词器,能够处理高达 32K 的上下文长度,以适应长文本理解与推理任务。
- InternViT 视觉编码器:我们使用 InternViT-300M 或 InternViT-6B 作为视觉编码器,将输入图像或视频帧编码为一系列视觉标记(visual tokens)。
- 视觉-语言连接器:该连接器负责将视觉编码器输出的视觉标记与文本分词器生成的文本标记进行对齐和融合,从而实现跨模态信息的交互。
预训练
训练目标:在预训练阶段,我们联合更新模型的所有参数,使用大规模的文本和多模态语料库进行训练。具体而言,给定一个由多模态标记序列 组成的任意训练样本,我们对每个文本标记计算下一个标记预测(Next Token Prediction, NTP)损失:
其中 是要预测的标记,前缀标记 可以是文本标记,也可以是图像标记。
数据:预训练语料库可分为两类:(1) 多模态数据:主要来源于 InternVL3 的训练语料库,涵盖图像描述、通用问答、数学、科学学科、图表、光学字符识别(OCR)、知识接地、文档理解、多轮对话和医学数据等多个领域;(2) 纯文本数据:基于 InternLM 系列 的训练语料库构建,并进一步增广了开源数据集。预训练语料库包含约 1.16 亿个样本,对应约 2500 亿个标记。纯文本数据与多模态数据的比例约为 1:2.5。最大序列长度设置为 32K 标记,以适应长上下文理解与推理。
后训练
在预训练阶段之后,我们采用三阶段的后训练策略:
- 监督微调(Supervised Fine-Tuning, SFT):该阶段保持与预训练相同的训练目标,但利用更高品质的对话数据来进一步增强模型的能力。与 InternVL3 相比,InternVL3.5 的 SFT 阶段包含了更多高质量和多样化的训练数据,来源包括:(1) 来自 InternVL3 的指令遵循数据,用于保留对各种视觉-语言任务的广泛覆盖;(2) 处于“思考”模式下的多模态推理数据,用于赋予模型长链推理能力。这些数据通过大规模推理模型采样生成,包含详细的推理过程。我们不仅验证答案的事实正确性,还对推理过程本身实施严格的过滤措施,包括评估推理的清晰度、剔除冗余信息以及确保格式一致性。这些问题覆盖数学和科学等多个专业领域,从而强化模型在不同推理任务上的表现。
- 级联强化学习(Cascade Reinforcement Learning, Cascade RL):该方法结合了离线和在线强化学习的优点,以促进模型的推理能力。离线强化学习算法(如 DPO)基于现有生成结果进行训练,效率较高,但性能上限通常低于在线强化学习方法。相比之下,在线强化学习算法(如 PPO)通过与环境的交互进行探索,能有效提升性能,但训练成本高昂且不稳定。为解决此问题,我们提出 Cascade RL,其包含一个离线阶段和一个在线阶段。离线阶段作为有效的预热,确保后续在线阶段生成高质量的推理路径,从而实现模型推理能力的渐进式提升。实践中,Cascade RL 表现出良好的可扩展性和稳定性(如图 5 所示)。
级联强化学习的目标函数(LGSPO)定义如下:
其中重要性采样比率 定义为每个标记比率的几何平均:
这里 $\pi_\theta(y_i \mid x, y_{i,<t})$ 和="" $\pi_\theta(y_{i,t}="" \mid="" x,="" y_{i,<t})$="" 分别表示在策略模型参数为="" $\theta$="" 时,生成完整响应="" $y_i$="" 和单个标记="" $y_{i,t}$="" 的概率。<="" p="">
- 视觉一致性学习(Visual Consistency Learning, ViCO):该方法旨在将视觉分辨率路由器(Visual Resolution Router, ViR)集成到 InternVL3.5 中。ViR 主要由 OCR 和 VQA 示例构成,富含视觉信息,有时需要高分辨率理解。这使得分辨率路由器能够学习如何根据视觉信息动态决定每个图像块是否可以被压缩。
测试时扩展
测试时扩展(Test-time scaling, TTS)已被实证证明是一种有效的方法,可增强大语言模型(LLMs)和多模态大语言模型(MLLMs)的推理能力,尤其适用于需要多步推理的复杂任务。在本研究中,我们实现了一种全面的测试时扩展方法,该方法同时提升了推理的深度(即“深度思考”)和广度(即“并行思考”)。需要注意的是,除非另有说明,第3节中报告的实验结果均未应用TTS。目前,我们仅将TTS应用于推理基准测试,因为我们发现模型在感知和理解能力方面已表现出色,而启动TTS并未带来显著提升。
深度思考(Deep Thinking):通过激活“思考”模式,我们引导模型在生成最终答案之前,有意识地进行逐步推理(即将复杂问题分解为逻辑步骤,并验证中间结论)。这种方法系统性地改善了复杂问题(尤其是需要多步推理的问题)解决方案的逻辑结构,并增强了推理深度。
并行思考(Parallel Thinking):沿用InternVL3的方法,对于推理任务,我们采用Best-of-N(BoN)策略,使用VisualPRM-v1.1作为评判模型,从多个推理候选中选择最优响应。这种方法提升了推理的广度。
基础设施
训练框架:模型训练主要基于 XTuner 框架进行。
解耦的视觉-语言部署(Decoupled Vision-Language Deployment, DvD):在大规模在线部署多模态大语言模型(MLLMs)时,视觉和语言模型常常相互阻塞,导致额外的推理开销。为解决此问题,我们提出 DvD 框架。该框架通过将视觉编码和语言解码过程解耦,实现了视觉和语言模块的硬件成本优化,并促进了新模块的无缝集成,而无需修改语言服务器的部署。
实验结果
与其他多模态大模型的综合对比
多模态推理与数学
OCR, Chart, and Document Understanding
多图理解和真实世界理解
综合多模态理解和幻觉评测
visual grounding
多模态多语言理解
视频理解
GUI Agent Tasks
xx智能体任务
SVG任务
消融实验
结论
在本研究中,我们推出了InternVL3.5,这是InternVL系列的最新一代模型,展现了在广泛任务上更强的通用性能和更快的处理速度。InternVL3.5采用了一种新的强化学习(Reinforcement Learning, RL)框架,即级联强化学习(Cascade RL),该框架结合了离线和在线RL方法的优势,以提升模型的推理能力。此外,我们还引入了两种新技术来降低InternVL3.5的推理成本,分别是视觉分辨率路由器(Visual Resolution Router, ViR)和解耦的视觉-语言部署(Decoupled Vision-Language Deployment, DvD)。得益于这些创新,与InternVL3相比,InternVL3.5在整体推理性能上提升了+16.0%,推理效率提高了4.05倍。此外,InternVL3.5在多功能性方面相较于InternVL3也有显著提升。具体而言,InternVL3.5-241B-A28B在主流开源多模态大语言模型(MLLMs)中,于多模态通用、推理、文本和智能体任务的综合得分上达到了最高水平,显著缩小了与GPT-5等顶级商业模型之间的性能差距。我们相信,我们的开源模型和代码将推动多模态人工智能的研究及其在现实世界中的应用。
#AAAI-26
投稿量爆炸:近3万篇论文,2万来自中国,评审系统都快崩了
你可能不信,你投的 AAAI-2026 会议,应该是有史以来投稿量最多的一次。
此前,取号人数就突破了 3 万,其中有不少 NeurIPS 转投的。
如今官方数据也公开了:主技术轨道共接收将近 29000 篇投稿,来自中国的投稿接近 20000 篇,占据了惊人的三分之二。
来源:https://aaai.org/conference/aaai/aaai-26/review-process-update/
论文作者数量也是一路狂飙,本次共有 75000+ 位独立作者提交了论文。这是什么概念,意味着即便只有 1% 的作者在某一时刻提出问题,审稿人就需要回复约 750 封邮件,这足以让一个由志愿者运作的会议应接不暇。
另一个惊人的数字是,团队在过去几个月中,收到的邮件数量已经超过 AAAI-25 全年总量的五倍,最高峰时每天可达 400 封邮件请求。
不过,AAAI 也不是什么论文都接收,他们也会剔除一些未达标的论文,例如缺少 PDF、未匿名的稿件、超页论文、作者超过投稿上限等情况,即便如此,仍有大约 23000 篇论文进入评审流程 ,这一数量几乎是 AAAI-25(12957 篇) 评审论文数的两倍!
除了投稿数量,AAAI-26 也公布了前三大研究关键词,分别是计算机视觉(近 10000 篇)、机器学习(近 8,000 篇)以及自然语言处理(超过 4000 篇)。看来想要在这些投稿中脱颖而出,着实有些难度,毕竟大家的研究领域都集中在这几个模块。
随着投稿数量的持续攀升,评审系统所面临的挑战也在不断加剧,尤其当论文规模达到数万篇时更是如此。导致评审系统在存储、计算、带宽、流程支持,以及最为稀缺的合格审稿人时间等方面,都被推向了极限。
为应对这一需求,AAAI 共招募了 28000+ 名项目委员会成员、高级项目委员会成员和领域主席。AAAI-26 的项目委员会规模几乎是 AAAI-25 的三倍。
大家也不必担心,虽然投稿量激增,但评审质量和公正性依然会得到保障。AAAI 也在采取一些措施,具体表现在:
AAAI 正在积极调查评审流程中可能存在的伦理问题。对于确认的违规行为,将会追究相应后果,这些后果可能超出当前评审周期,甚至在更长远的未来施加制裁。除了 AAAI-26 的伦理主席外,AAAI 还设有出版委员会和伦理委员会,以便在本次会议范围之外继续开展调查和实施制裁。
此外,AI 辅助评审实验已经展现出积极的早期成果,其中包括用于发现并抵制评审人之间串通的工具。
论文与审稿人的匹配采用了最先进的算法,并设置了稳健性检查以防止投标操纵。这意味着未经授权的相互投标对论文匹配过程的影响微乎其微。在 AAAI-26 的论文匹配过程中,投标只是众多考量因素之一,而更为重要的因素包括研究专长领域、既往发表内容以及地域多样性。
鉴于投稿数量极其庞大,以及各个子领域中审稿人与论文数量并不均衡的情况,部分审稿人会评阅与其核心研究领域相邻的论文,而不是完全契合其专长的论文。
尽管如此,审稿流程还是会出现短暂的延时,毕竟数量摆在那,AAAI 希望论文作者能够给予理解。
对于这令人颤抖的投稿数,评论区也在热烈讨论。
有人表示这是意料之中,毕竟美国奥赛就是中国参赛者占大多数。
还有一个非常有趣的评论。
不禁想起之前广为流传的一句话:现在全球 AI 竞赛是美籍华人和中国人的 PK。
当然,也有评论以半开玩笑的口吻指出,这背后是当前 AI 学术界人尽皆知的巨大发表压力,积极投稿或许也是在这种「内卷」环境下为自身学术前途「谋出路」的无奈之举。
关于如今 AI 顶会投稿量暴增反映的问题和引发的争议,此前已有不少讨论,详见xx报道:
真有论文这么干?多所全球顶尖大学论文,竟暗藏 AI 好评指令
Who’s Adam?最逆天的 NeurIPS 评审出炉了
AI 顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个 AI 学界
拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR 最严新规来了
数据背后的中国 AI
这种席卷顶会的趋势,绝非偶然。多家报道显示,中国和中国学者在人工智能领域占据着越来越重要的地位。
Digital Science 今年 7 月的报道显示,中国已成为全球人工智能研究领域的绝对领导者,不仅在研究数量上,在研究质量(引用关注度)和影响力方面也已超越世界其他国家。并且中国已成为美国、英国和欧盟在 AI 研究领域最强的合作伙伴。
地址:https://www.digital-science.com/blog/2025/07/new-report-shows-china-dominates-in-ai-research/
而 Medium 的一篇报道则更为直观地展示了这股「中国力量」在过去十年间的惊人崛起。数据显示,在 CVPR、NeurIPS、ICML 这些 AI 顶会上,有中国学者参与的论文比例一路飙升。
地址:https://medium.com/data-science-collective/a-decade-of-change-chinas-rise-in-ai-research-and-the-global-talent-flow-d9c49ebd4d37
以计算机视觉顶会 CVPR 为例,中国作者的论文比例从 2015 年的约 30% 增长到 2019-2020 年时已接近 40%,一举超过了美国。在 NeurIPS 和 ICML 上,这个比例也从 2015 年不起眼的 10% 左右,增长到了 2024 年的 20-30%。
由中国研究人员共同撰写的被接收论文的估计百分比。近年来,这些数字显著增长。
到了 2024 年,全球顶尖 AI 会议(如 NeurIPS)录用论文数量排名前 20 的研究机构中,有 8 所来自中国,其中包括排名第一的机构。
这一成就的背后,是清华大学、北京大学等顶尖高校,以及华为、阿里巴巴、腾讯等科技巨头的共同推动。
#当心,你运行的AI可能变成内奸
会帮攻击者劫持你的电脑
大模型发展到现在,大家的设备上基本都有 AI 大模型工具了吧。
随着多模态、交互、编码等各项能力的进化,AI 智能体的应用也越来越广泛。随之而来的就是 AI 智能体在相应应用场景获取的权限也越来越多。
最近在刷视频的时候都有弹幕感叹,智能助手的权限真的高。
尤其是在 AI 已经落地应用的杀手锏能力 —— 编程领域里,智能体几乎获取了用户设备中文件全部的读写权限。这方面的风险不言自明。就像我们过去报道过的 Replit「删库」事件。
「删库」事件是 AI 智能体本身的翻车,大众的目光似乎总是被 AI 模型自身的能力缺陷造成的风险吸引了注意,但却似乎忽视了更大的外部风险。
你设备里的 AI 智能体很可能被利用来攻击你。
这并非危言耸听,就在 UTC 时间 26 日晚约 10 点 32 分,这类的恶意程序已经出现,并且影响了成千上万的开发者。
首次利用 AI 工具攻击的恶意软件
2025 年 8 月 26 日晚上约 10 点 32 分(UTC),广受欢迎的 Nx 构建系统(Nx build system) 软件包遭到入侵,被植入了窃取数据的恶意程序。这些带有后门的版本仅在网络上存活了 5 个多小时 就被下架,但在这短暂的时间里,成千上万的开发者可能已经受到影响。
这是首次记录的恶意软件利用 AI CLI 工具进行侦察和数据窃取的案例。
这次的恶意代码不只是窃取 SSH 密钥、npm 令牌、.gitconfig 文件。
它更进一步,将开发者常用的 AI 命令行工具(CLI)武器化,包括 Claude、Gemini 和 q。这些 AI 工具被劫持,用来做信息获取和数据外传。这是已知的首个案例:黑客把开发者的 AI 智能体变成了攻击的帮凶。
由于 Nx 生态系统本身非常流行,再加上 AI 工具滥用的现象,这次事件凸显了黑客攻击的严重性。所有安装过受污染版本的用户,都必须立即采取补救措施。目前,nx 团队已经发布了官方安全通告(编号 GHSA-cxm3-wv7p-598c),确认了这次入侵,并披露更多细节。公告证实:攻击源于一名维护者的 npm 账号令牌泄露,黑客借此控制了发布权限。
事件时间线(UTC 时间)
这场攻击在数小时内迅速展开:
- 10:32 PM —— 恶意版本 21.5.0 发布到 npm 仓库
- 10:39 PM —— 恶意版本 20.9.0 发布
- 11:54 PM —— 黑客同时发布 20.10.0 和 21.6.0 两个带毒版本
- 8 月 27 日 12:16 AM —— 恶意版本 20.11.0 发布
- 12:17 AM —— 仅一分钟后,又发布恶意版本 21.7.0
- 12:30 AM —— 一名社区成员在 GitHub 提交 issue,提醒 nx 团队发现可疑行为
- 12:37 AM —— 最后两个恶意版本 21.8.0 和 20.12.0 被发布
- 02:44 AM —— npm 官方采取行动,移除所有受影响版本
- 03:52 AM —— nx 组织所有者吊销被盗的维护者账号,阻止进一步的恶意发布
- 09:05 AM —— GitHub 限制了被窃取机密信息的仓库,将其设为私有并从搜索结果中移除
- 10:20 AM —— npm 进一步清理,移除了更多受影响的相关软件包版本
- 03:57 PM —— npm 启用新的安全措施,覆盖所有 Nx 包
整场攻击持续了约 5 小时 20 分钟,黑客在两个主要版本分支中一共发布了 8 个恶意版本。
这次事件不仅是供应链安全的一次重大警示,更是首次揭示:AI 开发助手也可能被黑客「反向利用」,成为攻击链条的一环。
本次恶意攻击的技术分析
这次被入侵的 Nx 软件包,每周有超过 400 万次下载。黑客在其中植入了一个恶意的 post-install hook。
每当开发者安装这个包时,它就会自动运行一个叫 telemetry.js 的脚本。这个脚本几乎是「秒触发」,为攻击者打开了进入开发者电脑的大门 —— 并且是大规模同时发生的。
一旦脚本运行,它会系统化地搜集受害电脑上的敏感信息:
- 系统信息:环境变量(process.env)、主机名和操作系统细节以及平台信息;
- 加密货币钱包:MetaMask 密钥库、Electrum 钱包、Ledger 与 Trezor 硬件钱包数据、Exodus、Phantom 和 Solflare 钱包以及通用的密钥文件(例如 UTC–*、keystore.json、*.key);
收集到信息后,恶意程序会执行一套「隐蔽又高效」的外传步骤:
- 使用窃取的 GitHub 令牌,自动创建一个名为 s1ngularity-repository 的公共 GitHub 仓库。部分变种还会在名字后面加上 「-0」、「-1」 等数字后缀。
- 将所有收集到的数据 进行三次 Base64 编码(triple-base64 encode)。
- 把结果写入一个名为 results.b64 的文件,并上传到新建仓库。
- 把仓库设为 公开状态,间接让敏感数据暴露在互联网上。
黑客不仅要窃取数据,还要制造混乱:
- 在~/.bashrc 和~/.zshrc 文件末尾,恶意程序会添加命令:sudo shutdown -h 0
- 这样一来,每次用户新开一个终端,系统就会尝试立即关机。
- 结果就是造成了一种 拒绝服务(DoS) 的效果:开发者的工作环境被彻底破坏。
对于此事件的更多信息,可以参阅原技术博客:
AI 被黑客滥用的新趋势
不仅是利用 AI 工具入侵用户数,黑客们利用 AI 进行恶意行为的现象已经成为了一种新的趋势。参照 Anthropic 八月份 AI 滥用报告,Claude 同样也是被黑客滥用的重灾区。
博客链接:https://www.anthropic.com/news/detecting-countering-misuse-aug-2025
黑客用 Claude 扩大勒索
犯罪分子利用 Claude Code 实施了大规模的数据盗窃和勒索。受害对象至少包括 17 家不同的机构,涵盖医疗、应急服务、政府部门,甚至宗教组织。
与传统勒索软件不同,这名黑客并没有加密数据,而是直接威胁:如果不给钱,就把敏感信息公之于众。在一些案例中,勒索金额高达 50 万美元。
在此次勒索行动中,Claude 被用到了前所未有的程度:
- Claude Code 自动化了大量侦查任务,帮助黑客窃取受害者凭证并渗透网络。
- Claude 不只是执行命令,还能做出 战术与战略层面的决策,比如选择窃取哪些数据、如何撰写勒索信息。
- 它会分析被盗的财务数据,自动推算合理的勒索金额。
- 它甚至还能生成 视觉上极具冲击力的勒索通知,直接显示在受害者电脑上,制造心理压力。
Anthropic 把这种行为称为「氛围黑客(vibe hacking)」。
犯罪分子售卖 AI 生成的勒索软件
另一名网络犯罪分子则把 Claude 当作「勒索软件工厂」。他们利用 Claude 开发、打包并推向市场了多个版本的勒索软件。
完成后,黑客将这些「勒索软件即服务(RaaS)」发布在网络论坛上出售,价格在 400 美元到 1200 美元 不等。换句话说,即便没有多少技术能力的人,也能花钱买到一款现成的 AI 生成勒索工具。
2025 年 1 月,网络犯罪分子在暗网上的首次销售广告
全球首个已知的 AI 驱动勒索软件
ESET Research 最近发现了全球首个已知的 AI 驱动勒索软件,并将其命名为 PromptLock。
这种恶意软件的独特之处在于,它并非使用传统硬编码逻辑,而是依赖 AI 模型动态生成攻击脚本。
PromptLock 并不依赖传统的固定恶意代码,而是通过 Ollama API 在本地调用 gpt-oss-20b 模型,由攻击者预先写入的提示词即时生成恶意 Lua 脚本并立即执行。
这些脚本具备跨平台特性,可以在 Windows、Linux 和 macOS 上无缝运行。
研究人员指出,多项迹象表明 PromptLock 更像是一个 概念验证(PoC) 或仍在开发中的实验样本,而非已经广泛部署的成熟勒索软件。
更令人关注的是,PromptLock 并不会把体量巨大的模型直接下载到受害者设备上,而是通过在受害网络中建立 代理,将请求转发至远程服务器上运行的 Ollama API + gpt-oss-20b 模型,这种方式属于 MITRE ATT&CK 框架中的内部代理技术,也是现代网络攻击中愈发常见的手段。
总结
随着 AI 能力不断增强,黑客和诈骗分子也在不断「升级」手法。智能体型 AI 已被用作武器,直接参与并执行复杂的网络攻击。
同时,AI 大幅降低了作案门槛,让本该需要复杂知识体系黑客技能,变成任何人都能借助 AI 轻松完成的操作。
更严重的是,AI 已经渗透进网络犯罪的整个流程:从锁定受害者、分析被盗数据、窃取信用卡信息,到伪造身份、扩大诈骗规模,AI 正在成为黑客的全链路「帮凶」。
这或许意味着未来的恶意软件可能更加灵活、难以预测,也更难以防御。
#LightThinker
动态压缩CoT推理新方法LightThinker来了
随着 AI 技术的飞速发展,从「快思考」到 「慢思考」,大语言模型(LLMs)在处理复杂推理任务上展现出惊人的能力。无论是我们熟知的思维链(CoT),还是更复杂的深度思考模式(Thinking),都让 AI 的回答日益精准、可靠。
然而,这种性能的提升并非没有代价。模型在推理过程中会产生大量的中间步骤和文本(tokens),这不仅极大地拖慢了计算速度,还对内存和计算资源造成了巨大的压力。简单来说,就是「想得越多,算得越慢,耗得越多」。
为了解决这一难题,研究者们从人类的认知过程中汲取灵感。想象一下人类在解决一个复杂数学题时的情景:我们通常会在草稿纸上写下关键的计算步骤(如下图 a 中的黄色高亮部分),而将一些辅助性的思考过程(非高亮部分)放在脑中。
图 1:(a) 展示了一个典型的思维链推理过程,黄色部分为关键步骤。(b) 对比了传统方案 Vanilla 与 LightThinker 的推理流程。
本文中,来自浙江大学、蚂蚁集团等机构的研究者提出了 LightThinker,它模仿了这一高效的思考模式。它训练 LLM 在推理过程中动态地将冗长的中间思考步骤压缩成紧凑的表示(gist tokens /cache tokens),然后「扔掉」原始的、繁琐的推理链,仅保留核心摘要以继续下一步的思考。 这样一来,存放在上下文窗口中的 tokens 数量被大幅削减,从而显著降低了内存占用和计算成本。
- 论文标题:LightThinker: Thinking Step-by-Step Compression
- 论文链接: https://arxiv.org/abs/2502.15589
- 代码链接: https://github.com/zjunlp/LightThinker
LightThinker 概览
LightThinker 通过训练的方式让模型具备这种能力。这涉及到两个关键问题:「何时压缩?」和「如何压缩?」。整个过程可以概括为以下三个关键步骤:
第一步:数据重构 —— 在思考流程中植入「压缩指令」
LightThinker 的第一步就是改造训练数据,让 LLM 明白「压缩」这个动作的存在和时机 。具体操作是:
- 步骤划分:首先,将模型原本冗长的完整回答 Y,按照语义或段落(即一个完整的「想法」)切分成若干个思维步骤 S1, S2, S3, ...。
- 插入特殊指令符:在这些思维步骤之间,插入一组特殊的「指令令牌」4。这组指令符主要包含两个部分:
- 缓存令牌 (Cache Tokens, C):这是一组特殊的、用于存储压缩后信息的「摘要令牌」。它的作用就像是为即将产生的「思想摘要」预留的空白便签。
- 输出令牌 (Output Token, [o]):这是一个强制性的输出信号,它的作用是告诉模型:「好了,摘要写完了,现在请基于这份摘要继续你下一步的思考」 。
经过这样的改造,原本一条完整的思考链,就变成了一个「思考步骤 1 S1 → 进行压缩 → 继续思考步骤 S2 → 再次压缩 → ...」的全新格式。这等于是在模型的学习材料中明确地标注出了「何时」需要进行压缩。
注意,研究者在具体实现中,采用换行符作为思维步骤的划分,此处不存在任何数据精心构造的过程。
第二步:注意力改造 —— 学会压缩与理解压缩的内容
教会了模型「何时」压缩,下一步就是最关键的如何压缩。这主要通过一种名为 「Thought-based Attention Mask」的技术来实现,如图 2 (b) 所示。精确地控制着模型在思考时 “能看什么” 和 “不能看什么” 。
这个过程分为两个阶段:
- 压缩阶段(生成思维摘要):当模型需要将思维步骤 Si 压缩进缓存令牌 C 时,注意力掩码会强制这些 C 令牌只能「看到」三个东西:
- 最初的问题 X;
- 先前已经压缩好的历史摘要;
- 当前正在处理的思维步骤 Si。
其他所有原始的、未压缩的思维步骤都会被「遮蔽」。这迫使模型必须将 Si 中的所有关键信息高度浓缩并存储到 C 中 。
- 生成阶段(基于摘要生成思维):当思维步骤 Si 被成功压缩进 C 之后,更关键的一步来了。在生成下一个思绪片段 S (i+1) 时,注意力掩码会彻底「遮蔽」掉原始的思维步骤 Si。此时,模型只能「看到」最初的问题 X 和包括刚刚生成的摘要在内的所有历史摘要 。
通过这种方式,模型被迫学会仅依赖紧凑的「思想摘要」来进行连贯的、层层递进的推理,而不是依赖越来越长的原始思考全文。
第三步:动态推理 ——「即用即弃」的高效循环
经过以上两个步骤的训练,LightThinker 模型在实际推理时,就会形成一种高效的动态循环,如图 1 (b) 和图 2 (c) 所示,清晰地展示了「生成→压缩→抛弃」的动态循环过程。下面以图 1 (b) 为例进行分析:
- 模型接收问题,生成第一段思考(Thought 1)。
- 触发压缩,将 Thought 1 中的核心信息压缩成紧凑的摘要(CT1)。
- 抛弃原文,将冗长的 Thought 1 从上下文中丢弃。
- 模型基于问题和摘要(CT1),生成第二段思考(Thought 2)。
- 再次压缩,将 Thought 2 压缩为摘要(CT2),并丢弃 Thought 2 原文。
- 如此循环,直到问题解决。
通过这种「即用即弃」的机制,LightThinker 确保了模型的上下文窗口始终保持在一个非常小的尺寸,从而解决了因上下文过长导致的内存爆炸和计算缓慢问题,实现了效率与性能的完美平衡。
图 3 展示了不同方法在推理过程中上下文长度的变化,其中曲线和坐标轴围城的面积为我们定义的新指标 Dependency,其意义生成 token 时需要关注 token 的数量总和。
实验结果
研究者在四个数据集和两个不同的模型上对 LightThinker 进行了广泛的测试,结果如表 1 所示。
表 1 主要实验结果。Acc 为准确率,Time 为平均推理耗时,Peak 为平均峰值 token 占用数量,Dep 为生成 token 时需要关注 token 的数量总和(如图 3)所示。
结果表明,在 Qwen 系列模型上,与传统模型(Vanilla)相比:
- 峰值内存使用减少 70%:LightThinker 极大地节约了宝贵的内存资源。
- 推理时间缩短 26%:在保证结果准确性的前提下,思考速度得到了显著提升。
- 取得了准确度和效率的平衡。
此外,在 Llama 上,也取得了准确度和效率的平衡。
相关工作
当前关于加速大语言模型(LLMs)推理过程的研究主要集中在四类方法:模型量化、辅助解码、生成更少的 Token 和减少 KV 缓存。模型量化包括参数量化 [1-2] 和 KV 缓存量化 [3-4],辅助解码主要包括投机采样,本节将重点关注后两类方法。
需要注意的是,生成长文本和理解长文本代表着不同的应用场景,因此,专门针对长文本生成阶段的加速方法(例如,预填充阶段加速技术如 AutoCompressor [5]、ICAE [6]、LLMLingua [7]、Activation Beacon [8]、SnapKV [9] 和 PyramidKV [10])不在此处讨论。以下是后两类方法的详细概述。
生成更少的 Token
这一类别可以根据推理过程中使用的 token 数量和类型进一步分为三种策略:
- 离散 Token 减少通过提示工程 Prompt [11-13]、指令微调 [14-15] 或强化学习 [16-17] 等技术来引导 LLM 在推理过程中使用更少的离散 token。例如,TALE [11] 提示 LLM 在预定义的 token 预算内完成任务。Arora 和 Zanette [16] 构建特定数据集并采用强化学习奖励机制来鼓励模型生成简洁准确的输出,从而减少 token 使用量。
- 连续 Token 替换这些方法 [18-19] 探索使用连续空间 token 代替传统的离散词汇 token。一个代表性例子是 CoConut [18],它利用课程学习来训练 LLM 使用连续 token 进行推理。
- 无 Token 使用通过在模型层之间内化推理过程,在推理过程中直接生成最终答案而不需要中间 token [20-21]。
这三种策略都是在模型训练后实施的,推理过程中不需要额外干预。从技术上讲,这些方法的加速效果依次递增,但代价是 LLM 的泛化性能逐渐下降。此外,第一种策略并不能显著减少 GPU 内存使用。
减少 KV 缓存
这一类别可以分为两种策略类型:基于剪枝的离散空间 KV 缓存选择和基于合并的连续空间 KV 缓存压缩。
- 基于剪枝的策略设计特定的淘汰策略 [22-25] 在推理过程中保留重要的 token。例如,StreamingLLM [23] 认为初始的 sink token 和最近的 token 是重要的;H2O [22] 关注具有高历史注意力分数的 token;SepLLM [24] 强调对应于标点符号的 token 是重要的。
- 基于合并的策略引入锚点 token,训练 LLM 将历史重要信息压缩到这些 token 中,从而实现 KV 缓存合并 [26]。
这两种策略都需要在推理过程中进行干预。关键区别在于:第一种策略是无需训练的,但对每个生成的 token 都要应用淘汰策略;而第二种策略是基于训练的方法,允许 LLM 自主决定何时应用淘汰策略。
局限性
受限于自身的数据重构方案(目前分割思维步骤是依赖规则,而不是基于语义)和训练数据(约 16K 训练数据),本文方法在数学相关的任务上表现并不出色。
如下图所示,展示了 LightThinker 在 GSM8K 上的一个 Bad Case。研究者观察到,尽管 LLM 在思考过程中得出了正确答案(见上图中的 Model's Thoughts 字段),但在最终输出中却出现了错误(见图中的 Model's Solution 字段)。
具体来说,在 Model's Solution 字段的第三句话中,第一次出现的「4000」是错误的。这表明在第二次压缩步骤中发生了信息丢失(理论上,「8000」、「4000」和「24000」都应该被压缩,但 LLM 只压缩了「4000」和「24000」),导致后续的推理错误。这类错误在 GSM8K 数据集中频繁出现,表明当前的压缩方法对数值的敏感度还不够。
参考文献
[1] Lin J, Tang J, Tang H, et al. AWQ: Activation-aware weight quantization for on-device LLM compression and acceleration. MLSys 2024.
[2] Dettmers T, Lewis M, Belkada Y, et al. GPT3.INT8 (): 8-bit matrix multiplication for transformers at scale. NeurIPS 2022.
[3] Liu Z, Yuan J, Jin H, et al. KIVI: A tuning-free asymmetric 2bit quantization for KV cache. ICML 2024b.
[4] Hooper C, Kim S, Mohammadzadeh H, et al. KVQuant: Towards 10 million context length LLM inference with KV cache quantization. NeurIPS 2024.
[5] Chevalier A, Wettig A, Ajith A, et al. Adapting language models to compress contexts. EMNLP 2023.
[6] Ge T, Hu J, Wang L, et al. In-context autoencoder for context compression in a large language model. ICLR 2024.
[7] Jiang H, Wu Q, Lin C, et al. LLMLingua: Compressing prompts for accelerated inference of large language models. EMNLP 2023.
[8] Zhang P, Liu Z, Xiao S, et al. Long context compression with activation beacon. arXiv:2401.03462, 2024b.
[9] Li Y, Huang Y, Yang B, et al. SnapKV: LLM knows what you are looking for before generation. NeurIPS 2024.
[10] Cai Z, Zhang Y, Gao B, et al. PyramidKV: Dynamic KV cache compression based on pyramidal information funneling. CoRR abs/2406.02069, 2024.
[11] Han T, Wang Z, Fang C, et al. Token-budget-aware LLM reasoning. CoRR abs/2412.18547, 2024.
[12] Ding M, Liu Z, Fu Z, et al. Break the chain: Large language models can be shortcut reasoners. CoRR abs/2406.06580, 2024.
[13] Nayab S, Rossolini G, Buttazzo G, et al. Concise thoughts: Impact of output length on LLM reasoning and cost. CoRR abs/2407.19825, 2024.
[14] Liu T, Guo Q, Hu X, et al. Can language models learn to skip steps? NeurIPS 2024a.
[15] Kang Y, Sun X, Chen L, et al. C3oT: Generating shorter chain-of-thought without compromising effectiveness. CoRR abs/2412.11664, 2024.
[16] Arora D, Zanette A. Training language models to reason efficiently. arXiv:2502.04463, 2025.
[17] Luo H, Shen L, He H, et al. O1-pruner: Length-harmonizing fine-tuning for o1-like reasoning pruning. arXiv:2501.12570, 2025.
[18] Hao S, Sukhbaatar S, Su D, et al. Training large language models to reason in a continuous latent space. CoRR abs/2412.06769, 2024.
[19] Cheng J, Van Durme B. Compressed chain of thought: Efficient reasoning through dense representations. CoRR abs/2412.13171, 2024.
[20] Deng Y, Choi Y, Shieber S. From explicit CoT to implicit CoT: Learning to internalize CoT step by step. CoRR abs/2405.14838, 2024.
[21] Deng Y, Prasad K, Fernandez R, et al. Implicit chain of thought reasoning via knowledge distillation. CoRR abs/2311.01460, 2023.
[22] Zhang Z, Sheng Y, Zhou T, et al. H2O: Heavy-hitter oracle for efficient generative inference of large language models. NeurIPS 2023.
[23] Xiao G, Tian Y, Chen B, et al. Efficient streaming language models with attention sinks. ICLR 2024.
[24] Chen G, Shi H, Li J, et al. SepLLM: Accelerate large language models by compressing one segment into one separator. CoRR abs/2412.12094, 2024.
[25] Wu J, Wang Z, Zhang L, et al. SCOPE: Optimizing key-value cache compression in long-context generation. CoRR abs/2412.13649, 2024a.
[26] Pang J, Ye F, Wong D, et al. Anchor-based large language models. ACL 2024
#陈丹琦,入职Thinking Machines Lab了?
陈丹琦加入 Thinking Machines Lab 了?
注:Thinking Machines Lab 由前 OpenAI CTO Mira Murati 于 2025 年 2 月创立,团队成员主要由多位前 OpenAI 员工构成,目前人数在几十人左右。该公司致力于前沿的多模态 AI 模型与技术研发。
这一猜测不是毫无根据,当我们打开她的 GitHub 主页,邮箱已经变为 thinkingmachines.ai。
来源:https://github.com/danqi
根据行业常规的邮箱命名方式,Thinking Machines Lab 内部员工邮箱很可能采用「firstname.lastname@thinkingmachines.ai 」的方式,巧合的是,陈丹琦也是这种。
为了进一步确认这种猜测,我们找到了 Thinking Machines Lab 首席科学家 John Schulman 邮箱,也是以 thinkingmachines.ai 结尾。
除了邮箱外,我们打开 Thinking Machines Lab 的 Hugging Face 主页,也发现了陈丹琦的名字。
来源:https://huggingface.co/thinkingmachineslabinc
这不由得让人联想到,陈丹琦是不是已经辞去普林斯顿大学的职务,进入产业界做研究,或者是以兼职的身份加入 Thinking Machines,就像何恺明兼职谷歌 DeepMind 科学家一样,且依然保留 MIT EECS 终身教授的身份。
但这些只是猜测,陈丹琦个人主页也没有更新这条消息。
看来,我们只能再等一等了。
陈丹琦,普林斯顿大学计算机科学系副教授,共同领导普林斯顿 NLP 研究小组。同时兼顾普林斯顿语言与智能研究计划副主任,该计划致力于开展大型 AI(如 LLM)的基础研究,她还是 RoBERTa 的作者之一。此前,陈丹琦曾在西雅图的 Facebook AI Research(FAIR)担任访问科学家,与 Luke Zettlemoyer 合作研究。
现在,陈丹琦论文引用量总计 7.5 万次,单篇 RoBERTa 研究达到 3.6 万次。
陈丹琦于 2012 年毕业于清华大学姚班,2018 年获得斯坦福大学计算机科学博士学位,师从斯坦福大学语言学和计算机科学教授 Christopher Manning。
2019 年,她的博士论文上传仅四天就获得了上千次的阅读量,成为了斯坦福大学近十年来最热门的毕业论文之一。她的导师评价说,「陈丹琦是使用神经网络方法解决自然语言理解问题方面的先驱。她简单、干净、高成功率的模型吸引了众人的目光…… 她的这篇毕业论文主要研究神经网络阅读理解和问答,这些新兴技术正在带来更好的信息访问方式 —— 它可以让计算机系统可以真正回答你的实际问题,而不是简单地返回文档搜索结果。」
陈丹琦在NLP领域的研究成果屡获学界认可,获得了多个重要奖项,其中包括 ACL 2022 杰出论文奖、2016 ACL 杰出论文奖等。她还多次获得国际一流企业和机构的研究资助与奖学金支持,如亚马逊研究奖、谷歌研究学者奖、Adobe 数据科学研究奖等。
#InfiniteTalk
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。为解决这些痛点,Infinitetalk 引入 “稀疏帧 video dubbing”。
这一新范式从根本上重新定义了 video dubbing,将其从简单的 “嘴部区域修复” 转变为 “以稀疏关键帧为引导的全身视频生成”。该模型不仅能够实现口型与配音的精准同步,更实现了面部表情、头部转动和肢体语言与音频所表达情感的自然对齐,消除长视频生成中的累积误差和突兀过渡。
InfiniteTalk 是由美团视觉智能部主导研发的新型虚拟人驱动技术,技术论文、代码、权重已开源。 美团视觉智能部能围绕丰富的本地生活电商场景,建设从基础通用到细分领域的视觉技术能力,包括视觉生成大模型、多模交互虚拟人,助力营销创意生产和商家低成本直播;文档、商品、安全多模态大模型,助力商家开店经营、平台商品治理和违规账号治理;人脸识别、文字识别、细粒度图像分析、高性能检测分割、街景理解成为公司基础设施能力。
- 项目主页:https://meigen-ai.github.io/InfiniteTalk/
- 开源代码:https://github.com/MeiGen-AI/InfiniteTalk
- 技术报告:https://arxiv.org/abs/2508.14033
我们先看示例:
,时长01:00
,时长00:40
一、引言 ——video dubbing 的一个长期痛点
长期以来,video dubbing 一直面临一个核心的 “僵局”—— 其编辑范围的局限性。传统的 video dubbing 技术,例如 MuseTalk 和 LatentSync,通常专注于对嘴部区域进行 “修复式” 编辑,以实现口型与新音频的同步。这种方法的主要局限在于,它几乎不触及人物的面部表情、头部转动和肢体动作。
这种 “局部编辑” 的策略导致了一个严重的矛盾:当配音表达出强烈的情感(例如激动、愤怒或喜悦)时,视频中人物的身体姿态却保持着僵硬或静止状态。例如,一段充满激情的对话,人物却只是面部肌肉轻微抽动,身体保持纹丝不动。这种视听信息的不一致性会严重破坏观众的沉浸感,使生成的视频显得不自然,缺乏说服力。这种矛盾感的存在,从根本上制约了配音视频的质量,并成为内容创作者亟待解决的难题。如图 1 所示。
随着人工智能技术的发展,一些音频驱动的视频生成模型应运而生,试图解决这一问题。然而,直接将这些模型应用于长 video dubbing 任务,同样暴露出新的、且同样关键的挑战。
首先是基于图像转视频(Image-to-Video, I2V)的方法。这类模型通常以视频的首帧图像作为初始参考,然后根据音频生成后续的视频序列。虽然这种方法在理论上提供了更大的动作自由度,但它存在严重的 “累积误差” 问题,如图 2 (left)。由于模型缺乏持续的原始关键帧作为锚定,在生成较长的视频序列时,人物的身份特征(如面部细节、发型等)会逐渐偏离源视频,甚至背景的色调也可能发生不可控的偏移,导致视频质量随时间推移而下降。
其次是基于首末帧转视频(First-Last-frame-to-Video, FL2V)的方法。该方法试图通过同时使用视频片段的起始帧和终止帧作为参考来解决累积误差。然而,这种策略带来了另一个问题:过渡生硬, 如图 2(right)。FL2V 模型生成过程缺乏从前一片段向后一片段传递的 “动量信息”,不同视频片段之间的动作衔接会显得突兀和不自然,打破了视频流的连续性。与此同时,其过于严格地遵循固定的参考帧,强制生成的视频在片段(chunk)的边界上精确复制参考帧的姿态,即使这种姿态与新音频的情感或节奏相悖。
这两种主流 AI 方案的局限性揭示了一个核心矛盾:即 “局部编辑的僵硬” 与 “全局生成的失控”。传统方法因编辑范围狭窄而僵硬,而新兴的 AI 生成模型则在长视频的连贯性上遭遇了挑战。
二、新的范式:稀疏帧 video dubbing
为了从根本上解决上述挑战,Infinitetalk 引入了一个全新的技术范式 ——“稀疏帧 video dubbing”。这一范式彻底改变了 video dubbing 的技术哲学:它不再将任务定义为对嘴部区域的 “修复”(inpainting),而是将其重构为一场 “以稀疏关键帧为引导的全身视频生成”。其核心理念在于,不是逐帧地、僵硬地复制源视频,而是策略性地仅保留和利用源视频中的少数关键帧(sparse keyframes)作为核心参考。这些关键帧如同 “视觉锚点”,在生成过程中发挥着至关重要的作用。
为了应对无限长度的视频序列生成任务,InfiniteTalk 采用了流式(streaming)生成架构,整体网络框架如图 4 所示。其工作原理是将一个超长视频分解为多个小的、可管理的视频片段(chunks),然后逐一进行生成。然而,与简单的分段生成不同,InfiniteTalk 的核心在于其精巧设计的 “上下文帧”(context frames)机制。
当模型生成一个新片段时,它不仅仅依赖于源视频的参考帧,还会利用上一段已生成视频的末尾帧作为下一段生成的 “动量信息”。这些上下文帧为新片段的生成提供了必要的 “时间上下文”,使其能够承接前一片段的运动趋势和动态,确保动作的连续性和流畅性。这一机制如同接力赛中的接力棒,将前一棒的冲刺动量无缝传递给下一棒,从而彻底解决了传统 FL2V 模型中因缺乏动量信息而导致的片段间突兀过渡问题。通过流式架构和上下文帧机制的结合,InfiniteTalk 成功地将 “片段生成” 任务提升为 “连续流生成”,这是其实现 “无限长度” 生成能力的技术基石。
在 “稀疏帧 video dubbing” 范式下,一个关键的挑战是如何在 “自由表达” 与 “跟随参考” 之间找到微妙的平衡。过于严格地复制参考帧(如 M1 策略)会导致生成的动作僵硬,而如果控制过于松散(如 M2 策略),则又会面临身份和背景失真等问题。InfiniteTalk 的核心策略是采用一种 “软条件”(soft conditioning)控制机制 。该机制的核心发现是,模型的控制强度并非固定不变,而是由 “视频上下文和参考图像的相似度” 所决定 。基于这一发现,Infinitetalk 设计了一种独特的采样策略,通过 “细粒度的参考帧定位”(fine-grained reference frame positioning)来动态调整控制强度,从而在动作自然度与参考帧的保真度之间取得平衡。
如表 3 所示,M0 策略因随机采样而控制强度过高,导致模型不恰当地复制参考动作,削弱了同步性。M1 策略虽然在视觉质量上表现尚可,但在同步性上表现较差,因为它过于严格地复制了边界帧。M2 策略因参考帧与上下文帧的时间距离过远,导致模型对身份和背景的控制力不足,最终在视觉质量(FID、FVD)上表现最差。
最终被采纳的 M3 策略,通过在训练中从邻近分块(adjacent chunks)中采样参考帧,找到了一个 “最优平衡点”(optimal equilibrium)。这种策略既能确保模型在视觉上遵循源视频的风格,又能赋予模型根据音频动态生成全身动作的自由。
此外,该模型还能通过集成 SDEdit 或 Uni3C 等插件,实现对源视频中微妙的镜头运动(camera movement)的精确保留。这一点至关重要,因为它确保了生成的视频不仅人物动作自然,连画面的构图和运镜都与源视频保持一致,进一步提升了视频的真实感和连贯性。
三、实验数据与视觉实证
为了全面验证 InfiniteTalk 的性能,将其与多个方法进行了对比。
不同相机控制方法的对比:
四、结语与展望
InfiniteTalk 成功解决了 “僵硬” 与 “断裂” 两大痛点。其核心技术 —— 流式生成架构、软条件控制以及全方位同步能力,共同为高质量、长序列的视频内容生成提供了新的解决方案。在短视频创作、虚拟偶像、在线教育以及沉浸式体验等领域,这项技术可以为创作者提供强大的工具,以更低的成本、更高的效率生成富有表现力的动态内容,彻底打破现有制作流程的瓶颈。
#Gemini-2.5-flash-image
谷歌又赢了,nano banana「被迫」改名后,网友搞出7种神仙玩法
世界上最好的AI图像编辑模型又易主了。
谷歌这次又赢麻了!
神秘图像编辑模型 nano banana 被谷歌认领、正式改名为 Gemini-2.5-flash-image 后,热度仍居高不下,火爆程度丝毫不亚于 GPT-4o 掀起的「吉卜力热潮」。
小声蛐蛐一句:nano banana 这名多好听、多好记,干嘛改成一个那么老长的名?😂
与其他竞品相比,该模型生成速度更快、成本更低、图像生成与编辑能力更强,网友们不吝赞美之词,直呼这是世界上最好的 AI 照片编辑器。
目前,该模型已在 Gemini 应用和 Google AI Studio 上线,用户只要在模型列表中选择 Gemini 2.5 Flash Image,上传图像或者输入文字提示词,即可免费体验。开发者也可以直接通过 Gemini API 调用。
- Gemini 网页版链接:https://gemini.google.com
- Google AI Studio 链接:https://aistudio.google.com
短短几天,网友们已经玩疯了,开发出各种新奇玩法。
制作等距模型
nano banana 可以轻松将单个建筑或物体分离出来,转化为等距模型。
谷歌亲自下场,在 X 官方账号中大力推荐这种用法。
比如上传一张咖啡店夜景照,输入提示词「Make Image Daytime and Isometric」,nano banana 不仅能把夜晚变成白天,还会自动补全原图没展示出来的建筑细节:剥落的墙皮、杂乱的电线…… 全都原汁原味复刻。唯一的小 bug 是坐着聊天的男男女女人数对不上号。
左右滑动查看更多
它还能做出类似产品建模或工业设计里常见的六视图,主体在各个角度都保持一致,同时还保留等距视角效果。
提示词:Front, Rear, Left, Right, Top, Bottom views on white. Evenly spaced. Consistent subject. Isometric Perspective Equivalence. (在白色背景上展示正面、背面、左侧、右侧、顶部和底部视图,间距均匀,主体一致,保持等距视角。)
左右滑动查看更多
标注现实世界
前谷歌产品经理 Bilawal Sidhu 直接上传了现实中的建筑截图,让 nano banana 标注相关信息,提示词:you are a location-based AR experience generator. highlight [point of interest] in this image and annotate relevant information about it.
左右滑动查看更多
有网友反手就将上述生成的标注图丢给 ChatGPT,来验证它是否胡说八道。
据 ChatGPT 核查,标注信息基本正确,只是在 Ferry Building 的开放时间和 Palace of Fine Arts 的重建时间两个细节上不够准确和完整。
地图可视化
nano banana 还能把地图变成实景。
上传东京塔、金门大桥的谷歌地图截图,在上面标个红色箭头,输入提示词 「what does the red arrow see」,模型就像人站在某个地点朝某个方向看一样,生成箭头标记位置和方向的景色。
左右滑动查看更多
甚至是一张虚构的旧金山 - 纽约混合城市地图的红箭头视角,它都能生成接近真实景观的图像。
提示词:draw the ground level view of the red arrow in SanFranciscoNewYork.
左右滑动查看更多
更高阶的玩法是先让它绘制一张带有等高线的 DEM,提示词:draw a DEM with contour line.
然后让它从红色圆圈处沿箭头方向绘制现实世界的视图,提示词:draw the real world view from the red circle in the direction of the arrow.
nano banana 生成的自然景观图中高度还原了 DEM 中描述的地形特征,包括湖泊、山脉和草原。
OOTD、换衣
OOTD 这个玩法简直是各大时尚博主的最爱。现在只要上传一张穿搭照片,nano banana 就能秒出穿搭清单。
提示词:give me this character ootd.
不仅是真人,动漫角色的穿搭也能瞬间转换为 OOTD。当然也有 bug,比如漏掉手提包、鞋子颜色和帽子纹络不对等,但整体效果还是挺惊艳的。
提示词:give me this character ootd.
给人物换衣更是小菜一碟。即使 T 恤图案花纹繁复,nano banana 生成的换衣图片中也能 1:1 复刻,连褶皱都异常逼真。
左右滑动查看更多
生成电影分镜
估计不少人都见识过姜文导演的火柴人分镜手稿,画风那叫一个抽象。
现在只要上传男女主肖像图,输入简单的提示词,nano banana 就能生成多帧电影镜头,啥风格都能 hold 住。
此处 @导演姜文。
更绝的是,nano banana 还能识别手绘内容,并根据手绘姿势生成复杂的战斗场景。
只需提供两个动漫角色图像,再加上一张手绘简笔画指定战斗姿势,输入提示词「Have these two characters fight using the pose from Figure 3. Add appropriate visual」,AI 就能将这些元素整合,还能添加丰富的背景和特效。
左右滑动查看更多
生成漫画
a16z 合伙人 Justine Moore 用 nano banana 测试了漫画创作。
第一步,给一张真实的自动驾驶汽车照片,提示词「turn this into black-and-white manga」,AI 将照片转换为黑白漫画风格,不仅保留了车辆和背景的细节,还添加了动态效果。
第二步,加一句提示 「make the next panel a funny cat-related twist」,模型就生成了下一帧:车里出现了一只猫,还配了幽默的对话框「Mission Complete!」
总之,nano banana 不仅能改风格,还能顺着提示自动编故事,生成连贯的漫画。
风格化、修复或上色老照片
此前,GPT-4o 在全球刮起了一场吉卜力浪潮,而对于 Nano Banana 来说,转绘风格效果也相当有看点。
比如将穆罕默德・阿里的拳击胜利照片改编成《辛普森一家》风格的卡通图像,这效果太以假乱真了,我一度以为这是动画片中的一幕。
对于修复老照片、给黑白照片上色等常规操作,Nano Banana 更是手拿把掐。
提示词:Restore this photograph.
提示词:Add color to this photo.
你还探索出哪些 nano banana 的稀奇古怪的玩法?欢迎在评论区聊聊~
参考链接:
https://x.com/6xyzzxy1/status/1960736252661260294
https://x.com/Error_HTTP_404/status/1960405116701303294
https://x.com/bilawalsidhu/status/1960529167742853378
https://x.com/tokumin/status/1960583251460022626
https://x.com/op7418/status/1960362278357987649
https://x.com/skirano/status/1960343968320737397
https://x.com/yachimat_manga/status/1960555945131696329
https://x.com/alex_prompter/status/1960773176264118429
#LiveMCP‑101
杜克大学、Zoom推出:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注
研究概要:杜克大学与 Zoom 的研究者们推出了 LiveMCP-101,这是首个专门针对真实动态环境设计的 MCP-enabled Agent 评测基准。该基准包含 101 个精心设计的任务,涵盖旅行规划,体育娱乐,软件工程等多种不同场景,要求 Agent 在多步骤、多工具协同的场景下完成任务。实验结果显示,即使是最先进的模型在该基准上的成功率仍低于 60%,揭示了当前 LLM Agent 在实际部署中面临的关键挑战。通过细粒度的失败模式分析与 Token 效率分析,研究为提升 Agent 的 MCP 工具调用能力与 token 利用效率提供了明确的改进方向。第一作者是杜克大学的博士生 Ming Yin, 导师是 Yiran Chen 教授。该工作是在 zoom 实习期间完成。
论文链接:https://arxiv.org/pdf/2508.15760
1. 研究背景与动机
MCP 的兴起:外部工具交互能力已成为 AI Agent 的核心,使其能够超越静态知识,动态地与真实世界交互。Model Context Protocol (MCP) 的出现标准化了模型与工具的集成。
现有评测的局限:当前基准多聚焦于单步工具调用、合成环境或有限工具集,无法捕捉真实场景的复杂性和动态性。在实际应用中,代理必须与可能随时间变化响应的实用工具交互,跨越完全不同的领域。
用户查询的复杂性:现实中的用户查询往往带有细致的上下文和特定约束,需要跨越多次工具调用的精确推理才能完成任务。这要求代理不仅知道使用哪个工具,还要知道何时以及如何在不断演变的任务状态中组合这些工具。
评测挑战:理解代理在现实、时间演进的生产环境中为何失败,能够为改进相应的模型和系统架构提供宝贵见解。然而,现有基准无法完全揭示当前代理系统在真实生产环境部署时的差距。
2. 基准与方法
2.1 任务集
共 101 个高质量任务,经多轮 LLM 改写与人工审校;覆盖 41 个 MCP 服务器、260 个工具;分为 Easy, Medium, Hard 三档难度,涵盖从基础工具调用到复杂多步推理的任务。
2.2 执行计划生成与验证
Reference Agent 机制:Reference Agent(参考代理)是评测框架的核心组件,它是一个专门配置用于严格遵循预定义执行计划的代理。与被测代理需要自主决策不同,Reference Agent 被明确指示按照已验证的执行计划逐步执行,仅使用计划中指定的 MCP 工具和参数。这种设计确保了在动态环境中能够产生稳定、可重现的参考结果,为公平评测提供可靠基准。
金标执行链构建:针对真实环境中工具响应随时间变化的挑战,研究团队为每个任务创建了详细的执行计划。首先使用 o3 模型基于查询和工具规范起草计划,随后结合参考代理的执行轨迹和输出,通过 LLM 辅助编辑与人工调整相结合的方式,修正逻辑错误、工具选择、参数化和数据处理错误。
严格验证流程:整个修订过程耗费约 120 PhD hours,每个任务都经过多次试验验证,人工确认正确性。最终的执行计划能够确定性地产生参考输出,工具链长度分布平均为 5.4 次调用,最长达 15 次。
2.3 创新性并行双轨评测框架
时间漂移解决方案:为解决在线服务响应随时间变化的问题,研究提出并行双执行方案:
- 参考代理执行:参考代理严格按照已验证的执行计划,仅使用计划中指定的 MCP 工具产生参考输出
- 被测代理执行:被评估代理仅接收自然语言查询和预定义的任务工具池,必须独立分析查询、选择工具、调度调用并处理中间结果
工具池挑战设计:每个任务的工具池包含所有必需工具加上额外的 MCP 工具(单任务总共 76-125 个工具),模拟真实世界的选择广度,评估工具发现和在干扰项下的选择能力。
2.4 多维度评价指标体系
双重评分机制:采用 LLM-as-judge(GPT-4.1)对被测代理的结果和执行轨迹分别评分:
- 结果指标:任务成功率(TSR)- 得分为 1.0 的实例比例;平均结果分(ARS)- 所有实例得分的算术平均
- 轨迹指标:平均轨迹分(ATS)- 评估执行轨迹的逻辑一致性、完整性和正确性
- 效率指标:另外,还统计了平均 Token 消耗和平均工具调用数,衡量 Agent 的资源利用效率
人类一致性验证:通过对六个代表性模型进行分层抽样的盲评实验,验证 LLM 评审的可靠性,显示与人类专家的一致性在结果评审上达到 κ > 85%,轨迹评审上达到 κ > 78%。
3. 主要发现
3.1 模型性能分层明显
整体表现:在 18 个评测模型中,GPT-5 以 58.42% 的总体成功率领先,其次是 o3 (46.53%)、GPT-5-mini (43.56%) 和开启扩展思考的 Claude-4.1-Opus (41.58%)。这表明即使是最先进的模型,在复杂多步工具编排任务上仍有很大提升空间。
难度梯度影响:随着任务难度提升,所有模型性能显著下降。在 Easy 任务上,GPT-5 达到 86.67% 成功率,但在 Hard 任务上仅为 39.02%。这种急剧下降揭示了当前模型在处理复杂约束和长链推理时的局限性。开源与闭源差距:开源模型明显落后,最好的 Qwen3-235B-A22B 仅达到 22.77% 成功率,而 Llama 系列表现尤其不佳(Llama-3.3-70B 仅 1.98%),暴露出在 MCP 工具调用训练上的不足。
3.2 执行质量与结果的强相关性
研究发现轨迹质量(ATS)与任务成功率(TSR)和平均结果分(ARS)呈现显著正相关。这一发现强调了 "过程正确性" 对最终结果的决定性影响。
3.3 Token 效率的对数规律
闭源模型的效率曲线:研究发现闭源模型展现出独特的对数型 Token 效率模式 —— 在低 Token 预算下任务成功率快速提升,随后迅速进入平台期。这表明早期 Token 主要用于高价值操作(规划、关键工具探测、约束验证),而额外的 Token 多带来冗余(更长的解释、重复的自检)而非新的有效证据。
开源模型的效率困境:相比之下,开源模型即使使用相当或更多的 Token,成功率提升依然有限。Llama 系列倾向于过早停止探索,而部分 Qwen 模型虽然产生更长输出和更多工具调用,但未能转化为相应的性能提升。
扩展思考的价值:启用扩展思考(Extended Thinking)的 Claude 系列模型在相似 Token 预算下持续展现更好的性能,表明改进来自更好的规划和错误恢复,而非简单的输出冗长。
3.4 系统性失败模式分析
通过对执行日志的深入分析,研究识别出三大类七种具体失败模式:
工具规划与编排错误(占比最高):
- 忽略需求:完全错过任务中的明确要求,未调用相关工具
- 过度自信自解:依赖内部知识而非调用必要工具
- 无效循环:识别到需要工具但陷入无产出的思考循环,未调用相关工具
- 错误工具选择:调用了不适当的工具导致错误结果
参数错误(核心瓶颈):
- 语法错误(参数格式错误):在 Llama-3.3-70B-Instruct 中高达 48%,显示 MCP 特定训练的缺失
- 语义错误(参数内容错误):即使强模型也有 16-25% 的语义参数错误率。
输出处理错误:工具返回正确结果但在解析或转换时出错
5. 与既有工作的差异
更贴近生产实况:更大工具池与干扰工具设置,充分暴露长上下文与选择噪声下的鲁棒性问题。
更高难度与更细金标:平均 5.4 次调用(最长 15),显著区分模型层级;金标执行链包含详细参数与步骤,评分更一致、更接近人工判断。
更强诊断性:并行得到 “参考轨迹 vs. 被测轨迹”,可精确定位 “错在计划、参数还是后处理”,可以指导工程优化。
6. 总结与展望
LiveMCP-101 为评测 AI Agent 在真实动态环境中的多步工具使用能力建立了严格且可扩展的评测框架。通过 101 个涵盖多领域的精心设计任务,配合基于执行计划的创新评测方法,研究揭示了即使是最先进的大语言模型在工具编排、参数推理和 Token 效率方面仍面临重大挑战。不仅诊断了当前系统的不足,更为开发更强大的 AI Agent 指明了改进方向。
更多推荐
所有评论(0)