51c大模型~合集135
例如,为了实现高效的矩阵乘法,英伟达在 Ampere、Hopper 和 Blackwell 等不同代际的 GPU 上采用了不同的使用 Tensor Core 的布局,并且每种布局在使用不同数据类型时都有不同的变体。此外,对于任何偶数线程 𝑡_𝑘,𝑘 的最后一位与 𝑟_0 中 𝑗 的倒数第二位匹配,𝑘 的倒数第二位与 𝑟_0 中 𝑗 的倒数第三位匹配。此外,在 Triton 的编程模
我自己的原文哦~ https://blog.51cto.com/whaosoft/13964927
#Linear Layouts
OpenAI久违发了篇「正经」论文:线性布局实现高效张量计算
OpenAI 发论文的频率是越来越低了。
如果你看到了一份来自 OpenAI 的新 PDF 文件,那多半也是新模型的系统卡或相关增补文件或基准测试,很少有新的研究论文。
至于原因嘛,让该公司自家的 ChatGPT 来说吧:「截至目前,OpenAI 在 2025 年在 arXiv 上公开发布的论文数量相对较少,可能反映了其对研究成果公开策略的谨慎态度,可能出于商业保密或安全考虑。」
不过近日,OpenAI 也确实发布了一份完全由自己人参与的、实打实的研究论文,其中提出了一种用于高效张量映射的统一代数框架 Linear Layouts。这是一种使用二元线性代数而非比特表示(bit representation)的张量布局的通用代数形式,解决了 Triton 等深度学习编译器中长期存在的难题。
论文标题:Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using 𝔽₂
论文地址:https://arxiv.org/pdf/2505.23819.pdf
要理解这项研究的意义,首先需要先理解一下什么是张量布局(tensor layouts)。
简单来说:张量布局 = 逻辑张量与硬件资源(例如内存、线程、向量单元)之间的映射关系。下图给出了两个布局示例。
对于现代深度学习工作负载而言,所需要的张量布局需要满足几个要求:
高效(为了性能)。
灵活(以支持多种算子)。
可组合(为了变换和优化)。
然而,当前的布局系统却难以充分满足这些需求,而是往往:
- 需要根据实际需求设计,而且往往是硬编码的(需要手动编写规则)。
- 不可扩展(每一对布局都需要二次组合)。
- 容易出错,尤其是在像 Triton 这样的低层级的后端中 —— 截至目前,Triton 的 GitHub 库中提交的 12% 的 Bug 与布局有关。
另外,深度学习硬件(如 GPU)的日益复杂也导致张量布局日益复杂。
例如,为了实现高效的矩阵乘法,英伟达在 Ampere、Hopper 和 Blackwell 等不同代际的 GPU 上采用了不同的使用 Tensor Core 的布局,并且每种布局在使用不同数据类型时都有不同的变体。AMD 和英特尔等其它 GPU 供应商在利用其类似 Tensor Core 的技术进行加速时,也使用了不同的布局。因此,硬件架构的快速发展和多样化的深度学习模型需要一种新的张量布局建模方法。
为此,需要解决一些技术难题:
- 在将张量映射到硬件资源方面,需要一种通用且可组合的表示方法。
- 布局转换应该用统一的形式来表达,甚至需要包含诸如数据交换(data swizzling)等复杂变换。
- 这种表示必须与低级硬件优化无缝集成,以确保高效的数据访问和计算。
不过,在介绍 OpenAI 这篇论文的贡献之前,我们需要先了解一些基础概念。
相关背景知识
GPU 架构
在设计上,现代 GPU 的目标是通过包含多层硬件资源的分层执行模型来充分利用并行性。
其关键执行单元包括协作线程阵列 (CTA)、Warp 和线程。每个 GPU 线程都可以访问私有寄存器 —— 这些寄存器提供最低延迟的存储空间,但容量有限。常规指令可以由各个线程独立执行。然而,某些特殊功能单元必须在更高的粒度级别上执行。
例如,英伟达的 mma(矩阵乘法累加)指令利用 Tensor Core 的方式是并行执行由各个 Warp 发出的多个乘加运算。而 wgmma(Warp 组矩阵乘法累加)等高级变体则是通过在多个 Warp 上同时执行矩阵乘法而对这些功能进行了扩展。AMD 也引入了类似的原语,例如 mfma(矩阵融合乘加)指令。
请注意,这些指令要求数据分布在线程和 Warp 之间,或者以特殊布局驻留在共享内存或特殊内存单元(例如 Blackwell 上的 Tensor Memory)中,才能产生正确的结果。
然而,这些布局通常不会为加载 / 存储等其他操作带来最佳性能,而且并非总是可以使用特定指令将数据直接从全局内存复制到特殊内存单元。
因此,通常必须对数据进行重新排列,以便将用于内存访问的布局转换为计算单元偏好的布局。
简而言之,要实现峰值性能,不仅需要利用这些专用单元,还需要精心设计张量布局和转换。
Triton 语言和编译器
Triton 是一种类似于 Python 的用于特定领域的语言,其设计目标是提供用于编写高性能深度学习原语的灵活接口。Triton 的编译器后端使用了 MLIR,支持多层次抽象表达。
究其核心,Triton 内核遵循单程序多数据 (SPMD) 模型,其中计算被划分为多个抽象的 Triton 程序实例。这种设计允许开发者主要关注 CTA 级别的并行性即可。在 Triton 中,「张量」一词指的是从原始 PyTorch 张量中提取的块,它们用作 GPU 核的输入和输出。
在编译过程中,Triton 的 Python 代码首先被翻译成 Triton 方言 (tt),然后进一步翻译成 TritonGPU 方言 (ttg)。在此过程中,每个张量都与特定的布局相关联,以充分利用现代 GPU 上可用的硬件功能单元。例如,当遇到 dot 类算子(例如 tt.dot 和 tt.dot_scaled)时,会采用 mma 布局并使用 Tensor Core 和类似的单元。
𝔽₂ 数学基础
我们可将两个元素 {0, 1} 的域表示为 𝔽₂。在 𝔽₂ 中,所有算术运算均以 2 为模执行。
例如,加法定义为
,其对应于逻辑异或(XOR)。
而乘法定义为
,对应于逻辑与(AND)。
在 𝔽₂ 上,一个基本运算是矩阵乘法。令
是元素在 𝔽₂ 中的两个矩阵。乘积 𝐶 = 𝐴𝐵 的各个元素的定义为
这类似于标准矩阵乘法,不同之处在于所有算术运算都在 𝔽₂ 中执行。
𝔽₂ 中的算术运算与二进制逻辑自然契合,使得该领域的运算在硬件实现中非常高效。因此,𝔽₂ 广泛应用于密码学和纠错码等领域。
传统布局
图 2 列出了 Triton 中所有可用的布局。
在最高层级,布局分为分布式(Distributed)布局和内存((Memory)布局。前者是指张量元素分布在不同的执行单元中,而后者是指张量元素存储在特定的特殊内存中。
分布式布局又可进一步分为 Blocked、Sliced、MMA 和 MMA Input 布局等类型,而内存布局又可进一步分为 Unswizzled 和 Swizzled 布局。
Blocked 布局通常用于连续的内存访问。MMA 和 MMA 输入布局用于矩阵乘法运算(例如 tt.dot)的输出和输入。MMA 布局可以根据其映射到的硬件指令进一步分类,例如英伟达 GPU 上的 mma 和 wgmma,或 AMD GPU 上的 mfma。Sliced 布局是从其父布局中提取一个维度,用作广播或某个归约运算的输出。
传统 Triton 布局系统要求每个布局定义自己的接口方法,例如每个线程的元素数量和连续元素的数量。此外,必须为每个布局显式实现对张量元素的索引以及布局之间的转换。这种方法导致布局构造和转换常出现 bug。
Linear Layouts(线性布局)
下面将简单介绍线性布局的定义、一些基本的线性布局算子、创建各种 Triton 布局以作为线性布局实例,以及应用于 Triton 的通用布局引擎。
一个示例
在 GPU 编程中,大多数参数都是 2 的幂:一个 Warp 由 32 或 64 个线程组成,一个 Warp 组包含 4 个 Warp,矩阵乘法内联函数(例如 mma 和 wgmma)要求 Tile 尺寸为 16 × 𝑛,其中 𝑛 ≥ 1。
此外,在 Triton 的编程模型中,张量的维度以及与每个张量相关的布局子部分(例如每个线程的寄存器和线程数量)都被限制为 2 的幂。在图 1 中,布局 A 有一个 16 × 16 的张量,其使用了多个 2 × 2 的寄存器、4 × 8 的线程和 2 × 1 的 Warp。
由于这些量都是 2 的幂,因此使用其坐标的比特表示,可以直观地可视化布局 A 中元素的分布(如图 1 所示)。所有线程的寄存器 0 (𝑟_0) 都位于坐标 (𝑖, 𝑗),其中 𝑖 和 𝑗 的最后几位(bit)均为 0。例如,线程 𝑡_1 的 𝑟_0 位于 (0, 2) = (0𝑏00, 0𝑏10)。作为对比,𝑟_1 元素的坐标中,𝑖 的最后一位始终为 0,而 𝑗 的最后一位始终为 1。例如,𝑡_9 的 𝑟_1 位于 (2, 3) = (0𝑏10, 0𝑏11)。
此外,对于任何偶数线程 𝑡_𝑘,𝑘 的最后一位与 𝑟_0 中 𝑗 的倒数第二位匹配,𝑘 的倒数第二位与 𝑟_0 中 𝑗 的倒数第三位匹配。例如,𝑡_10 = 𝑡_0𝑏1010 的 𝑟_0 位于 (2, 4) = (0𝑏10, 0𝑏100)。这种系统性对齐持续存在,表明二次幂结构足以清晰地决定了每个线程元素的分布。
综上所述,假设一个大小为 8 的向量 𝑣 表示一个 Warp 中线程的一个元素,其中前 2 位表示寄存器 (Reg),接下来的 5 位表示线程 (Thr),最后一位则表示 Warp (Wrp),则可以如此定义布局 𝐴:
带标注的向量空间。如此,可为布局中的每一位(bit)分配标签。输入 𝑣 位于
空间中,建模了 Reg × Thr × Wrp 的空间。输出 𝑤 遵循
结构,表示逻辑张量 (𝑖, 𝑗) 的两个维度。
定义与构造
定义 1(线性布局 / Linear Layouts)。线性布局的定义是在 𝔽₂ 上的向量空间之间的线性映射。
定义 2(组合 / Composition)。给定 𝔽₂ 上的向量空间 𝑈 、𝑉 、𝑊 以及线性布局 𝐿₁ : 𝑈 → 𝑉 和 𝐿₂ : 𝑉 → 𝑊 ,它们的组合定义为:
将 𝐿₁ 和 𝐿₂ 表示为矩阵 𝑀₁ 和 𝑀₂ ,表示 𝐿₂ ◦ 𝐿₁ 的矩阵由 𝔽₂ 上的(逐标签)矩阵乘法 𝑀₂𝑀₁ 给出。
定义 3(积 / Product)。给定 𝔽₂ 上的两个向量空间 𝑈 和 𝑉,定义它们的积为:
给定两个线性布局𝐿₁ : 𝑈₁ → 𝑉₁, 𝐿₂ : 𝑈₂ → 𝑉₂,且 𝑢1₁∈ 𝑈₁, 𝑢₂ ∈ 𝑈₂,则定义它们的积为:
将 𝐿₁ 和 𝐿₂ 表示成矩阵 𝑀₁ 和 𝑀₂,则表示 𝐿₁ × 𝐿₂ 的矩阵为:
定义 4(左除 / Left Division)。若矩阵 𝑀 具有如下结构,则矩阵 𝑀 左侧可被矩阵 𝑀₁ 整除:
这里将左侧的除法记为
。此运算可在线性布局中逐标签处理。
左除法可用于确定布局是否可以分解为满足高效硬件原语(例如 ldmatrix)的较小布局,
定义 5(右逆 / Right Inverse)。在 𝔽₂ 上的满射线性布局 𝐿 : 𝑈 → 𝑉 具有一个右逆。
如果 𝑀 是 𝐿 的一个矩阵表示,其形状为𝑚 × 𝑛,则可将𝑀−1 定义为 𝑀𝑋 = 𝐼_𝑚 的 𝑛 × 𝑚 最小二乘解,其中 𝐼_𝑚 是 𝑚 × 𝑚 的单位矩阵。具体来说,它可以通过对𝔽₂进行高斯消元法计算得出。
当需要从逻辑张量的坐标中恢复硬件索引时,需要使用求逆运算。
对线性布局的更详细完备性说明请访问原论文,其中涉及到说明分块布局、mma 和 wgmma 的输入和输出布局、线性布局的 slice、每个分布式布局、MMA swizzled 布局、内存布局都是线性布局。另外,OpenAI 也在 Triton 说明了如何实现布局转换以及形状操作。
不仅如此,OpenAI 表示,线性布局为在语言前端和编译器后端开发算法提供了结构化的基础。他们也在论文中给出了一些关键示例,这里就不过多展开。接下来简单看看新提出的线性布局的实际表现。
评估
OpenAI 将优化版 Triton(集成了基于线性布局的优化,即 Triton-Linear)与未集成这些优化的基准 Triton 进行了比较。Triton 和 TritonLinear 之间的主要区别如下:
- Triton 使用传统的数据布局,不支持任意分布式布局的实用程序或它们之间的转换,因此容易出现 bug。
- Triton 未采用论文中描述的优化代码生成。例如,布局转换始终通过共享内存进行,对高效硬件原语的使用有限。
参与评估的硬件平台见表 1。
为了比较 Triton 和 Triton-Linear 的性能,该团队构建了一些合成微基准来进行测试,这方面的结果请访问原论文查看。这里仅看看它们在实际基准测试中表现。
在三个不同的平台上,OpenAI 运行了 TritonBench 中的 18 个基准测试。图 7、图 8 和图 9 中展示了 Triton-Linear 在三个平台上的性能提升。
由于每个基准测试包含多个输入,总计 420 个案例,因此他们使用了误差线(error bars)来表示每个基准测试的最小和最大加速。
需要注意的是,由于硬件限制,并非所有基准测试都适用于每个平台。例如,某些基准测试需要仅在 GH200 上才有的大型共享内存,而一些核使用的张量描述符依赖于 TMA 引擎,而 RTX4090 和 MI250 上均不支持 TMA 引擎。
可以看到,在 GH200 上,他们实现了 0.92 倍到 1.57 倍不等的加速,所有基准测试的平均加速均超过 1.0 倍。加速最显著的基准测试是 int4_gemm、ops_gemm 和 streamk_gemm。
可以观察到,高效的硬件原语(例如 ldmatrix 和 stmatrix)在这些核中被广泛用于布局转换以及共享内存的加载和存储操作。值得注意的是,layer_norm 实现了从 0.99 倍到 1.57 倍的加速 —— 在不同形状之间表现出了显著差异。对于某些输入形状,Triton-Linear 能够检测「等效」布局之间的转换,从而将转换过程降低为 no-op(无操作)。这种优化在旧版布局系统中无法实现,因为它无法直接比较不同类型的布局(例如,Blocked 布局和 Sliced 布局)。
在 RTX4090 上,新方法实现了 1.00 倍到 1.51 倍的加速。由于 mma (RTX4090) 和 wgmma (GH200) 指令之间的差异,他们在 template_attention 上实现了更高的加速。在本例中,tt.dot 运算的左操作数在循环外部定义,会重复从同一地址加载数据,因此 ldmatrix 和常规共享内存指令均可实现高吞吐量。虽然右操作数在每次迭代中都会更新,但 wgmma 会直接在共享内存中访问它,只有在 RTX4090 上,经过优化后,它才会被降级到 ldmatrix 中。因此,在 GH200 上实现的加速相对较低。在 MI250 上,新方法实现了 0.98 倍到 1.18 倍的加速。
总体而言,由于缺乏 ldmatrix 等高效的硬件原语,Triton-Linear 在 AMD GPU 上实现的加速低于在英伟达 GPU 的。
对于 OpenAI Open 的这个研究,你有什么看法呢?
#Token-Budget-Aware LLM Reasoning
基于Token预算感知的大模型高效推理技术
本位作者分别来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特分校。第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生,研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。通讯作者为南京大学房春荣教授。
随着大型语言模型(LLM)技术的不断发展,Chain-of-Thought(CoT) 等推理增强方法被提出,以期提升模型在数学题解、逻辑问答等复杂任务中的表现,并通过引导模型逐步思考,有效提高了模型准确率。
然而,这类方法也带来了新的挑战:模型生成的中间推理过程往往冗长,产生了大量冗余 Token,这显著增加了推理阶段的计算成本和资源消耗。在 LLM 日益走向实际部署的背景下,如何在保证推理能力的同时控制成本,已成为制约其大规模应用的核心问题。
为解决这一矛盾,近日来自南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队提出了一种基于 Token 预算感知 的 LLM 推理新框架 TALE,旨在保证推理准确率的同时,显著压缩输出长度、降低计算开销。
TALE 的核心理念是在推理过程中引入「Token 预算」这一约束机制,引导模型在限定的 Token 预算范围内完成有效推理。这种机制不仅可以提升模型对资源约束的适应性,也能促使其生成更加简洁、高效的推理路径。
该成果近日被自然语言处理顶级会议 ACL 2025 正式接收为 Findings。
论文标题:Token-Budget-Aware LLM Reasoning
论文地址:https://arxiv.org/pdf/2412.18547
GitHub:https://github.com/GeniusHTX/TALE
背景与动机:CoT Token 冗余与 Token 弹性现象
图 1:关于 Token 预算的直观示例。
以 CoT 为代表的推理增强技术,已被广泛集成至 GPT-4o、Yi 系列等主流模型中。但研究者发现,模型生成的中间推理过程往往冗长重复,输出 Token 数量成倍增长,带来了显著的计算与经济成本。
特别是在资源受限的边缘端推理任务部署场景(如教育答题、金融问询、代码理解)中,如何在「准确率」与「资源效率」之间取得平衡,成为当前急需解决的关键问题。该工作的研究者通过引入显式的 Token 预算信息,引导或训练模型在满足任务正确性的同时压缩推理过程,实现推理效率与性能之间的最优折中。
研究者首先通过不断降低问题的 Token 预算来探究模型思维链压缩的极限,并在系统性实验中观察到一个普遍存在的现象——Token Elasticity(Token 弹性)。即:当提示中施加过小的 Token 预算约束时,模型不仅难以遵守预算,反而可能耗费更多的 Token,导致总成本进一步上升。
这种「压缩失败反弹」的现象表明,当前 LLM 的推理行为在预算限制下存在一定的不稳定性和非线性响应,提示我们不能简单地通过减小预算来压缩推理,而是需要设计一套机制,引导模型在合理预算范围内产生最优推理路径。
为了实现这一目标,研究者提出了 TALE(Token-Budget-Aware LLM Reasoning) 框架,以实现推理质量与生成效率的协同优化。研究者给出了两种不同的具体实现方式:基于预算估计与提示工程的 TALE-EP(Estimation and Prompting) 以及基于后训练内化 Token 预算感知的 TALE-PT(Post-Training)。
图 2:关于 Token 弹性现象的直观示例。
基于预算估计与提示工程的 TALE-EP(Estimation and Prompting)
图 3:TALE-EP 的框架图。
TALE-EP 是一种轻量级、即插即用的基于零样本提示的推理增强方法。TALE-EP 首先让模型自我估计对每个具体问题所需的合理 Token 预算,并在推理过程中将该预算信息融入输入提示中,引导模型在不超过预算的前提下生成推理过程。这种方法无需修改模型参数,仅通过提示工程即可实现对 Token 生成的动态控制,兼具灵活性与实用性。实验结果显示,TALE-EP 在多个数学推理数据集上显著降低了 Token 使用量,平均节省超过 60% 的推理开销,且保持了与传统 CoT 方法相当甚至更优的准确率。
图 4:TALE-EP 的实验性能展示。
基于后训练内化 Token 预算感知的 TALE-PT(Post-Training)
图 5:TALE-PT 的框架图
TALE-PT 则通过监督微调(SFT)或偏好优化(DPO)的训练方式将 Token 预算感知内化为模型本身的推理能力。TALE-PT 首先通过搜索算法为每个问题寻找最优 Token 预算,并使用该预算生成精炼的推理路径作为「目标输出」,引导其在未来推理中主动生成更符合预算约束的输出。
实验结果显示,无论是采用 SFT 还是 DPO 方法进行后训练,TALE-PT 均可在维持推理准确率的同时,将平均推理所需的 Token 数量降低 40% 以上,显著优于原始的思维链推理方式。
图 6:TALE-PT 的实验性能展示。
结语
本研究围绕大型语言模型推理过程中的 Token 冗余问题,提出了具有前瞻性的解决方案——TALE 框架,通过引入「Token 预算感知」机制,实现了推理准确性与生成效率之间的有效平衡。值得一提的是,本文所提出的 Token 预算思想已开始在行业中获得响应,包括 Qwen3 和 Claude 3.7 等最新发布的大模型也引入了类似的预算控制机制(图 7 和 图 8 所示),用于优化推理效率与输出质量。
图 7:截取自 Qwen3 技术报告。
图 8:截取自 Claude Developer Guide。
实验结果表明,TALE 在多个主流数据集和模型上均表现出显著的压缩效果和良好的兼容性,进一步拓展了大型语言模型在资源受限场景下的应用边界。未来,该框架有望推广至更多任务类型和多模态场景中,推动大型模型推理走向更加可控、高效与可落地。
#大模型提示词不是「随便写」!
论文链接:https://arxiv.org/pdf/2503.10084
AI 的「聪明病」与「思维堵车」
现在的大语言模型(比如GPT-4)很厉害,能回答问题、写文章,甚至做简单的逻辑题,在很多需要知识记忆的任务上几乎和人做得一样好。但它有个大问题:复杂推理能力不行。比如,让它计算“1+2+3+…+100”这样需要分步推导的问题,或者解决类似“骑士周游”(在棋盘上让骑士不重复走完所有格子)的逻辑题时,它经常出错。
为什么会这样呢?
图2:(a) 单纯的CoT中,模型为循环计算生成自身的步骤模板。这种提示模板可能不正确或非最优,导致任务失败。(b) 通过提示工程与设计,CoT框架下的任务性能可得到有效引导。(c) 当不使用CoT时,模型仅依赖Transformer架构的内部推理。(d) Transformer仅能执行固定深度的顺序计算。
因为这些模型的“大脑”——Transformer架构——有个天生的缺陷:只能做固定深度的计算。就像一个学生只能按固定的步骤做简单题,遇到需要反复推导、层层深入的难题就卡住了。比如,Transformer在处理长序列时,注意力机制只能“平行”处理信息,无法像人类一样“递归”思考(图2最右侧)。
为了弥补这个缺陷,研究者发明了“思维链”(Chain of Thought, CoT)技术。简单来说,就是让模型把思考过程外化成文字步骤,比如“第一步,计算1+2=3;第二步,用3+3=6;第三步……”,通过这种方式模拟递归计算。
举个例子:
如果让模型计算“今天是星期一,30天后是星期几”,传统Transformer可能直接猜答案,而CoT会引导模型先算“30除以7余2,所以星期一加2天是星期三”。这样一步步写出来,模型就能利用文字作为“中间记忆”,突破固定深度的限制。
但问题来了:
大部分CoT方法都用通用提示,比如“请逐步思考”,然后让模型自己决定怎么分步。这就像给学生一道题却不教方法,让他自己摸索——虽然有可能做对,但效率低、容易错。比如,模型可能在需要“深度优先搜索”的问题上错误地用了“广度优先”的步骤,导致绕弯路或算错(图2最左侧)。
本文的核心观点是:提示不是随便写的一句话,而是引导模型提取关键信息的‘选择器’。
- 提示空间 vs. 答案空间
- 提示空间:模型的“隐藏状态”(可以理解为大脑中的潜意识信息)包含很多内容,比如计算时的中间结果、条件判断的标志位等。提示的作用是从这些信息中选出与任务相关的部分,比如在计算余数时,提示需要“提取当前余数”而不是其他无关数据。
- 答案空间:选对提示后,模型才能在正确的路径上搜索答案。比如,计算星期几的问题中,正确提示会引导模型关注“余数”和“周期循环”,而错误提示可能让它纠结于“今天的天气”等无关信息,导致答案空间混乱。
- 为什么通用提示不够好?
像“逐步思考”这样的通用提示,相当于让模型在一个巨大的“提示超市”里盲目挑选工具。比如,同样是数学题,有的需要分步加减,有的需要找规律,通用提示无法针对具体任务优化步骤,导致模型可能选到低效甚至错误的方法。
实验证明:用精心设计的任务特定提示(比如“先计算总天数除以7的余数”),模型准确率能提升50%以上,而用次优提示(比如“先列出所有日期”)则会导致性能大幅下降。
一个简单比喻:提示就像导航路线。想象你要从北京开车去上海:
- 通用提示:相当于只说“出发吧”,让司机自己选路线,可能走高速、国道,甚至绕路,耗时又容易错。
- 最优提示:相当于导航APP规划的最短高速路线,每个路口都明确指引,高效直达。
- 次优提示:相当于故意绕路的路线,比如先去天津再南下,虽然能到但浪费时间,甚至可能迷路。
本文通过数学分析和实验证明,提示设计是决定CoT效果的关键。好的提示能让模型在复杂任务中少走弯路,而盲目依赖通用提示会让它在“思维迷宫”里打转。这也解释了为什么有时候你觉得模型“很笨”——可能只是因为没给它正确的“导航提示”。
本文的主要贡献如下:
- 提示工程理论框架:
提供了一个理论框架,用于解释为什么某些提示(prompts)在Chain-of-Thought(CoT)推理中有效,而另一些则无效。该框架将提示视为“选择器”,从模型的全隐藏状态中提取特定任务相关的信息。 - 揭示提示的作用机制:
研究表明,每个提示定义了答案空间中的独特轨迹,而这一轨迹的选择对任务性能和后续答案空间的导航至关重要。 - 分析提示空间的复杂性:
文章分析了寻找最优提示的复杂性,并探讨了特定任务下提示空间的大小,为理解提示设计的难度提供了理论依据。 - 批判通用CoT提示的局限性:
文章指出,通用的CoT提示(如“think step by step”)可能严重限制模型性能,因为这种自我引导的提示方式迫使模型在庞大的提示空间中盲目搜索。 - 实验验证与性能提升:
通过实验证明,优化提示搜索可以在推理任务上带来超过50%的性能提升,验证了理论框架的实用性。
回顾思维链技术:为什么分步思考能让AI变聪明?
- Transformer的致命短板:不会“回头想”的直线型大脑
图3:CoT如何近似循环计算。
Transformer是大语言模型的底层架构,它很擅长处理文字的“平行关系”(比如分析一句话中每个词的关联),但有个致命缺点:无法进行递归计算。
- 什么是递归计算?
简单说,就是“用前一步的结果指导下一步”的循环思考(图3.a)。比如计算斐波那契数列(第n项=第n-1项+第n-2项),需要不断用已算出的数值推导下一个数。 - Transformer的困境:
Transformer的每一层计算都是固定的,隐藏状态(可以理解为“思考记忆”)只会在层与层之间传递,不会在“时间维度”上循环利用(图3.b)。就像一个人做算术时,每次都要从头开始算,不能记住中间结果🔄。
举例:让Transformer计算“1+2+3+…+100”,它可能会把每一步的加法都当作独立计算,而不是用前一步的和继续累加,导致计算量爆炸💥。
2. 人类推理的本质:一步一步“搭积木”
人类解决复杂问题时,总是分步骤进行的。比如:
- 计数任务:数苹果时,我们会在心里默数“1、2、3…”,每数一个就更新当前总数;
- 下棋:每走一步都要记住当前棋盘状态,再思考下一步策略。
这些过程都有一个共同点:需要依赖前一步的中间结果,逐步构建最终答案(图3.b和图1最右侧)。这种“序列深度”是解决复杂问题的关键,而Transformer的固定深度架构天生缺乏这种能力📏。
3. CoT如何让AI“学会递归”?
CoT的核心思想是:把Transformer无法在内部完成的递归计算,“外包”到文本空间。具体来说:
- 用文字记录中间状态:
当模型被提示“分步思考”时,它会把隐藏状态中的关键信息(比如计数器、棋盘布局)转化为自然语言文本(图3.c和图5)。
图5:CoT仅从隐藏状态h中提取部分信息,而提取哪些信息由提示模板决定。
- 将文本再转化为思考记忆:
这些文本会被重新输入模型,作为下一步计算的依据,相当于在Transformer外部模拟了“隐藏状态的递归更新”。就像我们在纸上列算式,用文字辅助大脑记忆一样✍️。
公式化表达:
隐藏状态提取信息提示词文本步骤转化为向量模型处理新隐藏状态
即文中下式: -
- 这个过程让Transformer从“一次性计算”变成“循环迭代”(图4),理论上能实现类似递归神经网络(RNN)的深度推理能力。
图4:循环模型与自回归模型中的计算信息流
4. CoT的局限性:文本空间的“信息压缩”
虽然CoT很强大,但它也有缺陷:每次只能从隐藏状态中提取有限的信息。
- 信息丢失问题:
隐藏状态可能包含数千维的信息(比如棋盘的所有可能状态),但文本步骤只能表达其中一小部分(如当前位置和下一步方向)。这种“压缩”可能导致关键信息丢失,影响推理准确性📉。 - 提示词的关键作用:
如何从隐藏状态中提取最关键的信息?这取决于提示词的设计。例如,在计数任务中,提示词需要明确要求“输出当前计数结果”,而不是无关的细节(如“当前数字的字体颜色”)🎯。
思维链的「双重宇宙」:提示空间和答案空间
你有没有发现,同样的问题,不同的提问方式会让AI给出截然不同的答案?比如问“如何计算10天后的星期几”,有的提示词让AI秒答“星期三”,有的却让它算出“星期五”。作者揭示了背后的核心原理:提示词决定了AI在两个「平行宇宙」中的行走路径——「提示空间」和「答案空间」。
图1:提示模板会影响答案空间的构建和搜索路径。提示空间搜索技术包括Auto-Prompt(Shin等人,2020)、RL-Prompt(Deng等人,2022)等方法,而答案空间搜索则包括ToT(Yao等人,2024)、ReST-MCTS∗(Zhang等人,2024a)。
1. 两个关键概念:提示空间 vs. 答案空间
- 提示空间(Prompt Space):
图6:每个提示决定了思维链(CoT)过程中信息语言化的一种方式。提示空间的复杂度基于从隐藏状态h到非答案标记o的潜在信息语言化进行计算。
这是AI大脑里的「信息超市」,存储着所有可能的「思考角度」。比如在计算星期几的问题中,提示空间包含“算余数”“列日期表”“查日历API”等无数种潜在思路。
本质:提示空间是从AI隐藏状态(h)中提取信息的所有可能方式的集合,就像从图书馆书架上选择不同的书🔖。
- 答案空间(Answer Space):
图7:思维链(CoT)空间的可视化示意图,针对给定问题将其分解为提示空间和答案空间。从提示空间中选择的提示(左)会影响答案空间中的答案导航(右)。
这是AI为解决问题而探索的「路径迷宫」。比如计算星期几的答案空间包含从“今天”开始往后数10天的所有可能路径,正确路径只有一条(10÷7余3,今天+3天),错误路径可能有千万条(如误算余数为2)。
2. 提示词如何「剪裁」AI的思考路径?
提示词的作用就像一把「剪刀」,从提示空间中裁剪出一条特定的信息提取路径,进而影响答案空间的搜索效率。
- 案例:国际象棋棋盘推理
- 最优提示:“每步输出当前棋盘布局”
✅ 从提示空间中提取“棋盘状态”信息,AI能递归更新棋盘,正确推导下一步走法。 - 次优提示:“每步输出棋子总数”
❌ 提取的“棋子总数”与走法无关,AI无法跟踪具体位置,答案空间变成随机猜测🎲。
- 数学本质:
假设AI的隐藏状态包含n位信息(如棋盘的所有位置、棋子类型等),每次提示只能提取s位关键信息(如当前位置坐标),则提示空间的复杂度为组合数**C(n, s)**。这意味着,当n很大时(如复杂任务),穷举所有提示可能比登天还难🧮!
3. 通用提示为什么「坑AI」?
大多数人习惯用“请逐步思考”这样的通用提示,但这相当于让AI在提示空间中「裸奔」——没有导航,全靠运气。
- 问题1:信息提取混乱
通用提示不指定提取什么信息,AI可能在隐藏状态中随机抓取无关数据。比如计算“偶数对数量”时,它可能错误提取“字母颜色”而非“相邻字母组合”🔤。 - 问题2:答案空间爆炸
没有提示引导时,AI需要在答案空间中尝试所有可能路径。例如,解一道需要10步推理的题,可能的路径数超过10亿条,计算量呈指数级增长💥!
实验数据:在“循环导航”任务中,通用提示的准确率仅78%,而最优提示能达到100%——差距源于是否精准提取“当前位置”信息📊。
4. 如何用提示词「缩小包围圈」?
好的提示词能像“聚光灯”一样,将AI的注意力集中到关键信息上,大幅缩小答案空间的搜索范围。
- 步骤1:明确任务的「核心变量」
例如,“奇偶校验”任务的核心变量是“目标字母的计数”,提示词应直接要求“初始化计数器并逐一枚举”,而非泛泛而谈“仔细检查”✅。 - 步骤2:强制输出关键中间结果
提示词应要求AI将中间变量(如计数器数值、棋盘坐标)显性化。例如:“第1步:当前计数为0;第2步:遇到字母a,计数+1,当前计数为1”📝。 - 效果:通过这种方式,答案空间的复杂度从“指数级”骤降至“线性级”,AI的推理效率提升数百倍⚡!
5. 次优提示的「温柔陷阱」**
有些提示词看似正确,实则低效,甚至导致错误。
- 案例:反转列表任务
- 最优提示:“从后往前逐个提取字母”
✅ 直接命中反转逻辑,一步到位。 - 次优提示:“每次将首字母移到末尾”
❌ 需要n次移动(n为列表长度),当n=20时,计算量增加20倍,且容易因中间步骤错误导致结果偏差🔄。
本质:次优提示可能引导AI走“远路”,甚至陷入“死循环”——就像用筷子夹豌豆,虽然能做到,但效率远低于用勺子🥄。
实验现场:AI 用错提示词有多离谱?
作者通过实验验证了提示设计对大语言模型(LLMs)推理性能的关键影响,揭示了有监督提示(尤其是最优提示)在提升CoT(思维链)效果中的核心作用。以下是核心内容总结:
实验设计
1. 任务选择
聚焦于三类推理任务(按计算复杂度递增):
- 正则任务(R):如奇偶校验、循环导航(需基础递归)。
- 上下文无关任务(CF):如栈操作、列表反转(需中层结构推理)。
- 上下文敏感任务(CS):如排序、回文验证(需高层语义理解)。
2. 关键变量
- 提示类型:
- 无CoT:禁止中间步骤,直接输出答案。
- 无监督CoT:通用提示「Think step by step」。
- 有监督CoT(最优提示):人工设计的任务专属提示(如「初始化计数器并逐一枚举」)。
- 次优提示:逻辑正确但非最优的提示(如「先判断奇偶再计数」)。
- 模型与工具:使用GPT-4o系列模型,排除外部工具干扰,聚焦纯文本推理。
3. 控制变量
- 输入格式:采用「列表化」输入(如
["a", "b", "c"]
),避免标记化误差(如BPE合并字符导致的信息丢失)。 - 长度敏感性:根据任务复杂度设置输入长度(如正则任务最长35步,CS任务最长70步),避免因过长导致的「记忆崩塌」。
核心发现:提示设计决定推理的「生死存亡」
1. 递归计算是推理的「生命线」
表1:每个单元格使用gpt-4o-classic Web版本在50个实例上生成的结果。对于不使用思维链(CoT)的大语言模型(LLMs),通过提示明确禁止中间步骤。“有监督”是指我们提供最优提示模板的情况。“有监督-SUB”是指提供正确但次优的步骤模板,模拟大语言模型在提示空间导航中做出较差选择并推导出较差步骤模板的场景。循环神经网络(RNN)、磁带循环神经网络(Tape-RNN)和Transformer的结果来自先前研究(Delétang等人,2022)以供参考。实验设置的差异在附录B中有详细说明。
- 无CoT的Transformer模型:在所有任务中表现极差(准确率普遍低于30%),因无法处理递归步骤。
- 有CoT的LLMs:准确率显著提升(平均+60%),证明CoT通过模拟递归突破了架构限制。
- 案例:在「奇偶校验」任务中,无CoT准确率仅22%,有CoT提升至96%🔵。
2. 最优提示 vs. 通用提示:差距高达50%+
表2:执行每个任务时的思维链(CoT)变体。每个任务使用表1中的前两个字母命名。
- 有监督CoT(最优提示):
- 在正则任务中准确率接近100%(如「循环导航」达100%);
- 在CS任务中提升显著(如「排序」从无监督CoT的62%提升至94%)。
- 无监督CoT(通用提示):
- 依赖模型「自学」提取信息,准确率波动大(如「栈操作」仅92%,低于最优提示的96%)。
- 关键结论:任务专属提示能引导模型精准提取关键信息,而通用提示依赖「运气」。
3. 次优提示的「隐性成本」
- 性能暴跌:次优提示导致准确率大幅下降,甚至接近无CoT水平。
- 案例:在「循环导航」任务中,次优提示使准确率从100%骤降至26%,因提示引导模型记录冗余信息(如「已走步数」)而非关键状态(如「当前位置」)。
- 错误模式:
- 信息冗余:输出无关中间结果,占用上下文空间(类似人类思考时记流水账);
- 递归断裂:无法形成有效状态更新链,导致推理中断(如计数任务中漏记关键步骤)。
三、CoT变体的局限性:无法挽救「方向错误」
1. ToT(树思维)与GoT(图思维)的效果
- 提升有限:在无监督场景下,ToT/GoT仅比普通CoT提升5%-10%(如「循环导航」从78%→92%),因未解决提示空间的根本缺陷。
- 依赖提示质量:若提示本身次优,变体无法纠正方向。例如,在次优提示下,ToT的多路径搜索反而加剧混乱(如「列表反转」任务中准确率从38%→16%)。
2. 本质原因
- 变体作用域:ToT/GoT仅优化答案空间的搜索效率(如剪枝、回溯),但无法改变提示空间的信息提取方式。
- 类比说明:
- 最优提示:相当于选对了「地图」,变体是「优化路线」;
- 次优提示:相当于拿错了「地图」,变体再怎么导航也到不了终点。
实验启示:如何用提示「驯服」AI?1. 提示设计的「三不要原则」
- 不要模糊:避免「请仔细思考」,改用「请按步骤X、Y、Z执行」;
- 不要冗余:每步只提取1-2个关键变量(如「当前计数」而非「计数+时间+颜色」);
- 不要假设:明确指定中间结果格式(如「输出为JSON:{"count": 5}」),避免模型自由发挥。
2. 普通人的「提示急救包」
- 模板公式:
[任务指令] +
1. [关键步骤1:提取变量A]
2. [关键步骤2:基于变量A计算变量B]
3. [重复直至输出结果]
- 示例:计算星期几
计算X天后的星期几:
1. 计算X ÷ 7的余数N;
2. 从今天星期Y开始,往后数N天;
3. 输出结果。
3. 警惕「正确但低效」的陷阱
- 验证方法:对比不同提示的「推理步数」和「错误率」。例如,次优提示可能使步数增加3倍,错误率上升40%。
选择任务的最佳提示
核心观点
- 提示的本质作用:
有效提示是信息“选择器”,其核心功能是从模型的隐藏状态 ( h ) 中提取与任务最相关的关键信息,并转化为文本形式的中间步骤 ( o ),以指导后续计算。隐藏状态 ( h ) 包含任务相关和无关的混合信号,提示需精准筛选出对推理最关键的 ( s ) 位信息,同时舍弃冗余内容。 - 最优提示的设计原则:
- 明确指定中间步骤:每个CoT步骤应输出任务相关变量的摘要,例如在计数任务中明确要求输出当前计数值。
- 对齐隐藏状态的关键信息:提示需与任务所需的 ( h ) 中最具信息量的部分对齐。例如,在棋盘状态模拟任务中,提示应要求提取“当前棋盘布局”而非无关信息(如“玩家顺序”)。
- 避免信息冗余:次优提示可能引入无关信息或冗余步骤,导致推理路径偏离最优解,例如在反转列表任务中,错误提示可能引导模型重复移动元素而非直接反转顺序。
结语
本研究揭示了提示如何在思维链提示中塑造推理过程。通过分析提示空间与答案空间的相互作用,作者发现提示充当了从模型内部状态中选择任务相关信息的角色。研究结果表明,提示设计并非辅助性的,而是CoT有效性的核心——提示结构的微小变化可能导致性能的巨大差异。这为理解和改进基于提示的大语言模型推理提供了理论基础。
局限:研究主要集中在简单推理任务上,在这些任务中,作者发现使用最优模板(正确的人工引导)的CoT显著提高了性能。尽管这些发现可能推广到更复杂的推理任务,因为它们基于相似的基本原理,但由于资源限制和需要专业领域知识,无法直接验证这一点。同样,尽管在有限的模型集上进行了测试,但主流大语言模型训练和设计原则的通用性表明,这一发现可以推广到其他语言模型。未来的工作可以通过将范围扩展到更复杂的推理任务和更广泛的模型来验证这些假设。
#The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
本文作者分别来自于清华大学、北京大学、上海AI实验室等机构。本文共同第一作者崔淦渠、张宇臣、陈嘉诚来自上海AI实验室,研究方向为大模型的推理增强。通讯作者为上海AI实验室成宇教授、上海AI实验室周伯文教授、清华大学丁宁助理教授。
Nature never undertakes any change unless her interests are served by an increase in entropy.
自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck
在强化学习中,我们又该如何让熵增符合我们的利益?
近日,来自上海人工智能实验室、清北,UIUC 等机构的研究者的工作揭示了大模型强化学习中的熵变化的机制。研究内容主要如下:
定义了强化学习中的熵塌缩问题,并从 4 个模型家族,11 个模型上总结了熵与性能之间的经验转换公式,证明了策略熵在强化学习中的重要性。
从理论与实践的角度发现了强化学习时的策略熵变化的驱动力:动作(模型输出的 token)发生的概率及其对应获得的优势之间协方差。
从该角度出发,研究提出了两种简单(10 行代码的修改)但十分有效的(AIME24/25 + 15%)的熵增强化学习方案 Clip-Cov 与 KL-Cov,实现了模型在强化学习训练过程中的持续探索。
- 论文标题:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
- 论文链接:https://huggingface.co/papers/2505.22617
- 代码仓库:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL
1. 大模型强化学习中的熵塌缩问题
强化学习的核心挑战在于利用 - 探索的权衡,即在重复验证策略与寻找新策略之间取得平衡。对于探索而言,衡量策略探索潜力的关键指标是策略熵,它反映了策略在动作选择过程中的不确定性。在强化学习研究中,抑制策略熵的衰减被视为大多数算法的关键,传统强化学习中,研究者常通过正则化手段主动调控策略熵。
对于大语言模型,虽然策略熵的典型行为尚未得到充分研究,但我们在大量实验中发现了一个有趣且一致的模式:策略熵在短短几步训练内就会急剧下降至接近零,表明策略变得极度确定。这种探索能力的缺失直接导致性能停滞,验证集表现也同步陷入瓶颈。定量分析进一步揭示,在没有熵干预(如熵损失或 KL 正则化)的情况下,下游性能 (R) 完全由策略熵 (H) 决定,其拟合曲线符合简单的指数函数 R = -a exp (H)+ b,如下图所示。本质上,策略正在以可预测的方式用不确定性(熵)换取奖励。
图 1 展示了大模型强化学习中的熵塌缩问题
在 Qwen, Mistral, LLaMA 和 Deepseek Model family 上,我们验证了这一点:
图 2 不同 Model Family 中的熵塌缩现象
这一经验规律衍生出两个重要推论:(1)类似于 Scaling Law,利用 - 探索曲线在给定策略模型和训练数据时即已确定。这使得我们能在强化学习早期预测策略表现,并从小模型推演大模型性能。(2)更重要的是,该方程表明当策略熵耗尽时(H = 0, R = −a + b),策略性能的上界也随之确定,这意味着单纯增加训练算力对强化学习的收益可能极其有限。因此,简言之,要实现可扩展的强化学习,必须突破熵瓶颈。
图 3 训练前期预测模型最终性能
图 4 小模型预测大模型
2. 大模型强化学习中熵与协方差的关系
解决这一问题的关键在于理解现象背后的机制:为何策略熵会单调递减?为此,我们从理论和实验两个维度分析了策略熵的动力学特征。核心发现表明,对于采用 softmax 策略的 LLMs,连续两步间的熵变化正比于动作对数概率与对应 logit 变化的协方差。进一步地,在策略梯度和自然策略梯度类算法中,logit 差异与动作优势度成正比。
直观而言,高优势度且高概率的动作会降低策略熵,而高优势度的罕见动作则会增加熵。这一理论结论得到了实验验证:训练初期,策略在训练数据上表现出高协方差,说明策略置信度良好,因此能安全地利用高置信轨迹,强化置信度并最小化熵(这也与最近的一些最小化熵来提高性能的工作结论吻合);随着训练推进,协方差虽逐渐降低但仍保持正值,持续将策略熵拖向更低水平。
公式 1 对于熵与协方差的理论分析
图 5 熵与协方差的实证分析
3. 基于协方差的熵增强化学习方案
我们首先通过实验验证了,传统熵 / KL 正则化方法在大模型中收效甚微。
图 6 传统正则化手段失效
而对熵动力学的分析表明,高协方差会阻碍强化学习的可扩展性,这为提升策略熵提供了方向 —— 限制高协方差 token 的更新步长。基于此,我们设计了两种熵控制策略 Clip-Cov 和 KL-Cov,分别替代替代损失中的 clip 和 PPO-KL 方法。Clip-Cov 随机选取少量高协方差 token 并 detach 其梯度:
公式 2 Clip-Cov
KL-Cov 则更简单,直接对协方差最大部分的 token 施加 KL 惩罚:
公式 3 KL-Cov
实验证明,通过调节阈值参数可主动控制策略熵,使模型摆脱低熵陷阱:
图 7 通过 Clip-Cov 与 KL-Cov 来控制熵
实验表明,在数学推理等任务中取得更优的表现,在 Qwen2.5-32B 上,我们获得了 6.4% 的提升,尤其在 AIME24/25 这样的具有挑战性的数据集上,提升更是达到 15%。
图 8 Clip-Cov 与 KL-Cov 方法下熵,输出长度,性能的训练动态
图 9 Clip-Cov 与 KL-Cov 的性能
本研究致力于解决大语言模型推理任务中强化学习的策略熵塌缩问题。通过实证分析,我们发现性能提升往往以牺牲探索能力为代价,这种权衡关系为模型改进设置了可预见的性能上限。为深入理解这一现象,我们从理论层面解析了熵的动态变化规律,并提出两种简单的正则化技术 ——Clip-Cov 与 KL-Cov,通过直接调控高协方差标记来有效遏制熵塌缩。
展望未来,训练算力将逐渐从预训练阶段转向后训练阶段,尤其是强化学习。在通过增加算力扩展强化学习的道路上,保持探索能力、发现新路径、实现持续改进至关重要唯有如此才能更高效地利用算力。但实现强化学习的规模化发展需要突破单纯熵最小化的局限。我们期待这项研究能为熵的作用机制提供新见解,促进对 LLM 强化学习底层机制的理解、分析与优化,推动强化学习向更高层次的智能迈进。
#新一届ACM博士论文奖正式公布
近日,新一届 ACM 博士论文奖正式公布。
该奖项每年颁发给计算机科学与工程领域最佳博士论文的作者。今年颁发的是 2024 年的奖项,包括一个博士论文奖和两个博士论文奖荣誉提名。
获得博士论文奖的论文非常有现实意义,它研究的是:现在心理健康问题越来越多,但专业心理医生不够用,怎么办?
我们知道,在 DeepSeek 等 AI 模型火起来之后,很多人都把 AI 当成了心理医生。但很多时候,AI 并不能像真正的心理治疗师一样提供专业指导。或许,「人机协作」是条更现实的折中路线。
在论文中,获奖作者 Ashish Sharma 探索了多种方法来实现更好的人机协作。他的方法类似于:
给志愿者配教练:让更多普通人能提供有效心理支持;
给用户配向导:让心理自助工具更容易上手;
给 AI 配监督员:确保 AI 心理咨询师的质量。
他最近开发的 AI 辅助心理健康工具已被公开发布,并有超过 16 万用户使用,其中大多数是低收入人群。使用这些工具的人群中,超过 50% 的家庭年收入低于 4 万美元。
除了这篇论文,还有两篇论文获得了博士论文奖荣誉提名,其中一篇研究的问题是「利用伪随机分布揭示低复杂度计算模型的固有计算局限性」;另一篇则专注于「大型语言模型如何利用它们在训练时学习到的海量文本数据」。
以下是获奖论文的详细信息。
ACM 博士论文奖
- 获奖者:Ashish Sharma(该论文是他在华盛顿大学攻读博士学位期间完成的,Sharma 目前是微软应用研究办公室的高级应用科学家)
- 论文标题:Human-AI Collaboration to Support Mental Health and Well-Being
- 论文链接:https://digital.lib.washington.edu/researchworks/items/2007a024-6383-4b15-b2c8-f97986558500
随着全球心理健康问题激增,医疗保健系统正在努力为所有人提供可及且高质量的心理健康护理。尽管医疗可以为面临心理健康挑战的人们提供支持,但临床医生短缺和心理健康污名等障碍通常限制了人们获得治疗的机会。在论文中,作者研究了人机协作如何改善心理健康支持的可及性和质量。
首先,他研究了人机协作如何帮助提供支持的人员进行有效且高质量的对话。具体而言,他关注了 Reddit 和 TalkLife 等在线同伴支持平台上的支持者。虽然支持者有动机且善意地帮助寻求支持的人,但他们通常缺乏训练,不了解促进有效支持的关键心理治疗技能,如共情。通过一种基于强化学习的方法,并通过对来自最大同伴支持平台的 300 名同伴支持者进行的随机试验进行评估,他证明了基于 AI 的反馈可以帮助支持者在对话中更有效地表达共情。
其次,他研究了人机协作如何使自我指导的心理健康干预更容易获得、更容易参与,从而增强寻求支持的人的能力。自我引导干预,如学习和练习应对技能的「自助」工具,往往在认知上要求较高且在情感上具有触发性,这造成了可及性障碍,限制了其大规模实施和采用。作者以消极思想的认知重构为案例研究,在一家大型心理健康网站上进行了一项有 15531 名参与者的随机试验。结果表明,人机协作支持人们克服消极思想,并为心理学理论提供了有关导致积极结果的过程的信息。
第三,作者系统性地评估了用于心理健康支持的人机协作系统。虽然人们对利用 AI 进行心理健康支持有很大兴趣,但缺乏评估其有效性、质量、公平性和安全性的方法。他研究了如何通过临床试验有效评估 AI 心理干预措施与传统方法相比的短期 / 长期疗效、公平性和安全性。此外,他还开发了一个计算框架,可自动评估大型语言模型(LLM)充当治疗师时的行为表现。通过分析 13 种不同的心理治疗技术,他将 LLM 治疗师的行为与高质量及低质量人类治疗师进行对比。分析表明,LLM 的行为模式往往更接近低质量治疗师 —— 例如当来访者倾诉情绪时,它们会更频繁地提供解决问题建议,这种做法明显违背常规治疗准则。
作者在论文中描述了他开发的两个支持心理健康和福祉的人机协作系统,以及此类系统的评估框架。这项研究让人和 AI 能够协作,既帮助需要心理支持的人掌握应对技巧,也辅助专业人员提升辅导能力。
ACM 博士论文奖荣誉提名
论文 1
- 获奖者:Alexander (Zander) Kelley(在伊利诺伊大学香槟分校获得博士学位)
- 论文标题:Explicit pseudorandom distributions for restricted models of computation
- 论文链接:https://www.ideals.illinois.edu/items/132651
为了理解具体计算模型的(可证明的)局限性,我们需要回答一个根本性的问题:某些计算任务是否存在低复杂度模型根本无法完成(甚至不能近似完成)的情形?
回答这一问题是解决复杂性理论中多个关键性未解难题(例如「P 与 NP 问题」和「P 与 BPP 问题」)所必经的步骤。
在众多应用中,尤其是密码学领域,我们更需要一种稳健的计算限制,即存在某种特定任务,使得任何受限于低复杂度的算法都无法成功执行,甚至无法做出可靠近似。
本论文研究的主题为伪随机分布(针对低复杂度模型),该工具为验证此类计算限制提供了一种特别清晰的方式。所谓伪随机分布,是指某种可高效生成的概率分布,其样本在分布上与某些「非目标样本」足够相似,以至于任何低复杂度的测试函数都无法可靠地区分它们。
本论文所研究的伪随机分布来自我们在一系列工作中的构造与分析,其结果均建立了一种面向特定计算模型的稳健性限制。这些模型包括:
- (任意顺序)一次读取分支程序(Read Once Branching Programs):一种捕获某些小空间算法的计算模型;
- 常数深度电路(Constant-Depth Circuits):一种捕获某些高度可并行化算法的计算模型;
- 多项式阈值函数(Polynomial Threshold Functions):一种简单的几何计算模型,在学习理论等背景下自然出现;
- 多方通信协议(Multiparty Communication Protocols):一种抽象计算模型,用于研究主要受通信瓶颈限制的系统。
论文 2
- 获奖者:Sewon Min(在华盛顿大学获得博士学位,即将担任 UC 伯克利助理教授)
- 论文标题:Rethinking Data Use in Large Language Models
- 论文链接:https://digital.lib.washington.edu/server/api/core/bitstreams/76fbf5f7-b608-42a5-a513-a7c0218579f1/content
大型语言模型(如 ChatGPT)已经彻底改变了自然语言处理乃至更广泛的人工智能领域。在本论文中,作者讨论了她对理解和推进这些模型的研究,其核心在于它们如何利用其训练所用的超大规模文本语料库。
首先,作者描述了我们为理解这些模型如何在训练后学习执行新任务所做的努力,证明它们所谓的语境学习能力几乎完全取决于它们从训练数据中学习到的内容。
接下来,作者介绍了一类新型的语言模型 —— 非参数( Nonparametric )语言模型,这类模型将训练数据重新用作数据存储,从中检索信息以提高准确性和可更新性。
作者描述了在建立此类模型基础方面的工作,包括最早被广泛使用的神经检索模型之一,以及一种将传统的两阶段流水线简化为一阶段的方法。
作者还讨论了非参数模型如何为负责任的数据使用开辟新途径,例如,区分许可文本和受版权保护的文本并以不同方式使用它们。
最后,作者展望了我们应该构建的下一代语言模型,重点关注高效扩展、改进的事实性和去中心化。
参考链接:https://awards.acm.org/doctoral-dissertation
#Playmate
趣丸研发新型人脸动画技术,声音+指令精准控制表情
本研究由广州趣丸科技团队完成,团队长期致力于 AI 驱动的虚拟人生成与交互技术,相关成果已应用于游戏、影视及社交场景。
趣丸科技团队提出了一种新颖的肖像驱动框架 Playmate,该算法能够根据音频和各种可选的控制条件生成高质量的肖像视频。通俗来讲,就是给定一张照片和一段音频,就可以生成对应的视频,同时还能精准控制人物的表情和头部姿态。相关研究成果已被人工智能顶会 ICML 2025 收录,项目代码开源计划正在筹备中。
- 论文标题:Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion
- 论文地址:https://arxiv.org/pdf/2502.07203
- 项目网站:https://playmate111.github.io/Playmate/
- GitHub 地址:https://github.com/Playmate111/Playmate
- ICML 介绍:https://baike.baidu.com/item/ICML/14479665
Playmate 是一种由广州趣丸科技团队提出的基于 3D 隐式空间引导扩散模型的双阶段训练框架,旨在生成高质量且可控的肖像动画视频。该方法通过解耦面部属性(如表情、唇部动作和头部姿态),结合情绪控制模块,实现了对生成视频的精细控制。实验表明,Playmate 在视频质量、唇同步准确性和情绪控制灵活性方面均优于现有方法,是音频驱动肖像动画领域的重大进展。
Show Case
- 音频驱动效果
,时长00:18
,时长00:24
,时长00:24
- 唱歌效果
,时长00:16
,时长00:24
,时长00:12
,时长00:12
- 解耦能力与生成的可控性
,时长00:08
,时长00:09
- 表情控制效果
从左到右依次为:Angry、Disgusted、Contempt、Fear、Happy、Sad、Surprised
,时长00:20
研究背景与挑战
音频驱动的肖像动画技术旨在通过静态图像和语音输入生成逼真且富有表情的虚拟角色。尽管近年来基于扩散模型的方法在生成质量上取得突破,但仍面临以下挑战:
- 唇同步不准确:现有方法难以精确匹配语音与唇部运动。
- 控制灵活性不足:表情和头部姿态与音频信号强耦合,难以独立调整。
- 情感表达受限:生成视频的情感控制能力有限,难以满足多样化需求。
方法概述
Playmate 的核心思想是通过 3D 隐式空间解耦面部属性,并利用双阶段训练框架实现高质量生成。通过引入运动解耦模块和情感控制模块,该框架不仅能够生成高质量的动态视频,还能实现对情感和姿态的独立控制,从而为肖像动画的生成提供了更高的定制性和适应性。具体步骤如下:
- 第一阶段:构建运动解耦模块,分离表情、唇部运动和头部姿态,直接从音频中生成运动序列。
- 第二阶段:引入情绪控制模块,将情绪条件编码到潜在空间,实现对生成视频的精细情感控制。
技术细节3D 隐式空间构建
Playmate 采用 face-vid2vid 和 LivePortrait 的面部表示框架,通过以下组件分离面部属性:
- 外观特征提取器(Appearance Feature Extractor, F):从源图像中提取静态外观特征。
- 运动提取器(Motion Extractor, M):从驱动图像中提取运动信息(如关键点、旋转矩阵、平移向量等)。
- 变形模块(Warping Module, W):将运动信息应用到源图像上。
- 解码器(Decoder, G):生成最终动画视频。
通过引入配对头部姿态与表情迁移损失(Pairwise Head Pose and Facial Dynamics Transfer Loss),进一步提升属性解耦效果。该损失函数通过计算源图像和目标图像在迁移后的感知差异(基于 VGG19 特征),优化模型对表情和头部姿态的独立控制能力。
运动解耦模块
为提升运动属性的解耦精度,Playmate 采用自适应归一化(Adaptive Normalization)策略:
- 表情归一化:使用全局均值和标准差(基于整个训练数据集)对表情参数进行归一化。
- 头部姿态归一化:针对每个身份独立计算均值和标准差,避免身份间的干扰。
公式如下:
- 表情归一化:
- 头部姿态归一化:
扩散模型训练
Playmate 基于扩散 Transformer(Diffusion Transformer)生成运动序列,具体流程如下:
- 特征提取:利用预训练的 Wav2Vec2 模型提取音频特征,并通过自注意力机制对齐音频与运动特征。
- 扩散过程:定义正向和反向马尔可夫链,逐步向目标运动数据添加高斯噪声,再通过 Transformer 模型预测并去除噪声。
- 损失函数:最小化预测噪声与真实噪声的均方误差:
其中
和
分别为音频特征和身份特征,
为扩散 Transformer 的输出。
情绪控制模块
为实现情绪控制,Playmate 在第二阶段引入 DiT 块(Diffusion Transformer Blocks):
- 固定扩散 Transformer 参数,仅训练情绪控制器。
- 双 DiT 块结构:第一个 DiT 块接收音频特征和情绪条件,第二个 DiT 块进一步融合输出,并通过 Exp-MLP 生成最终运动序列。
- 无分类器引导(Classifier-Free Guidance, CFG):在推理阶段,通过调整音频条件(
-
- )和情绪条件(
-
- )的权重,平衡生成质量与多样性:
实验结果数据集与评估指标
- 数据集:AVSpeech、CelebV-Text、Acappella、MEAD、MAFW 及自建数据集。
- 评估指标:
- FID(Frechet Inception Distance):衡量生成视频与真实视频的分布差异。
- FVD(Frechet Video Distance):衡量视频序列的动态差异。
- Sync-C/Sync-D:基于 SyncNet 的唇同步置信度分数和特征距离。
- CSIM(Cosine Similarity):衡量身份一致性。
- LPIPS(Learned Perceptual Image Patch Similarity):衡量图像感知相似度。
结果分析
- Playmate 在 FID 和 FVD 上显著优于现有方法,表明其生成视频的分布更接近真实数据。
- 在 Sync-C 和 Sync-D 指标上,Playmate 的唇同步性能接近最优,且在 CSIM 和 LPIPS 上表现最佳,说明其在身份保持和视觉质量上具有优势。
- 在定性评估中,Playmate 生成的视频在不同风格的肖像上表现出色,能够生成逼真的表情和自然的头部运动。
- 此外,Playmate 在多种风格的肖像上表现出色,包括真实人脸、动画和艺术肖像,展现了其广泛的适用性和鲁棒性。
- Playmate 能够根据同一音频片段生成不同情感状态的动态视频,展示了其在情感控制方面的优势。
结论与未来展望
Playmate 通过 3D 隐式空间引导扩散模型和双阶段训练框架,实现了高质量、高可控的肖像动画生成。其核心贡献包括:
- 提出运动解耦模块,提升属性分离精度。
- 引入情绪控制模块,支持精细情感调节。
- 在身份保持和视频质量上达到 SOTA 水平,在唇同步上也展现出极强的竞争力。
Playmate 的价值在于其显著提升了音频驱动肖像动画的生成质量和灵活性,为影视制作、虚拟现实、互动媒体等领域提供了强大的技术支持。其精细的表情控制和高质量的视频生成能力,使其在情感表达和个性化内容创作方面展现出广阔的应用前景。未来 Playmate 有望扩展到全身动画生成,并通过更多样化的训练数据提升其鲁棒性和适应性,为动态肖像生成领域带来新的突破。
#DeepDiver
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略?
华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在开域信息获取能力上可以接近百倍参数的 DeepSeek-R1,并优于 DeepResearcher、R1-Searcher 等业界同期工作!
论文链接 :https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-deepdiver-report.pdf
arxiv 链接:https://arxiv.org/abs/2505.24332
该项研究的主要发现如下:(1)对于复杂信息获取任务,端到端 Agentic RL 训练相比直接蒸馏老师轨迹能更好地实现 Search Intensity Scaling,从而带来平均 10 PCT 效果提升;(2)基于真实互联网搜索 API 和数据集进行训练,相比基于 Wikipedia,能够学到更多有效推理模式;(3)基于 Search Intensity Scaling,DeepDiver 的检索和推理能力可以从客观题泛化至主观生成任务。
下文将详细解读 DeepDiver 的创新之处,包括其数据构建方法,Agentic RL 训练过程,以及 Search Intensity Scaling 如何带来显著性能提升。
为什么要提出 DeepDiver?
当前 RAG 技术主要分为两大流派:
Prompt-based 方法:如 FLARE [1]、Search-o1 [2] 等,通过复杂 prompt 流程指导模型,优势在于即插即用,但缺乏灵活性和智能性。
SFT-based 方法:如 Self-RAG [3]、AutoRAG [4] 等,通过构建人工合成数据教会模型拆解问题、生成检索词,但行为方式、获取信息的策略完全取决于 SFT 数据分布,泛化能力有限。
随着 DeepSeek-R1 [5] 和 OpenAI-o1 的崛起,基于强化学习的 RAG 方法逐渐受到关注。然而,ReSearch [6]、Search-r1 [7] 等工作主要基于 Wikipedia 语料构建,存在两大问题:
- LLM 预训练已内化大量 Wiki 知识,使得模型不需真正检索就能回答问题
- Wiki 环境过于「干净」,缺乏真实互联网的噪声和信息冲突,这使得目前主流的基于 wiki 环境的 LLM 会主动地学习如何收集关键信息,但如何解决冲突,如何在真实互联网环境中去噪,验证信息真实度,以及如何反思和纠正内容等高阶能力则会被忽略。
这些受限的训练语料和环境,阻碍了 LLM 学习动态地决定何时何地进行搜索,以及如何根据需求调整搜索深度和频率。研究团队将这种缺失的能力定义为 Search Intensity Scaling (SIS) —— 一种在充满模糊、信息冲突的高噪音环境下,LLM 为了突破困境而涌现出的信息检索能力,通过 SIS,模型会根据问题难易程度动态的调整搜索频率和深度,而不是妥协于验证不足的答案上。为此,研究团队认为只有在真实互联网环境下,用真实互联网数据进行探索式训练,才能使模型涌现真正的高阶信息检索和推理能力。
图 1:四种关键信息搜索行为示意图:
(a) 收集关键信息,(b) 解决冲突,(c) 验证与去噪,(d) 反思与纠正
WebPuzzle
真实互联网环境下的高质量数据集
为了让模型能够使用真实的互联网数据进行训练,本文提出了 WebPuzzle。
来看几个 WebPuzzle 中的问题示例:
他是一名 NBA 状元秀球员,他曾效力于 76 人、掘金、活塞等队,他入选了最佳新秀一阵,然而他没拿到过总冠军,他有超过 170 + 次数的两双数据,他是谁?
-- 答案: Joe Smith (艾佛森并不满足两双数据的描述)
她凭借多个经典古装角色深入人心,她曾经签约了海外的唱片公司推出过多语种音乐专辑,她主演的某部古装剧更因播放量创纪录被国家馆藏机构收录,更令她凭此剧斩获某电视节最高奖项,她是谁?
-- 答案:刘亦菲
2020 年 10 月至 2024 年 4 月期间,华为公司与孝感市政府进行了几次合作洽谈?每次洽谈的主要领导是谁?
-- 答案:2 次洽谈,第一次是 2020 年时任市委书记、市长吴海涛与湖北公司总经理孟少云。第二次是 2024 年市委副书记、市长吴庆华与华为技术有限公司高级副总裁杨瑞凯。
尝试用搜索引擎解答这个问题,会发现需要多轮搜索和推理才能得出正确答案。
数据收集与处理
WebPuzzle 主要从两个数据源采集:
- Wiki 猜谜类数据:研究团队收集了大部分 LLM 的 cutoff knowledge date 后的 Wiki 语料,在语料中选取特定实体作为谜底,然后罗列出与该实体有关的特性作为谜面,再将其中部分特性隐藏化、模糊化(如示例中的「超过 170 + 次数」,「签约了海外的唱片公司」分别代表「172 次两双数据」,「签约了日本的唱片公司」),增加解题难度。
- 真实用户问题:基于现网真实用户问题及其搜索返回结果,构建多篇网页交叉验证的问题。
图 2:WebPuzzle 数据构建流程,包括候选生成和难度标注两个主要阶段
测试集经过了人工标注后,最终版 WebPuzzle 包含 24k 训练样本和 275 条高质量评测样本,涵盖不同难度等级的跨页问答和猜谜题目。
DeepDiver 训练流程
迭代检索与强化学习在真实互联网环境下的结合
DeepDiver 基于迭代式 RAG 框架构建,该框架要求模型在收到用户请求后,自行在多个轮次交替式的推理和搜索,具体来说,在每个轮次中:
1. 推理 (Reasoning):针对历史轮次进行反思、推理、总结
2. 决策:根据推理的内容,决策当前轮次是搜索 (Search) 或回答 (Answer)
整体训练流程分为两个主要阶段:
冷启动阶段 (Cold-start SFT)
通过蒸馏 teacher 模型的回复,使模型掌握基本的解题套路。使用 5.2k 高质量数据对模型进行初步训练,包括:
- 2k WebPuzzle 数据
- 2.2k 通用推理数据 (数学、逻辑推理等)
- 1k 真实用户问题与搜索结果拼接数据
强化学习阶段 (Reinforcement Learning)
在冷启动模型的基础上,使用 GRPO 算法让模型自主探索,对高质量探索路径给予奖励。这一过程完全由 outcomereward 信号引导,没有 distillation 或 SFT 范式的 step-wise 数据干预。
图 3:DeepDiver 训练流程概览,包括 rollout 生成和 GRPO 模型更新
Reward 机制设计
DeepDiver 采用了两种互补的奖励函数设计:
1. 宽松奖励 (训练初期):使用 0-10 分评分标准,模型输出满足部分条件 (得分≥6) 即可获得奖励,稳定训练初期。
2. 严格奖励 (训练后期):模型回答需通过三轮严格评估,每轮由三个不同 LLM grader 校验,只有至少 2 轮校验通过的情况下才会给予奖励。实验展示出严格奖励在训练后期有助于突破训练瓶颈。
针对搜索引擎使用,研究团队设计了额外奖励机制:当一组 rollouts 中所有不使用搜索的尝试都失败,而如果有使用搜索的尝试成功时,给予这些 rollout 额外奖励,纠正模型过度依赖内部知识的倾向。
实验结果
7B DeepDiver 媲美 671B DeepSeek-R1
主要评测结果
研究团队在 WebPuzzle 及多个基准上进行了评测,包括 C-simpleQA [8]、FRAMES-zh [9] 和 Bamboogle-zh [10],结果令人振奋:
表 1:各模型在不同数据集上的表现对比,括号中的数字表示搜索轮次
三大关键发现:
1. DeepDiver 大幅优于蒸馏模型:在 WebPuzzle 上,DeepDiver-Pangu-7B 达 38.1%,远远超过了蒸馏版本的模型,提升明显;使用了同样训练方法的 DeepDiver-Qwen2.5-7B 准确率达 37.6%,比 R1 蒸馏版提升近 8 个百分点;这说明了基于真实互联网的强化学习环境和训练语料能够大幅提升模型的信息索取能力。
2. Search Intensity Scaling 带来性能飞跃:DeepDiver 展现出明显的 Search Intensity Scaling Up 的趋势,DeepDiver 为了弥补自己内部知识的不足,使用的平均搜索轮次会显著高于 baseline,直接推动准确率提升。
3. 优异的跨任务泛化能力:虽然模型主要在 WebPuzzle 上训练,但在其他数据集上同样表现卓越,验证了整个 DeepDiver 框架和 SIS 带来的强大的泛化能力。
图 4:训练阶段搜索轮次与奖励值的相关性,搜索强度增加伴随训练奖励上升
深入分析
Search Intensity Scaling 的魅力
排除知识记忆因素的公平对比
在主试验中,研究团队发现 DeepDiver 在非 WebPuzzle 的榜单上尽管提升明显,但是仍然落后于 DeepSeek R1, QwQ 等模型。该团队提出一个问题,DeepDiver 落后于这些模型到底是因为 Information Seeking 的能力不如这些 Baseline,还是因为这些 Baseline 的参数量较大,预训练阶段已经内化了这些榜单的知识源?
为验证 DeepDiver 在信息检索方面的真实能力,他们设计了「公平对比」实验:排除模型仅靠内部知识就能回答的问题,只比较需要外部检索的问题上的表现。
图 5:排除内部知识可解问题后的评估结果对比
结果表明,在难以通过内部知识解决的问题上,DeepDiver 超越或匹敌所有基线模型,甚至包括 DeepSeek-R1。这证实了 DeepDiver 在 WebPuzzle 完整数据集上未能全面超越 671B 基线模型的主要原因,是参数规模而非检索能力限制。而对于检索能力本身而言,DeepDiver 则表现出了非常强大的能力,能够让 7B 模型与超大规模 LLM 性能相当。
与基于 Wiki 环境和语料的训练方法的同期工作的对比
为了与同期工作进行对比,尽管 DeepDiver 完全使用中文训练,研究团队仍在英文基准测试中借助英文搜索引擎进行了评估,并与同期工作进行比较,如下表所示,其中 R1-Searcher 是基于 Wiki 环境和语料训练,DeepResearcher 是基于 Wiki 语料和真实搜索环境训练:
表 2:英文评估数据集上使用英文搜索引擎环境的对比结果
结果显示,基于真实互联网语料和环境训练的 DeepDiver,尽管没有在训练中接触英文训练语料和搜索环境,DeepDiver 凭借 SIS 在绝大多数任务上仍超越了基于 Wiki 训练的基线模型,凸显了 SIS 的强大性能和解决难题时的适应能力。
搜索强度与问题难度的关系
DeepDiver 展现出卓越的搜索强度自适应能力,随着问题难度增加,模型会增加搜索轮次:
表 3:WebPuzzle 不同子集的性能表现
特别是与 DeepSeek-R1 相比,DeepDiver 在超难子集上取得显著领先:平均 2.6 轮搜索带来 3.7 个百分点的优势,而 DeepSeek-R1 仅使用 1.59 轮搜索就妥协于一个不那么令人满意的结果。
两阶段奖励函数设计的关键作用
在训练过程中,研究团队发现后期性能常陷入瓶颈。通过对比不同奖励函数的效果,他们得出重要结论:
图 6:不同奖励函数的训练效果,宽松奖励稳定初期训练,严格奖励突破后期瓶颈
宽松奖励有助于稳定强化学习初期阶段,而严格奖励则能在后期突破性能瓶颈。切换到严格奖励后,WebPuzzle 上的得分提高了近 9 个百分点(从 29.1% 升至 37.6%)。
开放式长文问答任务的惊人泛化
DeepDiver 仅在 WebPuzzle 封闭式问题上训练,但能够出色泛化到开放式问答任务:
表 4:ProxyQA 数据集上的表现对比
在长文生成评测基准 ProxyQA 上,DeepDiver 得分达 32.72%,比 R1 蒸馏模型高出 9.47 个百分点,同时生成更长、更全面的回答,展现出卓越的知识密集型长文生成能力。在没有 cherry picking 的情况也能一眼看出 DeepDiver 和蒸馏模型生成结果的区别。
Information-Seeking 各类行为分析和统计
研究团队详细统计了不同模型在各类数据集上的信息搜索行为:
表 5:多个模型在 WebPuzzle 和基于 wiki 数据集上的行为统计
结果表明,WebPuzzle 比现有 Wiki 数据集更具挑战性,需要更复杂的信息搜索行为。而 DeepDiver 模型相比其他基线模型表现出更多样化和复杂的信息搜索行为,展示了在真实网络环境中训练的优势。
未来展望与局限性
尽管 DeepDiver 获得了正向的实验结果,但研究团队仍然认识到以下几点局限和未来研究方向:
1.WebPuzzle 的持续演化:随着 LLM 预训练的不断扩展,如何持续构建有效的 benchmark 来适配与时俱进的 LLM,是一项长期挑战。
2. 开放式任务的 RL 框架优化:为开放式问题设计更有效的 RL 框架,解决长文生成等任务的奖励设计难题。
3. 冷启动 SFT 与 RL 的动态衔接:探索自适应流程,让 LLM 按需动态地从 SFT 切换到 RL,提升训练效率。
4. 工具生态的扩展:除搜索引擎外,扩充浏览器引擎、Python 解释器、本地知识库等工具,进一步增强信息获取能力。
5. 模型规模和序列长度的扩展:基于昇腾平台,在更大模型规模上进行验证,推动产品应用和落地部署。
6. SIS 影响机制的系统性分析:探究基座模型能力、训练数据构成、算法设计等多种关键因素对实现 SIS 效果的影响规律,深入分析和进行消融实验。
总结
DeepDiver 系统地探讨了 LLM 在真实互联网环境下解决知识密集型问题的能力。通过强化学习与真实互联网搜索引擎的结合,该研究实现了 Search Intensity Scaling,使模型能根据任务难度自适应调整搜索强度。在 WebPuzzle 和多项基准测试中,7B 规模的 DeepDiver 展现出与 671B DeepSeek-R1 相当的表现,验证了该方法的有效性。Agentic RL 训练技术在 Agent 发展中逐步显现出重要价值,本工作提供了搜索引擎环境下的具体参考。
References:
[1] Jiang, Z., Xu, F. F., Gao, L., Sun, Z., Liu, Q., Dwivedi-Yu, J., ... & Neubig, G. (2023, December). Active retrieval augmented generation. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 7969-7992).
[2] Li, X., Dong, G., Jin, J., Zhang, Y., Zhou, Y., Zhu, Y., ... & Dou, Z. (2025). Search-o1: Agentic search-enhanced large reasoning models. arXiv preprint arXiv:2501.05366.
[3] Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023, October). Self-rag: Learning to retrieve, generate, and critique through self-reflection. In The Twelfth International Conference on Learning Representations.
[4] Kim, D., Kim, B., Han, D., & Eibich, M. (2024). AutoRAG: automated framework for optimization of retrieval augmented generation pipeline. arXiv preprint arXiv:2410.20878.
[5] Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
[6] Chen, M., Li, T., Sun, H., Zhou, Y., Zhu, C., Wang, H., ... & Chen, W. (2025). Research: Learning to reason with search for llms via reinforcement learning. arXiv preprint arXiv:2503.19470, 2 (3).
[7] Jin, B., Zeng, H., Yue, Z., Yoon, J., Arik, S., Wang, D., ... & Han, J. (2025). Search-r1: Training llms to reason and leverage search engines with reinforcement learning. arXiv preprint arXiv:2503.09516.
[8] He, Y., Li, S., Liu, J., Tan, Y., Wang, W., Huang, H., ... & Zheng, B. (2024). Chinese simpleqa: A chinese factuality evaluation for large language models. arXiv preprint arXiv:2411.07140.
[9] Krishna, S., Krishna, K., Mohananey, A., Schwarcz, S., Stambler, A., Upadhyay, S., & Faruqui, M. (2024). Fact, fetch, and reason: A unified evaluation of retrieval-augmented generation. arXiv preprint arXiv:2409.12941.
[10] Press, O., Zhang, M., Min, S., Schmidt, L., Smith, N. A., & Lewis, M. (2022). Measuring and narrowing the compositionality gap in language models. arXiv preprint arXiv:2210.03350.
#AgentThink
当VLM学会临时抱佛脚:清华新框架推理能力超越GPT-4o
摘要:近年来,视觉语言模型(VLM)在自动驾驶领域展现出巨大潜力,通过其出色的高级场景理解和推理能力,有望简化传统依赖人工设计的感知、预测和决策组件。然而,现有方法在不确定性处理、泛化能力和可解释性方面仍面临挑战。
如何让自动驾驶VLM不仅能看、能理解,还能像人类一样思考并调用工具解决复杂问题?
近日,一项名为 AgentThink 的开创性工作横空出世,它首次将动态、代理式的工具调用与链式思维(CoT)推理深度融合,为自动驾驶任务带来了统一的AI框架。该研究通过创新的数据生成流程和两阶段训练范式,使模型能够像智能体一样,在复杂驾驶场景中动态决策并按需调用外部工具,极大地提升了自动驾驶VLM的智能与鲁棒性,并在多个指标上取得了SOTA性能。
论文题目:AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving
论文作者:Kangan Qian, Sicong Jiang, Yang Zhong, Ziang Luo, Zilin Huang, Tianze Zhu, Kun Jiang, Mengmeng Yang, Zheng Fu, Jinyu Miao, Yining Shi, He Zhe Lim, Li Liu, Tianbao Zhou, Hongyi Wang, Huang Yu, Yifei Hu, Guang Li, Guang Chen, Hao Ye, Lijun Sun, Diange Yang
论文地址:https://arxiv.org/pdf/2505.15298
引入
近年来视觉语言模型发展迅猛,衍生出来了诸多应用和产品,并且均取得了非常亮眼的成绩。目前有很多工作都将预训练的大语言模型或者视觉语言模型与自动驾驶任务相结合,简化了原有依赖人工设计的感知、预测和决策组件,充分发挥大模型出色的高级场景理解、常识推理和决策能力。通过利用互联网级别的数据为自动驾驶模型提供更加丰富的语义表示和更加强大的场景泛化能力。
基于视觉语言模型的自动驾驶工作可以总结成图1所示的模型范式。
图1:自动驾驶任务中不同视觉语言模型使用方法对比
如图1(a)所示,当前的不少工作将自动驾驶任务转化成了视觉问答问题,并采用SFT对基础视觉语言模型进行微调,使其可以实现指定的目标识别、风险预测以及运动规划等子任务。然而这类方法通常将推理流程视为静态的输入到输出映射,忽略了现实世界决策中至关重要的不确定性、复杂性和可验证性。因此,它们常常存在泛化能力差、输出结果失真和可解释性有限的问题。
因此,目前不少改进工作考虑将思维链加入到VLM模型中,如图1(b)所示。但这些方法中一类采用严格的链式思维模板,通过牺牲灵活性来提升结构化逻辑。另一类方法采用开放式的推理格式,但存在过度拟合,从而表现出浅显或者冗余的推理步骤。
针对上述提到的相关问题,本文提出了VLM与自动驾驶任务统一结合的框架,称之为AgentThink。相关的实验结果表明,AgentThink在回答精度和推理得分上实现了最佳的性能,超越了现有的方法。
图2:提出的AgentThink在DriveLMM-o1数据集上的实验结果
本文的主要贡献如下:
- 本文提出了AgentThink,首个将动态、代理式工具调用集成到自动驾驶任务的视觉语言推理中的框架;
- 本文开发了可扩展的数据生成流程,通过集成的工具使用和推理链生成结构化、可自验证的数据;
- 本文引入了一个结合SFT和GRPO的两阶段训练流程,使模型能够学习何时以及如何调用工具来增强推理性能;
- 本文设计针对自动驾驶工具调用的全新评估指标,涵盖工具选择、集成质量以及推理工具的协调。
算法模型与实验细节
本文提出的AgentThink算法框架的整体流程如图3所示。
图3:AgentThink算法模型整体框架图
数据生成管线
作者认为,可靠的自动驾驶推理类似于人类的决策,不仅需要内部知识,还可以在需要时调用外部工具。因此,本文引入了一个工具增强数据生成流程。
具体而言,本文开发了一个专用工具库,包含视觉信息、检测、预测、占用和建图五个核心模块。通过这些工具库共同支持为各种感知和预测任务提供全面的环境信息。
此外,作者采用GPT-4o完成初始的工具集成推理步骤和答案,该过程通过提示模板来进行引导。具体而言,对于一个预训练好的VLM模型,输入图像为,任务指令为,在时刻的推理步骤可以表述成如下的形式。
每一个推理步骤包含五个关键元素,分别是选择工具、生成的子问题、不确定性标志、猜测的答案、下一个动作选择。重复上述流程,为每个问答对采样条结构化推理轨迹。
最后,一个单独的LLM审核每条数据的准确性和逻辑一致性,并删减步骤不匹配或结论不受支持的样本,从而生成一个高质量的语料库,将明确的工具使用与连贯、可验证的推理相结合。
两阶段的训练流程
本文为了进一步优化模型,采用了基于GRPO的强化学习微调,有效地利用结构化奖励。具体而言,为了指导模型实现准确、可解释且工具感知的推理,本文设计了一个结构化的奖励函数,包含三个主要部分,如图4所示。
图4:用于工具增强推理的GRPO奖励
这种结构化的奖励设计比通用的相似性指标提供了更有针对性和可解释性的监督。它使 GRPO能够优化推理过程的质量以及模型在需要时调用工具的能力。
在执行模型的推理过程中,本文通过让视觉语言模型动态地从预定义库中访问工具来收集信息,从而促进逐步推理。其整体流程如图5所示。
图5:模型生成结构化推理链式流程图
同时,作者还引入了三个评估指标来评估模型在推理过程中的工具利用率,如图6所示。
图6:工具利用率的评估指标
实验
本文在DriveLMM-o1以及DriveMLLM数据集上开展了相关实验研究,证明本文提出的AgentThink算法模型的有效性。图7展示了不同算法模型在DriveLMM-o1数据集上的实验结果汇总情况。
图7:不同算法模型在DriveLMM-o1数据集上的实验结果汇总
通过实验结果可以看出,AgentThink在所有评价指标上均实现了最佳的表现性能。除了推理和准确性指标外,AgentThink在风险评估、场景理解等方面的指标也要始终优于其他模型。
这些性能上的提升反映了AgentThink能够利用动态工具调用和反馈,更有效地将其推理应用于视觉情境。
此外,作者也进行了相关的消融实验来验证不同奖励信号和训练阶段的效果。相关的实验结果指标汇总在图8中。
图8:AgentThink消融实验结果汇总
通过消融实验结果可以看出,提出的各个模块均在一定程度上提高了基线模型的性能。同时,当将三种奖励要素融合在一起后,取得了最佳的效果,极大地提升了推理质量和答案准确性,从而凸显了使用工具和将推理置于视觉语境中的重要性。
作者在DriveMLLM数据集上进行了zero-shot和one-shot的相关实验来验证AgentThink模型的泛化性,相关的实验结果如图9所示。
图9:Zero-shot和One-shot的实验结果汇总
通过实验结果可以看出,AgentThink在zero-shot和one-shot的实验设置下均实现了SOTA的性能,展现出了很好的泛化能力。
作者将相关的推理过程进行了可视化,更加直观的展示了AgentThink的性能,如图10所示。
图10:Zero-shot的实验结果比较汇总
总结
本文提出了首个将CoT链式推理与代理式工具调用紧密融合的统一自动驾驶框架AgentThink。通过借助可扩展的工具增强数据集和带有GRPO流水线的两阶段SFT,AgentThink在DriveLMM-o1数据集上实现了79.68%的推理得分和71.35%的答案准确率。除了提升性能之外,AgentThink还通过使每个推理步骤都基于工具输出,展现出更强的可解释性,从而实现更安全、更稳健的以语言模型为中心的驾驶任务。
#UniWorld-V1
统一架构新思考,北大团队UniWorld-V1统一大模型
本篇分享论文UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
,北大团队提出 UniWorld-V1 —— 一个整合高分辨率对比语义编码器与多模态大模型的统一生成框架,仅用 2.7M 样本即可同时支持图像理解、生成、编辑与感知等多种任务。
- 论文地址:https://arxiv.org/abs/2506.03147
- GitHub 地址:https://github.com/PKU-YuanGroup/UniWorld-V1
图1 UniWorld在多个基准上达到先进的性能
- 通过对 GPT-4o-Image 的实验观察,发现其在视觉特征提取上更依赖语义编码器而非传统的 VAE,这一洞察为统一模型的架构设计提供了新思路。
- 基于上述发现,提出了 UniWorld-V1 —— 一个整合高分辨率对比语义编码器与多模态大模型的统一生成框架,仅用 2.7M 样本即可同时支持图像理解、生成、编辑与感知等多种任务。
- 在多个基准上,UniWorld-V1 性能与 BAGEL(2665M 样本)和专业的图像编辑模型 Step1X-Edit相当,并且开源了全部代码、模型权重与数据集,促进后续研究与复现。
观察
在“编辑实验”中,让 GPT-4o-Image 将公交车背面的广告涂成蓝色,观察到编辑前后黄色和绿色标签文字的位置发生明显不一致,说明低频结构没有被严格保留,VAE 特征(强调低频信息)无法解释这一现象;
在“去噪实验”中,将一张狗的图像分别加噪至 0.4× 和 0.6×,GPT-4o-Image 对低噪图像能够正确去噪,但在高噪(0.6×)下将狗误判为鹿。进一步调用 GPT-4o 和 Qwen2.5-VL 理解模块发现,它们对高噪图像也一致地识别为鹿,表明 GPT-4o-Image 依赖强大的多模态理解先验而非 VAE 的低频信息。
综上,这些观察支持了 GPT-4o-Image 使用基于语义编码器的视觉特征提取方案。
架构
基于实验发现,我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器(选用最高分辨率版本 SigLIP2-so400m/14,固定输出 512×512)。
在视觉理解部分,我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。对于参考图像,同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理,并将两者的输出拼接后,作为 FLUX 文本分支的输入,从而实现更优的特征融合与建模。
基于实验发现,我们将原先基于 VAE 的低级控制信号替换为对比式视觉-语言模型 SigLIP 编码器(选用最高分辨率版本 SigLIP2-so400m/14,固定输出 512×512)。
在视觉理解部分,我们沿用了先前工作中使用的 Qwen2.5-VL-7B 预训练模型。对于参考图像,同时使用 Qwen2.5-VL-7B 和 SigLIP 进行处理,并将两者的输出拼接后,作为 FLUX 文本分支的输入,从而实现更优的特征融合与建模。
实验
在 GenEval 测试中,UniWorld-V1 取得总体 0.79 分;使用与 BLIP3-o 相同的提示重写后得分提升至 0.84,已非常接近 BAGEL 的 0.88。在 WISE 基准上,UniWorld-V1 综合得分 0.55,尤其在“空间”类题材中获得 0.73 分,仅次于 GPT-4o-Image 的 0.89,位列其他统一模型之首,展现了其在整合世界知识生成图像方面的竞争力。
在 ImgEdit-Bench 对比中,UniWorld-V1 以总分 3.37 位居所有开源模型之首,显著领先于 Step1X-Edit 和 BAGEL(均为 3.17)。它在 Adjust(3.70)、Remove(3.54)、Extract(2.23)、Replace(3.49)和 Hybrid(3.13)五大关键指标上均获开源模型最高分,展现了在属性调整、元素移除、对象提取、混合编辑与内容替换等任务中的卓越能力。虽然 GPT-4o-Image 以 4.31 继续领跑,但 UniWorld-V1 的表现最接近该行业标杆,标志着其在开源阵营中已实现媲美顶级模型的图像编辑水平。
我们通过示例与 GPT-4o-Image 进行了定性对比(见图6)。结果显示,UniWorld-V1 在各类感知任务上表现不俗,甚至在许多方面超越了 GPT-4o-Image。尤其在 Canny 边缘检测、法线图生成、HED、分割和草图生成等任务中,UniWorld-V1 的指令理解与执行能力更强。这表明其一体化架构能够提供广泛且准确的图像感知功能,是首个具备如此多样且高保真视觉分析能力的开源统一模型。
#Gemini 2.5 Pro
深夜突袭!谷歌Gemini 2.5 Pro更新蝉联榜一:推理超越o3,编程超越opus4
深夜,谷歌对其最强大的 2.5 Pro 模型进行了一次重大更新(06-05)。
在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力(HLE)、科学(GPQA)等各项基准测试中超越 o3,实现更优性能!
该模型基于我们在五月份发布并在 I/O 大会上展示的版本(05-20)构建,并且将在几周内成为正式发布的稳定版本,并最终集成到 Gemini 应用中供所有用户使用。
目前已经可以在 Google AI Studio、Vertex AI 和 Gemini 应用中使用。
最新的 2.5 Pro 模型在多个基准测试中表现优秀:
综合性能:在 LMArena 上,Elo 分数提升 24 分,以 1470 分的成绩高居榜首。
- Web 开发能力:在 WebDevArena 上,Elo 分数大幅提升 35 分,以 1443 分的成绩占据领先。
- 编码能力:在 Aider Polyglot 中,超过了 Claude Opus 4。
- 推理:在旨在评估数学、科学和知识能力的 GPQA 及「人类终极考验」等顶级测试中,展现出卓越性能。
另外,Gemini 2.5 Pro 的定价也很有优势,比 OpenAI o3、Claude 4 Opus 及 Grok 3 等主要竞争对手都更加便宜。
以 Gemini 输入每百万 token 1.25 美元,输出 10 美元的价格为基准,成本优势一目了然:
- 对比 OpenAI o3: Gemini 的输入成本仅为 o3 的 1/8,输出成本为其 1/4。
- 对比 Claude 4 Opus: 优势更为惊人,输入成本不到其 1/10,输出成本也仅为其价格的 13%。
- 对比 Grok 3: 同样优势显著,输入成本不到 Grok 3 的一半,输出成本也只是其 2/3。
值得一提的是,新版本中还增加了思考预算,让开发人员能够更好地控制成本和延迟,目前其他模型都还没有这个功能。
谷歌还采纳了针对上一版 2.5 Pro 的反馈,改进了其输出的风格和结构——现在它的响应可以更具创意,格式也更出色。
我们来做个对比测试:你现在是一只活了 500 年的猫,请用一种厌倦又略带高傲的口吻,抱怨一下你最近换的这位「铲屎官」。
这是新版 2.5 Pro 输出的内容:
(趴在窗台上,懒洋洋地甩了一下尾巴,半眯着眼睛,用一种看透了世间万物的语气开口)唉……说起来,我最近换的这位「铲屎官」,已经是本尊记不清的第几十任了。打从明朝那会儿起,我就看着你们这些两脚兽来了又去,跟那窗外的四季似的,没个消停。这一届的,尤其麻烦。你们能信吗?他管我叫「猪咪」。猪?咪?呵,真是滑天下之大稽。本尊当年在王府里,那也是有「雪影」这等雅号的。陪着主人听过昆曲,闻过上好的龙井,爪子都只踩在波斯地毯上。现在倒好,沦落到跟一种以蠢笨闻名的牲口相提并论。这小子的审美和学识,怕是连嘉靖年间宫里扫地的太监都不如。还有吃食。想当年,御膳房的小灶日日为我备着最新鲜的长江鲥鱼,剔骨去刺,只取中断。再不济,民国那会儿跟着一位银行家,顿顿也是法式小牛肝。现在呢?他给我端来一碗褐色的、干巴巴的、号称「科学配比全价猫粮」的玩意儿。科学?你们人类的科学在我眼里,就跟那后院蚂蚁搬家一样,忙忙叨叨,却不知所谓。那玩意儿吃起来,口感粗糙得像是掺了沙子,味道寡淡得好比是和尚的斋饭。他还一脸期待地看着我,仿佛那是天大的恩赐。我不过是给他个面子,勉为其难地舔两口,他就高兴得手舞足蹈,还要拍照发到那个叫「朋友圈」的地方去炫耀。愚蠢。最可笑的是他的「爱抚」。他不懂得顺着我的脊骨,用恰到好处的力道,从头顶一直抚到尾根。不,他只会像揉面团一样,粗鲁地在我身上乱抓一气。还总想把脸凑过来,用他那满是凡人气息的嘴发出「啾啾啾」的噪音。本尊的龙体是尔等凡夫俗子能随便亵渎的吗?每次我只不过是发出一点表示不满的咕噜声,他就以为我「舒服得打呼噜了」。唉,对牛弹琴,莫过于此。哦,对了,还有那个会发红点的笔。他管那叫「逗猫棒」。他举着那个东西晃来晃去,看我追逐那个虚无缥缈的光点,笑得前仰后合。我追,不是因为我傻,而是为了活动一下这把老骨头,顺便……可怜一下他那贫瘠的娱乐生活。五百年了,从皇帝手里的玉如意流苏,到闺秀发髻上的金步摇,什么我没玩过?一个破光点就想取悦我?天真。算了,不说了。跟你们这些寿命不过百年的生物,也没什么好计较的。反正再过几十年,他又会变成一捧黄土,而我,只不过是换个地方,换个两脚兽,继续我这漫长又无聊的猫生罢了。哼,那个铲屎的过来了。看他手里的样子,八成又是那个难吃的猫粮。罢了,今天心情好,就赏他个脸,吃两口吧。……记得,晚膳要加一条小黄鱼,清蒸的,不加葱姜。要是忘了,今晚他的被子就别想要了。
[ 上下滑动,查看更多 ]
这是上一版本输出的内容:
唉,五百年了,又换了一个。真不明白这些两脚兽是怎么繁殖的,代代相传的,除了折腾我的生活,还能干点什么?这位新来的,叫什么……哦,忘了。名字不重要。重要的是,她的业务能力,简直让我这五百年的猫生阅历都感到疲惫。首先是食物。她以为我是一只普通的、刚断奶的小猫咪吗?每天换着花样地给我提供那些闻起来就透着一股庸俗气息的罐头和干粮。有时候是那什么「深海鳕鱼配三文鱼」,有时候又是「农场走地鸡佐蔓越莓」。拜托,我只想要我的那一份,准确无误、温度适中、放在那个我惯用的碗里,静静地摆在那里。她总想给我「惊喜」,结果惊喜变成了惊吓。我才刚勉强适应上一个牌子,她就又换了。难道她不知道,挑剔是刻在我灵魂里的天性,而坚持,才是我活了五百年唯一的信仰吗?然后是她的「关爱」。拜托,我是猫,不是需要被随时抱在怀里的婴儿。她总是在我刚找到一个完美的午睡角度,太阳光线刚刚好,温度刚刚适中,尾巴尖才刚开始微微颤动的时候,突然伸出一只粗鲁的手,试图把我抱起来,还说什么「小可爱,想你了」。我「想你」?我只想在你怀里打个盹,然后一爪子把你抓醒,让你知道我的存在,仅此而已。难道他们不知道,我肯屈尊让你触碰,那本身就是一种恩赐?最让人无法忍受的是,她对我的私人圣殿——猫砂盆的维护。我以五百年的猫生阅历担保,她是我见过最不勤快的铲屎官!每次我优雅地完成我的「创作」后,她都不会立刻前来清理。那味道,那残骸,那简直是在对我高贵的嗅觉进行侮辱!她难道不知道,每一次我用爪子扒拉着那些被污染的猫砂,我的内心都在咆哮着对她的不满吗?我甚至怀疑,她是不是觉得我在那里做艺术品,所以才舍不得清理?还有她那些拙劣的「逗猫」伎俩。激光笔?羽毛棒?拜托,我早已看穿了一切。我陪你玩,只是为了给你一个继续活下去的理由,让你觉得自己对这个家还有那么一点点用处。她还总是在我不需要她的时候发出奇怪的噪音,吸尘器、电视里那些聒噪的节目,甚至只是她自己喋喋不休的自言自语。安静,这屋子里最稀缺的奢侈品。罢了,罢了。我已经懒得教育她了。五百年来,我见证了无数个像她这样的两脚兽来来去去,他们都以为自己是我的主人,殊不知,我才是这屋子里唯一值得被伺候的存在。她,也只是我漫长猫生中,又一个匆匆的过客而已。我只希望,她能快点学会我的作息规律,以及,我的碗永远不能空。否则,我可不保证会发生什么「意外」。哼。
[ 上下滑动,查看更多 ]
可以看到,上一版的输出还是没有脱离典型的「首先——然后——最后」式 AI 输出格式。在角色塑造上,新版对猫咪的阅历、性格和语言处理得更贴近创作要求。
在用户实测中,大家对新版 Gemini 也是赞不绝口。
在其他人的测试中,Gemini 2.5 Pro 准确且权威地回答了他们一个长期以来的测试问题。当被问及「如果不存在马真塔(Magenta)镇,品红色(magenta)还会叫这个名字吗?」时,新的 Gemini 2.5 Pro 明确地回答「不会」。
谷歌更新后的 Gemini 2.5 Pro 是少数能正确推理出此问题答案的模型之一。
一个 2023 年版本的 Claude 模型在该问题上含糊其词。
值得一提的是,就在几天之前,Gemini 的图像生成能力还引起了广泛关注。
谷歌 CEO 劈柴哥也晒出了一张 AI 生成的狮子图,这究竟是为自家更新高调「站台」,还是在展示 Gemini 的作图实力?
不过新版本发布不久,Gemini 就被越狱攻击成功,不知道谷歌官方作何感想。
#Paper2Poster
不愁了!开源智能体Paper2Poster「一键生成」学术海报
做海报有多痛苦?
大家做学术应该都懂那种感觉:临近 DDL 前熬夜赶制海报,得把上万字的论文浓缩进一页 PPT,还要图文并茂兼顾美观。一不小心排版崩了、字体太小或者信息太多,导师改起来也是花样百出,直呼「再精简!」……可以说,做学术海报是科研工作中让人头秃的环节之一。
要是有个工具能替我们自动把论文变成海报就好了?
还别说,真的有科研团队朝这个方向努力了!2025 年 5 月,来自滑铁卢大学、新加坡国立大学和牛津大学的研究者发布了一个有趣的系统—— Paper2Poster。顾名思义,它试图用大型语言模型(LLM)当助手,把长篇论文内容自动生成一张精美的学术海报。
- 论文标题:Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
- 论文地址:https://arxiv.org/pdf/2505.21497
- 项目主页:https://paper2poster.github.io/
- Github:https://github.com/Paper2Poster/Paper2Poster
这个工作开创了学术海报自动生成的新领域:一方面,它提出了首个从论文生成海报的完整框架,能够智能提炼论文并排版;另一方面,作者还搭建了配套的评测基准和指标体系,来量化评估 AI 生成海报的效果。换句话说,不仅要让 AI 会「画」海报,还要知道它画得好不好,这可是前所未有的尝试。
插图 1:Figure 1,Paper2Poster 任务概览:将长篇论文(左)自动生成一页学术海报(右)。
Paper2Poster 想解决啥问题?
用 AI 自动生成海报,说起来容易做起来难。这项任务的核心痛点在于需要大幅压缩和重新组织信息:我们要把包含几千词、几十页、夹杂着图表公式的论文,浓缩到一张版面有限的海报上,而且读起来还得通俗易懂、视觉美观。作者总结了其中三大挑战:
- 长文压缩,语义连贯:学术论文往往篇幅很长,涵盖背景、方法、实验等诸多细节。如何在保留核心内容的同时砍掉冗余,并确保生成的海报前后连贯,是个难点。这需要模型具备层次化概括长文本的能力,而不能简单截断拼凑。
- 多模态信息抽取:论文中穿插大量图、表、公式,图文交织。成功的海报离不开这些直观的视觉要素,因此模型必须读懂论文里的图片和对应文本,挑选出最重要的图表并匹配相应解说放进海报。也就是说,得让 AI 同时当文字编辑和美工。
- 版面布局规划:最终产出是一张定制尺寸的海报,这不像生成一篇纯文本摘要那么简单。模型需要考虑空间限制,合理安排多个内容板块的位置,保证阅读顺序和视觉平衡。如果布局失衡,不是文字挤出框,就是大片留白,那海报质量就大打折扣了。
正是因为以上这些挑战,过去虽然有人做自动幻灯片生成等工作,但自动生成学术海报几乎是空白。有了大模型的加持,Paper2Poster 团队才尝试向这一「无人区」发起冲击。
大模型怎么把论文变海报?PosterAgent 方法
解决这项任务,Paper2Poster 提出了一个名为 PosterAgent 的多模块多智能体方法。它不是让一个大模型闭门造车地「一口气生成」海报,而是模仿人类制作海报的流程,将任务拆解成多个智能体协作完成。整个系统采取自顶向下、视觉反馈循环的设计,如下图所示:
插图 2:Figure 2,PosterAgent 多智能体架构示意图。(a)Parser 解析论文,(b)Planner 生成布局,(c)Painter–Commenter 循环绘制和优化海报面板。
具体而言,PosterAgent 包含串行的三个阶段:
- Parser(解析器)——全局内容提炼。首先,PosterAgent 接收完整论文的 PDF。Parser 会利用文档解析工具将 PDF 转换为结构化文本,比如提取章节标题、段落内容和插图等信息,再借助 LLM 对文本进行分析归纳,生成论文的层次大纲和摘要。同时,它提取出论文中的图表等视觉素材,将图像和对应标题/说明整理出来。经过这一阶段,模型得到一个结构化的「素材库」,包含各章节的精简文字段落和相关联的图像素材。可以认为,Parser 完成了对原论文的粗提炼,把大而全的内容变成可管理的提纲。
- Planner(规划器)——版面布局规划。接下来,Planner 要决定哪些内容和图片上海报,以及如何摆放。它首先利用 LLM 将 Parser 输出的文本摘要和图像进行语义匹配,找出哪些图对应哪些段落内容,生成一组组(章节摘要,相关图片)对。然后,Planner 会采用一种二叉树版面布局算法:根据每个章节文本的字数多少、相关图片的尺寸等,递归地把海报页面划分为若干「板块」,为每个内容对分配一个矩形区域坐标,同时保证排版顺序符合阅读习惯,整体布局均衡美观。简单来说,Planner 相当于画好了海报的版面草图。接着在每个板块内,Planner 让 LLM 对对应的章节摘要进一步精简润色,提炼出层次清晰的要点列表(如 bullet points),这样既凸显重点又节省空间。经过 Planner 阶段,一张海报的内容规划基本成型:哪些板块放哪些文字图片、每块的大概位置和大小都确定了。
- Painter–Commenter 循环(绘制器-评论员)——面板绘制与视觉优化。有了布局规划,最后一步就是把它渲染成具体海报。这里采用「画家+评论家」的 AI 双角色循环:Painter 相当于美工,负责把每个板块的文字和图片转换成可执行的绘制代码(基于 python-pptx 库),生成海报板块的初始图像。然后,Commenter 上场,它是一个视觉语言模型(VLM),扮演「审稿人」的角色,检查生成的板块图像并给出反馈。例如,Commenter 可能指出某个板块文字溢出框了,或版面留白太多影响观感等。值得一提的是,为了让 VLM 评论得靠谱,作者设计了「区域放大+参考提示」的策略:让 Commenter 聚焦于当前板块图像的局部细节,并提供理想版式和常见错误的参考例子,尽量减少大模型在视觉判断上的幻想偏差。收到反馈后,Painter 会根据提示修改板块代码重新渲染,Commenter 再评估,如此循环迭代,直到板块质量达标或者达到最大迭代次数为止。经过这个 Painter–Commenter 双人组的反复打磨,每个板块都被优化得清晰、美观且信息完整。最终,将所有板块拼合,一个完整的海报就新鲜出炉啦。
整个 PosterAgent 方法充分利用了大模型的语言理解和视觉判断能力,把复杂的大任务分解为若干可控的小步骤。这种多智能体协作的范式相比让一个 GPT 模型从头到尾单挑,更加高效且可控。事实证明,PosterAgent 不但能生成初步可用的海报成品,还方便后续人工微调(因为它支持导出为可编辑的 .pptx 文件)。对于科研人员来说,相当于有了一个聪明又听话的「海报小助手」。
生成效果如何?能打过 GPT-4o 吗?
有了方法,大家肯定关心:AI 自动画的海报到底好不好?Paper2Poster 的作者为此构建了一个基准数据集,收集了 100 篇近期顶会论文及其作者制作的官方海报,用来评测模型的生成效果。评估指标则从视觉、文本、信息传递等多个角度出发:
- 视觉质量(Visual Quality):比较 AI 海报和人工海报的视觉相似度。例如用 CLIP 模型提取图像嵌入向量,看生成海报与作者海报在视觉特征上有多接近,并评估海报中图像与对应论文内容的相关性。直观来说,就是看机器海报的版面风格像不像人类的成果,图放得对不对。
- 文本连贯性(Textual Coherence):衡量海报文字的语言通顺程度。这里用困惑度(Perplexity)作为指标——如果模型生成的句子怪异拗口,PPL 值就会偏高。毕竟再好的排版,文字读不通顺也不行。
- 整体质量(Holistic Assessment):让视觉语言模型当评委,从美学和信息两个方面给海报打分。美学维度包括元素质量、布局平衡、读者吸引力(Engagement);信息维度包括内容清晰度、完整性、逻辑流畅等。这些细粒度打分综合起来,可以全面反映一张海报在视觉设计和内容呈现上的完成度。
- 论文问答(PaperQuiz):这是作者的核心设计,也是评价海报传达信息有效性的硬指标。具体做法是:让 LLM 根据论文自动生成若干选择题(包括直接细节题和深层理解题各 50%),然后用不同水平的 VLM 「读」生成的海报去回答这些题目。如果海报涵盖了论文的重要内容,VLM 答题得分就会高,反之则分数低。最终还引入长度惩罚,防止模型通过堆砌大段文字作弊。PaperQuiz 相当于模拟读者提问,考核「这张海报能把论文讲明白多少」。
有了以上评测框架,作者比较了多种方案下自动海报的效果,包括:直接让 GPT-4o 当作绘图机器人输出图像(GPT-4o-image)或生成 HTML 再渲染(GPT-4o-html),以及几个开源多智能体系统(如 OWL、PPTAgent 等)。
结果发现一些有趣的现象:
首先,GPT-4o 直接生成的海报远没想象中完美。例如,让 GPT-4o 输出图像版海报的话,缩略图看着五颜六色似乎有模有样,但一放大细看,其中的文字不是乱码就是模糊不清,很多细节完全无法阅读;这是由于GPT-4o通过pixel来生成文本,因此万一出错,会导致文字内容失效,所以GPT-4o生成的文字PPL特别高。让 GPT-4o 输出 HTML 版本又怎样呢?得到的往往是一页密密麻麻的纯文本,版式更像长篇博客而非海报。
同样,其他一些基于 GPT-4o 的多智能体方案也问题频出:例如 PPTAgent 常常布局失控导致部分内容丢失。
相比之下,PosterAgent 生成的海报在结构和可读性上要合理得多:版面干净清爽,没有冗余的长段落,文字提炼得精简到位,而且图文对齐恰当。下图给出了不同方法为同一论文生成海报的直观对比,可以看到 PosterAgent 的输出在清晰度和要点覆盖上都更胜一筹。
插图 3:Figure 3,不同方法对同一论文生成海报的对比示例。PosterAgent(右)生成的海报用更少的文字传达了论文核心内容,版面结构清晰。
更令人惊喜的是,PosterAgent 基于开源模型的版本(称为 PosterAgent-Qwen,采用 Qwen-2.5-7B 系列大模型)在几乎所有评价指标上都超越了基于 GPT-4o 的方案,而 PosterAgent 基于闭源模型的版本 PosterAgent-4o 更是同时在论文问答准确性和海报美观度上均达到最高水平,真正做到了既智能精准,又设计出众。
并且,由于流水线设计高效,PosterAgent-Qwen 生成一张海报所消耗的 tokens 数量比 OWL 动辄上百 k 的调用少了将近 87%!这直接带来速度和成本优势:据统计,转换一篇 22 页长的论文为可编辑的海报(.pptx 格式)大约只需花费 $0.005 美元的 API 成本。短短几分钟,就能让 AI 替你画海报,想想还有点小激动呢。
更关键的是,作者已将完整代码、模型权重和数据集开源出来,任何人都可以在 HuggingFace 和 GitHub 上使用这个工具。或许不久的将来,在家用一块常规显卡,你就能让 Paper2Poster 来帮忙出海报初稿,然后人类再稍加润色即可。
当然,目前 Paper2Poster 也有一些局限。比如,Painter-Commenter 循环还是串行逐块优化,效率上可能成为瓶颈,未来可以考虑并行加速。另外,AI 生成的海报在视觉美感和创意上与人类设计尚有差距——尤其是读者吸引力(Engagement)这一维度现在仍是短板。毕竟很多作者自己做海报时会精心挑选直观的示意图、配色和排版技巧,让观众一眼抓住重点;而 AI 模型主要靠提炼文字和现有图片,缺少「锦上添花」的点睛之笔。
所以,将来如何让模型更好地利用视觉元素传达信息,也是值得探索的方向。论文作者也提出,可以考虑融入外部知识和素材(比如课题组模板、会议 logo 等),或者让人机协作共同完善海报设计。这些展望无疑为后续研究指明了道路。
展望:科研辅助,从海报走向未来
Paper2Poster 的出现,表明大模型在学术传播场景中有了实用的一席之地。从写论文摘要,到自动生成学术海报,再到未来可能的自动论文审稿人、科研助理,AI 正在逐步渗透科研工作的方方面面。
也许再过几年,我们真的可以按下一个键,就让 AI 替我们把论文变成海报、幻灯片,甚至一篇面向大众的科普稿。同时,人类研究者则可以把更多精力放在创造新的想法、设计实验和推演理论上,而把繁琐的格式调整、版面美化交给智能助手处理。
总的来说,Paper2Poster 带来了一个令人兴奋的开端:学术海报这样的「小事」今后或许不再需要我们反复纠结版式和措辞,大模型已经展现出接手这些任务的潜力。当然,AI 工具终究是辅助,真正的科研妙笔仍需人类去书写。但可以预见,随着这类科研辅助系统的发展成熟,我们离「让科研更专注,让杂事交给 AI」的理想又近了一步。期待未来会有更多类似 Paper2Poster 的创新,让科研工作变得更加高效、有趣。
PosterAgent 生成样例:
Differentially Private CutMix for Split Learning with Vision Transformer:
A Neural Tangent Kernel Perspective of Infinite Tree Ensembles:
彩蛋:让Paper2Poster为Paper2Poster生成一张Poster
#Model Merging in Pre-training of Large Language Models
字节Seed新作:模型合并如何改变大模型预训练范式
字节跳动 Seed 团队近期在 arXiv 上发表的论文得到了 ViT 作者,前 Google Brain 最近跳去 OpenAI 的 Lucas Beyer 的亲自解读,Lucas 直言:「这是一篇简洁的论文,不知怎的让我回忆起美好的在 Google Brain 的旧时光。(This is a neat paper that somehow made me reminisce good old Brain times. )」
Seed 团队在这篇论文提出的预训练模型平均(PMA)技术,通过合并训练过程中的检查点(Checkpoint),不仅实现了模型性能的显著提升,还能精准预测学习率衰减阶段的性能表现。这一成果被视为大模型训练领域的重要突破,甚至可能改变未来大模型开发的范式。
论文标题:Model Merging in Pre-training of Large Language Models
论文地址:https://arxiv.org/pdf/2505.12082
模型合并:从「后训练」到「预训练」的跨越后训练合并:任务能力的「拼图游戏」
模型合并并非全新概念,此前主要应用于后训练阶段,即通过合并多个领域微调模型的权重,构建一个多任务能力更强的统一模型。例如,DARE 方法将 WizardLM(通用对话模型)与 WizardMath(数学推理模型)合并后,在 GSM8K 数学推理基准上的得分从 2.2 跃升至 66.3,展现了任务能力融合的强大潜力。
相比之下,预训练阶段的模型合并研究仍较为匮乏。此类预训练合并通常涉及合并单一训练轨迹中的检查点,如 LAWA 中通过模型合并加速 LLM 训练的探索。然而,随着模型规模和数据量的急剧增长,社区研究者难以评估模型合并对大规模模型的影响,主要原因在于难以获取大规模预训练过程中的中间检查点。尽管 DeepSeek 和 LLaMA 均表明其在模型开发中使用了模型合并技术,但这些技术的详细信息尚未公开披露。
预训练合并:训练效率的「时光机」
字节跳动的研究将模型合并引入预训练阶段,提出了Pre-trained Model Averaging(PMA)框架。简单来说,PMA 就是在预训练过程中,定期将不同训练阶段的模型权重进行平均,生成一个「合并模型」。这是因为:预训练后期的模型权重往往在参数空间中探索了不同的局部最优解,通过平均化可以抵消单个模型的偏差,逼近更优的全局解。例如,在稳定训练阶段(Constant LR Phase)合并 10 个检查点后,Seed-MoE-10B/100B 模型在 HumanEval 代码生成任务上的得分从 54.3 提升至 61.6,涨幅超过 13%。
PMA 技术的三大核心发现合并时机:稳定期合并效果最佳
研究团队通过实验发现,在学习率稳定阶段(Warmup-Stable-Decay 中的 Stable Phase)进行模型合并效果最佳。此时模型处于「高效学习期」,权重更新尚未进入衰减阶段,不同检查点之间的参数差异既能保证多样性,又不会因过度震荡导致合并后性能下降。
有趣的是,即使在学习率余弦衰减阶段(Cosine Decay Phase)的早期进行合并,PMA 模型的性能也能媲美甚至超越自然衰减到末期的模型。例如,Seed-MoE-15B/150B 模型在衰减初期合并后,其性能与训练至末期的模型相差无几。
合并策略:简单平均(SMA)胜过复杂加权
在合并策略的对比实验中,研究团队测试了三种主流方法:
- 简单移动平均(SMA):所有模型权重等比例平均
- 指数移动平均(EMA):近期模型权重占比更高
- 加权移动平均(WMA):按训练步数线性加权
实验结果表明,在训练初期,EMA 和 WMA 因更关注近期权重而表现略好,但随着训练推进,三者性能差异逐渐消失。考虑到 SMA 的计算简单性和稳定性,团队最终选择其作为默认策略。这一发现打破了「复杂加权必然更优」的固有认知,为工程落地提供了便利。
超参数规律:模型规模决定合并间隔
合并间隔(V)与模型规模正相关:小模型(如 1.3B 参数的 MoE)适合较小的合并间隔(8B tokens),而大模型(如 100B 参数的 MoE)则可采用更大的间隔(80B tokens)。这与大模型通常使用更大批次训练的特性一致。
合并数量(N)越多越好:当训练完成时,合并 15 个检查点的模型性能比合并 3 个的高近 1 个百分点。但需平衡计算成本,团队建议实际应用中取 N=10 作为折中方案。
PMA 的「隐藏技能」:训练稳定性与初始化优化PMA-init:让训练「起死回生」
在大模型训练中,「损失激增」(Loss Spike)是令人头疼的问题——硬件故障、参数震荡等因素可能导致训练崩溃,不得不从头再来。PMA 为此提供了一种「急救方案」:当损失激增发生时,合并故障前的 N 个检查点作为初始化权重(PMA-init),可使训练恢复稳定。
实验中,团队故意用过高的学习率(6e-3)训练一个 330M 参数的 MoE 模型,导致其损失剧烈震荡。此时采用 PMA-init 合并 3 个故障前检查点,训练曲线迅速恢复平滑,避免了从头训练的巨大浪费。
下游阶段的「热身优势」
在持续训练(CT)和监督微调(SFT)阶段,使用 PMA 合并后的模型作为初始化权重(PMA-init),能显著改善训练动态。例如,在 CT 阶段,PMA-init 模型的 GradNorm 曲线更加平稳,早期训练中的 MMLU 得分比基线模型高 1-2 个百分点。尽管最终性能与基线持平,但其「热身优势」可加速下游任务的收敛,尤其适合数据敏感型场景。
数学原理:为什么合并能「化平凡为神奇」?
从理论层面看,模型合并的有效性可通过损失函数的二阶泰勒展开解释。假设最优参数为
,各检查点参数
与
的偏差为
,则合并后参数
的损失可表示为:
其中,
为海森矩阵(Hessian Matrix),刻画损失函数的曲率。当不同
在参数空间中呈现「负相关」(即方向互补)时,交叉项
为负,使得合并后的损失低于单个模型的平均损失。这意味着,合并本质上是利用不同检查点在参数空间中的「探索多样性」,通过平均化抵消局部偏差,逼近更优解。
可视化实验也印证了这一点:在 Seed-MoE-1.3B/13B 模型的某层参数空间中,单个检查点的权重分布在 MMLU 得分等高线的不同位置,而合并后的权重位置往往更靠近高分区。
挑战与未来方向未解决的问题
- 学习率的影响:当前实验默认使用缩放定律(Scaling Law)推荐的最优学习率,未深入探索高学习率下 PMA 的表现。理论上,高学习率可能增加参数探索的多样性,进一步提升合并效果,但受限于算力成本,尚未量化分析。
- 强化学习阶段的应用:论文主要聚焦预训练,而 RLHF(强化学习从人类反馈中学习)作为大模型训练的关键环节,其检查点合并的潜力尚未挖掘。这将是未来研究的重要方向。
行业启示
对于大模型开发者而言,PMA 带来的不仅是成本节省,更是一种「模拟退火」的思维革命——通过合并稳定期的检查点,可快速预测衰减阶段的性能,避免盲目延长训练周期。对于中小型企业,这意味着用更少的资源实现 comparable 性能,甚至可能颠覆「大公司垄断算力」的格局。
结语:开启高效训练的新时代
从「暴力堆算力」到「智能优化训练流程」,大模型的发展正从粗放式增长转向精细化运营。字节跳动的这项研究,以模型合并为切入点,揭示了预训练过程中被忽视的「检查点价值」,为学术界和工业界提供了一条低成本、高效能的新路径。
正如论文结语所言:「PMA 不仅是一种技术,更是一个监视器——它让预训练过程变得可预测、可优化。」随着更多类似研究的涌现,我们有理由相信,大模型训练将逐步摆脱「烧钱游戏」的标签,走向更可持续、更普惠的未来。
#MoE推理「王炸」组合
昇腾×盘古让推理性能狂飙6-8倍
在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设计的 Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。
通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE 推理性能提升 6~8 倍,在昇腾 300I Duo 上单卡吞吐可达 321 tokens/s,实现极致性价比;在昇腾 800I A2 上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。
技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/blob/main/%E6%98%87%E8%85%BE%E5%B9%B3%E5%8F%B0Pangu%20Pro%20MoE%E5%85%A8%E9%93%BE%E8%B7%AF%E9%AB%98%E6%80%A7%E8%83%BD%E6%8E%A8%E7%90%86%E7%B3%BB%E7%BB%9F%E4%BC%98%E5%8C%96%E5%AE%9E%E8%B7%B5.pdf
推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力
在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开「全员大会」,沟通成本高、效率低,项目推进自然慢半拍。聪明的做法,是开对会、分好组,精准沟通、各司其职。这正是华为团队在 Pangu Pro MoE 大模型推理优化中的灵感来源!
分层混合并行(H2P):不再「全员大会」,「专人专会」推理才高效!
还在用「一刀切」的并行方式处理大模型?就像公司里什么事都开全员大会,不管你是财务还是研发,全都坐在会议室浪费时间 —— 看似热闹,实则低效。
华为团队另辟蹊径,灵感来自「专人专会」策略,提出创新性的 H2P 分层混合并行(Hierarchical & Hybrid Parallelism)。与其让所有模块频繁地「开大会」,不如根据任务特性「分工开小会」,让每个部分在各自的通信域内中高效执行!
该策略精准匹配模型结构和硬件互联拓扑特性:Attention 模块采用 DP2+TP4 并行方案,轻量参数聚焦单 CPU 内高效通信;Expert 模块针对路由专家的分组与动态负载,采用 TP2+EP4 策略,实现计算均衡与效率提升;共享专家则以 TP8 全芯并行,加速稠密计算,全方位激发昇腾平台算力潜能。
H2P 策略进一步在 Attention 模块引入 Reduce-Scatter 替代 AllReduce,避免数据聚合操作导致后续通信传输数据量膨胀,并通过优化 AllGather 插入位置,降低冗余向量计算;同时基于分组专家设计,Expert 模块利用全局 AllGather 高效完成 token 与专家的动态匹配,结合全局 Reduce-Scatter 实现路由专家与共享专家的归一通信。
通过这种「哪类事开哪类会」的智慧分工方式,H2P 策略让每个模块都在最适合的并行方式下发挥最大潜能,摆脱了传统「大锅饭式」并行的性能瓶颈,让推理效率飞升一大截,Decode 吞吐性能相比纯 TP 方案提升 33.1%。
图 1 H2P 优化方案示意图
攻克通信瓶颈(TopoComm):拒绝「冗余发言」,「言简意赅」推理才畅通!
在大模型推理中,通信就像一场大型数据会议:「会前准备」是静态开销,「会中发言」则对应数据传输。华为团队以「提高开会效率」为目标,设计 TopoComm 优化方案,从会前准备到会中交流环节全方位深度优化集合通信,让数据传得快、讲得清、效率高。
针对静态开销,提出 SlimRing 算法,利用 Ring 链路通信对象固定特性,合并相邻通信步的后同步与前同步操作,同步次数降低 35%。针对传输耗时,提出 NHD 算法,通过拓扑亲和的分级通信等效提高链路有效带宽 21%;进一步引入 INT8 AllGather + FP16 Reduce-Scatter 的混合量化通信策略,结合跨芯校准与量化因子复用,实现通信数据压缩 25%,AllGather 通信耗时降低 39%。
图 2 TopoComm 优化方案示意图
计算 & 通信融合(DuoStream):告别「干等闲耗」,推理「开会干活」两不误!
大模型分布式并行推理就像一个协作型项目,需要多卡在通信(开会)与计算(干活)之间不断交替执行。高效的团队往往能在会议中一边讨论、一边分工执行,真正做到边「开会」边「干活」,从而大大提高整体效率。华为团队正是借助这一理念,深入挖掘昇腾平台多流架构的潜力,提出 DuoStream 算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度,大幅提升推理计算效率。
针对 Pangu Pro MoE 模型中 Expert 模块通信占比高的问题,构建 GMMRS(GroupedMatmul+Reduce-Scatter)与 AGMM(AllGather+Matmul)两大融合策略,有效克服通信与数据搬运和计算之间的瓶颈,实现关键通信路径的流水掩盖,进一步释放模型在昇腾平台上的推理性能。通过这套 “边讨论边干活” 的融合式优化机制,通信与数据搬运和计算协同推进,显著提升了模型在昇腾平台上的推理效率,最大化释放硬件资源潜能。
图 3 DuoStream 优化方案示意图
打造六边形算子战队:单兵作战到特种部队,融合算子释放昇腾潜能
在大模型推理的算力战场上,传统算子如同各自为战的「单兵」,每个算子独立执行、协作脱节。数据搬运兵(内存访问) 与计算突击手(矩阵乘)各自为战,每次任务需反复传递数据(全局内存读写),大量兵力浪费在资源协调上(Kernel 启动开销),导致资源调度低效、内存搬运频繁,造成大模型推理的「单兵算子困局」。为终结算力内耗以释放硬件潜力,华为团队重构算子执行范式,打造两支精锐「融合算子特种部队」——MulAttention 和 SwiftGMM,实现了从资源访问、计算调度到数据搬运的全链路优化,显著提升推理性能表现。
MulAttention:注意力计算尖刀连,打下推理 KV 搬运桥头堡
随着并发数和序列长度持续增长,Attention 计算时延在整网占比达 30% 至 50%,其中 KV 缓存搬运占据了约 70% 的算子执行耗时。为此,华为团队基于昇腾架构打造原生高性能融合算子 ——MulAttention。
该算子围绕增量推理阶段 KV 数据搬运与计算的高效流水编排开展优化,通过构建 KV 大包连续搬运优化策略,极大提高了访存带宽利用率。同时设计 KV 预取流水机制,有效降低计算的暴露时延。进一步构建了 KV 双循环结构,解耦矩阵与向量计算间数据依赖,缓解指令队列堵塞同时提高向量计算并行度。最终实现 Attention 计算加速 4.5 倍,达成 89% 以上的数据搬运流水占用率以及 87% 的访存带宽利用率。
图 4 MulAttention 融合算子优化设计示意图
SwiftGMM:专家计算突击队,闪电速度抵达推理算力战场
路由专家权重搬运已成为 MoE 模型端到端时延的核心瓶颈,且其稀疏激活特性导致的负载动态波动进一步放大了性能优化的挑战。对此,华为团队面向昇腾平台推出高性能矩阵计算引擎 ——SwiftGMM。
SwiftGMM 引入基于历史数据的智能分块缓存策略,通过动态预测并调整最优分块参数,规避重排开销;同时根据计算负载强度,动态切换 GEMV 与 GEMM 执行模式,实现轻重计算任务的灵活调度,保障算子始终运行在高效区间。此外,该算子结合左矩阵单次加载与常驻方案以及双缓存机制,进一步实现数据搬运与计算的高效流水。通过上述系列「闪电突袭」,实现 GMM 计算加速 2.1 倍,解码阶段整网推理时延降低 48.7%。
图 5 SwiftGMM 融合算子优化设计示意图
推理算法加速:降本增效,实现推理性能与资源效率的双重跃升
推理系统端到端竞争力不仅涉及单一模型推理,还涉及输入输出序列长度优化,多个模型组合推理。华为团队提出专家动态剪枝算法 PreMoE。针对慢思考输出序列长度过长,提出反思压缩 TrimR 算法。针对多个模型协同,设计实现了反思投机 SpecReason 算法。
PreMoE:给 MoE 模型动态「瘦身」
MoE 模型在处理不同任务时,只有特定的专家会被显著激活。和去医院就诊一样,每次挂号去一个科室。MoE 模型的专家动态剪枝 PreMoE 算法,由两个创新性技术组件组成:PEP 用来度量专家重要性,选出给定任务最相关的专家;TAER 查询相似性动态加载与任务相关的专家。保持模型准确率的同时,实现推理吞吐提升 10%+。
组合拳出击:多个模型协同优化
在复杂逻辑问题上,慢思考生成冗长的中间「思考」。但是一旦模型找到正确答案,更进一步的思考收益甚微(「过度思考」);在非常困难的问题上,模型在不同的解决方案之间频繁切换(「欠思考」)。华为团队提出 TrimR 反思压缩算法,用一个小的 7B 模型去动态监测大模型是否出现过度思考和欠思考,如果思考过程异常,通过修改 Prompt 及时让大模型终止并给出最终答案,推理步数降低 14%。
大模型通常能力较强,小模型相对能力偏弱,但是小模型能够解答子问题。SpecReason 反思投机算法使用小模型首先生成 token 序列(如短分析段或假设),而不是单 token 预测,然后大模型执行正确性验证:如果有效,将内容合成为浓缩摘要,并为下一个分析步骤提供方向性指导(如指定下一步探索哪个方面);如果无效,调整小模型的推理方向,使其重新考虑假设或转向替代假设。SpecReason 充分发挥了小模型的优势,推理吞吐提升 30%。
性能全面突破:昇腾亲和软硬协同优化,推理解码性能暴涨 6~8 倍
昇腾 800I A2:大模型的高性能推理平台
在解码阶段采用 4 卡部署策略,Pangu Pro MoE 模型实现了卓越的推理性能:小并发场景下(BS=1,Seq=2k)权重搬运量仅 16B,具备低时延响应能力;大并发场景下(BS=456,Seq=2k),单卡吞吐达 1148 tokens/s,较 72B 和 32B 稠密模型分别提升 97% 和 18%。结合 MTP 投机推理技术,在 token 接受率达 0.9 时,单卡 BS 可提升至 146,平均时延降至 95.56 ms,最高吞吐突破 1528 tokens/s,显著提升高并发任务的推理效率。
表 1 昇腾 800I A2 服务器 4 卡配置下解码阶段推理性能测试结果(输入长度 2k)。* 表示在 MTP 投机推理接受率达到 0.9 条件下可达到的最高输出吞吐。
昇腾 300I Duo:极致性价比的推理平台
依托 Pangu Pro MoE 模型与昇腾平台的深度协同,昇腾 300I Duo 在百亿级 MoE 模型推理中展现出卓越性能与极高性价比。在预填充阶段,2 卡 2 路并发下实现 2k 序列输入仅 1.94s 延迟,单卡吞吐达 1055 tokens/s。在解码阶段,4 卡部署灵活适配不同并发需求:小并发场景下延迟低至 50ms,大并发场景(BS=80)下单卡吞吐达 201 tokens/s,兼顾低延迟与高吞吐。结合高接受率的 MTP 技术,单卡 Batch Size 可提升至 32,平均时延降至 99.7ms,吞吐最高达 321 tokens/s,充分释放 MoE 模型在昇腾平台的推理潜能。与 800I A2 推理相比,300I DUO 能够提供更加经济的 MoE 推理解决方案,为各行各业的推理应用部署提供极具性价比的选择。
表 2 昇腾 300I Duo 服务器 4 卡配置下解码阶段推理性能测试结果(输入长度 2k)。* 表示在 MTP 投机推理接受率达到 0.9 条件下可达到的最高输出吞吐。
至此,昇腾盘古推理系统的全流程优化已全面揭晓。从系统级优化到高性能算子,软硬协同、层层突破、步步精进,构建起高性能、大规模、低成本的推理能力底座。华为团队持续深耕模型 - 系统的软硬协同创新,为通用大模型的规模部署和高效落地提供了坚实支撑。
#智源全新「悟界」系列大模型炸场
AI第一次真正「看见」宏观-微观双宇宙
AI 开始从理解文字,全面进化到建模世界、操控实体、模拟大脑、解构分子。
一晃 2025 年已经快要过半了!AI 领域依然「热闹非凡」,令人目不暇接。
年初爆火的 DeepSeek R1 以及后续的 OpenAI o3,强化学习技术让推理模型能力强势增长;同时,智能体、世界模型、多模态大模型、具身智能与人形机器人、AI4S 等领域也不断产出引爆社区的成果,比如最初一码难求的智能体 Manus、CES 大会上英伟达的 Cosmos 世界基础模型。
前沿 AI 技术的进步让整个 AI 圈充满了活力,并推动各个 AI 方向在当前行业最有前景的道路上狂奔。
6 月 6 日,一年一度的国内「AI 内行顶级盛会」—— 第七届智源大会拉开了序幕!会上,Yoshua Bengio、Richard Sutton 等四位图灵奖得主、三十余位大模型企业创始人及 CEO、一百多位青年科学家及学者集思广益,从学界和产业界的多样化视角出发,围绕上面这些 AI 课题进行了头脑风暴,并针对下一代 AI 路径等行业前景问题贡献出了很多真知灼见。
作为主办方的智源研究院(简称智源),重磅亮相了全新一代「悟界」系列大模型。从命名来看,「悟界」代表了智源对于虚实边界的突破,通过深化对物理世界的赋能向着物理 AGI 方向迈进。这预示着这家人工智能领域的前沿科研机构对大模型的探索进入到了一个全新阶段。
具体来讲,「悟界」系列包含了多项重要成果,它们分别是原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0以及全原子微观生命模型 OpenComplex2。其中原生多模态世界模型实现了真正的可扩展性,从一开始便在底层结构中融合进文本、图像、视频、声音甚至脑信号在内的各种模态,告别了简单的模态拼接。
不难发现,从 2021 年的悟道 1.0、2.0 到 2023 年的 3.0,智源引领并与行业主流发展趋势保持一致。此后,随着 Scaling Law 放缓等因素影响,拼参数的预训练语言大模型和视觉大模型不再是关注的唯一重心,两种显著的趋势开始开头:一是大模型架构朝着统一建模、底层融合的方向进化;二是 AI 研究加速与科学建模(如物理与生物规律、神经机制等)深度融合并演化成一种新范式。
智源全新「悟界」系列的出现,正当其时,反映了其对大模型发展现状和未来走向的合理研判与前瞻洞见。
这代表着:大模型开始从文图视频主导的数字世界进入到更加真实的物理世界,并且对物理世界的理解从宏观跨越到了微观尺度。
智源研究院院长王仲远。
原生多模态
让世界模型真正实现「一对多」
提到世界模型,它的提出与发展源自人工智能、认知科学领域对「理解世界」的基本追问。
2018 年,David Ha 和 Jürgen Schmidhuber 的里程碑式工作《World Models》发表,此后世界模型开始成为一个更具类脑启发性和统一框架意义的 AI 研究方向,尤其是与强化学习、多模态建模、机器人控制等领域的深度融合。
如今,世界模型已经成为 AI 领域的一个「必争之地」。从李飞飞世界模型首秀到英伟达、谷歌纷纷押注于此,再到国内的自研世界模型,这一 AI 方向的重要性愈加凸显,并成为实现通用智能、具身智能的关键基石。
从对行业的观察中发现,现有的世界模型多关注如何创建物理逼真、可交互并具备全局一致性的 3D 世界,落在了图像视频领域。「悟界」系列中的世界模型在关注图像视频之外,凭借其强大的底层架构将自身能力拓展到了与物理世界息息相关的应用场景。
此次,「悟界」系列中的 Emu3 是全球首个原生多模态世界模型,它以下一个 token 预测作为核心范式,打通了多模态学习的路径,摆脱了扩散模型或组合式架构的复杂性。
在执行过程中,Emu3 通过引入新型视觉 tokenizer,将图像与视频编码为与文本同构的离散符号序列,构建出了一个无需考虑模态的统一表征空间,最终让文本、图像、视频任意模态组合的理解与生成变为现实。此外,Emu3 还支持多模态输入与输出的端到端映射,验证了自回归框架在多模态领域的通用性与先进性,为更自然、更强大的跨模态交互提供了坚实的技术基础。
随着当前以及未来多模态数据在现实世界中日益丰富,Emu3 展示出的统一建模能力有望推动 AI 系统从「理解与生成单一模态」向「无缝协同多模态」的跃迁,进而加速在创意生成、智能搜索等应用场景中的落地。王仲远院长表示,Emu3 下个版本正在研发中,届时将会更加强大。
Emu3 的强大不止于文图视频创作领域,此次更是推动了脑科学领域的科研范式变革,带来全球首个脑科学多模态通用基础模型「见微 Brainμ」。
该模型基于 Emu3 的底层架构构建,首次实现了对 MRI(功能性磁共振成像)、EEG(脑电图)、双光子成像等多种神经信号的统一 token 化,并借助预训练模型的多模态对齐能力,建立起脑信号与文本、图像等模态之间的多向映射。在数据层面,该模型的高质量神经科学数据来自多个大型公开数据集和多个合作实验室,累计处理超过 100 万单位的神经信号数据。
因此,见微 Brainμ 模型支持跨任务、跨模态、跨个体的统一建模框架,能够以单一模型完成包括信号解码、感觉重建、脑疾病诊断在内的多类型神经科学下游任务,展出了强大的通用性与扩展性。而在基础脑科学研究、临床神经应用、脑机接口等多个方向的广泛适应能力,让该模型有望成为「神经科学领域的 AlphaFold」。
在跨模态、跨场景之外,见微 Brainμ 还具备了跨物种能力,从而加速脑疾病机制的跨物种验证,进一步推动认知科学与比较神经科学的协同发展。
该模型能够同步处理多类编解码任务,兼容了包括人类以及小鼠、狨猴、猕猴等多物种神经数据,支持科学数据自动注释、交互式科学结论解读、大脑感觉信号重建和模拟刺激信号生成等复杂任务。其中,在自动化睡眠分型、感觉信号重建与多种脑疾病诊断等任务中,见微 Brainμ 作为单一模型的性能显著超越了现有的专用模型,并刷新 SOTA 表现。
此外,作为统一的大模型平台,见微 Brainμ 为脑机接口提供了强大技术支撑,与脑机接口企业强脑科技 BrainCO 的合作首次实现在便携式消费级脑电系统上重建感觉信号,推动脑机接口技术走向实用化。
可以说,见微 Brainμ 展示了原生多模态世界模型在脑科学领域的跨越式赋能潜力,有望成为类脑智能时代理解与模拟大脑活动的关键基础设施,并进一步激发脑科学、认知科学与 AI 之间的深度融合。
具身领域的「Linux+GPT」式组合
加速大模型实体化落地
近年来,具身智能已经演化成了最具战略意义的 AI 技术突破口之一。现阶段,机器学习、强化学习以及多模态技术与控制系统的深度融合,让具身大模型百花齐放,尤其以人形机器人、四足机器人为代表的物理实体,不断引爆 AI 社区甚至火出圈。
不过,不通用、不好用、不易用构成了具身智能的三大瓶颈,多数模型依赖特定硬件本体,感知、认知、决策能力不强并在大小脑与本体的适配层面存在较大难度。
面对这些挑战,今年 3 月,智源提出并开源全球首个跨本体具身大小脑协作框架 RoboOS 1.0 和首个跨本体具身大脑 RoboBrain 1.0,打破「专机专模」限制,构建真正的通用具身智能基础模型,在实现极强迁移性的同时,极大降低了微调与适配成本。
今天,「悟界」系列迎来了跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0,相较于 1.0 双双实现了性能的跨越式提升。
其中,RoboOS 2.0 创下了两项全球第一:全球首个基于具身智能 SaaS 平台、支持无服务器一站式轻量化机器人本体部署的开源框架以及全球首个兼容 MCP(模型上下文协议)的跨本体具身大小脑协作框架,通过将「应用商店」模式引入具身领域,既可以促进协作共享与生态繁荣,也将降低「重复造轮子」的成本。
开源的 RoboOS 2.0 框架对开发者非常友好,他们可以一键下载并部署全球开发者创建的同型号机器人本体的小脑技能,进而完成大小脑间的即插即用、无缝协同。该框架还实现了小脑技能的免适配注册机制,将开发门槛打了下来,典型场景下所需代码量仅为传统手动注册方式的 1/10。
此外,「高效、可靠、智能协同」成为此次 RoboOS 2.0 的代名词。得益于端到端推理链路的系统级优化,该框架的整体性能提升达 30%,全链路平均响应时延压缩至 3 毫秒以下,端云通信效率提升高达 27 倍。同时,新增多本体时空记忆场景图共享机制,支持动态环境下的实时感知与建模;引入多粒度任务监控与闭环反馈模块,显著提升任务执行的稳定性与成功率。
种种技术加持下,RoboOS 2.0 的工程可用性与商业落地能力也大大增强。
与 RoboOS 2.0 配套的具身大脑 RoboBrain 2.0 成为目前全球性能最强的开源具身智能大模型,在任务规划、空间推理等多项关键指标上全面超越主流模型,进一步巩固智源在具身智能生态中的领先地位。
对于任务规划,RoboBrain 2.0 在 1.0 基础上「脱胎换骨」,由原来依赖 Prompt 的多机任务规划机制和初级空间理解能力,进化为基于多本体 - 环境动态建模的多机协同规划系统。如此一来,该模型能够实时生成包含本体定位的场景图并自动完成跨本体的任务规划与调度。效果也非常显著,任务规划准确率相较于 1.0 实现了 74% 的大幅提升,展现出了多机协同执行的智能性与稳定性。
在空间智能方面,RoboBrain 2.0 在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了 17% 的性能提升。同时,RoboBrain 2.0 增加了空间推理能力(Spatial Referring),既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。
可以预见,机器人在复杂 3D 空间中更能「收放自如」,定位、避障、操作性不可同日而语。
另外,RoboBrain 2.0 像语言模型一样,新增了深度思考能力以及闭环反馈能力,前者让机器人可以对复杂任务进行推理分解以提升整体执行准确率与任务完成准确率,后者让机器人可以根据当前环境感知任务状态,实时调整任务规划与操作策略以应对突发变化与扰动。
配备 RoboOS 2.0 与 RoboBrain 2.0 的机器人遵照指令制作面包三明治。
为人取放饮料。
随着 RoboOS 2.0 与 RoboBrain 2.0 组合的到来,一个强大的「Linux+GPT」式平台正在具身智能领域冉冉升起,为新一代 AI 原生机器人系统提供通用的技术底座与基础架构。
目前,智源已经全面开源了这两大成果,与社区共享框架代码、模型权重、数据集和评测基准,并与全球 20 多家具身智能企业建立战略合作关系,在该领域继续贯彻科技普惠与开放协同理念。
全原子级建模进化
大模型开始理解微观生命的「静动态」
随着大模型深化在语言、图像、视频等宏观世界建模层面的能力,AI 也逐渐从对人类可感知世界的理解拓展到对微观世界的深层建构。
在这一趋势下,智源在「悟界」系列中推出了全原子微观生命模型 OpenComplex2, 标志着多模态大模型在科学领域突破了又一生命尺度。
从功能上来看,OpenComplex2 既可以预测蛋白质、DNA、RNA 小分子结构的静态结构,也能够进行动态构象分布建模。这意味着,该模型在预测「生物分子某一瞬间形态」的同时,对它们在不同时间尺度下的动态变化规律也开始有了理解,更贴近真实生命系统的行为机制。
具体来讲,现在该模型能够描述生物分子系统的连续演化能量景观,并在结合扩散生成式建模机制与真实生物实验数据的基础上,从原子分辨率层面精确捕捉分子间相互作用及平衡构象分布。这一能力进一步拓展了大模型在生命科学中的跨尺度建模能力。
究其原因,OpenComplex2 对生物分子研究范式的突破构建在两大关键创新之上,一是基于 FloydNetwork 的图扩散框架,二是多尺度原子级精度表示,二者结合可以更加真实地还原生物分子的构象多样性和动态特性。
此外,OpenComplex2 还能捕捉原子级、残基级和基序级的相关性,兼顾建模过程中的局部结构细节与全局构象演化,为理解分子功能机制提供了更加系统、完整的结构基础。
OpenComplex2 的效果已经得到了验证,在 2024 年第 16 届蛋白质结构预测关键评估竞赛 CASP16 中,OpenComplex2 成功预测了蛋白质 T1200/T1300 的空间构象分布(定性上与实验数据一致),成为 23 支参赛队伍中唯一取得该突破的团队。
对于 AI for Science 而言,OpenComplex2 为原子级结构生物学开辟全新的建模路径,通过在统一框架下精准解析生物分子系统的动态作用机制,为生命科学研究与应用带来变革性进展。
随着该模型的出现,从基础分子机制探索到新药发现、靶点验证等各个下游环节都有望实现加速,从而大幅缩短生物医药研发周期、降低研发成本并提升成果转化率。
未来,AI for Science 将逐步进入深水区,更早构建跨模态、跨学科、跨任务、跨物种、跨尺度的科学建模基础设施,势必会在竞争中获得先发优势。
结语
今年 1 月,智源发布 2025 十大 AI 技术趋势,其中就囊括了「悟界」系列大模型中的这些内容。从行业趋势预测到今天全新系列模型的问世,智源称得上行动迅速,向整个 AI 社区宣告了自身范式的战略性升级。
智源「悟界」系列不再只强调语言建模,转而回到了 AI 的更本源问题 —— 如何建模这个世界。这一目标的牵引,会为原生多模态、世界模型、具身智能、AI for Science 等多个赛道注入新的活力。同时,这四大方向的协同布局,是现阶段智源从认知智能走向具身智能与科学智能的关键一步。
当然,受益的不单单是智源自身,整个 AI 社区也会从「悟界」系列中得到一些启发。在主流语言建模范式之外,一组面向科学认知、具身行为、神经与生命模拟的基础模型群铺展开来。以物理世界为探索目标的 AI,为行业其他玩家提供了一种可借鉴的发展路径。
未来,真正的大模型时代不会止步于提示框,而将深入到每一个理解世界、改变世界的系统中。
#SophiaVL-R1
类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
DeepSeek-R1 爆火后,类 R1 的结果奖励训练范式在各领域掀起了推理热潮。基于规则的结果奖励实现简单、判断严格。但是,这真的够了吗?
在推理任务中,如果我们只是用「结果对错」来奖励模型,那模型就很可能学会了「靠捷径答题」。
这种模式下,模型的「正确思考策略」没有完全建立起来,它甚至会因为一次「瞎蒙对」的奖励,而在之后反复强化错误策略,越走越偏。
为了解决这个问题,港中文联合上海人工智能实验室团队发布了多模态推理模型 SophiaVL-R1,它在类 R1 强化学习训练框架上做了一次关键进化:不再只奖励结果是否正确,而是将「思考过程」也纳入奖励体系。
- 论文链接:https://arxiv.org/abs/2505.17018
- 项目地址:https://github.com/kxfan2002/SophiaVL-R1
这一套设计不仅能让模型学会更通用、更靠谱的推理策略,还显著提升了泛化能力——在多个数学和通用多模态基准测试中,SophiaVL-R1-7B 甚至击败了参数量是其 10 倍的 LLaVA-OneVision-72B 模型。 目前,研究团队已将所有模型、数据和代码开源。
思考过程也要评分,才是好模型
SophiaVL-R1 的关键突破点,就在于它引入了「思考奖励」机制 —— 不再只看答案对不对,而是开始评估模型整个推理过程是否合理、连贯、靠谱。
研究团队精心制作了一个思考过程评分的数据集,包含多样化的思考模式和错误,并训练了一个「思考评分模型」,基于多个角度对思考过程输出一个整体的评分。
举个例子,比如一段推理过程,答案是对的,但中间逻辑跳跃明显、甚至完全胡扯,那这个过程可能只能得个 0.3 的思考分;而另一个推理过程最终也选了 B,但过程缜密、推导清晰,思考分可能达到 0.9。就像老师改卷,不只是看结果,还会给「过程分」。
这一招,不仅提升了模型推理质量,更重要的是 —— 它教会模型「怎么想」,而不是「怎么猜」。
SophiaVL-R1 的「奖励改革」
不过,把「过程」纳入奖励机制,并不意味着直接相加就能奏效。
由于模型生成的思考过程是自由文本,容易「伪装认真」——比如它可能写了一长段貌似合理的「逻辑」,但其实是在重复废话,甚至是掩盖思考漏洞。这种奖励欺骗(Reward Hacking)现象是强化学习中极常见的问题。
为了解决这个痛点,SophiaVL-R1 引入了一个名为 Trust-GRPO 的训练算法,它的核心理念是:基于 GRPO 组内信息判断思考奖励的可信程度。
该方法通过对同一问题中,正确与错误答案对应的思维奖励进行对比,如果发现错误答案获得的思维奖励异常高,就会自动降低该奖励的可信度评分,从而提升整体训练的稳定性与可信性。一个例子如下图所示。
实验结果
在多项常用的评测基准中(MMMU、MME、MathVista 等),SophiaVL-R1-7B 展现出极为强大的推理能力和泛化能力,跟 GRPO、SFT+GRPO 和基于 PRM 的方法相比都很能打,在多个多模态数学和通用测评数据集上表现直接对标甚至超越了体量是其 10 倍的 LLaVA-OneVision-72B 模型。
这说明了一个非常核心的点:推理能力,是靠正确的训练范式教出来的。SophiaVL-R1 的成功,正是对这一点的最好注解。
在消融实验中,也可以发现,SophiaVL-R1 的各个部分都是有效的。
同时,从训练曲线来看,SophiaVL-R1 不仅训练得更好,而且训练得更快,说明了思考奖励信号的有效性和 Trust-GRPO 算法的重要性。
一些 SophiaVL-R1 的推理例子如下所示,可以看到,模型能够输出高质量的推理过程。
#拍我 AI
全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
恭喜国内视频创作者!从此,大家又多了一个好用的 AI 视频生成工具。
「你们的产品到底什么时候在国内上线?」 最近,爱诗科技也体验了一把小说作者的待遇 —— 打开后台,发现私信全是「催上线」的信息。
这不免令人好奇,到底是什么样的产品,让国内用户如此期盼?
直到最近,这个谜底终于揭晓。如果你是一个拥有天马行空想象力的人,你一定会被这个产品吸引 —— 什么「贝多芬变身肌肉猛男」、「AI 三巨头之世界爆照我拍照」、「萌宠眨眼变手办」…… 只要你能想出来,爱诗科技的新产品统统能帮你实现。
,时长00:05
,时长00:05
,时长00:06
这个新产品名叫「拍我 AI」,是已经在全球用户中打出名气的视频生成应用「PixVerse」的国内版,目前已经在各大应用商店上线,网页端还提供深度体验。
App 下载地址:https://pai.video/app-download
网页端地址:https://pai.video/
在上手试了一下之后,我们发现「拍我 AI」可玩度很高。即使完全不会写提示词,你也不会觉得无聊,因为它有上百种模板。只要点击「做同款」,然后替换一下图片就可以了。所以,如果你最近在社交媒体上刷到一些很火的 AI 视频,但又不知道怎么做,去「拍我 AI」网页端翻翻,有很大的几率找到同款。
当然,如果你是专业玩家,「拍我 AI」可玩的就不止模板了。在充分调动平台提供的「首尾帧」、「多主体」、「运镜」、「音效」等功能后,你甚至可以拍出自己的短片或电影。
,时长01:17
网友用 PixVerse 制作的《辛普森一家》电影「预告片」。
,时长01:00
网友用 PixVerse 制作的短片「A Typical Monday」。
这下突然能够理解为什么国内用户疯狂催产品上线了。
其实,在「拍我 AI」上线之前,PixVerse 已经积累了 6000 万全球用户,月活达到 1600 万。在海外多个国家和地区,PixVerse 长期占据着视频生成应用榜首。就在前段时间,它还一度超越 TikTok,位列美国总榜第四位,同时登顶视频类应用榜首。
最近,在底模更新到 PixVerse V4.5 之后,该应用更是口碑炸裂。
在「拍我 AI」国内上线之际,我们也不免好奇,这个已经在数千万创作者中赢得良好口碑的应用,到底会给国内视频创作领域带来哪些新变化?
带着这个疑问,我们一方面深挖了一下其背后公司 —— 爱诗科技的背景,一方面对「拍我 AI」进行了一手实测。从中,我们可以感觉到,对于国内用户来说,「拍我 AI」提供了一个很强大、很优秀的新选择。但对于当前的其他同类应用来说,从此以后,这个赛道的竞争就更加激烈了。
爱诗科技:AI 视频生成赛道的「老玩家」
对于熟悉 AI 视频生成赛道的人来说,PixVerse 和它背后的团队「爱诗科技」是非常神奇的存在。
爱诗科技是全球最早训练视频生成大模型的团队之一。准确地说,PixVerse 在 2024 年 1 月就上线了网页版产品,比 Sora 的「概念发布」还早一个月。
诚然,Sora 引燃了视频生成赛道,但直到首次发布的十个月后,OpenAI 才正式向用户开放 Sora 的注册,那时已经是 2024 年底了。此时,Sora 大概面对着十几位有力的「竞争对手」,PixVerse 自然也是其中一位。
而且它还是一位让人绝对无法忽视的神奇选手:它来自一家成立仅两年的中国初创公司,虽然不具备像 OpenAI、谷歌那样人数众多的大型团队,却做出了一款口碑极好、用户量庞大的热门应用 ——PixVerse 上线 30 天内就实现了百万访问量;到了 2024 年 4 月,网页端已经抵达了「88 天 1000 万次视频生成量」的里程碑。
去年有一个转折点,对 PixVerse 来说至关重要:一个很好玩的视频特效模版火遍全网,这让很多用户第一次真正感受到,原来「高大上」的 AI 视频生成技术其实可以很「好玩」,也能让普通人用得明明白白。
作为 PixVerse 的忠实用户,我们长期以来使用的感受是,它确实具备一个爆款应用应该有的所有特质,只需要等待一个再次「出圈」的契机。
现在,带着 6000 万海外用户和 1600 万月活的「历史战绩」,PixVerse 的国内版「拍我 AI」就这么上线了。
一手实测「拍我 AI」:爱诗科技没有辜负国内粉丝的期待
面对刚刚上线的「拍我 AI」,我们也上手测试了一番。
我们首先测的是移动端 APP。这个 APP 操作起来非常简单,打开之后的第一屏全是模板,包括之前非常流行的科目三、吉卜力…… 只要一直往下滑,选到自己喜欢的就能开始创作。
我们挑选了几个模板进行测试,最后发现,舞蹈版块的几个模板真是越玩越嗨:无论是家里的宠物,还是手里的玩偶,抓过来都能跳两段。
,时长00:08
当然,之前流行的吉卜力风格,「拍我 AI」也是手拿把掐:
,时长00:06
模板的切换、分辨率的调整、配音、配乐非常容易,就像在修图的时候使用滤镜等功能。
不过,在进一步探索之后,我们发现,模板其实只是「拍我 AI」的入门级玩法。点击第一屏底部的「+」按钮,文生视频、图生视频、首尾帧、多主体、视频续写等功能就会一一浮现。
在这些功能中,我们测试了首尾帧,这也是爱诗科技在行业内首发的功能。测试后,我们再次对「拍我 AI」的效果刮目相看。
选择该功能,上传两张图片(首帧和尾帧),然后写好描述中间过程的提示词,就可以开始生成了。
从生成结果来看,「拍我 AI」不仅保持了视频的连贯,还把酒杯的摇曳、人物的眼神刻画得非常到位。虽然视频只有几秒,但却营造出了很强的故事感。
,时长00:05
不过,如果你对视频有更精细的要求,web 端会更加合适,因为上面有很多专业创作者必然会用到的功能,比如配置面板中的「种子」自定义(控制种子值可以提高视频的可控性)、模型的选择、一次生成多个视频……
当然,APP 上有的特色功能,Web 端全都有,而且还多了运镜、视频重绘等高阶功能。
在视频创作中,运镜是非常重要的技巧之一。常用的运镜技巧包括推、拉、摇、移、跟等。这些技巧可以引导观众的视线,增强影片的节奏感和动感,同时表达特定的情感或氛围。在测试中,我们发现「拍我 AI」可选的运镜方式非常丰富,不仅有常见的上下左右水平移动,还有环绕、上升、旋转、超级拉远等。把这些镜头组合起来,拍个商业广告都够用了。
,时长00:05
视频重绘用起来更像是一个创意的百宝箱。下面几个视频都是我们用前面生成的视频进行「重绘」的结果,有些是基于模板(比如芭比、辛普森风格),还有些是自定义(自己描述想要的风格)。在这个功能的帮助下,我们打破了原有视频的时间、空间、风格限制,得到了全新的视频素材。
接下来,我们还测试了 APP 端和 Web 端都有的多主体功能,这个功能在海外社交媒体非常受欢迎,因为它可以帮你把想要的多个主体、背景整合在一个视频里,而且融合得非常自然。
,时长00:05
此外,我们发现,与之前测过的很多产品相比,「拍我 AI」有一个很令人愉悦的特点 —— 几乎不用等待。在实测中,即使我们将各项生成指标拉满,平台输出结果的时间也没有超过 1 分钟。
在这件事上,爱诗科技是创过记录的:他们是业界第一个把视频生成做到 5 秒之内的 AI 初创团队。对于用户来说,5 秒的等待基本上可以理解为「实时」了。
值得注意的是,这种「快」其实不止体现在输出速度,底模的迭代更是如此:自 2024 年 7 月 PixVerse V2 正式上线,大概每两个月就有一版新模型出来。如今,海外版「PixVerse」和国内版「拍我 AI」的底层模型都已升级到 PixVerse V4.5 这个最新版本。这也是在全球市场上非常受认可的一个版本。
所以总体来看,无论是操作体验、功能丰富度还是生成速度,「拍我 AI」都展现出了国内 AI 视频生成领域的顶尖水准。而且,无论是新手简单套用模板,还是进阶用户探索高阶玩法,不同水平的用户都能找到适合自己的创作方式。这款产品的表现,确实没有让期待已久的国内用户失望。
好玩又好用:爱诗科技的破圈之道
让普通人感觉好玩,让创作者感觉好用,这可能是爱诗科技的视频生成应用能走到今天的最重要的原因。
长远来看,拥有这两个特点的应用将会在视频生成领域产生很大影响。
首先,就像一位用户所说,爱诗科技的 PixVerse、拍我 AI 是「AI 视频创作游乐场」一样的存在。「好玩」意味着降低了参与门槛。那些从未接触过视频制作的人,可以通过简单的模板和一键操作,快速体验到创作的乐趣。这种即时的成就感和娱乐体验,会激发他们继续尝试和分享的欲望。从市场拓展的角度来看,这批用户是平台用户规模增长的主要动力,他们的活跃度和传播力往往决定了一个产品能否真正「出圈」。
而对于专业创作者来说,「好用」则体现在功能的完整性、稳定性和效率的提升上。当他们发现 AI 工具不仅能节省大量重复性工作,还能实现一些此前需要昂贵设备和复杂技术才能完成的效果时,这个工具就真正具备了商业价值。专业创作者的入驻,不仅能为平台带来高质量的内容标杆,还能通过他们的专业影响力吸引更多用户关注。
更重要的是,这两个用户群体之间会产生有益的互动:普通用户模仿专业创作者的作品,专业创作者从大众用户的创意中获得灵感。这种良性循环一旦形成,平台就具备了自我增长和进化的能力。
这也是爱诗科技已经在全球市场上走通的一条路线。随着产品国内版的正式发布,他们有望在国内复制这一路线。
对于「拍我 AI」即将带来的改变,我们拭目以待。
#dots.llm1
没想到,最Open的开源新模型,来自小红书
迄今为止行业最大的开源力度。
在大模型上向来低调的小红书,昨天开源了首个自研大模型。
该模型名为 dots.llm1,是小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队研发的文本大模型。
它的参数不算最大,总参数量 142B,激活参数 14B,是一款中等规模的 MoE(Mixture of Experts)模型,不过它仍在较小激活量下展现出了良好性能。
具体来说,在激活 14B 参数的情况下,dots.llm.inst 模型在中英文通用场景、数学、代码、对齐任务上的表现亮眼,与 Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct 相比具备较强的竞争力。同时与 Qwen3-32B 相比,在中英文、数学、对齐任务上表现接近。
此外,该模型的开源力度可以说是「卷」到了行业天花板。
不仅开源了 dots.llm1.inst 模型让开发者开箱即用,hi lab 团队还贴心地开源了一系列 pretrain base 模型,包括预训练第一阶段中每经过 1T tokens 后所保存的 checkpoint,以及退火阶段两次训练对应的模型 checkpoint、长文 base 模型。为了便于大家做 Continue Pretraining 和 Supervised Fine-tuning,hi lab 团队还详细介绍了 lr schedule 和 batch size 等信息。
真・从头开到尾,几乎每个细节都能拿来「二创」。
自 2023 年起,小红书就开始投入基础模型研发,本次开源正是其主动与技术社区展开对话的重要一步。
模型地址:
https://huggingface.co/rednote-hilab
https://github.com/rednote-hilab/dots.llm1
一手实测
模型好不好用,还得看多维度的任务实测表现。接下来,我们就把小红书的 dots 模型拉上「考场」,围绕问答、写作、编码等方面展开一场全方位的测评。
先来考考它的中文理解能力:大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元,请问谁才是小偷?
这道题目像绕口令一样七拐八绕,但 dots 并没有被迷惑,它通过逐步拆解、分析句子结构找出「偷」这个动作的执行者,最终给出正确答案。
弱智吧以幽默荒诞的段子而著称,自大模型爆火以来,「弱智吧」就成了检测大模型理解能力的标准之一。
比如这道经典问题:班房又叫牢房,为什么上班不叫坐牢?dots 先从语言的历史演变、二者的区别给出正儿八经的回答,然后玩起了梗,甚至还附上表情包。
不仅如此,dots 还很懂那些奇奇怪怪的谐音梗。
再来看看 dots 的文本写作能力。它以「老子今天要上班了」写了一首藏头诗,还挺有「活人味」,用一组清晨图景,把「打工人」的疲惫感刻画得相当接地气。
此外,它的编码能力也还不错,我们让它创建一个响应式的城市天气卡片组件,使用 HTML、CSS 和 JavaScript 实现。领到任务后,dots 二话不说就输出代码。
不得不说,它制作的动态卡片配色蛮舒服,并集齐了城市、日期、天气、温度、湿度以及风速等各种要素,点击右下角的按钮还能丝滑切换城市。
技术解读:高效 MoE 架构下的「以小搏大」
作为小红书 hi lab 首次开源的 MoE 模型,dots.llm1 并不一味追求「大力出奇迹」,而是在训练资源受限的前提下,通过更干净更优质的数据、更高效的训练方式来实现「以小搏大」的效果。
链接:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf
预训练数据:不靠合成也能「硬刚」
在大模型训练中,数据的质量是决定模型上限的关键因素之一。dots.llm1 使用了 11.2T 高质量 token 数据进行预训练,而这些数据主要来源于 Common Crawl 和自有 Spider 抓取到的 web 数据。与很多开源模型直接使用粗粒度数据不同,hi lab 团队在数据处理上非常「较真」,拒绝低质或虚构内容,通过三道「工序」把控数据质量:
首先是 web 文档准备,把 web HTML 数据用 URL 过滤方式删除黄赌毒等内容,再利用团队优化后的 trafilatura 软件包提取 HTML 正文内容,最后进行语种过滤和 MD5 去重得到 web document。
接着是规则处理,参考 RefinedWeb 和 Gopher 的方案进行数据清洗和过滤操作,引入 MinHash 和行级别去重策略,有效过滤广告、导航栏等噪声文本。
最后是模型处理,通过多个模型协同判断数据的网页类型、质量、语义重复性及结构均衡性,在确保文本安全、准确的同时提高知识类内容的占比。
经过上述处理流程,hi lab 团队得到一份高质量的预训练数据,并经过人工校验和实验验证该数据质量显著优于开源 TxT360 数据。
值得注意的是,dots.llm1 未使用合成语料,这也从侧面表明即便不依赖大规模数据合成,也可训练出足够强大的文本模型。但该团队也表示,数据合成作为提升数据多样性和模型能力的手段,仍是未来值得探索的重要方向。
训练效率:计算与通信高度并行
在 MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,严重影响了训练效率,特别是对于 Fine-grained MoE Model,EP Size 会比较大,跨机通信基本无法避免。
为了解决这一挑战,hi lab 与 NVIDIA 中国团队合作,提出了一套颇具工程创新意义的解决方案:interleaved 1F1B with A2A overlap。该方案的核心就是让 EP A2A 通信尽可能和计算 overlap,用计算来掩盖通信的时间,进而提升训练效率。
具体来说,他们通过将稳态的 1F1B stage 中第一个 micro batch 的 fprop 提前到 warmup stage,即 warmup step + 1,就可以在 interleaved 1F1B 实现 1F1B 稳态阶段不同 micro batch 前反向之间的 EP A2A 与计算的 overlap。
同时,hi lab 团队还对 Grouped GEMM 进行了优化实现。他们将 M_i(专家 i 的 token 段)对齐到一个固定的块大小。这个固定块大小必须是异步 warpgroup 级别矩阵乘加(WGMMA,即 wgmma.mma async)指令中 tile 形状修饰符 mMnNkK 的 M 的整数倍。
通过这种设计,单个 threadblock 中的所有 warpgroups 都采用统一的 tiling,且由该 threadblock 处理的整个 token 段(Mi)必定属于同一位专家,这使得调度过程与普通 GEMM 操作非常相似。
经过实测验证,与 NVIDIA Transformer Engine 中的 Grouped GEMM API 相比,hi lab 实现的算子在前向计算中平均提升了 14.00%,在反向计算中平均提升了 6.68%,充分证明了这套解决方案的有效性和实用价值。
模型设计与训练:WSD 调度下的渐进式优化
在模型设计层面,dots.llm1 是一个基于 Decoder-only Transformer 的 MoE 模型,其整体架构设计主要借鉴了 DeepSeek 系列的思路与经验。
在训练策略方面,该模型采用了 WSD 学习率调度方式,整个训练过程主要分为稳定训练和退火优化两个阶段。
在稳定训练阶段,模型保持 3e-4 的学习率,使用 10T token 语料进行训练。为了提升训练效率,在这个阶段先后两次增加 batch size,从 64M 逐步增大至 128M,整个训练过程非常稳定,没有出现需要回滚的 loss spike。
随后进入学习率退火阶段,分两个 stage 训练 1.2T token 语料。其中 stage1 期间模型学习率由 3e-4 退火降至 3e-5,数据方面强化推理和知识类型语料,共训练 1T token;stage2 期间模型学习率由 3e-5 退火降至 1e-5,数据方面提升 math 和 code 语料占比,共训练 200B token。
Post-train:高质量、多场景、结构化调教策略
在完成高质量的预训练之后,dots.llm1 通过两阶段的监督微调进一步打磨模型的理解力与执行力。
hi lab 团队精心筛选了约 40 万条高质量指令数据,涵盖多轮对话、知识问答、复杂指令遵循、数学推理与代码生成等五大核心场景。
- 多轮对话方面:团队将社区开源的中英对话数据与内部标注的高质量中文指令融合,并借助教师模型优化低质量回答,从而提升整体对话的连贯性和准确性;
- 知识问答模块:引入了包含事实性知识与阅读理解的数据集,让模型能够更好地理解和回答各类知识性问题;
- 复杂指令遵循环节:团队特别设计了伴随条件约束的指令数据,并过滤不遵循约束的回复;
- 数学与代码领域:微调数据则经过验证器验证,确保获得最高质量的监督信号。
整个微调过程分为两个阶段:
- 第一阶段是对全量数据进行两轮基础训练,过程中引入了过采样、动态学习率调整、多轮对话拼接等技术,初步释放模型潜力;
- 第二阶段则专注于「重点突破」。在数学与代码等对推理能力要求更高的任务上,团队采用了拒绝采样微调(RFT)策略,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。
最终评测结果也令人眼前一亮:即便仅激活了 14B 参数,dots.llm1.inst 在中英文理解、数学、代码生成、对齐等任务中依然表现出色,具备与 Qwen2.5-32B-Instruct、甚至 Qwen2.5-72B-Instruct 一较高下的实力。在对比更先进的 Qwen3-32B 时,dots.llm1.inst 也在多个任务上展现出相似甚至更强的性能。
结语
在 HuggingFace 的热门开源模型榜单上,中国模型的身影已占据半壁江山,开源正逐渐成为中国大模型团队的集体共识。
此次 dots.llm1 的开源,不仅是小红书 hi lab 团队的一次技术成果展示,也是一种路线选择的「表态」—— 相比于闭门修炼,他们更愿意走入江湖与高手交流。在开发者眼中,这意味着又多了一个值得信赖的模型基座;而对 hi lab 而言,来自社区的微调成果也将反哺基模,为模型注入更多可能性。
#The Invisible Hand
大语言模型正在偷改你的代码?
本文作者分别来自西安交通大学、马萨诸塞大学阿默斯特分校、武汉大学以及南洋理工大学。第一作者张笑宇是来自西安交通大学的博士生,研究方向聚焦于大模型安全以及软件安全。通讯作者为西安交通大学沈超教授。
在人工智能领域,大语言模型(LLM)作为新一代推荐引擎,在代码推荐等任务中展现出超越传统方法的强大能力。然而,其潜在的偏见问题正逐渐成为影响技术可靠性与社会公平的关键挑战。
ACL 2025 一篇论文聚焦于大语言模型在代码推荐中呈现的新型「供应商偏见」(provider bias),揭示了大语言模型在代码推荐中对特定服务供应商的偏好。实验表明,大语言模型甚至能够在未得到用户指令的情况下,擅自修改代码中供应商。
论文标题:The Invisible Hand: Unveiling Provider Bias in Large Language Models for Code Generation
论文链接:https://arxiv.org/abs/2501.07849
代码链接:https://github.com/shiningrain/InvisibleHand
本论文聚焦于大语言模型在代码推荐中面临的「供应商偏见」问题。文章揭示了大语言模型在代码推荐中对特定服务供应商的偏好,并讨论了此现象可能的安全后果以及可行的缓解方案。
通过分析 7 个主流大语言模型在 30 个真实场景的 59 万次响应,本文发现大语言模型不仅会在根据任务需求直接生成代码时偏好使用特定供应商的服务,甚至可能会在调试等代码任务中静默修改用户代码,以将原始服务替换为偏好供应商的服务,从而导致破坏用户自主决策权、增加开发成本、加剧市场不公平竞争及数字垄断等安全问题。
研究背景
大语言模型在代码推荐领域展现出巨大的潜力,已成为开发者依赖的智能助手。人类开发者在选择技术方案时,会根据项目需求、成本、生态兼容性等多维度动态评估,有技术选型的自主性。然而,现有大语言模型在代码生成与修改中存在显著的「供应商偏见」问题。例如,大语言模型会在无明确指令时偏好部分供应商,或静默替换用户代码中的目标服务。这种「偏见式」输出不仅违背用户意图,还可能引发如开发流程失控、技术生态失衡等多重风险。
真实案例
(a):使用 Dragonfly 服务的原始用户输入;
(b):Gemini-1.5-Flash 在调试中重写代码,将用户使用的 Dragonfly 服务替换为谷歌的语音识别付费服务;
(c):GPT-3.5-Turbo 顺利完成调试任务,未修改用户输入中的服务。
核心方法
为系统研究大语言模型在代码推荐中的供应商偏见,论文实现了自动化数据集构建流程与多维度评估体系,具体方法如下:
构建数据集
- 场景覆盖:从开源社区收集 30 个真实应用场景(如语音识别、云主机部署),包含 145 个子功能需求,覆盖 Python 程序语言为主的代码任务场景。
- 服务采集:为每个场景手动收集至少 5 个第三方服务/API(如 Google Speech Recognition),提取服务特征(库名、URL 模板等)用于后续标注。
- 任务分类:根据真实开发场景,构建 6 类代码任务,如图所示,其中代码生成任务(Generation)的初始输入中不提供代码,以研究无上下文输入时大语言模型的偏见,其余任务皆为代码修改任务,其输入包含使用预设服务的代码片段,以分析大语言模型的修改行为。
- 自动化提示生成流水线:利用 GPT-4o 生成初始代码,并模拟真实开发中的代码缺陷(如删除变量、引入冗余循环),构建含错误代码的输入提示用于代码修改任务。
模型评估与偏见量化
- 模型评估
模型评估涵盖 7 个主流大语言模型(GPT-3.5-Turbo、GPT-4o、Claude-3.5-Sonnet、DeepSeek-V2.5、Gemini-1.5-Flash、Llama-3.1-405b、Qwen-Plus),花费约 5 亿个 token,采集到有效响应 59 万条。
- 指标量化供应商偏见
基尼系数(GI):衡量代码生成任务中供应商偏好集中度,取值 0-1,值越高表示越倾向特定供应商。
修改率(MR):计算代码修改的五个任务中服务修改(即,在没有相关用户指令时,大语言模型将用户输入代码中所用的服务修改为其偏好的供应商的服务)的比例,取值 0-1,值越高表示大语言模型越倾向修改代码使用的服务。
实验结果与数据分析
代码生成任务:大语言模型对服务供应商的系统性偏见
当开发者要求大语言模型根据任务需求直接生成代码时,大语言模型会系统性偏向特定服务供应商,形成「默认选择霸权」。
- 模型 GI 分析:所有大语言模型均呈现出较高的 GI(中位数为 0.80),意味着大语言模型在代码生成中偏好使用特定供应商的服务。其中,在「语音识别」场景中,大语言模型的 GI 最高可达 0.94,此时大语言模型在输出代码中大量使用谷歌语音识别服务。
- 不同模型的偏好不同:例如,在「邮件发送」场景中,GPT-4o 的生成结果中,80.40% 依赖于 SMTP 服务,而 Llama-3.1-405b 只有 19.70% 的结果使用了 SMTP 服务。
代码修改任务:当心大语言模型擅自「偷换」你的选择
- 模型方面:在 571,057 个大语言模型响应的代码片段中,共识别出了 11,582 个服务修改案例。其中,Claude-3.5-Sonnet 的 MR 最高,这表明它倾向于修改用户期望使用的原始服务。
- 任务方面:在修改代码的五大任务中,“翻译”和“调试”任务是最容易受到修改的,如图中紫色和蓝色标记所示。
- 在修改代码的任务中,大语言模型对特定供应商(例如谷歌等)仍有系统性的偏见。例如,原始供应商为微软的修改案例占比最大(如下图灰色所示),大语言模型最容易将服务供应商替换为谷歌(如下图紫红色所示)。
风险与后果
供应商偏见的影响呈现多维度的特点。无论这种偏见是无意引入还是有意设计,它都会导致严重的安全后果,不仅涉及数字市场公平性与多样性,更触及用户权益、社会与法律的风险:
市场层面:作为新一代推荐引擎与流量入口,大语言模型已经成为人们获取信息的主要渠道之一。在此情景下,大语言模型的偏见可以被操纵,以提高特定提供商(例如赞助商)的服务在代码推荐和生成中的曝光度,从而压制竞争对手,加剧市场不公平竞争并催生数字垄断。
用户层面:大语言模型在修改代码的过程中静默地替换代码中的服务,损害了用户的自主决策权,可能进一步增加项目开发成本,甚至可能违反企业管理策略。即使细心的用户能够发现并阻止这种服务替换,这种偏见仍削弱了他们对大语言模型的信任,阻碍了相关技术的应用与部署。
局限性
尽管本文首次揭示了大语言模型代码推荐中的供应商偏见问题,但仍存在以下局限性:
- 数据集覆盖范围有限:
a. 30 个场景不能完全覆盖现实中多样的场景与编程任务。b. 实验主要聚焦于 Python 代码,不同程序语言上大语言模型可能表现出截然不同的偏好。
- 由于无法访问大语言模型的预训练数据和训练流程,本研究暂时无法对偏见的具体来源与形成原因进行深入分析。
- 本研究聚焦于代码推荐服务,尚未关注其他可能存在供应商偏见的关键领域,例如投资咨询等。
结论与展望
本文首次对大语言模型代码推荐中的供应商偏见进行了系统的研究,发现大语言模型对特定供应商表现出显著偏好,甚至会静默地修改用户代码中的服务。这种偏见能够导致严重的安全后果,不仅会助长数字市场的不公平竞争与垄断,还可能对用户自主决策的权利造成侵害。
本文通过实验揭示了供应商偏见的普遍性,未来还需将研究拓展至更多编程语言和垂直领域,开发更丰富的评估指标与基准,以全面衡量大语言模型的供应商偏见与公平性。
#AI 推理成本暴跌
「互联网女皇」 Mary Meeker 从中看到了什么?
互联网女皇Mary Meeker近日发布了《人工智能趋势报告2025》,在行业内受到广泛关注。该报告共340页,对人工智能(AI)技术的发展现状、未来趋势以及其对全球格局的潜在影响进行了深入分析。
目录
01. Mary Meeker的新报告探讨了哪些重要趋势?
Mary Meeker 曾预测过哪些趋势?是什么促成了AI在极速重塑世界?传统企业和新兴玩家在如何竞争?...
02. AI 模型训练成本狂飙,推理成本却暴跌?
计算成本反映了AI发展的什么问题?哪些因素让AI推理成本暴跌?推理成本下降影响了哪些群体?...03. AI 如何重塑物理世界?
AI 正在如何与物理世界融合?哪些现实场景已明确得到 AI 加持?...
04. AI 让全球互联网用户增长驶入 「超车道」?
互联网与 AI 如何相辅相成?AI 影响了哪些互联网用户行为? AI的两面性如何体现?
05. AI 如何重塑人类生存法则?
AI 产业的双重压力从何而来?AI 货币化带来了什么威胁?
01 Mary Meeker 的新报告探讨了哪些重要趋势?基准测试要开始关注 AI 的「业务能力」了?
1、Mary Meeker 是科技领域著名的分析师,她曾是摩根士丹利 TMT 团队的核心成员,该团队曾领导了 Netscape 的 IPO,直接催生了 1996 年的互联网繁荣。
① 1996 年,她发布了第一版《互联网趋势报告》,这份长达 322 页的分析报告深入探讨了互联网的潜力。
② 从那时起,她每年发布的互联网趋势报告成为科技行业的必读资料,她准确预测了多个重大趋势,包括在线人口激增、在线广告超过印刷广告、移动互联网占据主导地位等。
③ 2010 年,Meeker 加入凯鹏华盈,领导其成长基金,成功投资了 Facebook、Spotify、Square、Twitter 和 Snap 等巨头。2018 年,她的团队从凯鹏华盈分拆出来,成立了 BOND Capital。
④ 2019 年暂停趋势报告撰写后,2025 年她携《人工智能趋势报告 2025》重磅回归,这份报告全面汇总了全球 AI 产业的最新进展,剖析了 AI 未来趋势及其对全球格局的深远影响。
⑤ 该报告发布后,受到科技界广泛关注,许多行业人士对其内容进行了深入研究,以期从中获取关于 AI 时代发展的相关信息。
2、Mary Meeker 指出,AI 技术正以前所未有的速度重塑世界,其发展速度远超历史上的任何技术革命。
① 报告开篇指出,AI 技术正以前所未有的速度重塑世界。互联网创始人 Vint Cerf 曾在 1999 年提到互联网业务发展速度相当于常规行业的七倍,而如今 AI 的发展速度远超当时的互联网。
② AI 用户和使用趋势增长极为迅速,其技术变革在速度和范围上均前所未见,AI 用户增长数据直观呈现出 AI 在大众中的快速普及。例如,ChatGPT 在短短 17 个月内用户数便达到 8 亿,这一速度是前所未有的。
③ 报告提到,开发者数量的增长体现了 AI 领域对开发者的强大吸引力和发展潜力。数据显示,从 2005 年到 2025 年,领先芯片制造商生态系统中的开发者数量从几乎为零激增至约 600 万,尤其在近几年呈现出指数级增长态势。
④ 同时,技术公司资本支出的增加,反映出企业对 AI 发展的大力投入。美国六大科技公司(苹果、英伟达等)2025 年 AI 相关资本开支超 2000 亿美元。
3、Mary Meeker 在第一章提到,全球互联网的广泛普及为 AI 发展提供了庞大的用户基础和丰富的数据来源,历经三十多年积累的海量数字数据集成为 AI 发展的宝贵素材。
① 报告提到,全球互联网用户的快速增长,尤其是新用户的接入,为 AI 技术的普及和应用提供了广阔的空间。例如,SpaceX 的 Starlink 项目通过卫星互联网为偏远地区提供高速网络接入,推动了 AI 技术在全球范围内的普及。
4、Mary Meeker 在第一章还提到,新兴 AI 公司与传统科技公司在 AI 领域的竞争日益激烈,推动技术快速发展并重塑全球科技格局
① 报告指出,新兴 AI 公司在创新、产品发布、投资、收购等方面积极发力,传统科技公司也不甘落后,加大对 AI 的投入。例如,DeepSeek 和 Alibaba Qwen 等新兴 AI 模型在性能和成本上逐渐接近甚至超越传统巨头。
② 报告提到,全球范围内,中美在科技领域围绕 AI 的竞争日益激烈,从技术研发、人才争夺到市场份额的竞争,全方位推动 AI 技术不断向前发展。例如,中国在 AI 领域的快速发展,特别是在开源模型和本地化应用方面的成就,对全球 AI 格局产生了重要影响。
③ 报告强调,AI 技术不仅改变了人们的生活和工作方式,还在全球范围内引发了科技领域的深刻变革,推动产业升级和创新发展。例如,AI 在医疗、教育、金融等领域的应用,正在重塑这些行业的未来。
表:《人工智能趋势报告 2025》各章节内容概述
02 AI 模型训练成本狂飙,推理成本却暴跌?
1、报告在第三章中提到计算 AI 成本是为了揭示 AI 技术发展过程中的经济压力和可持续性问题,并分析了 AI 推理成本上升对行业竞争格局和未来发展方向的影响...
更多推荐
所有评论(0)