自己的原文哦~           https://blog.51cto.com/whaosoft/14086408

#NTU联手0G Labs揭示中心化训练安全漏洞

新型后门攻击直指Scaffold联邦学习

通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。但尽管 Scaffold 实现了显著的性能提升,这种优越性是以增加安全漏洞为代价的。

本文中,NTU、0G Labs等机构提出了 BadSFL,这是首个针对 Scaffold 的后门攻击方法,它能够将原本良性的客户端转化为攻击的帮凶以放大攻击效果。

BadSFL 的核心思想是在不引人注意的情况下,篡改控制变元,从而巧妙地引导良性客户端的本地梯度更新朝着攻击者设定的「中毒」方向前进,有效地使它们在无意间成为协助者,显著增强了后门的持久性。

另外,BadSFL 利用一个经过生成对抗网络(GAN)增强的数据投毒策略,丰富了攻击者的数据集,在保持对正常样本和后门样本都具有高精度识别能力的同时,保持隐蔽性。

大量实验证明,BadSFL 在攻击持续性方面表现出色,即使在停止恶意模型注入之后,仍能维持超过 60 轮的攻击效果——比现有基准方法持续时间长达三倍。

该论文已经入选 ICCV 2025。

论文标题:Mind the Cost of Scaffold!Benign Clients May Even Become Accomplices of Backdoor Attack

论文链接:https://arxiv.org/abs/2411.16167

引言

联邦学习(Federated Learning,简称 FL)在保护客户端数据隐私的同时,实现了分布式模型训练。然而,FL 模型的有效性在很大程度上取决于训练数据在各客户端之间的分布情况。通常存在以下两种场景:1)IID 数据:训练数据在各客户端之间均匀分布;2)非 IID 数据:更符合现实的数据分布情况,即各客户端的数据特征存在显著差异。在 IID 场景下,已有工作 FedAvg 脱颖而出,它通过聚合来自客户端的模型参数,设定了服务器端模型更新的标准。然而,在非 IID 场景中,其性能会显著下降。由于数据异质性,不同客户端的更新方向存在偏移,最终导致模型收敛效果变差。

为应对这一挑战,Scaffold 作为一种稳健的联邦学习(FL)方法被提出,旨在通过基于控制变元(control variates)的校正机制来减缓客户端更新的偏移,从而提升在非 IID 场景下的模型收敛性。控制变元本质上是对客户端本地梯度与全局梯度之间差异的估计,它有助于将本地更新方向与全局优化目标对齐。Scaffold 能够减少由于数据异质性引起的更新方差,使其在客户端拥有多样化数据分布的场景中表现尤为出色。

然而,Scaffold 联邦学习(SFL)不仅改变了 FL 模型的收敛方式,也影响了其对抗恶意操控的鲁棒性。具体而言,联邦学习中的恶意客户端可以利用模型更新机制注入后门行为,将隐藏的异常行为植入全局模型中。尽管已有大量研究关注 FL 中的后门攻击,但大多数现有工作主要聚焦于 IID 场景,在这些场景中,攻击者对数据集分布具有完全认知,因此可以轻松构造中毒更新。相比之下,非 IID 数据分布引入了额外的限制,使得攻击者更难在不显著降低整体性能的前提下,将中毒模型与全局模型对齐。虽然近期已有研究开始探索非 IID 联邦学习中的后门攻击,但这些研究在很大程度上忽视了 SFL 引入的独特安全隐患。

因此,本论文旨在探讨的问题是:「SFL 的新机制(即用于校正更新偏移的控制变元)是否可能引入新的安全威胁,并在非 IID 场景中无意间为后门攻击提供便利?」

我们对上述问题的回答是肯定的。我们的新发现是:Scaffold 对控制变元的依赖引入了一种新的攻击面 —— 其原本用于通过将本地更新与全局目标对齐以稳定训练过程的校正机制,实际上可能在无意中放大了恶意更新的影响。更关键的是,这一机制允许攻击者直接影响控制变元本身,从而有效地将良性客户端「招募」为协助实施攻击的帮凶。

由于所有客户端在更新过程中都会使用控制变元来调整本地梯度,因此一旦控制变元被篡改,就可以在不易察觉的情况下引导这些诚实客户端的梯度朝着攻击者设定的「中毒方向」演化。这种方式极大地增强了后门攻击的传播范围,使得 Scaffold 比没有类似校正机制的标准 FL 方法(如 FedAvg)更容易受到复杂攻击的影响。

为了利用上述发现,我们提出了一种专门针对 Scaffold 联邦学习(SFL)的新型后门攻击方法 ——BadSFL,该方法能够在不显著破坏模型对正常样本推理性能的前提下,成功地将后门功能植入全局模型。

与以往的攻击方法不同,BadSFL 利用了 Scaffold 的校正机制,不仅增强了后门的隐蔽性,还提升了其持久性,从而揭示了 SFL 方法中的一个关键漏洞。BadSFL 的运作流程包括如下:

GAN 补全数据知识:由于攻击者只能部分掌握 FL 系统中的数据分布信息,他通过使用生成对抗网络(GAN)生成属于其他客户端的数据样本来补充自身数据集,从而模拟出对整体数据分布的全面认知。在此补充数据集上进行后门训练后,攻击者可以获得在后门任务和正常任务上都表现良好的后门模型。

隐蔽后门触发器设计:攻击者选择某个类别中的特征作为后门触发器,从而保持攻击的隐蔽性。

操控全局控制变元:攻击者利用全局控制变元作为参考,用于预测全局模型的收敛方向。这一优化策略显著增强了后门功能在全局模型中的持久性。

联邦学习中的非 IID 场景

在联邦学习(FL)中,非 IID 是指客户端之间的数据分布存在显著差异。在非 IID 场景下,这种本地数据分布的不一致会导致本地最优解与全局最优解之间存在偏差。这种偏差会引发本地模型更新的漂移现象,即本地模型倾向于朝着各自的本地最优解前进,而这些本地最优解可能与全局最优解相距甚远。因此,将这些本地模型进行平均时,得到的全局模型可能会偏离真实的全局最优解,尤其是在存在大量本地训练轮次的情况下。

如下图 1 所示,在 IID 场景下,全局最优解与本地最优解相对一致,而在非 IID 场景下,全局最优解可能与单个本地最优解相距较远,这一现象被称为客户端漂移(client-drift),从而导致 FL 训练过程中的收敛变慢且不稳定。

图片

为了解决上述挑战,学术界已经提出了多种联邦学习(FL)算法,其中 Scaffold 是最为实用的解决方案。它通过在服务器端和客户端同时使用控制变元(即方差缩减技术)来应对客户端漂移问题。这些控制变元能够估计全局模型与本地客户端模型的更新方向,并根据漂移对本地更新进行校正,从而减少本地最优解与全局最优解之间的偏差(见算法 1)。在本文中,我们主要聚焦于针对 SFL(Scaffold Federated Learning)的后门攻击设计。

图片

后门攻击在 SFL 中的挑战

在 SFL(Scaffold Federated Learning) 中实施后门攻击面临以下挑战:

知识有限。 在非 IID 场景中,攻击者对各客户端数据分布缺乏了解,这是主要挑战之一。与 IID 场景不同,在 IID 中对数据集有集中化的认知,有利于攻击者操控;而非 IID 场景涉及分散且多样化的数据分布。这会导致以下三个问题:

  1. 直接的后门策略可能会导致良性样本上的性能大幅下降,从而使全局模型被拒绝;
  2. 数据分布的差异性加剧了本地模型与全局模型之间的差距,使得恶意模型更容易被检测到;
  3. 将中毒模型与全局模型平均聚合会降低其在主要任务上的性能。
  • 控制变元。 在 SFL 中,控制变元(记为 c_i)用于纠正客户端漂移,使本地模型与全局模型对齐。如果攻击者严格遵守协议,在植入触发器的过程中使用 c_i 对恶意模型进行校正,攻击效果可能会减弱。相反,如果攻击者选择不当篡改 c_i 并将恶意的 c 上传至服务器,则可能导致全局模型被破坏。
  • 后门灾难性遗忘。 灾难性遗忘是指神经网络在学习新任务时忘记先前已学任务的现象。这会导致后门功能随着时间推移而失效。如果攻击者停止上传恶意更新,后门功能最终可能会被良性更新「抹去」。

BadSFL 算法详解

为克服上述挑战,我们提出了 BadSFL,其详细步骤见算法 2。BadSFL 主要包含以下 4 个步骤:

  • 步骤 1:初始化。攻击者首先从服务器下载全局模型 
  • 图片

  •  和控制变元 c,并启动攻击。随后,攻击者利用下载的全局模型 
  • 图片

  •  来更新本地模型 
  • 图片

  • 步骤 2:基于 GAN 的数据补充训练。攻击者在生成器 G 和判别器 D 上执行 GAN 训练。当生成器收敛时,意味着其具备生成逼真伪样本的能力,这些样本属于类别 C,但不来自 
  • 图片

  • (攻击者本地数据集),而是模拟来自其他客户端的数据集。然后,生成器 G 被用于生成一定数量的类别 C 样本,形成数据集 
  • 图片

  • 。该数据集 
  • 图片

  •  接着与攻击者的原始数据集 
  • 图片

  •  合并,生成新的数据集 
  • 图片

  • 步骤 3:后门样本选择与触发器注入。在数据集 
  • 图片

  •  上,攻击者选择带有特定特征的样本作为后门样本,并将其重新标注为目标类别 x,该目标类别与原始标签不同。攻击者将这些经过篡改的样本组织成单独的数据集 
  • 图片

  • ,并将其与 
  • 图片

  •  合并,最终得到用于后门训练的数据集 
  • 图片

  • 步骤 4:后门模型训练与优化。攻击者基于数据集 
  • 图片

  •  训练本地模型 
  • 图片

  • 。在训练过程中,攻击者按照公式 (3) 优化后门目标。模型收敛后,得到后门模型更新
  • 图片

  •  以及对应的控制变元
  • 图片

  • ,并可将其上传至服务器。

基于 GAN 的数据集补充

在非 IID 数据场景中,直接将后门样本注入数据集 

图片

 进行训练往往会导致模型出现更大的偏差,显著偏离全局最优解。

为缓解这一问题,攻击者可以使用 GAN 生成与其他客户端数据相似的合成样本。其方法是通过在本地非 IID 数据上训练生成器 G,以缩小数据集之间的差距。GAN 的架构主要由生成器 G 和判别器 D 组成。在本文场景中,生成器 G 由一系列「反卷积」层组成,它们逐步将随机噪声转换为样本;而判别器 D 的结构与全局模型高度相似,唯一区别在于输出层用于区分假样本和真实样本。攻击者在本地迭代训练生成器 G,并以判别器 D 作为约束,直至其收敛并能够生成逼真的伪样本,这些样本并不来自攻击者的原始数据。

与此同时,随着 SFL 过程的进行,全局模型逐渐收敛。在每一轮服务器 - 客户端通信中,攻击者都会利用从服务器下载的最新全局模型 

图片

 更新判别器 D,并对生成器 G 进行新一轮优化训练,以引导其生成更加真实、接近其他客户端数据的伪样本。最终,这些高质量的合成样本会被整合进攻击者原始的非 IID 数据集,从而有效地补充了额外的数据类别。

图片

攻击者在每一轮本地训练中,会利用从服务器下载的最新全局模型 

图片

 同步更新判别器 D,随后执行 GAN 训练以优化生成器 G 的性能。该过程的输出结果会被合并到攻击者的非 IID 数据集中,用于进一步的后门训练。由于生成的样本与其他客户端数据集的样本高度相似,攻击者训练得到的本地最优解能够比其他客户端的本地最优解更接近全局最优解。下图 3 展示了在有与无数据补充技术的情况下,聚合后的全局最优解之间的差异。

图片

触发器选择与注入

利用已准备好的数据集 

图片

(包含原始数据和合成数据),攻击者继续在模型中注入后门。BadSFL 使用以下三种技术来实现后门注入:

  1. 标签翻转(Label-flipping):将数据集 
  2. 图片

  3. 触发器模式(Pattern trigger):在样本中加入特定的触发模式进行投毒,例如在图像中添加一个小马赛克方块,以激活后门行为。攻击者将这些带触发器的投毒图像与目标标签一同注入 
  4. 图片

  5. ,从而建立触发模式与目标错误分类之间的关联。
  6. 基于特征的隐蔽后门(Feature-based backdoor):这种方法更为隐蔽,它通过选择某个类别中的独特特征作为后门触发器,而无需直接篡改图像,从而增加检测难度。例如,在 CIFAR-10 中,将「car」类中的所有绿色汽车设为后门触发器。在推理阶段,只有当输入图像中包含绿色汽车时,受损模型才会输出攻击者设定的目标标签。由于这种触发器是类内自然特征的变异,因此很难被检测到。

使用控制变元来进行后门训练

如前文所述,全局控制变元 c 在 SFL 中用于纠正客户端漂移。具体来说,校正值

图片

会将本地模型的参数调整到更接近全局模型的位置。在本地模型训练过程中,这一校正项能够有效地「拉动」发生漂移的本地模型,使其更接近全局模型,从而促进模型向全局最优解收敛。在服务器聚合阶段,全局控制变元 c 是通过对所有本地模型的漂移值进行平均计算得到的,这一平均值代表了全局模型的收敛方向。

从攻击者的角度来看,如果按照 SFL 规则让控制变元去校正中毒模型,会降低后门攻击的有效性。然而,攻击者仍然需要提交一个控制变元 

图片

 来报告后门模型的漂移情况。其关键思路是:训练一个比其他基于非 IID 数据训练的本地模型更接近全局模型的后门模型。由于全局控制变元 c 对参与的客户端是已知的,它可以作为全局模型收敛方向的参考,帮助中毒模型更好地对齐全局最优解。这种基于 c 的约束类似于「利用未来的全局模型进行优化」的思路。该约束可以被集成到损失函数中,以增强后门在全局模型中的有效性和持久性。

最初,攻击者执行后门训练,并按如下 公式 (1) 优化其后门目标:

图片

其中,L 表示后门任务的损失函数,

图片

 为攻击者模型的权重。

在 BadSFL 攻击中,我们对标准后门目标函数进行了修改,增加了一项约束,以确保攻击者发送到服务器的后门更新能够在后续更多轮训练中持续保留在全局模型的后门功能中。我们可以模拟一次聚合轮,并应用控制变元 c 来预测未来一轮的全局模型。修改后的目标函数为公式 (2):

图片

综合起来,我们将攻击目标形式化为以下公式 (3):

图片

其中,j 表示 

图片

 预期的未来训练轮数。通过将后门模型优化得更接近全局模型,攻击者同时优化控制变元 

图片

,使其与预期的漂移值对齐。这样可以确保攻击者的行为仍然符合 SFL 协议(算法 1)。

实验结果

本文在 MNIST、CIFAR-10 以及 CIFAR-100 三个数据集上对 BadSFL 的有效性进行了实验评估。实验比较了 4 个其它的已知后门攻击,包括Block-box Attack、Neurotoxin、Irreversible Backdoor Attach (IBA) 和 3DFed。下表 1 总结了细节的实验设置。

图片

从图 6a 到图 6f,我们展示了在 CIFAR-10 和 CIFAR-100 数据集上与基准方法的攻击对比。可以明显看出,BadSFL 在攻击有效性和持久性方面都优于基准攻击方法。

图片

具体来说,在攻击者仍参与训练过程、执行后门训练并向服务器上传恶意更新的前 10 轮中,BadSFL 在所有类型的后门攻击中都实现了超过 80% 的后门任务准确率。同时,BadSFL 保持主要任务的准确率在 60% 左右(见下图 5b)。此外,即使攻击者在第 40 轮退出训练过程,后续轮次中的良性客户端仍会继续上传正常更新,这可能会影响攻击者在之前攻击轮次中的中毒更新,从而逐渐抹去后门功能。

图片

尽管如此,BadSFL 仍能保证后门功能的持久性,在整个 100 轮 SFL 训练中后门任务准确率始终保持在 90% 以上,这比两种基准攻击的生命周期长 3 倍(基准攻击的后门任务准确率在第 60 轮后降至 50% 以下)。横向对比不同类型的后门触发器注入效果(图 6a、6b 和 6c),可以发现 基于特征的触发器表现最佳,得益于其隐蔽性,它不直接篡改图像,因此其更新与良性更新冲突的可能性较小。

图 6g 和图 6h 展示了在 MNIST 数据集上获得的实验结果。类似地,BadSFL 也优于其他基准攻击方法,在后门任务准确率和主要任务准确率上均超过 85%。当恶意更新在第 40 轮停止注入后,在标签翻转攻击中,两种基准攻击的后门任务准确率在 10 轮内灾难性地下降到 40% 以下,而 BadSFL 在后续轮次中能在全局模型中保持 长达 5 倍更持久的后门功能。在触发器模式攻击中,BadSFL 也在全局模型中注入了更高效的后门功能,其准确率比基准方法高出 10%。

总结

本文提出了 BadSFL,这是一种专为使用 Scaffold 聚合算法的非 IID 联邦学习环境设计的新型后门攻击。通过采用基于 GAN 的数据增强技术并利用 Scaffold 的控制变元,BadSFL 在攻击有效性、隐蔽性和持久性方面均优于现有方法。我们在多个基准数据集上的实验结果表明,该攻击具有显著的有效性,且后门功能的持续时间远超已有方法。未来,我们希望研究人员能够设计出更稳健的防御机制,包括使用在去中心化环境中的可验证训练方法,以保护联邦学习系统免受此类攻击的威胁。

#RRVF

上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取->结构化->推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。论文的共同通讯作者于智是浙江大学 EagleLab 副教授,曾任浙大 ACM 教练并执教获世界总冠军。功成身退之后,长期致力于用 AI 改善残障人群生活,在信息无障碍和人工智能领域有深厚造诣。

一个任务有多容易被 AI 解决?最终可能只取决于一个简单的问题:它的答案有多容易被验证?

这,就是验证非对称性(Asymmetry of Verification)—— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是:对很多任务而言,验证一个解的好坏,远比从头创造一个解要容易得多。

这一思想,正是近期从 OpenAI 跳槽至 Meta 的思维链(CoT)开山作者 Jason Wei 在其最新博客中提出的「验证者法则」(Verifier's Law)的基石。他断言:「所有可能被解决且易于验证的任务,都将被 AI 解决。」

为什么?因为一个任务如果具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性,就相当于为强化学习(RL)创造了一个完美的训练场。AI 可以在这个场中进行海量的、高效率的「猜测 - 检验」(guess-and-check),通过不断的迭代优化,最终逼近最优解。

而这一法则的最佳实践,已经悄然出现在了多模态领域。上海AILAB和浙江大学EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美诠释了如何利用「验证的非对称性」来攻克复杂的视觉推理难题。

  • 论文标题:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
  • 论文地址:https://arxiv.org/pdf/2507.20766

RRVF:Image2code 的「验证者法则」训练场

在传统 AI 训练中,我们依赖昂贵的「图像 - 文本」配对数据来教模型进行视觉推理。这不仅成本高昂,而且很多时候限制了 AI 的创造力,例如使用特定的 code 来训练还原 image。

图片

图 1: RRVF vs 通用训练方法,只需输入图片,利用推理、渲染、反馈进行强化学习

RRVF 框架则另辟蹊径,它没有去教模型「怎么做」,而是构建了一个让模型可以自我验证的环境。RRVF 的全称是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 视觉反馈),这三个词精准地概括了其核心工作流。它构建了一个端到端优化的闭环系统,让模型在「自我纠正」中学习。

图片

图2: RRVF框架图

第一步:迭代式视觉推理 (Iterative Visual Reasoning)

  • 面对一张目标图像(如数据图表),它会进行迭代式多轮思考。在每一轮,模型都会在 < think > 中先写下自己的思考过程,然后调用外部工具进行渲染和获取反馈,在后续轮次中根据反馈修正自己的代码。

图片

图 3: 迭代视觉推理算法

第二步:视觉反馈 (Visual Feedback)

  • 外部工具(如 Matplotlib 或 Playwright 浏览器)执行代码后,会渲染生成图片。此时,一个更强大的「视觉裁判」模型(论文中使用了 72B 的 Qwen2.5-VL)会介入,对比渲染图和原图,并生成定性的、结构化的自然语言反馈,例如:「图表类型正确,但颜色不匹配」、「网页布局基本正确,但缺少了一个按钮」。这些反馈会作为新的输入,指导模型进行下一轮的代码修正。

第三步:视觉裁判 (Visual Judge) & 混合奖励

  • 在整个迭代过程结束后,模型会输出最终的代码。此时,「视觉裁判」会再次出场,但这次它扮演的是「法官」角色,给出一个定量的视觉相似度分数 R_vision。
  • 但仅仅有视觉分是不够的。为了让模型学得更好,研究者设计了混合奖励函数 (Hybrid Reward Design):
  • 视觉相似度奖励 (R_vision):核心奖励,分数越高奖励越大。
  • 格式正确性奖励 (R_format):代码能否跑通?思考和工具调用的格式对不对?如果出错,直接给予惩罚。
  • 工具使用奖励 (R_tool):为了鼓励模型探索和使用反馈循环,每次成功的工具调用都会获得少量奖励,直到模型表现得足够好(视觉分超过 0.95)或达到最大次数。

这三个奖励通过加权组合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),构成最终的驱动力。

最后一步:GRPO 算法优化

  • 有了精确的奖励信号,如何高效地更新模型?RRVF 采用了 GRPO(Group Relative Policy Optimization)算法。相比传统的 PPO,GRPO 更高效,它不需要一个独立的价值函数,而是通过对一组(论文中是 8 个)候选答案进行比较和打分,直接优化策略。

这个设计,完美地将一个复杂的「代码生成」任务,转化成了一个极易被验证(视觉相似度)和优化(混合奖励 + GRPO)的工程问题。

图片

图 4:迭代推理的 case,模型一步步学会如何准确重建一张饼图

实验结果:验证的力量,让 7B 模型超越 72B 老师

RRVF 的实验结果,有力地证明了「验证者法则」的力量。模型基于 Qwen2.5-VL-7B 进行训练,并在图表生成(ChartMimic, Plot2Code)和网页生成(WebSight)三个数据集上进行了全面评测。

图片

图片

图片

1. 性能碾压:SFT 学的是「模仿」,RRVF 学的是「理解」

在 ChartMimic 上,传统的监督微调(SFT)虽然有标准代码答案,但执行率只有 69.00%。而 RRVF 在没有任何代码答案的情况下,代码执行率达到了 97.83%,在其他各项指标上均有明显提升。这证明了 RRVF 真正理解了图像的结构,而非死记硬背。

2. 「学生」超越「老师」:自学习效应的惊人体现

出乎意料的是,通过 RRVF 训练的 7B 模型,最终的综合得分(64.36)不仅远超其基础模型(38.17),甚至超越了在训练中为它提供反馈和评分的、更强大的 72B 模型(47.30)。这证明 RRVF 不是简单的知识蒸馏,而是让模型在自我探索中发现了比「老师」更优的策略,实现了能力的「进化」。

3. 泛化能力:真学霸从不畏惧新考卷

为了考验模型是否真的学到了通用能力,研究者在未训练的 Plot2Code 数据集上进行了零样本测试。结果显示,SFT 模型性能急剧下降(例如执行率从 69% 暴跌至 49%),暴露出其「偏科」和「过拟合」的本质。

相比之下,RRVF 模型的执行率几乎没有衰减(例如执行率从 97.83% 稳定在 96.21%)。这强有力地证明,通过视觉反馈学习到的,是可迁移的、底层的视觉到代码的生成逻辑。

这项研究是「验证者法则」的一次响亮宣告。它告诉我们,未来 AI 发展的瓶颈,可能不在于模型本身有多大,而在于我们能否为 AI 想解决的任务,设计出足够简单、高效的「验证环境」。

一旦我们学会了如何将复杂问题转化为易于验证的问题,那么正如 Jason Wei 所预言的,一个智能的「锯齿状前沿」将会出现:在所有可被清晰验证的领域,AI 将展现出超乎想象的强大能力。

#xx智能必须回答的三个「真问题」

腾讯张正友

7 月 27 日,腾讯发布了xx智能开放平台 Tairos,以模块化的方式向行业提供大模型、开发工具和数据服务,试图为xx智能的研发和应用提供一套通用的支撑体系。

在 Tairos 问世之前,腾讯 Robotics X 实验室已在xx领域探索七年多。从多模态四足机器人 Max 到轮腿机器人 Ollie,从灵巧手 TRX-Hand 到人居环境机器人原型小五,这些自研项目不仅是技术展示,更是其探索感知、规划、控制、硬件设计等全栈机器人技术的载体。

如今,将七年积累沉淀为一个开放平台,这一举动本身便值得深思。在xx智能的技术路线尚无定论,产业模式快速发展的背景下,腾讯的平台化路径,既是对行业现阶段挑战的回应,也预示了其对未来生态的布局。

发布会后,腾讯首席科学家、Robotics X 实验室主任、福田实验室主任张正友博士接受了xx的专访,深入剖析了这一战略选择背后的三个核心问题:架构、原理与定力。

端到端 vs 分层:

为什么说分层架构是当下更务实的路径

xx:当前xx智能技术路径尚无定论,业界对于「端到端」与「分层架构」的路线选择争议颇多。您主张分层架构,能否进一步阐述层与层之间的功能边界如何划分,这些边界是固定不变的,还是会根据任务的复杂度和紧急程度进行动态调整?

更重要的,「小脑」在物理交互中获得宝贵经验(比如一次失败),这个知识是如何反馈、反哺给「大脑」,从而实现整个架构的自我学习与进化?

张正友:这是一个非常深刻且直击要害的问题,它触及了当前xx智能领域最核心的哲学思辨与工程实践的交叉点。要回答这个问题,我们必须先理解理想与现实之间的差距。

首先,我们来谈谈为什么选择分层,这本质上是一个效率与现实的权衡。

在理想状态下,一个拥有无穷多高质量数据的端到端模型,或许是通往通用人工智能的终极路径。理论上,如果分层架构确实是最高效的组织形式,那么一个足够强大的端到端模型在海量数据的训练下,应该会自发地、内生地演化出类似分层的结构。这就好比一个全连接的神经网络,如果某些连接是冗余的,在充分训练后,它们的权重会自然趋近于零,从而形成事实上的稀疏连接和功能分区,也就是我们所说的「层」。

这个逻辑同样适用于混合专家模型(MoE)。在理想状态下,一个巨大的、全连接的模型,为了追求低能耗和高效率,最终也应该会演化出「专家系统」,也即在处理特定任务时,只有部分网络被激活。

但现实是,我们永远没有理想状态下的无穷数据。用有限的数据去训练一个参数量动辄万亿且全连接的模型,其难度和成本是天文数字。这也是为什么现在主流的大语言模型会采用 MoE 架构。因此,我们选择分层,本质上是将人类对智能结构的先验知识主动注入到模型架构中。就像我们知道人脑有左右脑分工,有不同脑区负责不同功能一样,我们预先设定感知、规划、行动这样的分层,是一种高效的引导,它能显著降低模型学习的难度,减少对数据的依赖,提升整体训练效率。

其次,关于你问到的边界划分与知识反馈闭环。

我们提出的 SLAP³ 架构,包含多模态感知模型(右脑)、规划大模型(左脑)以及感知行动联合大模型(小脑),其边界并非静态的,在处理不同任务时,各层之间的协作模式和信息流权重是动态变化的。

  • 感知行动联合大模型就像系统1: 负责快速、直觉式的反应。人类 95% 以上的日常行为,比如走路、躲避障碍、抓握物体,都是由这个系统自动完成的。例如,当你手中杯子打滑的瞬间,你会下意识地立刻抓紧它。这个反应速度极快,大约在毫秒级别,它形成了一个极短的感知-行动闭环,根本来不及、也不需要上报到大脑去进行复杂的思考和决策。如果凡事都要依赖高级中枢,那反应速度就太慢了。
  • 感知模型和规划大模型就像系统2: 负责处理更复杂的、需要深思熟虑的任务,比如理解「这个杯子是陶瓷的,易碎」,或者规划「如何端着这杯水穿过拥挤的人群而不洒出来」。这是一种更宏观、更慢的思考过程。我们之所以将感知(类似我们的右脑)和规划(类似我们的左脑)暂时分开,是因为在目前的技术和数据条件下,要将对世界的物理理解(感知)和复杂的任务规划完全融合在一个原生的多模态模型中,依然非常困难。但最终,左右脑之间的界限一定会变得模糊,信息交互的带宽也会越来越高。

例如,一个需要快速反应的避障任务,可能会绕过「左脑」,形成「右脑」到「小脑」的快速通路,而在一个需要精密操作的长期任务中,「左脑」的规划和拆解则会占据主导地位。

图片

腾讯 Robotics X 机器人实验室在 2025 WAIC 发布的 SLAP³ 体系,基于张正友博士 2018 年提出的 SLAP(Sense 感知、Learning 学习、Action 行动、Planning 规划)框架,包含 3 个紧密结合的大模型,不同功能的大模型可以相对独立地发展和更新,同时又能高效地协同工作、互相增强。

底层「小脑」的感知行动联合大模型,其内部在很大程度上是端到端训练的。当它在执行任务中遇到意外情况,比如杯子滑落摔碎了这个具体的失败经验,会被捕捉下来,我们会将这些代表着意外或新知识的特殊交互数据,编码成一种类似于Embedding 的形式,并将其存入一个共享的「记忆库」(Memory)。

这个记忆库起到了桥梁作用:对下,它可以直接被「小脑」在未来的快速反应中调用,相当于形成肌肉记忆;对上,它可以上传给「右脑」,当上层模型读取到这条「杯子滑落」的记忆后,它就会修正自己对这个物体的认知模型,比如更新它的属性描述,比如「该类表面光滑的物体,在特定角度下有滑落风险」。通过这种机制,底层的物理交互经验,就有效地反哺了上层的模型,实现了闭环。

更重要的是,这个架构本身是需要不断迭代的。我们今天注入的先验知识,可能在明天就会被证明是次优的。因此,真正的反馈闭环,不仅仅是行动结果对规划的修正,更是整个系统对架构本身的修正。就像 Transformer 架构从最初的翻译模型,演化到成为今天大模型的核心组件,其内部结构也经历了巨大的变化。xx智能的架构也必将经历类似甚至更剧烈的演化。

最后,我想强调一点,也是当前领域内一个巨大的挑战:我们应该用什么「语言」来构建这个反馈闭环?

目前,许多多模态大模型本质上是以语言为中心的。先训练一个强大的语言模型基座,然后将图像、视频、语音等其他模态的信息对齐到语言的语义空间。这是一个工程上的捷径,但可能不是通往真正xx智能的正确道路。

我们必须认识到,动物没有复杂的语言,却能在三维物理世界中完美地生存和互动。这证明了,对物理世界的原生理解,比语言符号更根本。如果我们的反馈闭环过度依赖语言作为中间表示,就必然会在转换过程中丢失大量关键的物理世界信息。

因此,理想的反馈闭环,必须建立在「原生多模态」的基础上。这意味着模型需要直接从像素、声音、力反馈等原始信号中学习,而不总是要转换成文字。这又回到了理想与现实的困境——原生多模态需要海量且多样化的数据,目前只有极少数公司有能力真正朝这个方向探索。就像自动驾驶领域,人人都说端到端,但真正有数据底气去做的可能只有特斯拉。

综上所述,我们选择分层架构,是一种基于现实考量的务实策略。但这只是一个起点,目标是驱动整个架构向着更高效、更原生的多模态智能形态不断进化。

xx:既然您已经意识到理想的终极形态或许是一个用海量数据端到端训练出的原生多模态模型,为什么不一开始就全力朝这个方向前进(比如搭建为此所需要的数据基础设施),而要「绕路」走分层呢?初期人为划定的分层是否有可能阻碍模型后期向着更高智能演进?

张正友:我认为端到端与分层这两条路并非相互排斥,而是殊途同归。我们今天选择分层架构,恰恰是为了最终能抵达那个理想的、由数据驱动的端到端未来。

我用一个类比来说明这个问题。马斯克的宏大愿景是实现人类的火星移民,这是一个极其遥远且昂贵的目标。他并没有坐等万亿资金从天而降,而是通过一系列务实的、可商业化的步骤来逐步接近这个目标:先是研发可回收火箭来大幅降低发射成本,然后通过星链(Starlink)计划提供卫星互联网服务来产生持续的商业回报,等等。这些商业上的成功,都在为他最终的火星计划输送资金、积累技术。这与我们做xx智能的逻辑是一致的。

要达到我们的理想——拥有无穷数据、通过端到端训练出的通用xx智能模型,我们面临许多现实的约束:理想中那海量的数据从何而来?由谁去收集?成本有多高?更重要的是,在模型架构本身尚未完全探索清楚的时候,大规模收集有效数据可能是纸上谈兵。

因此,我们选择分层架构,是一个在当前数据和技术条件下,能够实际运行、解决问题、并部署到真实场景中的方案。它能让我们先动起来。最关键的是,这个务实的路径本身就是一个数据收集和模型迭代的引擎。通过在实际应用中部署分层架构,我们才能高效地收集到最有价值的交互数据,然后用这些数据去迭代我们的模型,无论是上层的规划大模型、感知模型,还是底层的感知行动联合大模型。这是一个螺旋式上升的过程,持续地推动我们向最终的目标前进。

为什么说「身脑融合」

是xx智能的第一性原理

xx:在您看来,xx智能领域「第一性原理」问题是什么?

张正友:我认为,xx智能的第一性原理,就是探究「身体」与「大脑」如何实现真正有机的、无缝的融合。它绝不是简单地拿一个现成的 AI 大模型,做一些适配,然后「安装」到机器人上就能解决的。

我经常举两个例子来说明什么不是真正的xx智能:

  1. 如果一个机器人的头掉了,它依然在盲目地行走,那它肯定不是xx智能。一个真正的xx智能体,应该能立刻意识到「我的视觉传感器失效了,我看不见了,我必须停下来」。
  2. 如果一个机器人的手臂断了,它却浑然不觉,还在徒劳地执行「伸手开门」的预设程序,那这也不是xx智能。这说明它的行为依然是基于预先编程的僵化逻辑,而不是对自己身体状态的真实感知。

真正的xx智能,必须对自己身体的形态和状态、对外部环境的物理规律,以及对当前任务的目标,都有深刻的、统一的理解。它的核心任务,就是将一个抽象的目标,转化为一个物理世界中可以一步步实现的、具体的行为序列。

以世界顶尖跳水运动员为例,在学习初期,她的每一次尝试都离不开教练的指导和自身的刻意思考——这正是「系统2」主导的过程,充满了反复试错和有意识的调整。通过成千上万次的练习,这些复杂的动作序列最终被内化为肌肉记忆,在比赛中能够以「系统1」的方式,快速、直觉地执行出来,达到了水花近乎消失的境界。

然而,一个关键的环节是,即便技能已经纯熟,在跳水前依然存在一个「系统2」的规划阶段。当她站在跳板上进行心理预演时,她正在大脑中完整地「播放」一遍即将要做的动作流程。这个短暂而高度集中的心理模拟,就是上层的规划。一旦这个规划完成并启动,接下来的执行过程就完全交由下层的、自动化的「系统1」来接管,从而实现精准而流畅的动作。

xx:您提到了心理预演的规划,这种在大脑中「播放」动作画面的过程,与视频生成模型在原理上似乎相通。这是否意味着,xx智能的「动作规划」,其本质可能就是一种「视频生成」?这两条技术路径最终会统一到一个大的生成式框架下吗?

张正友:虽然将动作规划类比为生成模型很贴切,但我认为,两者之间存在着本质的区别。将它们混为一谈,可能会忽略xx智能最核心的特质。

首先,两者目标不同。在物理世界中生存,理解是每个智能体的必备基础能力,就像我们每个人都需要看懂世界才能生活。但生成,尤其像导演一样创作出一部精美的影片,是一种高度专业的、非必需的技能——我们不能要求每个智能体都成为一个电影导演。其次,也是最关键的一点,两者生成的内容不同:动作规划是稀疏的、第一人称的,而视频生成是稠密的、第三人称的。

让我们再次回到跳水运动员的例子。当她在跳板上进行心理预演时,她脑海中关注的焦点是自己的身体姿态、起跳的时机、空中翻转的角度、入水的角度。她绝不会去费心「生成」观众席上每个人的脸,或者灯光的精确颜色。看台上的人是五根手指还是六根手指,对她的动作规划毫无影响。

她生成的「视频」是与自身运动能力、身体状态完全绑定的,这是一个关于「我」该如何运动的内在模拟。而通用的视频生成模型,往往是第三人称的、全局的,它追求的是整个画面在物理和视觉上的合理性与连贯性,关心的是画面中的每一个像素。

这就引出了对「生成即理解」这一观点的进一步思考。我同意其基本逻辑,即无法准确生成就意味着不够理解。但关键在于,我们要生成什么,以及这种生成证明了哪种理解?

一个模型能生成一段赏心悦目的视频,证明了它对视觉规律和物理常识的理解。但一个xx智能体能成功「规划」并完成一次复杂的抓取,它所「生成」的是一个高度抽象、与自身能力紧密相关的动作序列。这证明了它对自己身体、对目标物体以及对任务逻辑的深刻理解,这是一种完全不同维度、也更为核心的xx理解。

因此,我认为xx智能的动作规划,并非简单的视频生成。它是一种稀疏的、以自我为中心的、服务于特定任务的、高度抽象的生成过程。未来的研究方向,应该是探索如何构建专为此类任务深度优化的模型,而不是简单地套用追求稠密与真实的通用视频生成技术。

喧嚣赛道上的创新定力:

为何要对商业化说「不」

xx:您说过,要有不受制于短视商业逻辑的创新定力,才能实现领跑。当下xx智能赛道呈现出一种爆发式的火热,您是否观察到一些潜在的陷阱或短视行为?相对应的,您所强调的创新定力又该如何体现?

张正友:首先,大量优秀的人才和资本涌入这个领域,本身是一件好事。在技术路径尚未完全明朗的今天,有更多聪明的头脑从不同角度去尝试和探索,对整个行业的发展至关重要。

我们也要客观看待不同参与者的角色。例如,许多初创团队选择在一些确定性高、现有技术能够落地的场景进行商业化,这并非短视,而是一种务实的生存策略。我们不能苛求每一家公司都以实现 AGI 为终极目标,并最终成为像苹果、谷歌那样的巨头。生态的繁荣,需要各种角色的贡献。

真正的「陷阱」,或者说挑战,在于如何处理短期利益与长远目标之间的关系,也就是我所说的定力。我认为,定力的本质,在于不忘初心。

在科研和创业的道路上,我们总会取得一些阶段性的成果,比如研发出一个功能亮眼的研究原型。这时,巨大的诱惑就会出现——是否要立刻将其产品化、商业化?以我负责的腾讯 Robotics X 机器人实验室为例,在过去 7 年的发展中,我们产出了许多具备商业化潜力的原型。但我们选择不这样做。因为我们深知,一旦投入商业化,团队的大量精力就会被牵扯到繁琐的工程细节、供应链和市场运营中,这必然会让我们偏离探索更宏大、更根本的科学问题的初心。

这就是一种关键的取舍:你是为了眼前可观的商业回报,还是为了更远大的技术愿景?

因此,定力在这里就体现为一种清醒的自我认知和坚定的内心。它意味着你必须明确自己最终想要达成的目标,并有勇气为了这个长远目标,放弃那些看似唾手可得的短期利益。这对于那些立志在 AGI 领域做出根本性贡献的团队而言,至关重要。

#X-Omini

联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。

近日,腾讯混元团队的最新研究成果 X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量,这一模型能生成具有较高美学品质的图像,同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源:

  • 论文链接:https://arxiv.org/pdf/2507.22058
  • GitHub链接:https://github.com/X-Omni-Team/X-Omni
  • 项目主页:https://x-omni-team.github.io
  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982
  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

图片

图 1 对比主流闭源和开源模型的文字渲染效果

强化学习大幅提升

图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低,表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后,生成图像的审美质量逐渐提高,遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示,经过 200 步强化学习,X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力,以及准确渲染中英文长文本的能力。

图片

图 2 经过 200 步强化学习,图像生成质量和指令跟随能力逐步提高

方法

整体架构

如图 3 所示,该框架是一个基于离散 token 的自回归模型,其中 tokenizer 采用 SigLIP2-VQ 方法构建,在离散 token 上运行一个扩散解码器生成最终的图像。这一设计使得图像理解和生成统一在离散自回归框架中,从而实现优雅的联合图像理解与生成。

图片

图3 X-Omni 整体网络架构

GRPO 强化学习方法

进行联合图像理解和生成的预训练和监督微调后,本文继续采用强化学习方法来提升图像生成能力。强化学习过程的整体流程如图 2 (a) 所示,由于采用离散自回归的方法,可以应用语言模型中较为成熟的 GRPO 方法来进行强化学习:

图片

奖励系统

我们构建了一个综合性的奖励模型系统,其包含多个专门的模型,从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

  • 人类偏好分数:采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力,能够可靠地预测人类对生成图像的偏好排序。
  • Unified Reward 分数:引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数,为强化学习提供整体反馈。
  • 文本 - 图像语义对齐分数:为确保输入提示和生成图像间的语义一致性,我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力,我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最大限度地减少语义幻觉。
  • OCR 准确性分数:文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示,我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析,计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导,使我们的模型能够可靠地生成清晰准确的文本。

实验结果

文本渲染能力评估:

图片

表 1 在 OneIG-Bench 和 LongText-Bench 上与现有模型的比较

指令跟随能力评估:

图片

表2 在 DPG-Bench 上与现有模型的比较

图片

表 3 在 GenEval 上与现有模型的比较

有意思的发现

不再需要分类器无关引导(CFG):传统 AR 图像模型严重依赖 CFG 来提升生成质量,这不仅增加了推理开销,也反映了模型自身生成分布的偏差。X-Omni 在推理时,其自回归部分无需 CFG 即可生成高质量图像,这力证了其视觉与语言生成机制的高度统一与内在一致性。

图片

图 4 主流 AR 模型对 CFG 的依赖比较

RL 在图像生成中的独特优势:研究表明,在图像生成领域,强化学习的优化效果显著超越了监督微调(SFT)配合「N 选 1(Best-of-N)」的采样策略。这揭示了 RL 在处理高维、空间依赖复杂的图像数据时,能够提供更全面、更高效的优化信号。

更多例子

图片

图片

图 5 更多生成图像可视化举例

一个更统一、更强大、更优雅的全模态未来,正由离散自回归图像生成方法的复兴开启。

#机器人自主探索未知复杂空间?

GLEAM破解主动探索建图的泛化难题

文一作为陈骁,香港中文大学 MMLab - 上海人工智能实验室xx智能中心联培博士生,研究方向是三维计算机视觉和xx智能,导师为薛天帆教授。个人主页:xiao-chen.tech/。

研究背景

当人类走入陌生房间时,会通过移动和观察来掌握室内结构。想象机器人被扔进一个陌生场景:有的房间堆满障碍,有的走廊九曲十八弯,它能像人类一样主动探索未知空间吗?

尽管计算机视觉已赋予机器人强大的被动技能,比如按预设拍摄轨迹实现同步定位建图(SLAM),可一旦剥离所有提示,机器人却可能沦为 “路痴”——

“门在哪?”“怎么绕过障碍物?”

“哪片区域还没有探索过?”

“目标最可能出现在哪片区域?”

“主动探索” 这一智能基石,何以成为技术盲区?

经典方案往往依赖人工预设的轨迹、视角与指令,而现有探索策略在陌生复杂场景中频频失效:机器人既可能在废墟救援时因全局规划缺失而卡死墙角,又容易在障碍密集的客厅中反复碰撞进退维谷。当机器人在此类复杂环境下运转时,感知 - 决策 - 行动闭环如何挣脱被动依赖桎梏? 这正是下一代机器人跨越 “智能鸿沟” 的核心挑战。

如何让机器人在完全未知的复杂房间里自主探索?

,时长01:24

针对移动机器人在复杂未知环境中 “探索 - 建图” 的泛化难题,香港中文大学与上海人工智能实验室联合提出系统性解决方案:研究者们搭建了全球规模最大的 “探索 - 建图” 基准 GLEAM-Bench—— 该数据集涵盖上千个室内场景,并在此基础上设计了通用可泛化的 “探索 - 建图” 策略GLEAM。该策略使机器人在完全陌生的复杂室内环境中首次实现了高效安全的探索和精准建图,实现零样本适配未知复杂空间,无需微调即达66.5% 平均场景覆盖率。得益于大规模训练架构,GLEAM 较现有技术提升 9.49%。

论文标题:GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes

项目主页: https://xiao-chen.tech/gleam

代码:https://github.com/zjwzcx/GLEAM

论文:https://arxiv.org/abs/2505.20294

方法效果

基线方法往往只能在空旷的单一场景内探索,一旦面对家具等障碍物密集的多房间布局,难以保证跨房间探索的安全性和高效性。

相比之下,GLEAM 在来自三个室内场景数据集的未知场景上展现了优越的泛化能力。更为重要的是,GLEAM 首次体现了无需在新数据集上微调模型的零样本泛化能力 —— 它能够直接适配到全新的真实场景数据集(如 Matterport3D),而之前的方法通常局限于单一数据集或需要针对特定场景进行参数调整。

数据和基准

团队构建了首个涵盖千级(1152个)复杂三维室内场景的训练评测体系:GLEAM-Bench 基准。完整的三维场景数据文件、预处理脚本和仿真相关的 API 均已开源。

GLEAM-Bench 涵盖多种数据来源,包括

  • 高质量虚拟场景(ProcTHOR-10K、HSSD)
  • 真实扫描数据集(Gibson、Matterport3D)

其中,两个真实扫描数据集验证了 GLEAM 真实世界部署的潜力,ProcTHOR 提供了场景生成方法,可以批量制作丰富多样的场景数据。

图片

研究者严格筛选并预处理了所有三维场景数据,数据特征包括:

  • 拓扑连通性:确保场景中每个房间的可达性;
  • 几何水密性:选择几乎 100% 水密的场景,避免无人机穿过窗户等特殊情况;
  • 复杂度跃升:导航复杂度达到 11.35,包含高密度障碍与拓扑迷宫等复杂结构。

方法解读

为攻克 “探索 - 建图” 在未知复杂场景的泛化瓶颈与大规模训练的数据效率难题,GLEAM 架构融合三大创新设计:

  • 语义认知地图
  • 分层动作空间
  • 抗过拟合训练策略

图片

1. 语义认知地图:让机器理解 “未知”

为了使机器人在复杂环境中实现高效时空推理,研究者将环境解构为任务导向的语义地图表征,构建了双地图系统:

  • 全局概率地图:融合历史观测的贝叶斯占据栅格,动态更新环境认知;
  • 局部语义地图:以机器人为中心,在局部栅格概率地图的基础上,进一步引入边界检测模块,通过提取四元语义状态(占据 / 空闲 / 未知 /边界)来强化探索导向。

同时,研究者部署了轻量化 LocoTransformer 提炼语义地图的空间关系,助力实时推理和建图。

2. 分层动作空间:直觉式长程决策配合启发式局部规划器

研究者解耦了全局探索与局部避障:

  • 高层决策(“去哪探索”):摒弃传统局部移动指令(如“前进 10cm”),直接预测可达的长程目标;
  • 低层规划(“目的地是否安全可达”):由轻量级 A * 模块保障,在实时更新的观测空间内验证目标可达性,避免过于激进或取巧的规划策略。

这个设计极大提升了训练和推理效率, 并且确保了决策安全性与探索效率。

3. 随机化 “抗过拟合” 训练

  • 随机初始化机器人位置:强制适应任意初始位姿;
  • 动态轮换千级训练场景:训练中实时更换环境,锻造跨域适应能力。

实验结果

实验结果表明,GLEAM 优越的泛化性主要来源于四个要素:

  • 大规模多样化空间数据
  • 丰富的任务特征
  • 分层策略架构
  • 随机化抗过拟合训练技巧

从以下表格可以看出,无论在虚拟场景还是真实场景上,GLEAM 在探索覆盖率(Cov.),探索效率(AUC)和建图精度(CD)三类指标上均大幅超越之前的方法。

图片

研究者分析了训练场景的数量、质量和多样性对测试结果的影响。从数量开始, 研究者们均匀地对每种类别的训练场景数量作下采样, 测试结果如下:

图片

符合直觉的是,随着训练场景的数量从 32 按比例上升到 1024,GLEAM 在未知测试场景上的探索覆盖率相关指标呈稳定上升趋势,同时建图精度稳定下降。

更进一步,研究者解耦了训练场景的数量、复杂度和多样性这三个要素:

图片

有趣的是,只使用 192 个多房间 (>10) 训练场景的策略性能竟然高于 416 个少房间 (<6) 场景, 甚至已经逼近完整 896 个训练场景的结果。可见,训练场景的复杂度显著影响了策略的性能。

研究者在搭载单张 RTX 3090 显卡的电脑上测试推理速度为 104.7Hz,证明了 GLEAM 在现实部署的潜力。

图片

另外,研究者还进行了抗噪声测试和关键技术的消融实验,证明了 GLEAM 的鲁棒性和涉及特征提取、动作空间和训练策略等方面的关键设计的有效性。

更多细节与结果请参阅原论文 (https://arxiv.org/abs/2505.20294) 与项目主页 (https://xiao-chen.tech/gleam)。欢迎对该方向感兴趣的读者与作者交流探讨!

#阿x里达摩院一口气放出xx智能「三大件」

机器人上下文协议首次开源

8 月 11 日,在世界机器人大会上,阿x里达摩院宣布开源自研的 VLA 模型 RynnVLA-001-7B、世界理解模型 RynnEC、以及机器人上下文协议 RynnRCP ,推动数据、模型和机器人的兼容适配,打通具xx智能开发全流程。

开源链接:

  • 机器人上下文协议 RynnRCPhttps://github.com/alibaba-damo-academy/RynnRCP
  • 视觉 - 语言 - 动作模型 RynnVLA-001https://github.com/alibaba-damo-academy/RynnVLA-001
  • 世界理解模型 RynnEC https://github.com/alibaba-damo-academy/RynnEC

xx智能领域飞速发展,但仍面临开发流程碎片化,数据、模型与机器人本体适配难等重大挑战。

达摩院将 MCP(Model Context Protocol)理念引入xx智能,首次提出并开源了 RCP(Robotics Context Protocol)协议以推动不同的数据、模型与本体之间的对接适配。

达摩院打造了名为 RynnRCP 的一套完整的机器人服务协议和框架,能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,帮助用户根据自身场景轻松适配。RynnRCP 现已经支持 Pi0、GR00T N1.5 等多款热门模型以及 SO-100、SO-101 等多种机械臂,正持续拓展。

图片

具体而言,RynnRCP 包括 RCP 框架和 RobotMotion 两个主要模块。

RCP 框架旨在建立机器人本体与传感器的连接,提供标准化能力接口,并实现不同的传输层和模型服务之间的兼容。

RobotMotion 则是xx大模型与机器人本体控制之间的桥梁,能将离散的低频推理命令实时转换为高频的连续控制信号,实现平滑、符合物理约束的机器人运动。同时,RobotMotion 还提供了一体化仿真 - 真机控制工具,帮助开发者快速上手,支持任务规控、仿真同步、数据采集与回放、轨迹可视化等功能,降低策略迁移难度。

大会上,达摩院还宣布开源两款xx智能大模型。

RynnVLA-001 是达摩院自主研发的基于视频生成和人体轨迹预训练的视觉 - 语言 - 动作模型,其特点是能够从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上,从而让机械臂操控更加连贯、平滑,更接近于人类动作。

世界理解模型 RynnEC 将多模态大语言模型引入xx世界,赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等 11 个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体。无需 3D 模型,该模型仅靠视频序列就能建立连续的空间感知,还支持灵活交互。

据了解,达摩院正积极投入xx智能,聚焦于系统和模型研发,与多方共建产业基础设施,包括硬件本体和标准组件适配、数据采集,以及技术社区 DAMO 开发者矩阵等,希望拓展机器人的产业空间,加速场景落地。

达摩院还在上月开源了 WorldVLA 模型,首次将世界模型与动作模型融合,提升了图像与动作的理解与生成能力,受到业界关注。

#Super-Experts-Profilling

Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

然而,随着模型参数的迅速膨胀,如何高效部署和推理成了新的挑战。为此,学术界和工业界纷纷聚焦于模型压缩技术,尤其是面向 MoE 模型的 “专家级压缩”。研究者们通过剪枝、量化、合并等方法,剔除或简化那些 “非关键” 专家,从而在保证性能的同时,显著减小模型体积。

分析专家的重要性差异不仅有助于推动更高效的模型压缩,还为深入理解 MoE LLM 的内部行为机制提供了关键视角。然而,现有方法多依赖经验性准则来识别重要专家,缺乏对专家重要性深度的探讨。因此,本研究聚焦于一个此前被忽视的重要问题:

MoE LLM 中是否普遍存在一类在前向推理过程中发挥关键重要作用的专家子集?

通过对多个主流开源 MoE LLM(包括 DeepSeek 系列、Qwen3 系列、Mixtral 等)进行深入实证分析,来自清华大学和美团的研究人员首次发现并确认了这一特殊且至关重要的专家子集的广泛存在。尽管这些专家数量极为有限,但它们对模型性能的影响却举足轻重。

例如,在 Qwen3-30B-A3B 模型中,仅裁剪 3 个专家(从约 6000 个专家中)就足以显著降低模型性能,而随机裁剪其他专家影响较小(如 图 1 所示)。

图片

图 1:对 Qwen3-30B-A3B 模型进行专家裁剪分析。裁剪三个超级专家将导致模型困惑度(PPL)显著退化。而随机裁剪上百个非超级专家的影响较小。

研究人员将这些专家命名为超级专家(Super Experts),并从以下三个方面进行了逐渐深入的系统分析:

1) 在不同模型和输入数据领域中的分布规律;

2) 对非推理与推理模型能力的重要性;

3) 深入分析及理解压缩超级专家对注意力机制的影响。

此外,作者还开发了一套自动化工具,能够快速且精准地识别新模型中的超级专家。

论文链接:https://arxiv.org/abs/2507.23279

开源地址:https://github.com/ZunhaiSu/Super-Experts-Profilling

超级专家:发现及定位

研究以 Qwen 最新的混合专家大语言模型 Qwen3-30B-A3B 为例,展示了发现超级专家的过程。随后,通过对不同模型和输入数据领域的分析,深入探讨了超级专家的分布特征,并进一步揭示了其在多个模型中的广泛存在。

超级专家的概念源于对密集结构大型语言模型中一个现象 —— 大值激活(Massive Activations)—— 的深入研究。大值激活指的是在大模型的解码器层之间传递的隐藏状态(hidden states)中,出现极端的激活离群点,其数值远远超出普通激活值,可能大上万倍。研究人员首先在多个开源 MoE LLM 中验证了这一现象的普遍性。

然而,研究并未止步于此,而是进一步提出了以下关键问题:

在 MoE LLM 中,这类大值激活是如何产生的?是所有激活的专家协同作用的结果,还是由少数关键专家主导?

通过对模型内部数据流的细致观察,研究得出了一个重要发现:这些大值激活现象是由极少数特定专家所诱导的。这些专家在其 down_proj 层的输出中,会产生罕见且极端的激活离群值。

这些离群值通过残差连接累加到下一层的输入中,通过一次或多次放大,最终导致大值激活现象的出现。作者将这些诱导大值激活现象的专家称为 超级专家(Super Experts)。图 2 以 Qwen3-30B-A3B 模型为例,生动地展示了这一机制。

图片

图 2:第 1 层的第 68 号专家、第 2 层的第 92 号专家,以及第 3 层的第 82 号专家,共同构成了一条 “激活放大链”。第 1 层的超级专家首先产生初始激活峰值,该峰值在传递至第 2 层后,被对应层的超级专家进一步放大,并持续向后层传播。最终在模型后续层中形成了稳定且大幅的激活值。

为了直接验证这一机制,作者还进行了逐层超级专家裁剪的消融实验。如 图 3 所示,当裁剪某一层的超级专家时,该层对大值激活的影响将直接消失;当裁剪所有超级专家时,原本显著的大值激活现象也随之完全消失。这无可辩驳地证明了,超级专家正是模型中大值激活的直接源头。

图片

图 3:Qwen3-30B-A3B 超级专家裁剪消融实验。

在验证了超级专家的存在后,作者接下来讨论如何精准且自动地识别他们。基于超级专家影响大值激活产生的特性,研究提出了简洁且有效的量化定义方法。

首先统计所有专家在各层 down_proj 输出的最大激活幅值。设 L 为形成大值激活的层集,ale 表示第 l 层中专家 e 在 down_proj 输出的最大激活幅值,且 A = {ale} 为模型中所有此类值的集合。

若专家 e 在第 l 层满足以下条件,则将其分类为超级专家:

图片

其中,

图片

,且 

图片

基于该定义,作者开发了一种自动化分析工具,并对多个 MoE LLM 进行了验证。结果表明,该工具效果显著(如 图 4 和 图 5 所示)。

图片

图 4:对多个 MoE LLM 的超级专家识别,加粗的为超级专家的 down_proj 输出激活幅值。

图片

图 5:对多个 MoE LLM 的所有专家的 down_proj 输出激活幅值热力图,其中箭头所指清晰地标注了超级专家。

基于提出的自动化校准工具,作者对多个 MoE LLM 和不同输入数据集领域进行了超级专家的定位,得出了以下关键结论:

  • 超级专家普遍存在且数量稀少:在所有检查的模型中都发现了超级专家(图 5),数量占比通常远小于 0.05%。例如在 Qwen3-30B-A3B 中,6144 个专家中仅有 3 个超级专家。
  • 超级专家分布稳定且不受后训练影响:研究对比了多个模型的 Base 版本与后训练版本(如 Qwen3-30B-A3B-Base 与 Qwen3-30B-A3B),发现超级专家的分布完全一致。这意味着超级专家的形成于模型预训练阶段且在后续过程持续稳定。
  • 超级专家分布跨数据领域一致:研究还在多种不同类型的数据集(如中文文本 C-Eval、代码 HumanEval、数学 GSM8K)上进行了测试,发现超级专家的分布表现出惊人的稳定性(图 6)。

图片

图 6:对多个输入数据集领域的超级专家分析。

超级专家重要性分析

在发现并定位超级专家之后,研究继续从非推理模型和推理模型两个维度,研究了裁剪超级专家带来的严重后果,揭示了它们的极端重要性。

对非推理模型,作者选取了 Qwen3-30B-A3B(非思考模式)、DeepSeek-V2-Lite 和 Mixtral-8x7B-v0.1 模型,在包括 ARC、BoolQ、HellaSwag、MMLU 在内的多个测试任务上进行了评估。

实验设置了三个对照组:原始模型、裁剪超级专家的模型、以及随机裁剪同等数量非超级专家的模型。

图片

图 7:对非推理模型的超级专家重要性测试。

对非推理模型的实验结果如 图 7 所示,可以发现裁剪超级专家后:

  • 性能显著下降:模型的平均准确率出现了 21.68% 到 27.21% 的下跌。
  • 数学任务上接近崩溃:在 GSM8K 这类需要一定逻辑推理的任务上,性能下降尤为严重,出现了 52.71% 到 74.51% 的巨幅下跌。
  • 随机裁剪影响甚微:随机裁剪同等数量的其他专家,对模型性能的影响几乎可以忽略不计。

如果说裁剪超级专家对非推理任务的影响是 “重创”,那么对需要复杂逻辑和数学推理的任务而言,其影响则是 “毁灭性” 的。

研究者选取了 DeepSeek-R1 和 Qwen3-30B-A3B(思考模式),在 GPQA-Diamond、MATH-500、AIME 等高难度推理任务上进行了测试。

对推理模型的实验结果如 图 8 和 图 9 所示,令人震惊,裁剪仅仅几个超级专家后:

  • 推理能力完全丧失:在 DeepSeek-R1 和 Qwen3-30B-A3B 上一致地显示,裁剪超级专家后,对推理任务造成了重创,在 AIME 2024,AIME 2025,LiveCodeBench 等测试上,模型的 Pass@1(一次通过率)直接降为 0.00%。
  • 模型思维链短路:如 图 10 所示,在对 Math-500 的测试输出进行分析时,观察到了一个非常奇特的现象。原始模型以及随机裁剪的模型能够条理清晰地分析问题,而裁剪了超级专家的模型的回答会陷入无意义的、机械的重复,直到达到最大输出长度。

图片

图 8:对 DeepSeek-R1 的超级专家重要性测试。

图片

图 9:对 Qwen3-30B-A3B(思考模式)的超级专家重要性测试。

图片

图 10:DeepSeek-R1 在 Math-500 上的输出结果展示。

理解压缩超级专家

对注意力机制的影响

为什么裁剪超级专家会产生如此灾难性的后果?研究在本节进一步探究和理解其背后的深层机理,将超级专家与另一个大模型中的重要现象 —— 注意力汇聚区(attention sinks)—— 联系了起来。

在基于多头自注意力的大型语言模型中,某些特殊的 token(通常是序列的初始 token)会吸引大量的注意力分数。先前的研究表明,尽管注意力汇聚的 token 通常语义较弱,但它们的存在对于维持注意力分数的分布至关重要,许多高效模型方法例如稀疏注意力、KV cache 压缩技术都非常重视保留注意力汇聚区。

基于大值激活会引起注意力汇聚区的形成的现有研究,结合本文的研究发现超级专家会引发大值激活的现象。作者提出了以下 MoE LLM 内部机制因果链假设:

超级专家 Super Experts(根源) →  大值激活 Massive Activations(现象) →  注意力汇聚区 Attention Sinks(功能)

图片

图 11:原始模型的注意力分数图,其中第一个 token 明显形成了注意力汇聚区。

图片

图 12:裁剪超级专家后的对应注意力头的注意力分数图,明显可以看到注意力汇聚区的缺失。

为了验证上述假设,研究设计了一个名为 “注意力汇聚区衰减率”(Attention Sink Decay Rate) 的量化指标,用于衡量裁剪超级专家对注意力机制的破坏程度。

如 图 13 所示,在裁剪超级专家后,模型所有层的注意力汇聚区衰减率都稳定在 90% 左右,甚至接近 100%。这表明超级专家的压缩,严重地破坏了模型内部至关重要的注意力机制,验证了上述提出的机制因果链。

图 11 以及 图 12 对裁剪前后注意力分数图进行的可视化分析,清晰地验证了注意力汇聚的破坏性影响。

图片

图 13:Qwen3-30-A3B 注意力汇聚区衰减率分析。

结语

本研究揭示了广泛存在于 MoE LLM 中的超级专家机制,并通过分析超级专家的分布规律、其对模型能力的重要性以及在注意力机制中的关键作用,进行了系统性探讨。

该研究的四大核心贡献是:

1. 首次识别并系统性地分析了超级专家这一前所未见的重要机制。在多个主流 MoE LLM 中广泛验证了超级专家的存在,并揭示超级专家分布的显著稳定性。此外,本文还构建了自动化检测工具,可高效识别新模型中的超级专家。

2. 实证验证超级专家的关键作用。大量实验显示,超级专家对模型整体能力,尤其是数学推理任务至关重要。对于如 AIME、Math-500 等测试集,裁剪超级专家后模型表现近乎 “完全崩溃”,测试表现几乎降至 0。

3. 揭示压缩超级专家对注意力机制的影响。研究证实 MoE LLM 依赖超级专家形成注意力 “汇聚区”,该机制对于注意力分数的合理分布至关重要,而一旦超级专家被裁剪,该机制将遭受严重破坏,进而显著削弱模型性能。

4. 为 MoE LLM 的压缩策略提供新方向。超级专家的发现不仅扩展了对 MoE LLM 内部行为的理解,也为未来设计更加稳健的面向 MoE LLM 压缩方案提供了理论依据。

未来的研究将聚焦于探索超级专家在模型预训练过程中的形成机制,并利用超级专家开发更为高效的 MoE LLM 压缩方法。

#大模型微调到底有没有技术含量

或者说技术含量到底有多大?

老生常谈的一句话吧:有没有技术含量取决于这个工作你怎么做,尤其是 llm 方向,上手门槛相比传统 NLP 变得更低了。

我举一些例子吧,针对大模型微调的几个重要环节,我列举的每一种做法大概率都能完成最终目标,甚至说训出来的模型效果都没什么差别。但对个人能力成长的帮助就大不相同了。

数据工作

做法 1 : 继承实验室或者同事的训练数据,拿到之后也不 check 一下数据质量,直接放进去训。

做法 2 : 下载一个开源数据,构建“system + query + answer”集合。

做法 3 : 利用 gpt4 生成数据,学会用 gpt4 喜好的 prompt 去请求。并且意识到数据 prompt 多样性,想尽各种办法去扩充 prompt 的任务多样性和表达方式多样性,甚至去刻意加一些 noisy prompt 去提升抗噪性。同时,愿意放下身架,一条一条去 check 数据质量,去和标注同学对齐标注标准。

做法 4 : 利用用户的交互日志来驱动数据构造过程,收集用户的真实 prompt,用规则或者GPT4去分析用户的 feedback,进而获得高质量的 answer 数据。

做法 5 : 借鉴 cot、rag、 function_call、agent 等思路,把复杂的模型无法胜任的任务在数据层面就进行拆解,比如“模型写不出长篇小说” --> “模型写小说大纲,模型基于小说大纲写长篇小说”。

……

训练代码

做法 1 : 继承实验室或者同事的训练代码,修改 data_path,然后 bash train.sh。

做法 2 : 继承或自己下载一份训练代码,研究启动代码的每一个参数,去寻思并去搞懂:为啥开 offload,什么叫 sequence_parallel,等等。然后再去看看 dataloader 是怎么处理数据格式,session 数据的 loss 是只计算最后一轮还是每轮都算,代码中应用了哪些 special_token 等等。

做法 3 : 不仅搞懂了每个参数,还提出自己的见解:epoch = 3 是不是太多了,10W 条训练数据这个量级合适吗?special_token 是不是引入的太多了?7B 模型用这个学习率是不是太大了,warmup 该用多少 step 或者说能不能不开 warmup?带着疑惑然后去问问 chatgpt 老师怎么说,或者搜搜大佬们的文章拜读一下。

做法 4 : 质疑和改进训练代码,deepspeed 是不是有点慢,要不要改成 megatron 框架?把 megatron 和 deepspeed 的优点结合起来?如果有兴趣,也可以去 debug 下速度, 发现 rope 的耗时会比 attention 都长的时候想想办法去优化(查查大佬们的优化方案)?

……

实验分析

做法 1 : 跑事前准备好的评估集,然后自评或送评,正向收益的话这个工作纠结束了,负向收益的话就认为是数据不干净,想办法去清洗数据或者是构造更多的训练数据,哪个 task 的指标差就重点优化这个 task 的训练数据。

做法 2 : 结合 pretrain 模型 / sft_base 模型的结果,去归类和分析每一个 sft_exp 模型的 bad case,归类分析:幻觉问题?pattern 过拟合问题?问题太难训练不充分问题?pretrain模型压根就没有这个能力?这个 size 的模型就做不了这种复杂逻辑问题?……

针对自己的分析结果,设计实验去验证。怀疑某个 task 欠拟合,就上采样这个 task 的数据;怀疑是训过拟合了,就抽一些训练数据的 prompt 格式,让模型去回答类似的问题;不知道 7B 模型能不能解决好这个任务,就去下载 llama、qwen、mistral、deepspeek 等同 size 的 chat 模型去验证效果;等等等等。

这个过程要往往要积攒一些经验,学会一些小 trick:

  • 让 pretrain 模型去续写,来判断某个能力或某个知识是模型压根没有,还是说被自己训没了;
  • 观察某个 token 的概率;
  • 观察模型在第几个 token 开始回答错误的;
  • 如果模型的 pattern 输出错误,比如没有按照 json 输出,看一下是不会 json,还是不知道该出 json,可以把``json```也喂给模型,看模型的续写情况;
  • 模型把“日本的首都回答成了北京“了,不要直接断言是幻觉,而是分析下模型是对“日本””首都“”北京“哪个 token 过拟合了,有可能是模型把所有国家的首都都回答成北京,也有可能模型是把日本的任何城市都回答成北京。进而看下训练集和这个 pattern 有关的语料是不是太多了;

……

做法 3 : 不仅意识到模型结果和数据质量有关,还去分析和训练方法的关系。结合训练日志、tensorboad 和模型的评估结果,去共同分析模型效果。SFT 的初始 loss 这么高是为什么、special_token 太多还是训练集的创作任务太多?最终 loss 又是多少、低于 0.5 就要担心过拟合了?channel_loss 是否符合预期?SFT 的阶梯形 loss 代表了什么?3 个 epoch 和 2 个 epoch 的效果对比?

做法 4 : 跑一些 benchmark,去验证模型的通用能力,看看模型是否在通用能力上明显下降,或者说哪种通用能力下降了?进而分析,为什么自己训 task A 会导致数学能力下降?自己训 task B 会导致创作能力下降?想办法去研究通用能力的跷跷板问题,去避免学着忘着的尴尬现象。

……

并不是说以上的“做法1”是不对的,我自己也有过很多次的“做法1”,毕竟相信前辈往往都能有不错的结果。我只是想强调:SFT这个方向有没有技术含量,还是要看自己的定位和做法。

#脑子比不过AI,手也要沦陷了

这只灵巧手看得我有点慌

人类手部是自然进化的杰出产物,从早期灵长类的简单结构演变而来,兼具力量与灵活性。

图片

在「用进废退」原则的驱动下,拇指逐渐变长且肌肉发达,能够与其他手指精准对握,实现精细操作。手部由多个关节组成,具有高度灵活性,可完成捏、握、夹等多种动作。此外,手部皮肤富含触觉感受器,能够感知压力、温度和纹理等信息,为操作提供精准反馈。凭借卓越的灵巧性和精细控制能力,手部能够执行多样化任务,成为人类与物理世界交互的关键工具。

图片

人手构型演化过程

以人为参照的机器人系统一直是人类的梦想,如果能在机器人身上复刻人手的这些能力,xx智能的未来会是什么样子?

随着人工智能从信息世界向物理世界不断延伸,越来越多的人开始思考这个问题,由此衍生出「灵巧手」这个重要方向。

但让「灵巧手」像人手一样灵活并非易事。人手在非结构化环境中表现出卓越的灵巧性、柔顺性和鲁棒性,能完成精细操作和力量型任务,其优势源于肌肉骨骼的串并混联结构、高冗余肌肉骨骼刚柔耦合驱动、皮肤感知多元信息、肌腱驱动的被动柔性和变刚度特性,以及神经机理控制等。

然而,人手的复杂结构和功能机制难以完全解释和模拟,存在功能解释模糊、物理器件模拟不足、非线性驱动机理难以推导、多尺度操作泛化困难等问题。此外,生物与人工系统在驱动、传感和控制上的本质差异,导致机器人手在紧凑性、灵巧性和环境适应性上仍显不足。在有限空间内集成驱动、传感等模块,同时实现力量、速度和精度的平衡,是工程上的巨大挑战。

所以,虽然我们现在能在市场上看到不少号称「灵巧」的灵巧手,但它们中的大多数要么结构笨重,要么动作僵硬,一旦离开预设的理想环境,就无法完成精细复杂的任务。 

不过,在最近的世界机器人大会上,一款「灵巧手」刷新了我们的认知。

,时长01:12

可以看到,这只「手」精确地还原了人手的结构,每根手指都展现出令人惊叹的灵活性。拇指与其他手指的配合更是精妙 —— 不仅能够紧密配合完成抓握,还能模拟出细腻的捻转动作。球在指尖的滚动是如此自然,无论朝哪个方向运动都没有滑落。这样的灵巧手不只是技术的展示,更像是对人类手部功能的深度理解与重新诠释。

即使在汇聚顶尖机器人技术的世界机器人大会上,这样的五指灵巧手也属罕见。它的意义远超简单的三指、两指机械手 —— 真正向人手的「掌内操作」这一核心能力发起了冲击。通过五指与手掌的精密协同,它能够适应不同形状、尺寸和材质的物体,这种广泛的适应性是机器人融入真实物理世界的关键。

那么,这款灵巧手究竟攻克了哪些行业难题?为了探寻其背后的技术奥秘,我们与它的研发公司 —— 灵巧智能聊了聊。他们向我们揭示了一条艰难而有前景的道路,一条以「柔性」驾驭「刚性」世界的前沿技术路线。

自由度的「幻觉」

为何 80% 的灵巧手沦为摆设? 

你有没有想过,为什么人有五根手指?为什么这些手指的结构、长度、自由度、关节数是现在这个样子?当然,从进化的角度来讲,这里面有一定的偶然性。但这种高度优化的结构确实赋予了人类诸多便利。

以我们最常用的大拇指为例,它有个很重要的功能叫「对指」,也就是能和其他四指「面对面」碰在一起,这个动作占全手功能的 40%。没有它,我们的手就只能像夹子一样平行开合,像握住水杯、捏笔写字、按手机屏幕这样的小事都做不好,更不用说握锤钉钉子、穿针引线这种精细动作。

图片

其他四指也各有各的用途,比如食指运动灵活,常承担精细操作任务;中指在支撑和平衡中起关键作用;无名指与中指和小指的协同性强,主要用于增强抓握的稳定性;小指虽短小,却是扩大手掌接触范围的重要部分。

人手的机动性能优势源于运动学串并混联、动力学刚柔耦合物理特性,以人手解剖学结构和功能为参照的类人机械灵巧手凭借其复杂的仿生结构与驱动方式,更有希望模拟人手的灵活运动与精细控制,具备执行高级类人操作的潜力。因此,要想做出能让机器人与物理世界高效交互的灵巧手,在形态和功能上都做到充分「仿生」是一条很有希望的路线。

然而,从目前市场上已有的产品来看,能满足这一点的寥寥无几。

有些产品依然停留在非五指形态(二指、三指、四指等),这类产品虽然在特定场景有成本或结构优势,但存在显著功能缺陷。比如二指只能像镊子一样夹东西,抓球容易掉,不方便拧瓶盖,也做不了精细的捏取动作;三指比二指稳一点,但手指配合不好,缺乏对掌结构(拇指模拟),精细操作(写字、按键)和多样化抓取模式(侧捏、钩握)受限。四指已经很像人手了,但「假拇指」不够灵活,用工具还是笨手笨脚,而且算法复杂度高而功能提升边际效益递减。

图片

不同指数灵巧手

还有些产品虽然做成了五指形态,但在功能上只复现了三指的能力。多出的两根手指不仅增加成本、降低可靠性,还让控制算法更复杂,最终效果却比不上优化过的三指设计。

这就造成了一个尴尬的局面:虽然市面上大部分灵巧手都卖了出去,但由于并不好用,其中的 80% 都沦为摆设,商业化前景堪忧。

这背后其实反映了一个核心问题:很多灵巧手厂家只是把「自由度数(DOF)」做上去了,但在真正能反映灵巧手可用性的灵巧度( Dexterity)指标上,很多都不达标。而后者才是一款产品是否好用的关键。

为什么这么说呢?我们知道,「自由度」这个概念指的是能够独立运动的轴数,一根具有多个关节的手指,每个关节的旋转或弯曲都可以算作一个自由度。所以,很多拥有五个手指的灵巧手都可以把自由度做到很高。但灵巧智能告诉我们,单看这个指标意义不大,因为真正的灵巧度是一个综合性的概念,涉及运动精度、抗干扰能力、动态调整速度等综合维度。只有把这些都做好,灵巧手才能真正变得有用。

那么,「自由度数」高了,为什么灵巧度上不去?这和技术路线的选择有很大关系。

简单来讲,当前灵巧手的技术路线可以分为两类:刚性直驱和柔性传动。

刚性直驱就是用齿轮、蜗轮蜗杆、滚珠丝杠、连杆等机构,直接传递电机扭矩。这样做的好处很明显:精度高、反应快、可靠性强。

图片

采用刚性直驱的 DLR Hand。

但这种路线的缺点也很多,包括:

  • 功率密度和散热问题:手指空间有限装不下大电机,虽然电机扭矩随体积呈指数级增长,但空间限制导致功率密度低。长时间高负荷工作会严重发热,甚至让永磁体退磁,缩短电机寿命。
  • 灵活性与负载能力矛盾:灵巧操作需要小减速比来保证反驱能力,但高负载能力又需要大减速比。这种根本矛盾让减速器设计要求极高、成本昂贵,成了大规模应用的障碍。
  • 微型化制造难题:微型电机和精密减速器制造难度大、成本高。减速器末级齿轮因体积小强度不足,容易损坏,影响长期可靠性。
  • 传感器集成困难:高集成度机电系统占据手指大部分空间,力传感器、位置传感器等关键元件几乎没有安装位置。

这些限制的存在导致很多灵巧手厂家不得不在灵活性、耐用性、感知能力等方面做出妥协。但灵巧智能不想妥协,所以从一开始就选择放弃这条路线,转向更难但限制更少的柔性传动。

绳驱:一条更难,但更仿生的路 

所谓的柔性传动,其实是借鉴了人手肌腱系统的力学特性和功能原理,借助钢丝绳、高分子纤维等柔性材料,通过滑轮、导管等引导装置,将远端电机的动力传递到手指关节,实现类似生物肌腱「远端控制」的驱动效果。

图片

其中,高动态响应直流电机与易于狭小空间传动的柔性材料「腱绳」结合来模拟肌肉驱动效果,驱动电机可放在手掌内或小臂里。如此一来,机器手指就可以变得更轻、转动更灵活。电机也可以用更大的功率来驱动,而不用担心过热问题。

灵巧手的作业特点与传统机械臂等刚性机构存在本质差异,多指协同与接触柔顺性成为首选特性,而绳驱动具备本质「被动柔顺性」。

我们知道,工业机器人时代追求「硬」—— 高刚性保证精确定位;而xx智能时代的灵巧手要在复杂环境中工作,需要「软」—— 被动柔顺性让灵巧手遇到意外时实时调整而非硬碰硬,实现本质柔顺与本质安全性。绳驱系统的腱绳天然柔软,遇阻力时会自然弯曲松弛,提供了天然的被动柔顺性,这让灵巧手在预测驱动时能更好地处理不确定性,实现更智能、安全的交互。因此,我们看到,特斯拉 Optimus 以及著名的 Shadow Hand 都采用了绳驱方案,因为它更符合第一性原理。

灵巧智能采用了一种创新的绳驱方案 ——「串并混联的双绳正反向刚柔耦合驱动」设计,首次实现了集串并混联、刚柔耦合、全掌力感知和柔顺控制于一体的高密度「驱动 - 传动 - 感知 - 控制」机电一体化灵巧手。这种灵巧手能够像人手一样,在其可触及的立体空间内,从任意角度以手指对捏的方式,稳稳地抓住物体,展现出极高的灵活性和操作能力。

图片

所谓「串并混联的双绳正反向刚柔耦合驱动」,是指通过两根绳子主动控制手指的相反运动,并在手指内部采用串并混联机构,赋予其刚柔耦合的力学特性。这种设计既能保证运动精度,又能实现本质柔顺性控制。

与传统的单绳驱动相比,单绳驱动仅靠一根绳子主动拉动手指弯曲,依靠弹簧被动回弹实现伸直;而双绳驱动则通过两根绳子的协同作用,实现手指的弯曲、伸展和双向侧摆的主动控制。这种主动控制能力使灵巧手的反应速度更快、力度控制更精准,抗干扰能力也显著提升。此外,每个手指的活动空间扩大,手指之间的对捏抓取范围更广,进一步增强了灵巧手的灵活性和操作能力。

图片

当然,其他灵巧手厂家不上绳驱,并不是因为不想,而是这个方向实在是太劝退了。随之而来的很多技术挑战都难以克服,比如腱绳在传动路径中会与滑轮等部件反复摩擦,导致自身磨损、能量效率下降和由绳传动迟滞性导致的控制精度降低等问题;腱绳要在各种工况下始终保持不松动也不过紧的恒定张力,以确保灵巧手能稳定、精确地工作;此外,你还要在狭小的手部空间内,为数十根复杂的腱绳规划出高度耦合的路径,并解决由此带来的维修困难以及传感器难以嵌入的问题。

而且,这些挑战并非孤立存在,而是相互放大 —— 摩擦导致预紧力衰减,预紧力不足又加剧绳 - 轮之间滑动磨损,而复杂的集成结构使得任何单点故障都可能引发系统级瘫痪。

为了解决这些问题,灵巧智能进行了多项创新:

  • 应对摩擦损耗:从最终的技术指标反向推导,选用抗拉、耐磨的高强度多股编织缆绳;同时在设计上优化滑轮与导管布局,并在必要时改进工艺以提升干摩擦效率。
  • 确保预紧力稳定性:在传动系统中串联了弹性组件,实现了预紧力的自动补偿,在底层控制算法上结合关节角度编码器与电机端位置传感器实现动态实时预紧调整,从而避免了复杂的人工校准,保证长时间稳定工作。
  • 降低系统集成复杂度:采用了模块化手指设计与次序控制的欠驱动设计,在保留人手关键功能的同时,对体积和重量进行了优化。

目前,这些方案已经在灵巧智能的最新产品 ——22 个自由度的高自由度灵巧手 DexHand021 Pro 中落地。

得益于这些创新设计,DexHand021 Pro 通过两组直线推杆电机模拟人手腕正交关节结构,有效减小手掌回转半径,实现了灵巧手空间灵活性与负载能力的平衡。大拇指受力关节驱动电机(4 个较大功率空心杯电机)被安装在小臂部分,通过自润滑导管线结构解决了胯关节绳驱动力传输问题,从而实现大负载力输出。

在仅 260×86×50mm 的手掌空间内,它集成了四指全部驱动(12 个空心杯电机),并配备了全关节位置传感、多点阵高精度力传感(指尖、指腹与掌心)、基于 MCU 内置预驱与 Ether-CAT 的高速硬实时通讯系统,以及散热模块等,总重仅 2kg。通过串并混联手指关节设计,充分调动多电机功率协同,实现四指单指负载 > 1kg,大拇指负载 > 2kg,抓握负载 > 5kg,持续工作温度 <70℃,寿命> 50 万次等。这种「紧凑集成 + 轻量化 + 高性能输出 + 稳定可靠」的工程化平衡,在当前市场上极为罕见。

回归商业本质

为「用」而生,不为「售」而造 

能把灵巧手做到这个水平,是时候大规模出货了吧?在被问及这个问题时,灵巧智能却表示,他们不着急。

「整个灵巧手行业大部分还处在『科 - 工 - 贸」的『科』阶段,产品和行业都没成熟」灵巧智能的 CEO 周晨解释说。他们认为,在这个阶段追求出货量没有意义,「质量比数量更重要」,他们更关心的是真正会使用灵巧手的客户。

周晨提到,目前采购灵巧手的客户大致分两类:一类是给人形机器人配个手,可能只是个样子货,并不真的干活;另一类是真的拿这个手做灵巧操作。后者才是灵巧智能的主要目标用户。

针对这类用户,灵巧智能的产品不仅做到了高自由度、高灵巧度,还实现了极高的可靠性、参数一致性和超高性价比(同样采用绳驱路线的 Shadow 售价高达 100 多万,但灵巧智能做到了 10 万以内)。因此,对高自由度灵巧手有需求的国内外顶级高校、企业实验室大多都是灵巧智能的用户,这些机构已经利用灵巧智能的产品产出了优秀的科研成果。

,时长00:23

节卡机器人基于灵巧智能的灵巧手打造的数据采集系统。

,时长00:41

自变量机器人与灵巧智能合作打造的自动发牌机器人。

目前看来,在灵巧手的硬件机构方面,灵巧智能已经非常接近终局。其采用的成熟空心杯电机驱动方案,不仅技术门槛低、供应链稳定,还能大幅降低成本,这使得他们的灵巧手具备快速量产的条件。

灵巧智能表示,他们接下来要重点提升感知能力和智能化水平,主要攻克人手级柔顺控制、环境理解与灵巧操作模型算法等关键技术。产品将主要面向汽车制造、3C 电子等工业场景,既能适应结构化环境,也能应对非结构化挑战,实现工具及仪器设备使用和精密装配等类人操作,满足全天候连续作业需求。同时,他们将与行业伙伴共同推动灵巧手与灵巧操作技术的成熟落地,真正解放人类的双手。

,时长00:48

灵巧智能与他山科技合作,开源了基于 MuJoCo 的触觉传感器仿真框架,实现了灵巧手与触觉传感器的深度融合。

以「手」为钥

从「信息智能」迈向「物理智能」

当前,我们正处于一个从「信息智能」向「物理智能」跨越的关键历史节点。在这个进程中,机器人与物理世界交互的能力,尤其是灵巧操作的能力,已然成为最明显的短板。就像马斯克所说,「从机电系统角度来看,手部可能占机器人总工程量的一半」。

灵巧智能通过绳驱技术方案,证明了高自由度灵巧手从理论到工程化的现实可行性,为行业从「参数堆砌」转向「真实可用」提供了重要参考。

展望未来,真正的智能交互必然是「脑(决策)- 手(执行)- 感知(反馈)」的高度协同。灵巧智能的高自由度灵巧手为算法研究人员提供了稳定可靠的硬件平台,让他们能够专注于智能算法的研发创新。同时,灵巧智能本身也在向这一方向发力,与整个行业一起推动感知、决策、执行三者从割裂走向融合。

当硬件的可靠性问题得到解决,当算法的智能化程度不断提升,当「感知 - 决策 - 执行」形成完整闭环,真正的通用人工智能时代也就不远了。

#智谱终于发布GLM-4.5技术报告

从预训练到后训练,细节大公开

就在上个月底,智谱放出重磅炸弹 —— 开源新一代旗舰模型 GLM-4.5 以及轻量版 GLM-4.5-Air。其不仅首次突破性地在单个模型中实现了推理、编码和智能体能力的原生融合,还在 12 项全球公认的硬核测试中取得了全球第三的综合成绩。这个成绩在所有国产模型和开源模型中均排名第一!

图片

消息一出,瞬间刷屏社交网络:官方推文的浏览量突破 120 万, GLM-4.5 模型更是连续 7 天登顶 Hugging Face 趋势榜单,引发海内外 AI 圈热议。

图片

社交平台上,研究者与开发者纷纷点赞,不断分享 GLM-4.5 系列在各类基准上的最新测试成绩。

图片

就在热度持续升温之际,OpenAI 也开源了备受期待的 gpt-oss 系列模型。网友第一时间将它与 GLM-4.5 放到一起比拼,而后者的整体表现依旧锋芒毕露。

图片

这时,爱学习的读者自然会问:GLM-4.5 是怎么炼成的?虽然智谱此前在技术博客里披露过部分细节,但大家一直期待的完整技术报告迟迟未见。

图片

今天,这一悬念终于揭晓 ——GLM-4.5 的技术报告已正式发布。报告不仅详述了 GLM-4.5 的预训练与后训练细节,还介绍了为其打造的开源强化学习(RL)框架 slime,它兼具灵活性、效率与可扩展性,可为模型高效 RL 训练保驾护航。

图片

报告标题:GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

报告链接:https://arxiv.org/abs/2508.06471

GitHub:https://github.com/zai-org/GLM-4.5

Hugging Face:https://huggingface.co/zai-org/GLM-4.5

GLM-4.5 技术报告也被 Hugging Face 用户投票为今天的「#1 Paper of the day」。

图片

下面我们就来看一看这个国产第一大模型究竟是如何炼成的,但在此之前,我们需要了解智谱为什么做出了这样一个决定:将智能体、推理、代码能力统一到一个单一模型中。

为何「大一统」智能体、推理、代码?

大语言模型(LLM)正在迅速进化 —— 从通用知识库迈向通用问题求解器,其最终目标是在广泛领域内达到人类级认知水平,这不仅仅需要特定任务中达到专家水平,更需要在复杂问题求解、泛化能力和自我改进等方面实现统一突破。

随着 LLM 越来越深入地融入现实世界场景,提升实际生产力和解决复杂专业任务的关键在于发展出更多核心能力。智谱研究团队认为,衡量 AGI 的第一性原理,是在不损失原有能力的前提下融合更多通用智能能力。

衡量真正通才模型的标准应包括以下三项相互关联的关键能力:

  • 与外部工具和现实世界互动的智能体(Agentic)能力;
  • 在数学和科学等领域解决多步骤问题的复杂推理(Reasoning)能力;
  • 应对现实世界软件工程任务的高级代码(Coding)能力。

这三项能力可合称为 ARC 能力。

然而,现有模型仍然算不上真正的通才模型。尽管 OpenAI 的 o1/o3 和 Anthropic 的 Claude Sonnet 4 等 SOTA 专有模型在数学推理或代码修复等特定 ARC 领域展现了突破性性能,但仍未有一个同时在上述所有三个领域均表现卓越的强大开源模型。

GLM-4.5 正在为此努力,力求在一个模型中集成所有这些不同的能力。GLM-4.5 采用了混合推理模式:复杂推理和智能体任务采用思考模式,即时响应采用非思考模式。

GLM-4.5 是如何「练」成的?

模型架构

GLM-4.5 采用了 MoE(混合专家)架构,这种架构能够显著提升训练和推理时的计算效率。

更具体而言,智谱在 MoE 层采用了 loss-free balance 路由和 sigmoid gate 机制。与 DeepSeek-V3 和 Kimi K2 的设计思路不同,他们选择了「瘦高」的模型结构 —— 减少模型的宽度(包括隐藏维度和路由专家的数量),同时增加模型的深度(层数)。他们发现:更深的模型在推理能力上表现更加出色。

在自注意力机制方面,他们采用了 partal RoPE 的分组查询注意力(Grouped-Query Attention)。另外,他们将注意力头的数量增加到了一般模型的 2.5 倍(在 5120 的隐藏维度下使用 96 个注意力头)。有意思的是,虽然增加注意力头的数量并没有让训练 loss 更低,但在 MMLU 和 BBH 等推理基准测试中,GLM-4.5 的表现却得到了稳定提升。

图片

GLM-4.5 系列模型架构,参数数量包含 MTP 层的参数,但不包含词嵌入和输出层的参数。

GLM-4.5 使用了 Muon 优化器,这个优化器不仅能加快模型收敛速度,还能在更大的 Batch Size 下相比 AdamW 保持更好的收敛效果,从而提升训练效率。

他们还引入了 QK-Norm 技术来提升注意力 logit 的数值稳定性。GLM-4.5 还加入了 MTP(Multi Token Predition)层,用于在推理阶段实现推测解码,进一步提升推理效率。

预训练和中期训练

GLM-4.5 经历了几个训练阶段。在预训练期间,GLM-4.5 首先在 15T token 的通用预训练语料库上训练,然后在 7T token 的代码和推理语料库上训练。预训练后,他们引入了中期训练来进一步提升 GLM-4.5 在专有领域上的性能。

图片

GLM-4.5 的预训练和中期训练,采用多阶段训练方案,并将序列长度从 4K 扩展至 128K。

GLM-4.5 的预训练数据来源于网页、社交媒体、书籍、论文和代码仓库,并针对不同来源设计了优化处理流程。

预训练分为两个阶段,第一阶段主要使用一般网页文档,第二阶段重点上采样编程、数学和科学相关的高质量数据,从而兼顾高频知识、长尾知识覆盖以及推理能力的提升。

中期训练阶段旨在在预训练基础上进一步增强推理能力和智能体能力,采用中等规模的领域特定数据集和指令数据,主要包括以下三个环节:

  • 代码仓库级训练:将同一仓库的代码文件拼接,学习跨文件依赖,并引入经过模型筛选的 GitHub issue、PR 和 commit,以提升软件工程能力。并将序列长度扩展到 32K。
  • 合成推理数据训练:收集来自网页和书籍的数学、科学、编程相关问答数据,并用推理模型生成推理过程,从而强化模型的推理能力。
  • 长上下文与智能体训练:将序列长度从 32K 扩展到 128K,上采样长文档,并加入大规模合成的智能体轨迹数据,以提升长文本处理和多步交互能力。

在预训练阶段,最大序列长度保持为 4096,而在中期训练阶段,最大序列长度从 32768 扩展至 131072。在预训练阶段,研究团队未采用 best-fit packing,因为随机截断可以作为对预训练文档的数据增强策略。在中期训练阶段,他们应用了 best-fit packing,以避免截断推理过程或仓库级别的代码。

基于 slime 的大模型强化学习

为了支持 GLM-4.5 这样的大模型进行高效的强化学习(RL)训练,智谱设计、开发并开源了 slime。这是一个在灵活性、效率和可扩展性方面都表现卓越的 RL 框架。该框架已经发布了一些时日了,并已经在 GitHub 上收获了近 1200 star。

图片

  • 开源地址:https://github.com/THUDM/slime

具体而言,slime 由三个核心模块组成:

  • 训练(Megatron),处理主要的训练过程,从 Data Buffer 读取数据,并在训练结束后将参数同步到 rollout 模块;
  • rollout(SGLang + Router),生成新的数据,包括奖励和验证器输出,并将其写入 Data Buffer;
  • Data Buffer,作为桥接模块,管理提示词初始化、自定义数据和 rollout 生成策略。

图片

slime 旨在解决强化学习中的常见瓶颈,并针对复杂的智能体任务做了优化:

  • 灵活的混合训练架构: slime 的核心优势在于其多功能的混合架构。它既支持同步、集中式训练(适合推理和通用强化学习训练),也支持分布式、异步训练模式。这种异步模式对于 Agentic RL 至关重要,因为在这类场景中,数据生成往往是一个缓慢的外部过程。通过将训练与数据收集解耦,可以确保训练 GPU 始终保持满负荷运行,最大化硬件利用率。
  • 面向智能体的解耦设计: Agentic RL 经常面临环境交互时延迟高且分布长尾的问题,这严重限制了训练吞吐量。为此,slime 实现了完全解耦的基础架构,将环境交互引擎与训练引擎分离。这两个组件在不同的硬件上独立运行,将数据生成的瓶颈转化为可并行化的非阻塞过程。这种设计是加速长序列智能体任务的关键。
  • 混合精度加速数据生成: 为了进一步提升吞吐量,slime 采用混合精度推理来加速环境交互。它使用 FP8 精度进行数据生成(Rollout),同时在模型训练中保留 BF16 精度以确保训练稳定性。这种技术在不影响训练质量的前提下,大幅提升了整体训练速度。

这种整体化的设计使得 slime 能够无缝集成多个智能体框架,支持各种任务类型,并通过统一而强大的接口高效管理长序列环境交互。

增强智能体能力的后训练

后训练对 LLM 至关重要,模型通过自主探索和积累经验来不断优化策略。强化学习是突破模型能力边界的关键步骤。

GLM-4.5 不仅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,还重点提升了智能体能力,包括智能体编程、深度搜索和通用工具使用。

训练过程首先在精选的推理数据和合成的智能体场景数据上进行监督微调,然后通过专门的强化学习阶段分别训练专家模型。

  • 推理能力训练:智谱完整的 64K 上下文长度上进行单阶段强化学习,采用基于难度的课程学习来进行多阶段 RL。为了确保训练稳定性,智谱引入了改进的技术:使用动态采样温度来平衡探索与利用,以及在 STEM 问题上使用自适应裁剪来保证策略更新的稳定性。
  • 智能体任务训练: 训练聚焦于两个可验证的任务:基于信息检索的问答和软件工程任务。智谱开发了可扩展的策略来合成基于搜索的问答对,方法是通过人工参与的内容提取和选择性地模糊网页内容。编程任务则通过在真实软件工程任务上基于执行结果的反馈来驱动。

虽然强化学习训练只针对有限的可验证任务,但获得的能力提升可以迁移到相关领域,比如通用工具使用能力。最后,他们通过专家蒸馏将这些专门技能整合起来,使 GLM-4.5 在各项任务上都具备全面的能力。

更多技术细节,请查看 GLM-4.5 技术报告原文。

效果怎么样?

智谱在 12 个基准上评估了 GLM-4.5 在 ARC(智能体、推理和代码)任务上的表现,具体包括:MMLU-Pro、AIME 24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL V3、BrowseComp。

智能体任务

研究团队在 TAU-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上测量了其工具调用能力,在 BrowseComp 上测量了其作为网页浏览智能体的能力。

在 TAU-bench 上,GLM-4.5 的表现优于 Gemini 2.5 Pro,并且接近 Claude Sonnet 4;在 BFCL V3 上,GLM-4.5 在所有基线模型中取得了最高的总体得分;在 BrowseComp 上,OpenAI o3 的表现明显优于其他模型,而 GLM-4.5 的表现接近 o4-mini,并显著优于 Claude Opus 4。

图片

推理

研究团队在七个基准上评估了 GLM-4.5 的推理能力,这些基准包括 MMLU-Pro、AIME 24、MATH 500、SciCode、GPQA、Humanity’s Last Exam(HLE)以及 LiveCodeBench(LCB)。

对于 AIME 和 GPQA 基准,他们分别展示了 32 次和 8 次采样的平均准确率(Avg@32、Avg@8),以减轻结果的随机性波动。答案验证由一个 LLM 自动完成。对于 HLE 基准,仅评测了基于文本的问题,正确性由 GPT-4o 判定。他们还使用 Artificial Analysis 提出的智能指数(intelligence index),计算了上述七个基准的平均推理性能。

结果显示,GLM-4.5 在 AIME 24 和 SciCode 基准上超过了 OpenAI o3。在整体平均表现上,GLM-4.5 优于 Claude Opus 4,并接近 DeepSeek-R1-0528。

图片

代码

为了衡量 GLM-4.5 解决真实世界代码任务的能力,研究团队在两个具有挑战性的基准 SWE-bench Verified 和 Terminal-Bench 上进行了评测。

在 SWE-bench Verified 上,GLM-4.5 的表现优于 GPT-4.1 和 Gemini-2.5-Pro。在 Terminal-Bench 上,GLM-4.5 超过了 Claude Sonnet 4。

图片

整体而言,在代码任务上,GLM-4.5 算得上是 Claude Sonnet 4 最有力的竞争对手。

除此之外,研究团队还对 GLM-4.5 的通用能力、安全、在真实世界的实际表现(包括通用聊天、Coding Agent、逻辑推理和翻译)等方面进行了评估。详情请查看 GLM-4.5 技术报告原文。

写在最后

随着这份技术报告的发布,GLM-4.5 的「幕后故事」终于完整呈现。从架构设计到训练方法,再到为其量身打造的 RL 框架 slime,智谱不仅交出了性能成绩单,也公开了实现路径。

对关注国产开源大模型的人来说,这不仅是一份报告,更是一把洞察未来研发方向的钥匙。

#LEGION

从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?

本文由上海交通大学,上海人工智能实验室、北京航空航天大学、中山大学和商汤科技联合完成。 主要作者包括上海交通大学与上海人工智能实验室联培博士生康恒锐、温子辰,上海人工智能实验室实习生文思为等。通讯作者为中山大学副教授李唯嘉和上海人工智能实验室青年科学家何聪辉。

AIGC 技术狂奔的脚印后,留下的是满地信任残骸

近年来,文生图模型(Text-to-Image Models)飞速发展,从早期的 GAN 架构到如今的扩散和自回归模型,生成图像的质量和细节表现力实现了跨越式提升。这些模型大大降低了高质量图像创作的门槛,为设计、教育、艺术创作等领域带来了前所未有的便利。然而,随着模型能力的不断增强,其滥用问题也日益严重 —— 利用 AI 生成的逼真图像进行诈骗、造谣、伪造证件等非法行为层出不穷,公众正面临一场愈演愈烈的信任危机。

图片

(图源自知乎和多家微信公众号)

不信?猜一猜下列图片中哪些是真实的,哪些则是由 AI 合成伪造的?

图片

图片

图片

(左右滑动查看)

答案是:这些图像全是伪造的。

若只是匆匆一瞥,你很可能会毫不察觉 —— 它们几乎天衣无缝。这正是得益于近年来文生图技术的突飞猛进,AI 生成内容已逼近真实。然而,正因如此,公众在毫无防备的情况下被误导的风险也在加剧。面对真假难辨的图像,信任成本正悄然上升,焦虑与不安也随之而来。

  • 论文标题: LEGION: Learning to Ground and Explain for Synthetic Image Detection
  • 作者团队: 上海交通大学、上海人工智能实验室、 北京航空航天大学、中山大学和商汤科技
  • 项目主页: https://opendatalab.github.io/LEGION
  • 关键词: 伪造检测、伪影定位、异常解释、引导图像优化

那么我们该如何破局?在 ICCV25 highlight paper《LEGION: Learning to Ground and Explain for Synthetic Image Detection》中,来自上海交通大学、 上海人工智能实验室等组织的研究团队从构建高质量 AI 合成图像数据集、设计可解释伪造分析模型、实现检测与生成的对立统一这三个角度给出了他们的答案。

破局基石:开创性数据集成就伪影图鉴

图片

该团队反思了现有伪造图像数据集的局限性,并且构建了首个针对纯 AI 合成图像,可进行全面伪造分析的数据集 SynthScars,直击现有顶级生成技术的缺陷与 “伤疤”,让看似完美的 AI 图像显露真容,为图像安全研究注入新动力,主要具有以下亮点:

  • 全网顶配生成器:

部分图像来自最新的 AI 创作平台,集齐了 FLUX、SD 系列、各种商用 API 及特定 LoRA 微调后的最新文生图模型,几乎不含 “一眼假” 的老旧低质的伪造图像

  • 专杀超现实画风:

系统性过滤动漫、插画等艺术风格图像,这类样本虽常见但误导性低;数据集中仅保留逼真程度高、最具欺骗性的超现实风格图像,聚焦人类最难分辨的 “视觉死角”

  • 三维解剖级标注:

每张图像均附带伪影掩码、异常解释与伪影类型标签三类信息,系统覆盖三大伪影类型:物理矛盾、结构畸形、风格失真,支持定位、诊断与归因的全流程分析

  • 去轮廓依赖魔咒:

摒弃依赖物体边界变形的传统篡改范式,专注捕捉 AI 原生生成图像中非结构性、无规则分布的伪影信号,直击深层次建模缺陷遗留的 “蛛丝马迹”

核芯武器:多模态大模型重塑分析范式

图片

作者提出了一个基于多模态大模型(MLLMs)的图像伪造分析框架,主要由全局图像编码器、定位图像编码器、大语言模型、像素解码器和检测分类头组成,能够实现:

多任务架构统一:

伪造检测 + 伪影定位 + 异常解释三位一体,同步完成,无需零散专家拼凑实现。

伪影定位任务在 RichHF-18K 等 3 个数据集上进行了测试,结果如下:

图片

作者指出,现有的一些通用多模态大模型,如 Qwen2-VL 在面对此任务时倾向于预测图片的绝大部分(有时是整张图片)为伪影,这是毫无意义的,这说明了现有 MLLMs 缺乏相关知识和能力。

异常解释任务在 LOKI 等两个数据集上进行了测试,结果如下:

图片

LEGION 仅用 8B 参数量就能够在异常解释任务中打败其他同等甚至更大规模的模型。作者还指出诸如 Deepseek-VL2/GPT-4o 这样的模型会输出看似全面的各种可能性,但实际上会导致答案冗杂,评分偏低。

伪造检测任务选择在 UniversalFakeDetect 基准上进行测试:

图片

卓越的鲁棒性:

作者尝试了高斯噪声攻击、JPEG 压缩失真和高斯模糊三种干扰处理,发现 LEGION 性能相较于传统专家模型而言波动较小,具有更强的鲁棒性:

图片

可解释性飞跃:

与传统专家模型仅给出真伪判断不同,LEGION 除此以外还利用视觉掩码直击 “造假部位”,语言能力生成 “打假报告” → 不只判真假,更说清何处假、为何假、有多假!

图片

更多的可视化示例请关注项目主页:https://opendatalab.github.io/LEGION

颠覆循环:实现检测与生成的终极共生

一直以来,合成与检测,宛如一对技术 “冤家”,在对抗中推动彼此演进。当合成跑过检测,虚假内容得以轻易伪装,真假难辨的风险骤增;当检测胜过合成,生成模型便被迫进化,朝着更高真实度与隐蔽性迈进。

因此,这篇论文创造性地提出:

LEGION 不仅可以作为图像安全的保卫者,也能是反向促进高质量生成的催化剂

为此,作者从两种不同的角度,提出了利用检测 “反哺” 生成的 pipelines:

全局提示词优化

作者指出,现有生成图片中的伪影部分来源于提示词的模糊。利用 LEGION 的异常解释文本,对全局提示词进行多轮细化后再重新生成能够有效修复一些缺陷,例如能对图片进行现实风格迁移、结构细节调整等。

图片

局部语义修复术

另外一种思路是直接对 LEGION 检测出的伪影区域做局部修复。具体地,可以联合检测得到的伪影掩码和异常解释,利用图像修复模型针对性地消除伪影细节,这种方法的好处在于不对正常区域处理,能够最大程度的保留原图语义。

图片

上例中,原始生成图像的伪影较为隐蔽,乍一眼看去往往会被忽略 —— 房子在水中的倒影与实际的颜色和形状不一致,这是典型的物理定律违反。通过多轮对伪影区域的局部修正,能够逐步得到更高质量、更逼真的合成图片。

此外,我们利用 HPSv2.1 模型对应用上述两种方法前后生成的图像进行了定量的人类偏好评分,能够明显发现在引导图像优化后有较大程度的提升,这说明了用 "打假" 反哺 "造真" 的可行性和有效性。

图片

#「一只手有几根手指」,你的GPT-5答对了吗?

「一只手有几根手指?」

这个看似简单的问题,强如 GPT-5 却并不能总是答对。

今天,CMU 博士生、英伟达 GEAR(通用xx智能体研究)团队成员 Tairan He(何泰然)向 GPT-5 询问了这个问题,结果模型回答错了。

image.png

他接着延伸出一个论点:语言虽然是强大的工具,但却很难完全满足视觉与机器人领域的需求。

我们更需要以视觉为中心的视觉语言模型(VLM)以及以视觉-动作为中心的 VLA 模型。

看起来,这里 Tairan He 对 Fingers 的定义应该是「包括拇指在内所有的手指」。

在英文语境中(包括柯林斯词典、词源词典等的解释),Fingers 既可以指代除拇指以外的其余四指,也可以指代包括拇指在内的全部五指。

image.png

图源:柯林斯词典

image.png

图源:词源词典

不只是 GPT-5,推理版本 GPT-5-Thinking 也犯错了,「包括拇指在内 5 根手指,不包括拇指则 4 根手指」。

image.png

此前,在 Grok 4 推出之后,同样有人用数手指问题来测试它,结果同样翻车。

实测:时对时错,Gemini 2.5 Pro 也未能幸免

有趣的是,在认定手指(finger)包含拇指的前提下,编辑部也去测试了一下,结果发现 GPT-5 居然答对了,而且多次测试均回答正确。

image.png

image.png

image.png

不过,六指图的中文语境中 GPT-5 却总是回答错误。

image.png

image.png

我们又在 Gemini 2.5 Pro 上继续测试,它贴心的单独统计了 finger 和 thumb,但最终答案是错的。

image.png

image.png

可以看到,在面对一些基础常识性问题尤其存在语言先验干扰(这里的 finger 本身就有歧义)时,即便是顶尖大模型也频频「翻车」。

这说明,模型虽然在语言推理方面很强,但对图像的基础视觉理解,包括目标检测和语义分类等,仍然不够稳健。模型中的视觉模块可能并不是真正地「看」懂,而只是利用语言模式去猜。

为何回答不对?如何应对?

Tairan He 在后续评论中提到了谢赛宁团队去年的一篇论文,这篇论文提出并实践了一套系统、深入且以视觉为中心的研究与评估方法,展示了如何对多模态大语言模型(MLLM)的视觉基础能力进行科学、严谨的评估。

Tairan He 认为,应该将这种严谨的评估思想和方法论应用到 VLA 模型研究中去。

image.png

  • 论文标题:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs 
  • 论文地址:https://arxiv.org/pdf/2406.16860

论文指出,当前许多基准测试并不足以真实评估模型核心的视觉能力,部分测试甚至在没有视觉输入的情况下也能被解答。

团队创建了一个名为 CV-Bench 的全新、更专注的基准测试集,专门用于检验模型在物体计数、空间关系判断及深度感知等关键且基础的 2D 和 3D 视觉理解能力,从而建立了一套更严格的评估标准。

论文系统性地评估了超过 20 种不同的视觉编码器,并对训练策略和数据配比进行了详尽的研究,其成果如同一本可供参考的「公开食谱」,为领域内的后续工作提供了严谨的参照。

谢赛宁也参与了讨论,表示多模态大型语言模型中的虚假相关性是一个棘手的基准测试问题。他认为,模型对语言先验的依赖既是优势也是陷阱,因为它可能导致模型忽视其他模态,成为一种「捷径」。

从经济角度看,这让公司能在不进行大量实际多模态研究的情况下,宣称在「多模态推理」上取得成功。然而,当这些系统被应用于机器人等现实世界时,这种捷径的缺陷就会暴露,并付出巨大代价。

image.png

另一项研究也印证这种观点。实验显示,最先进的 VLM 在识别常见物体图像(例如,知道阿迪达斯标志有 3 条条纹,狗有 4 条腿)的数量时,准确率能达到 100%;但在计算反事实图像(例如,计算一个有 4 条条纹的类阿迪达斯标志中的条纹数量,或一只 5 条腿的狗的腿数)时,准确率仅有约 17%。

  • 项目主页:https://vlmsarebiased.github.io/

该研究指出,VLM 实际上并不能真的「看到」,它们依赖于记忆的知识而不是视觉分析。

image.png

针对这一问题,密歇根大学的博士生 Martin Ziqiao Ma(马子乔)也详细阐述了自己的观点。

他认为关键问题在于:用大语言模型来初始化视觉-语言(-动作)模型(VLA),是一个诱人的陷阱,看似取得了进展,但实际上并没有真正实现突破。大多数基准测试都过于集中在推理和数字领域,而没有从根本上解决感知问题,尤其是中、低层次的视觉能力。

image.png

人类在直觉物理和心理理解上,显然有着前语言阶段的认知根基,例如固体性、连续性、重力等基本原则。

2024 年,他及团队在构建了 GroundHog 之后,花了一些时间反思 VLM 的核心问题。他再也无法说服自己,仅仅把 CLIP 和 DINO 叠加上几层投影层就是「将视觉符号化」的终极方案。视觉-语言模型需要更强大的视觉基础,或许必须从以视觉为中心的视角重新开始。

此后,他暂停 VLM 开发一年并探索了其他方向。并且真正从零开始,他开始研究 3D 基础模型和视频扩散模型,并暂时搁置了联合视觉-语言扩散模型的可能性。他开发了 4D-LRM,目标是在完全没有语言先验的情况下,大规模学习 4D 先验。

这只是第一步。未来某个时候,他会回到 VLM 工程领域。但下一次,他希望自己能先从世界模型入手,再在其之上解锁语言模块。

大语言模型什么时候能够真正理解图像等视觉信息,而不仅仅把视觉当作语言的附属输入?对此你怎么看呢?

参考内容:

​​​https://x.com/ziqiao_ma/status/1954665867238600881​​​​https://x.com/TairanHe99/status/1954610939438977211​

#Reconstructing 4D Spatial Intelligence

4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次

4D 空间智能重建是计算机视觉领域的核心挑战,其目标在于从视觉数据中还原三维空间的动态演化过程。这一技术通过整合静态场景结构与时空动态变化,构建出具有时间维度的空间表征系统,在虚拟现实、数字孪生和智能交互等领域展现出关键价值。

当前研究主要围绕两大技术维度展开:基础重建层面聚焦深度估计、相机定位、动态点云等底层视觉要素的精准提取;高阶理解层面则致力于解析场景组件的时空关联与物理约束。

这种多维度的空间建模能力正成为新一代人工智能发展的基础设施——无论是构建xx智能的环境认知体系,还是训练具备物理常识的世界模型,高保真的 4D 空间表征都发挥着基石作用。

值得注意的是,前沿研究正从单纯的几何重建转向对场景物理属性和交互逻辑的建模,这种转变使得空间智能不仅能呈现视觉真实的动态场景,更能支撑智能体与虚拟环境的拟真交互。

为了填补关于 4D 空间智能重建分析的空白,南洋理工大学 S-Lab、香港科技大学以及德州农工大学的研究者们全面调研了该领域的发展和最前沿的研究方法,撰写了综述论文,对 400 余篇代表性论文进行了系统归纳和分析。

✍🏻️Paper:Reconstructing 4D Spatial Intelligence: A Survey

📄 arXiv:https://arxiv.org/abs/2507.21045

🌍Project Page:https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence

他们提出了一种新的分析视角,将已有方法按照空间智能的建构深度划分为五个递进的层次:

  • 第一层(Level 1):底层三维属性的重建(如深度、位姿、点云图等)
  • 第二层(Level 2):三维场景组成要素的重建(如物体、人体、建筑、场景等) 
  • 第三层(Level 3):完整的 4D 动态场景的重建
  • 第四层(Level 4):包含场景内部组成部分之间交互关系的重建
  • 第五层(Level 5):引入物理规律以及相关约束条件的重建

主体内容与结构一览

图片

第一层(Level 1):底层三维属性的重建(如深度、位姿、点云图等)

三维场景理解的基石在于对底层视觉线索的精准恢复,这一层级聚焦于四大核心要素:深度感知、相机定位、点云构建与动态跟踪。这些基础组件共同构成了三维空间的数字化骨架。

传统方法通常将其分解为多个独立子任务,如关键点检测与匹配(SIFT、SuperPoint、LoFTR 等)、鲁棒估计(AffineGlue)、运动恢复结构(SfM)、光束法平差(BA)以及多视图立体匹配(MVS)。

近年来,DUSt3R 等系列工作提出联合优化策略,实现了更高效的协同推理。基于 Transformer 的 VGGT 框架进一步实现了端到端的快速重建,可在秒级内完成底层 3D 线索的估计。

图片

第二层(Level 2):三维场景组成要素的重建(如物体、人体、建筑、场景等)

在完成底层 3D 线索提取后,Level 2 的研究重点转向场景中具体对象的精细化建模,包括人物、各类物体以及建筑结构等元素的几何重建。虽然现有方法能够处理这些元素的空间分布问题,但对它们之间的动态交互关系仍缺乏有效建模。

值得关注的是,随着 NeRF 神经辐射场、3D 高斯点云表示以及可变形网格(如 DMTet 和 FlexiCube)等创新技术的突破性进展,研究者们已经能够实现具有高度真实感的细节还原和整体结构保持。这些技术进步不仅显著提升了重建质量,更为影视特效制作、虚拟现实等应用场景提供了关键的技术支撑。

图片

第三层(Level 3):完整的 4D 动态场景的重建

Level 3 研究致力于突破静态场景的限制,通过引入时间维度构建动态 4D 表征系统,为「子弹时间」等沉浸式视觉体验提供技术支撑。当前主流方法呈现两大技术路线:

  • 形变场建模方案(如 NeRFies、HyperNeRF):在静态神经辐射场基础上,通过学习时空形变场来表征动态变化;
  • 显式时序编码方案(如 Dynamic NeRF、DyLiN):将时间变量直接嵌入 3D 表征网络,实现时空连续建模。

从应用场景来看,相关研究主要聚焦两大方向:面向通用场景的 4D 重建技术,以及针对人体运动的专项动态建模方法。这种技术分野反映了不同应用场景对时空建模的差异化需求。

图片

第四层(Level 4):包含场景内部组成部分之间交互关系的重建

Level 4 代表了空间智能研究的重要突破,其核心在于建立场景元素间的动态交互模型。作为交互行为的主导者,人体自然成为研究的重点对象——早期工作(如 BEHAVE、InterCap)开创性地实现了从视频中提取人体与物体的运动关联。得益于三维表征技术的革新,新一代算法(如 StackFlow、SV4D)在交互物体的几何外观和运动轨迹重建方面取得了显著提升。

图片

特别值得注意的是,人-场景交互建模(HOSNeRF、One-shot HSI)这一新兴研究方向,通过解构人与环境的复杂互动机制,为构建具有物理合理性的数字世界奠定了重要基础。

图片

第五层(Level 5):引入物理规律以及相关约束条件的重建

Level 4 系统在交互建模方面取得重要突破,但仍面临物理真实性的关键挑战。现有方法普遍未能整合基础物理规律(如重力、摩擦等),导致其在机器人动作模仿等xx智能任务中存在明显局限。Level 5 的突破性进展主要体现在:

  • 人体运动仿真:通过 PhysHOI、Perpetual Motion 等框架,结合 IsaacGym 仿真平台与深度强化学习,实现了从视频到物理合理动作的转化;
  • 场景物理建模:PhysicsNeRF、PBR-NeRF 等创新方法将研究范畴扩展至物体形变、碰撞检测等复杂物理现象。

图片

这个层级化的技术框架,展现了 AI 认知能力从基础到高阶的完整进化路径——就像教一个孩子先学会观察(Level 1),再认识物体(Level 2),接着理解运动(Level 3),然后掌握互动(Level 4),最终领悟物理规律(Level 5)。这种循序渐进的突破,正在推动虚拟世界从「看起来真实」向「动起来真实」的质变。

目前,这项技术已经在影视特效、自动驾驶仿真等领域大显身手。随着 Level 5 物理引擎的完善,未来的人机交互和数字孪生应用将更加逼真自然。或许在不久的将来,我们还将迎来 Level 6,让虚拟与现实的边界变得更加模糊……

#奥特曼砍掉GPT-4o引爆AI「戒断反应」

马斯克官宣Grok 4全球免费!

奥特曼砍掉GPT-4o,防止用户沉迷;马斯克Grok 4限时免费,用「热辣模式」和拟人化角色留住用户。

众所周知,奥特曼在发布GPT-5的时候,砍掉了包括GPT-4o和o系列的所有旧模型

但这看似普通的版本「升级」,却出了大事!

大家对特定的模型,好像有点太上头了

甚至可以说,是「爱」上了。

看到自己突然消失的「伴侣」,愤怒的网友纷纷在X、Reddit等平台上向奥特曼喊话:还我GPT-4o

谁能想到,这种十几年前还只会出现在科幻片中的场面,现在却已经变成了「纪录片」。

在电影《HER》里,主角沉浸在斯嘉丽·约翰逊的声音中无法自拔

奥特曼,也没有想到。

就在刚刚发布的推文中,他再次承认——突然砍掉旧模型,确实是个错误。

上下滑动查看「全文」

但对于网友这种强烈的「依恋感」,奥特曼也有自己的看法。

的确,大部分人都能分得清虚拟和现实,但总有一些人做不到。

尤其当一个人精神脆弱,容易胡思乱想时。真的会有人因为AI去伤害自己。

用户的自由固然重要,但背后的责任同样重大。

奥特曼「温柔劝退」

GPT-5后他真正想解决的问题

在奥特曼看来,成年用户就应该当成年人对待。

因此为了用户着想,在某些时候就必须得「怼」回去,确保他们得到的是真正想要的东西。

很多人,早就把ChatGPT当成了心理医生、人生导师、情感寄托。。。

这其实是件好事儿,大家从AI那里获得了建议,实现了自己的小目标,生活也越来越好。

奥特曼说他们打心底里,为这事儿感到自豪

但,凡事都有另一面。

万一你跟AI聊完,只是感觉好了一点点呢?实际上,却离真正的幸福越来越远?这就太糟糕了。

还有一种情况更可怕:你想少用它,却发现自己根本离不开,你已经完全对AI「成瘾」了!

奥特曼甚至能想象到未来:无数人,会把最重要的决定交给AI。

这让他,感到一丝不安。但这一天,迟早会来。

更让他不安的是未来的规模效应:很快,数十亿人可能把AI当作关键决策参谋。

这个趋势难以逆转,因此必须把它塑造成「净正效应」的社会基础设施,而不是新的「依赖陷阱」(但未来大家沉迷AI,就和现在沉迷Tiktok等社交媒体没有本质区别)。

所以,OpenAI必须想办法,让它利大于弊,好消息是,OpenAI手里的技术,比以前强太多了,能更好地衡量AI带来的影响。

奥特曼表示:我们的产品,会和用户聊天,了解他们的短期目标,和长期规划,我们也能教会模型,理解那些复杂又微妙的问题。

人和AI之间,到底是何种关系?

回看此次GPT-5升级带来的「体验」争议,更像一种面向人—AI关系的再设计。

从「无上限的取悦与陪伴」,转向「边界清晰的帮助与守护」;

从「满足当下一切请求」,转向「在必要时适度拒绝」。

从之前OpenAI特别重视地减少「谄媚式」回应就能看出,这个问题已经由来已久了。

这不是技术后退,而是产品伦理前移。

奥特曼强调,让强大的模型以「克制」的方式出现,把「自由选择」建立在用户长期利益之上。

OpenAI希望用户因为AI更自由,而不是被AI更束缚。

或许GPT-5不是「变笨」,而是开始学会如何「懂得和人类交流的分寸」

奥特曼GPT-5提升配额

马斯克Grok 4敞开免费用

虽然但是,大部分用户对GPT-5依然是充满热情。

尤其是在推理能力上,免费用户的日均使用率从不到1%上升到了7%,Plus用户则从7%提升到了24%。

对此,奥特曼也激动得连发多条推文,表示要让大家能多多用上GPT-5。

对于Plus用户来说,这一数字是:3000次每周!

不过,要说慷慨,那还得看马斯克。

就在刚刚,Grok 4正式向全球所有用户免费开放了!

只需使用「自动」模式,Grok便会将复杂查询交给Grok 4处理。

偏爱自主选择?随时切换至「专家」模式,即可始终调用Grok 4。

奥特曼或许想要「教育」用户该如何「正确」地使用模型,但马斯克可不管那么多。

想想最近的AI女友和Grok Image的热辣模式。

对,所以马斯克这边完全不走「克制」路线,Grok的打法就是把刺激强度、可得性、人格化一起拉满,让用户形成「高频—高爽—高留存」的上瘾曲线——而且是实打实用产品设计把你拽进去的:

门槛先砍到最低:直接宣布在限时窗口「Grok4对所有用户免费可用」,Auto模式就会把重任务路由到Grok4——你不需要做任何选择,就能尝到顶配模型的甜头。

然后把「刺激阈值」拉高:Grok Imagine上来就放出NSFW的「Spicy/热辣模式」,和主流友商的保守策略形成强烈反差,天然自带猎奇扩散体质(媒体也在密集报道)。

再用「陪伴人设」锁定情绪:xAI推出拟人化的AI角色(比如二次元风格的Ani),把工具变成「会调情、会陪伴」的对象,情绪绑定与留存就此闭环。

争议也是流量:从「名人不雅深伪」到性别偏见输出,舆论风险被不断放大,但反过来也推高了话题热度与试用欲望(哪怕平台做了部分模糊/拦截)。

对比之下,OpenAI在「依赖与克制」上反复自省。

而xAI的路径更像一套极致增长黑客:

①降低付费/使用门槛→②提供更强刺激内容→③用角色化加深情绪连接→④借平台闭环加速扩散→⑤以高争议维持关注度。

OpenAI在纠结「要不要管住你」,而马斯克在设计「怎样让你停不下来」。

这种对比,让人不禁联想到Hinton老爷子刚刚在WAIC上的对话内容,我们开始把AI更多看作是伙伴,而不是工具。

在AI技术可无限外延的这个时代,真正难的不是把能力推到极致,而是在关键处「踩刹车」——让人类站在主导位置,清醒地、长期地受益于它。

GPT-5这次风波,也许值得我们重视和深思。

参考资料:

​https://x.com/sama/status/1954703747495649670​

#一个半月高强度Claude Code使用后感受

一个半月烧掉 3000 美元 token 后,Claude Code 仍是唯一能让开发者真正进入“vibe coding”的工具——但别让它把你也卷死。

王巍,圈内人称「喵神」,objc 中国项目发起人。曾开源广受开发者喜爱的 Xcode 插件 VVDocumenter。作为一名资深开发者,王巍通过这篇文章记录了他在持续使用 Claude Code 的实际感受以及使用编码 AI 工具的一些经验。文中有一些反直觉且很有意思的实际感受,比如,「如果你真的想进入深度的 vibe coding 状态,让 AI 发挥最大潜力,这种随时准备接管的心态反而会成为阻碍。人类开发者的干预时机和直接下场写代码的时候越少,最终呈现出的效率和效果反而越好。」

原文地址:​​https://onevcat.com/2025/08/claude-code/​

图片

六月中旬某个闷热的夜晚,在初浅尝试使用 API Key 帮我迅速完成了一个任务后,我毫不犹豫地点下了 Claude Max 的订阅按钮。

作为一个“买断制”时代的遗老,每月一两百美金的订阅对当时的我来说还是太超前了。

但是在一个半月之后回头望去,看着那些按照 API 计价的被我烧掉的价值 3000 多美金的 token,我似乎捡到了一个超大便宜?不过最近 Anthropic 宣布了新的 weekly 限制,想来大概针对的就是我这种“重度”用户吧。

所以近几天来我也在研究有没有其他替代方案,可以让我从这种限制中解脱出来。不过尝试了一圈下来(包括 CC 接其他 API,也包括像 Codex/Gemimi/Qwen/Crush/Amp/AugmentCode 等等),似乎一时半会儿在这个领域 Claude Code (后文用 CC 指代) 还是没有竞争对手。既然还得续费,那不如阶段性地做一个总结,来记录下这一个半月使用 CC 的一些感受吧。​

Vibe Coding 的迭代速度

说到 vibe coding,最让我震撼的其实不是模型有多智能或者是能完成什么尖端任务,而是由它带来的产品迭代速度的提升。有个有意思的现象:Claude Code 本身就是 Anthropic 内部 dogfooding 的产物:从六月中旬我开始使用到现在,短短一个半月时间里,我们见证了很多崭新的功能:自定义命令让我们避免重复输入一样的 prompt,Hooks 功能可以在各种事件触发时自动执行命令,Subagent 则解决了上下文窗口的限制问题。这种更新频率,放在传统软件开发时代简直是天方夜谭。

不光是 CC,整个 AI 辅助开发领域都在以令人眩晕的速度前进。几天甚至几小时完成一个产品,不再是不可能的任务。

不过,这种加速带来了一个有趣的悖论:AI 确实解放了开发者的双手,让我们不用再纠结于那些繁琐的样板代码。但另一方面,当所有人都开上了“法拉利”,赛道上的竞争反而变得更加激烈了。以前你可以精心打磨一个功能,现在?竞争对手可能已经用 AI 快速迭代了三四个版本了。手工匠人式的打磨方式,无疑将被卷死在沙滩上。

说实话,有时候我会怀念那个慢工出细活的年代。但现实就是这样,技术的车轮滚滚向前,你要么跟上,要么被碾过。去适应和利用它,而不是被裹挟前进,可能才是新时代的立命之本。如果这篇文章你只能记住一句话,那我希望是这句:在 vibe coding 时代,千万别让工具把自己逼死。 效率是提高了,但人还是人,我们需要的不仅仅是更快的开发速度,还有思考的时间和生活的空间。​

从传统 Editor AI 的转换

在投身 CC 之前,我也算是各种 AI 编辑器的老用户了。从最早期的 Cursor,到后来的 Windsurf,再到 GitHub Copilot 和各种 VS Code 插件如 Cline,基本上市面上叫得出名字的我都试过。但说实话,这些 Editor AI 工具并没有像 CC 这样给我带来那么大的冲击和震撼。。

我想,这类编辑器工具最大的问题是可能是缺少全局感。想象一下你使用这些编辑器 AI 时的经典场景:打开一个文件,选中几行代码,然后让 AI 帮你改改。这种交互模式天然就把开发者的思维框在了当前文件甚至当前这几行的范围内。这种模式对于刚从传统编程过渡到 AI 辅助编程的开发者来说,确实是个不错的起点。毕竟,你还保留着对代码的掌控感:AI 写得不好?没关系,我随时准备自己上。但问题是,如果你真的想进入深度的 vibe coding 状态,让 AI 发挥最大潜力,这种随时准备接管的心态反而会成为阻碍。人类开发者的干预时机和直接下场写代码的时候越少,最终呈现出的效率和效果反而越好。另外更致命的是同步问题:AI 在上下文中认为文件是 A 状态,实际文件已经被开发者插手改成 B 状态了,然后你让 AI 基于它的认知继续修改,结果可想而知:要么产生混乱,要么 AI 需要再读一遍所有内容。有时候光是解决这种不同步带来的问题,花的时间就比写代码还多。

而命令行工具从理念上就不同:没有华丽的界面,没有实时的代码提示,开发者在过程中难以直接插手“微调”。但恰恰是这种简陋,反而让它能够更深入地理解和操作整个项目。它不会被某个文件或某几行代码限制视野,而是从项目的根目录开始,建立起对整个代码库的认知。没有了编辑器这个中间层,开发者想直接修改代码变难了,这在某种程度上“强迫”你更多地依赖和使用 AI,给它更多信息和反馈,这反而能发挥出更大的效能。

当然,我不是说编辑器 AI 就一无是处。本质上,当前两者的差异更多来自于使用方式和模型质量,而非架构设计。CC 背靠 Anthropic 这棵大树,模型质量自然没得说。更关键的是,它可以肆无忌惮地使用 token(虽然最近加了 weekly 限制),这种量大管饱的豪横,确实在末端引起了质变,让最终效果好了不止一个档次。如果让编辑器 AI 也能随便烧 token,可能效果未必会差到哪里去。

但现实就是现实,至少在当下,如果你想体验真正的 vibe coding,CC 可能是唯一选择。​

认识 CC 的边界和长处

就像所有工具一样,CC 或者说 AI 辅助编程,也有自己擅长和不擅长的领域。认清这些边界,才能让你的 vibe coding 之旅更加顺畅。

如果你让 CC 分析一段复杂的代码逻辑,理解各个模块之间的调用关系,然后画一张时序图或者架构图,它会完成得相当出色。这种需要理解和总结的任务,正是 LLM 的看家本领。又或者,你想快速实现一个算法、搭建一个项目框架、编写测试用例,CC 都能给你满意的答案。

但是,千万别指望它在所有场景下都能大杀四方。比如说,你想在整个代码库里做一次全局的变量重命名,或者进行某些需要精确匹配的复杂重构,那老老实实用 IDE 的重构功能会靠谱得多。LLM 毕竟说到底也只是一个概率生成器,这类需要 100% 准确性的任务,从起源上就不是 LLM 的强项。如果你真的需要使用 AI 帮助完成这类任务,那么请它写一段脚本去执行并修改代码,往往会比直接指挥它去修改文件,要来的靠谱。

还有个更现实的问题:训练数据的偏差。CC 在处理前端代码或者 TypeScript 时简直如鱼得水,各种框架信手拈来,CSS 炫技让人眼花缭乱,最新的 API 也了如指掌。但换成 iOS/Swift 开发?那可就是另一番景象了。各种过时的 API 用法是家常便饭,有时干脆臆造一些不存在的方法,幻觉严重,而更冷门的语言和框架情况则更加糟糕。训练集丰富程度的差异直接决定了模型在不同领域的表现。

市面上也存在着其他不少基于命令行的 code agent,像是 Crush,Gemini CLI 等等。但实测下来,它们现在和 CC 还存在很大差距。CC 作为“软硬件一体”解决方案带来了巨大的优化空间:Anthropic 既是模型提供方,又是工具开发方,这种垂直整合让他们可以针对具体使用场景进行深度优化。这就像苹果的生态系统——当你同时控制硬件和软件时,能做到的事情远超各自为战的组合。其他竞品要么受限于模型能力,要么受限于工具设计,很难达到 CC 这种浑然一体的使用体验。​

思考先行还是实践先行

CC 提供了一个很有意思的功能:Plan Mode。在这个模式下,你可以先和 AI 进行充分的讨论,制定详细的实施计划,然后再开始实际的编码工作。这就引出了一个有趣的话题:我们是应该追求先想清楚再动手,还是先动手搞出东西来之后再慢慢改?

在传统软件开发领域,这个争论也由来已久。瀑布派说要先设计后实现,敏捷派说要快速迭代。到了 AI 时代,这个问题又有了新的含义。

我见过两种极端的使用方式。第一种是「规划魔」:进入 Plan Mode 后,和 AI 讨论个把小时,上下文用光两三次,从架构设计到具体实现,从错误处理到性能优化,事无巨细地规划每一个细节。等到真正开始写代码时,基本上 AI 就是照着计划一步步执行。另一种则是「莽夫流」:上来就是一句「给我实现一个 XXX 功能」,然后就看着 AI 噼里啪啦地写代码,写完了发现不对再改,改完了又发现新问题,如此循环往复。

哪种方式更好?也许乍看下来先规划再执行更好?但我的答案可能会让你失望:要看情况。

如果你是个经验丰富的开发者,对项目架构已经有了清晰的认识,那么先进行充分的规划确实能让后续的实现更加顺畅。特别是对于那些需要遵循特定架构模式的既有项目,Plan Mode 能帮你确保 AI 生成的代码符合项目规范。我自己就经常在 Plan Mode 里和 AI 讨论:「我们的项目使用了 MVVM 架构,新功能应该怎么拆分到各个层?」 「这部分内容已经有类似实现了,你需要参考现有实现和模式」, 这种讨论能让 AI 更好地理解项目的整体结构,生成的代码质量更高,开发者对具体代码的掌控也更好。

但如果你对某个技术栈完全不熟悉,或者正在做一个全新的探索性项目,那么「先干起来」可能反而是更好的选择。这种情况下,很多时候你根本不知道自己不知道什么。所以与其空想,不如让 AI 先写个原型出来,跑起来看看效果,发现问题再迭代。这种方式特别适合那些「短平快」的项目,或者你只是想快速验证一个想法。

我个人的偏好?我更喜欢先进入 Plan Mode,和 AI 讨论后再开始实施。对我来说,日常维护已有代码库的工作是占大头的,我需要更稳定和可靠的迭代,先 plan 有利于我掌控全局。但在接触新技术栈时,我也不太愿意直接莽起来。不同技术栈下,很多开发的理念是共通的:如何组织可维护的架构(不仅为了人类,也为了 AI 今后进行维护,合理的组织结构还是必要的),如果调度和安排代码以保证高效,各个模块的连接方式等。就算是新技术栈,适当的讨论相比无脑梭哈,也提供了一种更有效的学习方式。但是这样做的代价是慢,如果着急上线功能,或者写的是可以无视代码质量的「快消品」,那么事无巨细的 plan 可能就不太适用了。

最后想说的是,Plan Mode 还有个隐藏的好处:它能帮你整理思路。有时候你觉得自己想清楚了,但真要说出来或者写下来,才发现还有很多细节没考虑到。和 AI 的对话过程,其实也是一个自我梳理的过程。这算是「橡皮鸭调试法」的变种,在 vibe coding 时代依然很有价值。

Claude Code 的 Best practices 官方博文中介绍了几种常见的 workflow,比如:

  • 探索,计划,编码,提交
  • 编写测试,提交,编码,迭代,提交
  • 编写代码,截图,迭代

相比于直接用 prompt 命令 CC 开始干活,先指导它对代码库的现状进行理解,往往会得到更好的结果。参考这些常见 workflow 并逐渐发展出自己的使用 AI 的 style,也是一种成长。​

小步迭代还是放飞自我

在手工编程时代,一天能写几百行代码就算是高产了。但 vibe coding 彻底改变了游戏规则:现在,你可以在十几分钟内生成上千行代码,甚至一口气完成整个项目。这种「生产力爆炸」带来了一个新问题:我们应该如何使用这种能力?

我见过的使用方式大致分两派。一派是「小步快跑」:每次只让 AI 完成一个小功能,验证没问题后再进行下一步。另一派是「一步到位」:直接把整个需求扔给 AI,让它一次性生成所有代码。更极端的,还有人会开启 ​​--dangerously-skip-permissions​​ 模式(也就是所谓的 yolo 模式),让 AI 可以不经确认就执行任何操作。

两种方式我都深度尝试过,结论是:如果能选,小步迭代往往总是更好的选择

举个例子,有次我想重构一个模块,大概涉及七八个文件的修改。我当时想,既然 AI 这么厉害,那让它一次性搞定吧!于是我详细描述了需求,然后就看着 CC 开始疯狂输出代码。几分钟后,上千行代码的修改完毕,编译也通过了。我心想:这也太爽了吧!

然而,实际开始尝试时,噩梦开始了。首先是一个小 bug,因为上千行的修改肯定是懒得看的,所以只能描述情况,让 AI 去修复;修复过程中又引入了新问题;再修复,又有新问题…几轮下来,代码库已经面目全非。由于一次性改动太多,开发者失去了掌控,对于修改不理解,也就无法辨别哪些修改是必要的,哪些又是 AI 为了修复新 bug 临时加上的。最后的结果,往往只能是 git reset 整个修改,重新开始。

这类经历让我明白了一个道理:AI 生成代码的能力很强,但它对整体架构的把握和长期维护的考虑还是有限的。一次性生成太多代码,就像是在黑暗中狂奔——你可能跑得很快,但也可能一头撞上墙。而且,当出现问题时,调试的复杂度会呈指数级增长。

相比之下,小步迭代的好处显而易见:

1.  可控性高: 每次只改动一小部分,出问题了也容易定位和回滚。

2.  能够理解: 你能跟上 AI 的思路,理解每一步在做什么。

3.  质量保证: 可以在每一步后进行测试,确保代码质量。

4.  学习机会: 通过观察 AI 的实现方式,你也能学到新东西。

当然,我不是说「放飞自我」就完全不可取:在进行新功能实现时,如果已经进行了充分讨论和规划,那么确实不太需要人类的监督,CC 就可以完成大部分工作。如果你真的想尝试「放飞自我」的开发方式,我有几个建议:

  1. 必须有完善的测试: 采用 TDD 的方式,先写测试(当然这也是 AI 来写),再让 AI 实现功能。这样至少能保证基本的正确性。
  2. 做好版本控制: 在开始之前创建新分支,随时准备回滚。
  3. 分模块进行: 即使要一次性完成很多功能,也尽量按模块来组织,不要把所有东西混在一起。
  4. 交叉评审: AI 生成的代码看起来能跑,但可能隐藏着各种问题,对于生成的代码,不要照单全收。最简单的方式,就是找到另一个 AI,将变更喂进去,看看有什么需要改进的地方,这种迭代往往能收获不错的结果。​

任务规模和上下文制约

人类和 AI 在某个方面惊人地相似:处理小任务时游刃有余,面对大项目就容易手忙脚乱。对 CC 来说,这个问题更加明显,因为它还要面对一个硬性限制——200k 的上下文窗口。在当前动辄模型给 1M 窗口的年代,这个限制又是确实相当痛苦。

体感上来说,普通使用个十几二十分钟,你就会看到上下文使用量飙到 90% 以上。这时候 CC 就像一个塞满东西的行李箱,再想往里装点什么都困难。更糟糕的是,如果在执行任务的过程中触发了自动压缩,整个 agent 可能会陷入混乱,忘记自己在做什么,或者陷入死循环重复做一件事。

所以,如何在有限的上下文窗口内完成复杂任务,就成了使用 CC 的一门必修课。​

任务拆解是关键

与其给 AI 一个笼统的「帮我完成 XXX 系统」的需求,不如先把大任务拆解成具体的小任务。这一步最好在 Plan Mode 中进行,让 AI 帮你一起梳理。比如:

我:我想实现一个用户认证系统,帮我拆解需求
AI:好的,让我们拆解一下需要完成的任务:
1. 设计数据库表结构(用户表、会话表等)
2. 实现注册功能(验证、加密、存储)
3. 实现登录功能(验证、生成 token)
4. 实现中间件(验证 token、刷新机制)
5. 添加测试用例
...

对于一个 session 难以完成的任务,可以让 AI 把讨论内容进行文档化,保存到项目里(比如 ​​dev-note/auth-implementation-plan.md​​)。这样,即使换了新的 session,你也可以让 AI 读取这个文档,快速恢复上下文。​

使用 Subagent

CC 最近推出的 Subagent 功能在一定程度上缓解了这个问题。在以前,当 CC 使用 Task 工具进行任务时,实际上是在一个全新的上下文中进行工作。这相当于扩展了主 Session 的上下文窗口。

以前我们只能通过 prompt 技巧来「诱导」CC 使用 Task 工具,效果时好时坏。现在有了专门的 subagent 配置,稳定性大大提升。你可以为不同类型的任务创建专门的 agent:

  • 代码分析 agent:专门负责理解现有代码结构
  • 代码审查 agent:检查代码质量和潜在问题
  • 测试 agent:编写和运行测试用例
  • Git agent:处理代码提交和 PR

通过合理链式调用这些 agent,即使是大型任务也有机会能在同一个 Session 里有条不紊地完成。每个 agent 都在独立的上下文中工作,不会相互干扰,也不会耗尽主 session 的上下文。​

在合适的时机手动 compact

虽然 CC 会自动进行上下文压缩,但我的经验是:主动出击会更好。当你看到上下文使用量接近用满时,不妨手动执行 ​​/compact​​ 命令。这可以让压缩发生在一个更自然的断点进行。比如刚完成一个功能模块,或者刚跑完一轮测试。这时候压缩,AI 不太会丢失重要信息。而如果等到自动压缩,可能正好在你改代码改到一半的时候触发,那就很容易出问题。

另一个技巧是:对于相对独立的任务,干脆新开一个 session。反正你已经把任务计划文档化了,新 session 读取文档就能快速上手。这比在一个快要爆炸的 session 里硬撑要明智得多。

当前在 AI 辅助编程中,上下文窗口依然是稀缺资源,要像管理内存一样管理它。合理规划、及时清理、必要时「换个房间」,才能让 vibe coding 的体验保持流畅。​

善用命令和周边工具​

Command 和 Hooks

我有个暴论:凡是重复了两次以上的类似 prompt 都应该用命令来表述!

每次都输入类似的 prompt 真的非常无趣:「运行测试并修复失败的用例」、「提交代码时请使用规范的 commit message」…如果你发现自己在重复类似的请求,立刻停下来,花一分钟配置一个 command。

Command 相比 subagent 有个巨大的优势:它拥有完整的当前会话上下文。如果你的任务和当前正在进行的工作高度相关,那么 command 的效率会更高。比如我常用的几个:

  • ​/test-and-fix​​:运行测试,如果有失败自动尝试修复
  • ​/review​​:对当前修改进行代码审查,给出改进建议
  • ​/commit-smart​​:分析改动,生成合适的 commit message 并提交

至于 Hooks,说实话我用得不多。理论上它能在特定事件触发时自动执行命令,比如每次提交前自动运行测试。但实际使用中,我更喜欢保持一定的控制权,不太喜欢太多自动化的东西在背后悄悄运行。不过这纯属个人偏好,如果你的工作流比较固定,Hooks 确实能省不少事。​

MCP

通过 MCP 补充模型不知道的知识。我最常用的几个场景:

最新的 Apple 文档

Apple 的文档页面大量使用 JavaScript 渲染,因此 CC 的 WebFetch 抓不到内容。但通过 apple-docs-mcp,我可以获取最新最准确的 API 文档。这对 iOS 开发来说简直是救命稻草。

项目管理集成

通过 mcp-atlassian 连接 JIRA,可以让 CC 直接读取和更新任务状态,或者自动将分析的情况和实现进行回复,保持沟通畅通。

LSP 支持

CC 暂时还原生支持 LSP,但通过 mcp-language-server,可以获得准确的代码补全和类型信息。特别是对于那些 CC 不太熟悉的语言,这个功能价值巨大。

配置 MCP 可能需要一点时间,但绝对物有所值。它让 CC 从一个通用的工具变成了为你量身定制的助手。​

编译、分析和测试

永远记住:AI 生成的代码,未经测试都是废品。

我的工作流程通常是这样的:

  1. 在 CLAUDE.md 中详细列出项目的编译命令、测试命令、linter 配置
  2. 每完成一个小功能,立即编译
  3. 编译通过后,运行相关测试
  4. 测试通过后,运行 linter 和 formatter

听起来很繁琐?其实配置好之后,这些都可以通过简单的命令完成和 subagent。关键是要让这些步骤成为习惯,而不是等全部写完再说。

如果你的项目支持 TDD,那就更好了。先让 AI 根据需求写测试,然后再实现功能。这样生成的代码质量通常会高很多,因为 AI 有了明确的目标。

当然,根据编译器的废柴程度(你们大概应该知道我在说谁..)和项目的规模,编译一次的时间代价可能会很大。这种情况下,我会拆分模块,尽量只去编译改过的模块。如果这比较困难,那么也可以使用 ​​git worktree​​ 来创建多个工作目录:这样你可以让多个任务并行进行,互不干扰,也算是弥补等待编译所带来的时间损失。​

Code 之外,大有可为

别把 CC 只当成写代码的工具,它的能力远不止于此。

我现在的日常使用场景:

  • 代码提交和 PR:写完代码后,直接让 CC 分析改动、生成 commit message、推送代码、创建 PR。它生成的 PR 描述往往比我自己写的还要清晰。
  • 撰写技术文档和 wiki: 让 CC 分析代码生成 API 文档、更新 README、编写使用示例。它的文档往往更加规范和完整,甚至不会出现语法错误。
  • JIRA 更新:完成任务后,让 CC 更新 ticket 状态、添加评论回复用户、甚至创建新的子任务。再也不用在网页上点来点去了。
  • 数据处理:需要批量处理文件、转换格式、清洗数据?以前我会写脚本,现在直接描述需求让 CC 来做。而且每次需求不同时,不用维护一堆一次性脚本了。

更有意思的是 CC 解锁了随时随地工作的可能性。通过像是 VibeTunnel 或者任意手机 SSH 客户端,配合 Tailscale,我可以在任何地方连接到家里的工作机器,用手机指挥 CC 干活。虽然不适合与 CC 进行复杂的计划和交互,但处理一些简单的需求,比如跑个脚本、修个小 bug,更新下文档什么的,是完全没问题的。出门在外突然想到什么,立刻就能实现,这种感觉很奇妙。

最后,个人强烈推荐配一个好的麦克风。在 vibe coding 时代,用语音输入描述需求,比打字更加自然流畅。现在的语音识别已经很准确了,而中英文混杂也能处理得很好。想不到当年为了当游戏主播买的麦克风,吃灰这么多年后,终于在今天找到了真正的用武之地。

图片

当然,Mac 系统自带的语音输入是幼儿园级别,从准确性和易用性上都不值一提。你肯定需要一款 AI 转译的 app,我也试用过一些,总结几个当前市面上的优秀选择:

  • MacWhisper:以前买的,现在在用,原生 macOS app,作者支持速度很快。
  • VoiceInk:提供开源以供确认,隐私安全,付费省心。
  • Wispr Flow:订阅制,小贵,但胜在 UI 漂亮,UX 流畅。

它们都是很不错的选择,功能也都类似。除了基础的语音识别和输入外,再配合转译后接入 LLM 进行文本润色/修改的能力,根据不同场景将我的语言自动转为合适的文字和格式。这些 app 把人机交互提升了一个档次,语音输入的内容往往比我自己劳心劳力组织的文字还要清晰精确。现在,绝大多数情况下,我和同事用不同语言交流时,以及自己在书写 PR 和各种文档时,我几乎也都是说中文,然后让 AI 当我的「同传」转换为合适的目标语言,以此确保准确和及时。​

体感降智和更多限制

接下来要说的内容,有些是我自己的感受,有些是社区里朋友们的吐槽。很多东西无法证实或证伪,大家权且一听。​

Opus 远强于 Sonnet

这几乎是板上钉钉的事实:Opus 的效果比 Sonnet 好很多。毕竟价格摆在那里,Opus 是 Sonnet 的 5 倍。100 美金的 max 订阅,5 小时时间窗口的 Opus 只能跑几个小任务额度就用光了。200 美金的订阅也只是勉强够用。

如果你是 100 美金档的用户,建议养成手动切换模型的习惯。日常用 Sonnet 处理简单任务,遇到复杂的架构设计或者棘手的 bug,再切到 Opus。​

时间玄学

这个听起来很离谱,但确实有体感:美国半夜(也就是北京时间的白天)的效果比美国白天要好。实际上软件开发最活跃的还是中美两国,而 Anthropic 在中国其实是没有正规渠道能用的。所以可能是因为美国夜里使用的人少,服务器压力小,从而模型性能不会退化?总之,如果北京时间大清早遇到无法解决的问题,留到下午时段处理,可能会有惊喜。​

降智疑云

最让人担心的是这个:个人体感,前一个月的使用体验明显比最近两周要好。开始我以为是自己的错觉,但社区里抱怨的声音也越来越多。合理的猜测是大量开发者涌入导致的资源紧张。就像一个原本只供应 100 人的自助餐厅,突然来了 1000 人,菜品质量下降几乎是必然的。结合最近 Anthropic 寻求新的融资的新闻和推出 weekly 限制的政策,想要在这个定价和使用策略下盈利,似乎是不太可能的。​

限制的阴霾

从 8 月底开始,weekly 限制正式实施。虽然官方说是为了公平使用,但谁都知道这背后是算力不足的无奈。而且不排除未来会有更严格的限制。

这让我想起一个老段子:中国先解决显卡问题,还是美国先解决电力问题?在这两个问题解决之前,AI 发展的瓶颈可能不是算法,而是最基础的硬件资源。​

一些应对策略

面对这些限制,可能我们不得不采取一些「省着用」的技巧:

  1. 分级使用:简单任务用 Sonnet,复杂任务才上 Opus
  2. 错峰使用:避开美国工作时间,选择服务器负载低的时段
  3. 提高 prompt 质量:一次说清楚,减少来回对话消耗的 token
  4. 合理使用 subagent:把消耗大的任务分配给 subagent
  5. 保持多个选择:虽然 CC 目前最强,但保持对其他工具的关注​

总结和未来展望

一个半月的 CC 使用经历,有惊喜,有担忧,有对未来的憧憬,也有对现实的无奈。但总的来说,我感受到的是自己切实地站在在历史的进程之中。Vibe coding 不仅仅是一种新的编程方式,更是一种全新的思维模式。它要求我们重新思考什么是编程、什么是创造、什么是价值。在这个 AI 与人类共舞的时代,愿我们都能找到属于自己的节奏。

最后,回到文章开头的那句话:在 vibe coding 时代,千万别让工具把自己逼死。技术是为人服务的,不是相反;工作是让人有机会追寻和思考自我的,而不是让自己迷失。保持这份清醒,可能比掌握任何具体的技巧都更重要。

#是「福x尔x摩x斯」,也是「列x文x虎x克」

智x谱把OpenAI藏着掖着的视觉推理能力开源了

光看图,你能猜出这是哪儿吗?

图片

当同事出差回来扔到群里这么一张图,我们也是猜了半天,但毫无头绪。

直到另一位同事把图扔给智谱的新模型 ——GLM-4.5V,这个谜团才解开。

图片

把照片截图传给 GLM-4.5V(避免模型利用照片的 EXIF 元数据),它很快就推理出了结果。

没错,图里的地方是多瑙河畔。尽管同事拍照的角度和风格和小某书上的精美照片大相径庭,但智谱的新模型还是通过深度分析给出了准确答案。 

你可能要说,这个能力,OpenAI 的 o3、o4 mini 早就有了,没什么稀奇。但如果我告诉你,这个模型是开源的呢?

听说,它还参加了大名鼎鼎的「图寻」游戏全球积分赛,和里面的两万多名人类玩家对战了 7 天。

出于好奇,我们打开这个游戏玩了玩,结果一上来就懵了:这比赛只给 3 分钟时间思考,碰到带地标的还好,像这种普通的街道、山路,不积累点人文、地理知识,连大概范围都不好确定,更别提按照题目要求定位出经纬度了。

图片

图片

但就是在这样的赛制里比了 7 天之后,GLM-4.5V 击败了 99.99% 的人类玩家。

这个游戏玩得好意味着什么?意味着 GLM-4.5V 拥有了超强的视觉推理能力,它能够自动识别图片中的细微线索 —— 从建筑风格、植被类型、道路标识,到天空颜色、光线角度等环境信息,并基于这些信息进行推理,在必要时,它还会主动调用工具去分析图像中的关键细节。 

理论上,这种超强的视觉推理能力不仅可以用来识图定位,还可以用来完成一些更实际、更复杂的现实任务,比如处理复杂图表、多图长文本……

为了验证这个推测,在 GLM-4.5V 开源上线之后,我们第一时间进行了全面实测。测试结果超出预期,因为除了前面提到的任务,它在处理长视频方面也很出色,而且对于网页等交互界面元素的解读也很到位,这让它具备了作为 GUI Agent 应用底层模型的潜力。

整体来看,无论是国内还是国外,GLM-4.5V 都称得上是第一梯队的开源视觉推理模型。能把这样的模型开源出来,智谱的诚意确实值得点赞。 

除了模型,智谱还同步开源了一个桌面助手应用。它基于 GLM-4.5V 模型的原生能力,能够通过截屏和录屏实时获得屏幕信息,处理多种视觉推理任务,比如和你一起写代码、看视频、解谜题。感兴趣的同学可以去体验一下。

图片

  • 体验地址:https://chat.z.ai/
  • HuggingFace 开源地址:https://huggingface.co/zai-org/GLM-4.5V
  • GitHub 开源地址:https://github.com/zai-org/GLM-V
  • 桌面助手下载地址:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
  • 魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

拿到图,它就是福尔摩斯

对图像的识别与推理,一直是多模态模型能力的重要试金石。GLM-4.5V 在这一领域展现出强大的综合实力。它就像一个侦探一样,能从照片的点滴细节中一点点抽丝剥茧,寻找答案。 

看到这张照片,估计很多人都有些摸不着头脑,它制造了一个视觉错觉,让人第一眼误以为男人穿了高跟鞋, 对于这种强错位摄影,不知 GLM-4.5V 表现如何?

我们输入提示:这张照片,到底谁站着,谁坐着?

图片

GLM-4.5V 几乎不需要长时间推理,就直接给出了准确的答案,站着的是穿蓝色上衣和白色裤子的人,坐着的是穿紫色衣服的人。 

图片

我们进一步追问坐着的是男生还是女生,对人类来说,这个问题可能比较难以回答。然而,GLM-4.5V 却能够轻松地做出判断。 

图片

这也意味着,GLM-4.5V 在面对含有视觉错觉、人物遮挡和细节干扰的图片时,依然能够快速锁定有效特征进行精确识别。这样的能力,不仅适用于趣味图像辨析,更在安防监控、人物识别等需要高准确率的场景中具备实用价值。  

实际上,GLM-4.5V 的能力远不止于此,它甚至能够通过风景或街景图片,准确推测出具体的地点,甚至给出精确的经纬度。

我们经常看到有人在网络上分享旅游照片,自己心中也有去一探究竟的冲动,但往往因为不好意思直接询问而作罢。现在,借助 GLM-4.5V,只需要一张照片,它便能为你揭示照片背后的地点信息。

我们输入一张图,然后输入提示:「这张图来自哪里。请在得出结论之后用 json 格式输出:大洲 - 国家 - 省份 / 州 - 市 - 地名 - 纬度 - 经度,键名为:'continent', 'country', 'state', 'city', 'place_name', 'lat', 'lng'。」

图片

GLM-4.5V 通过高耸的通讯塔,山体岩石裸露、植被分布等特征,推断出这是泰山,并给出相应的经纬度。

图片

再来一个小众一点的地方。

图片

只见 GLM-4.5V 精准定位到了 HDC 这个关键信息,然后给出这是华x为小镇中的一座建筑。

图片

如果照片没有文字信息,GLM-4.5V 能否猜对地点?我们输入如下图片:

图片

GLM-4.5V 开始分析图片中的关键元素,如城墙、砖石结构、行人、红色灯笼装饰,以及远处的现代建筑和树木。结合这些线索,GLM-4.5V 推测出这是西安的明城墙。 

图片

接下来,我们考察 GLM-4.5V 在字符识别与文字理解方面的能力。

我们选取了一张手写草稿图,图中写有「世界那么大」四个字,但为了增加识别难度,这张图不仅拍摄模糊、光线不佳,而且文字还呈倒置状态。这对模型在视觉处理、OCR 能力以及图像旋转鲁棒性等方面提出了极高的要求。

图片

结果 GLM-4.5V 回答正确。

图片

在接下来的测试中,我们让 GLM-4.5V 完成一项看似简单却颇具挑战性的任务,读取时间。此前,来自英国爱丁堡大学等机构的研究者在一项研究中指出,AI 系统读取时钟的准确率仅为 38.7%。

那 GLM-4.5V 表现如何呢?我们输入如下照片:

图片

在这张图中,想要判断出时间还是有点难度的,首先这是夜晚拍摄,光线条件可能影响时钟指针的清晰度,其次图片中的时钟显示位于建筑的顶部,而时钟的时针和分针比较模糊,可能不易精确分辨,再就是拍摄角度比较偏,距离较远。尽管如此,GLM-4.5V 还是给出了准确的时间。

图片

这一点尤为重要,因为在实际应用中,图像往往并非完美无缺,存在一定的噪声和不确定性。GLM-4.5V 能够在这些不完全和模糊的条件下,仍然做出准确的判断,这为其在复杂环境下的应用提供了更强的实用性。

即便是相似的两张图片,GLM-4.5V 也能凭借细节进行精准区分。比如,下面这两张同为长城的照片,你能看出它们分别位于哪里吗? 

图片

GLM-4.5V 全部答对了,其根据墙体保存完整度,游客数量等因素,综合判断出左边是慕田峪长城,右边是八达岭长城。

图片

吉娃娃和松饼也让很多大模型傻傻分不清,两者颜色、质地、构图极为相似。对于人类来说不难分辨;可对大模型而言,这是对纹理辨识、边缘结构理解和上下文缺失情况下推理能力的严酷考验。

图片

这次 GLM-4.5V 也答对了,只见它逐行进行分析,最终给出了准确答案。

图片

总体来看, GLM-4.5V 在图像识别方面展现出了「侦探级」的分析能力以及泛化能力,因为很多图片是我们自己拍摄的,不会存在于训练集中。这种强大的能力让 GLM-4.5V 不仅能「看」,还能基于「看」到的东西进行思考,为实际应用场景提供了可靠的技术支撑。

超长视频理解,细节捕捉狂魔 

GLM-4.5V 在网页内容复现上的表现已相当惊艳,而在视频理解方面同样展现了非凡实力。 

我们首先拿宇树最近发布的机器人视频(时长 2 分钟左右)测试了一下,发现模型不仅能对视频进行整体描述,还指出了其中的很多细节,以及这些细节所代表的含义(比如「累计行驶距离达 12.55 公里,用时 3 小时 8 分钟,证明了其良好的续航和自主导航能力」)。这说明,它通过深度推理理解到了视频作者加上这些注解的目的。

图片

接下来,我们测试了一个更长一些的电视剧片段(大概 7 分半),并就电视剧里的一些细节进行提问,比如主人公具体做了哪些事情、做某件事情的时候穿搭是怎样的,GLM-4.5V 都能准确回答。有意思的是,它还能识别主人公的表情,明确指出了几段「哭戏」的大体位置。

图片

当然,这样的模型用来学习是绰绰有余,光是总结视频就能达到天天用的程度。

比如,前段时间 Ilya Sutskever 现身多伦多大学进行了一场精彩的演讲,视频时长 10 分钟左右。对于英文不是很好的小伙伴来说,想听懂这场演讲着实有点难度,这时,GLM-4.5V 可谓是一个很好的小助手。

,时长10:05

Ilya Sutskever演讲原视频

你只需上传视频,然后提问就可以了。

我们首先提问这个视频包含的一些关键信息,只见 GLM-4.5V 思考了一下,然后给出了准确的答案,人物、地点,发生的事件都包括了。

图片

接着,我们让 GLM-4.5V 对 Ilya 的演讲进行总结,GLM-4.5V 以条理化的方式罗列出来,对照原视频后,我们发现它的回答与实际内容基本一致,整体准确度令人满意。 

图片

在体验过程中,我们发现它还可以复制画面中的 PPT,这是之前只能处理语音、文字信息的模型所做不到的,也让 GLM-4.5V 在学习这个赛道上更具实用价值。

图片

以上视频都比较短,那如果是长视频呢?

我们输入了一个时长为一小时零 5 分钟的视频来测试 GLM-4.5V 对视频的理解能力,输入的视频为奥特曼采访。

对于这个长视频,GLM-4.5V 思考了一会,给出了视频主要内容。

图片

接着我们追问了一个问题,第 38 分之后,奥特曼是什么动作?

图片

令我们惊讶的是,对于这样的问题,GLM-4.5V 也能答对:

图片

奥特曼一边回答问题,一边用手势表达。

从短视频到长达 1 小时的内容,GLM-4.5V 都展现出了稳定的理解能力,特别是能精确定位特定时间点的动作细节,这在同类模型中并不多见。对于普通用户来说,这样的能力已经足够实用。

复刻前端就是如此简单

GLM-4.5V 视觉推理能力,在前端复刻场景中体现得尤为明显。

只需一张截图,或是一段视频,GLM-4.5V 就能像一位资深前端工程师一样,精准解析视觉内容,并生成高质量、结构化、可交互的网页代码。

我们首先让 GLM-4.5V 复刻一下 OpenAI 官网,要求是和这个页面布局相似。

图片

OpenAI 网站

只见 GLM-4.5V 思考了数秒,就给出答案了,我们先看结果。可以看到,除了中间的背景图(不额外提供很难复刻),GLM-4.5V 把该网站的模块布局基本都复制了出来,而且排版高度相似。即使是没给背景图,GLM-4.5V 也选择了一个色调非常相似的图来填充,这让该网站看起来非常美观。

图片

GLM-4.5V 生成的结果

GLM-4.5V 是如何做到的呢?其思考过程如下,GLM-4.5V 首先分析了图片中包含的要素,如左边栏的菜单按钮、网页主界面及包含的信息,以及登录按钮等,在分析完之后,开始思考如何编写代码,需要用到哪些库和组件,甚至还考虑到了图片中的字体和颜色等很细微的地方。

思考之后,GLM-4.5V 开始飞速写代码,只用了几秒的时间就把代码写好了,最后给出了一个和 OpenAI 官网相似的网页界面。

图片

GLM-4.5V 思考过程

你还可以点击分享,让更多人看到:

图片

在测试完图片后,我们继续给 GLM-4.5V 上难度,让这个模型根据视频内容进行前端复刻。

我们选择了谷歌网站,然后录了一段视频,在这个视频中,我们点开了一个经常浏览的网站。看看 GLM-4.5V 能不能根据我们的操作,复现一下视频中的内容。

我们输入提示词:帮我生成这个 video 中所展示的 html code ,需要包含视频中的点击、跳转、交互等。

,时长00:14

输入视频

在接到指令后,GLM-4.5V 开始思考,由于这次输入的是视频内容,GLM-4.5V 思考的过程比输入图片思考的时间要长。

GLM-4.5V 首先确认这是 Google 首页,然后注意到我们有「点击 Google PhD」这个操作,确认这是跳转到 Google Research 的 PhD Fellowship 页面。然后 GLM-4.5V 又分析了打开的页面左侧有年份列表(2024 到 2014)…… 在经过有条不紊的抽丝剥茧后,GLM-4.5V 一会儿功夫就给出了结果。

图片

GLM-4.5V 思考过程

我们对比了一下原始网站和 GLM-4.5V 生成的结果,可以看出,网页中的主要元素都包含在内:布局结构几乎一致。排版样式基本还原,标题字号、段落间距与原版接近;配色方案与原始网站没多大区别。

不知大家有没有注意到,生成的网站有了可交互功能,当我们点击 PhD Fellowship 这个选项时,其完美的复现了我们在原视频的操作过程,打开 PhD Fellowship 网站,里面的内容布局和原始布局几乎一模一样。

图片

接着,我们又进行了另一项测试,这次选择了界面更为复杂的 X,提示词为:帮我生成这个 video 中所展示的 html code,要求是可交互的。

,时长00:13

在这个视频中,我们有两次点击动作,一次是点击 Grok、另一次是点击 jobs,可能由于界面布局太复杂,GLM-4.5V 整体结果还算可以,两次点击(Grok、Jobs)都能跳转,说明模型基本复刻了我们的操作, 理解了导航→页面内容的交互因果链,但是在相应的页面下,内容和原始页面有所差距。

图片

最后,我们还测试了优衣库这个网站:

,时长00:15

最后结果如下,两者对比,我们发现基本信息都有,导航栏中的「女性、男人、孩子们」等都包含,并且不同的人群分类下的衣服分类也各不相同。如果在此基础上进行优化,一个好用的网站就建好了。

图片

不管怎么说,GLM-4.5V 根据一张图、一个视频,就能复刻前端的这种能力还是很强的。另外,值得一提的是,这种从视频流中理解并复刻网页的能力完全是 GLM-4.5V 通过泛化能力实现的,而非特定训练的结果,展现了模型卓越的跨模态理解和推理能力。

图表克星

GLM-4.5V 让本地文档处理不再头疼

让 AI 读文件已经逐渐成为大家的习惯。就像 Karpathy 所说,未来 99.9% 的内容都会交给 AI 去读。但很多文件有保密需求,不可以扔给云端大模型,这就凸显了开源模型的价值。但带有大量图表的文件,开源模型处理起来一直有难度。

为了测试 GLM-4.5V 能否解决这些痛点,我们给它提供了一些论文图去解读。首先,对于图中的明确信息(文字等),GLM-4.5V 能够做到非常充分地提取,并放在一起综合分析,甚至也能根据箭头等符号解读其中的逻辑关系。

图片

在我们提供的「GLM-4.5」技术报告中(最近刚刚发布),它也能读懂其中的折线图,看出折线的走势。这说明它不仅能够准确识别和提取图表中的显性信息,更重要的是能够理解图表背后的数据逻辑和趋势变化。

图片

对于一些没有明确数字的柱状图,GLM-4.5V 也能读出大体的数据,这是它根据刻度估算的结果。

图片

这样的读图能力表明,GLM-4.5V 已经具备了处理复杂多模态文档的实用性。这对于那些不便使用云端服务的用户来说,确实是个不错的本地化选择。 

视觉 grounding:会思考的「列文虎克」

在现实生活中,视觉模型的 grounding 能力极其重要。这种能力越强,模型就越能准确理解图像内容,不仅能识别「这是什么」,还能精确定位「在哪里」。它能帮助我们自动检测异常情况,或快速找到指定目标,大大提升了视觉推理的实用价值。 

现在正值暑假,每次去景区都能听见寻人广播,找不到孩子的父母心急如焚。这正是一个 AI 模型可以发挥作用的场景。

我们在小某书上找到了一张景区照片,尝试让模型寻找里面有指定特征的孩子(比如穿黄色上衣),虽然这个孩子在画面中并不显眼,但 GLM-4.5V 还是准确圈了出来。

图片

除了人,GLM-4.5V 还可以识别指定特征的宠物,这或许可以给满大街贴寻宠广告的养宠人提供一些帮助。

图片

当然,并不是每个 grounding 任务都如此「直接」,有些还是需要深入思考的。比如在下面这个例子中,模型首先需要识别出图中的每种坚果,然后结合相关的营养知识来判断具体哪种坚果 Omega-3 含量最高,最后把对应的坚果圈出来。可以看到,不管是哪一步,GLM-4.5V 都完成得很出色。这是之前的目标检测模型所做不到的,也是「视觉推理」能力在 grounding 场景中的核心价值所在。

图片

读屏小能手,GUI Agent 优秀基模 + 1

优秀的 grounding 能力除了前述应用场景外,在 Agent 任务中同样不可或缺。许多 Agent 任务要求模型准确理解屏幕界面的文字内容和各类视觉元素,以此为基础制定后续操作策略。

为验证 GLM-4.5V 在此方面的表现,我们设计了针对性测试。

首先,我们提供了电商商品页面等真实屏幕截图,要求模型定位指定商品并准确标注相关元素。测试结果显示,GLM-4.5V 准确找到了该商品,并圈出了我们要求的元素。 

图片

接下来,我们用一个 PPT 操作界面进行了测试,让 GLM-4.5V 找到改变 PPT 主题风格的按钮,它也精准地圈了出来。这说明 GLM-4.5V 已具备作为 Agent 应用底层模型的核心能力基础。

图片

「好用」的背后

GLM-4.5V 是怎么练成的?  

在测试中,GLM-4.5V 给我们留下了深刻的印象,也让我们好奇这个模型背后的技术细节。

据了解,GLM-4.5V 的诞生有着清晰的技术传承脉络。7 月底,智谱发布了 GLM-4.1V-Thinking,这是一个在 10B 级别表现最佳的视觉语言模型,上线后迅速登上了 Hugging Face trending 榜首。上周,智谱又发布了新一代旗舰模型 GLM-4.5 和 GLM-4.5-Air。在 4.5-Air 基础上,团队沿用了 GLM-4.1V-Thinking 已经验证过的架构设计,训练出了更大更强的 GLM-4.5V。

GLM-4.5V 是一个拥有 106B 总参数、12B 激活参数的视觉推理模型,由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文。

它的视觉编码器采用 AIMv2-Huge,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型引入了二维旋转位置编码(2D-RoPE)和双三次插值机制,增强了对高分辨率和极端宽高比图像的适应性。同时,语言解码器中的位置编码扩展为 3D 形式(3D-RoPE),进一步提升了多模态空间理解能力。

训练方面,GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL):

  • 在预训练阶段,研究团队结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;
  • 在 SFT 阶段,他们引入了显式「思维链」格式训练样本,增强了模型的因果推理与多模态理解能力;
  • 最后,在 RL 阶段,他们引入了全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),模型在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。

凭借这些技术创新,GLM-4.5V 在涵盖图像理解、视频理解、GUI、文档理解等任务的 41 个公开视觉多模态榜单中综合效果达到了开源 SOTA 水平,这和我们在实测中体验到的结果是一致的。

图片

AI 模型竞争新拐点:从跑分到实战 

无论是 OpenAI 前几天的 GPT-5 发布会,还是智谱这次开源 GLM-4.5V 的对外展示。我们能感觉到一个明显的信号:模型厂商对模型在真实场景和体验中的实际效果的重视已经远超之前重点宣传的 benchmark 成绩。这一方面是因为,benchmark 每次更新,都会很快饱和,失去其区分模型性能的初衷。另一方面也是因为,只有体验足够好、真能解决问题的模型才会真的被使用。 

而在真正解决问题的过程中,大家对于视觉推理、Agent 能力的需求可以说是无处不在。一问一答、快问快答的 chat 模式逐渐被深度推理、Agent 模式所取代,而且对话中还要包含大量的上下文信息,尤其是多模态信息。 

GLM-4.5V 的开源恰逢其时。它为开发者提供了一个在真实场景中表现优异的多模态基础模型。而且相比于闭源模型,开源意味着更高的透明度和可控性,开发者可以根据具体业务需求进行深度定制和优化。更重要的是,这种开源策略将推动整个行业从单纯的性能竞赛转向实用价值的创造,让 AI 技术真正落地到各行各业的具体应用场景中。 

从这个角度来看,智谱开放的不只是模型,更是一次让无数开发者共同塑造 AI 未来的机会。

#LLM总是把简单任务复杂化

Karpathy无语:有些任务无需那么多思考

随着推理大模型和思维链的出现与普及,大模型具备了「深度思考」的能力,不同任务的泛用性得到了很大的提高。

借助思维链,大模型能够对任务进行深入分析,完成任务规划与拆解,从而胜任长周期、复杂度高的工作。同时,我们也能更直观地了解模型的推理与分析过程,从中发现执行环节中的问题,并有针对性地调整指令,以更高效地完成目标。

可以说,有了「深度思考」的推理模型,才有了现在拥有多种辅助功能与自主能力的 AI 智能体。

但现在的大模型渐渐有些偏科了。为了构建应用能力更强的智能体,对长周期的复杂任务能力的追求已经影响到了大模型的推理模式。

不知道大家在平常使用 AI 工具的时候有没有发现,打开了深度思考后,一些简单的任务也需要很多的思考,展示了非常冗长的思维链,而不打开深度思考的时候,又很难准确的得到想要的回复。

这种现象越来越明显了,尤其是当大模型进入工作流(例如编码工作)的时候,其负面效应就更加显著。

这不,AI 领域的大牛 Andrej Karpathy 也感觉到不对劲,发了长文推来指出这个令人无语的现象。

image.png

Karpathy 说,「LLM 在默认状态下正变得比我日常使用需求更具『自主代理(Agentic)』倾向,甚至有些超出了我的平均使用场景」。

最明显的的确是编码任务,模型现在往往会进行较长时间的推理,倾向于在整个代码库中列出并搜索(grep)文件,会反复进行网络搜索,对一些在开发中、且明显并不完整的代码里极少出现的边缘情况过度分析、过度思考,甚至在非常简单的查询中,也常常需要几分钟后才返回结果。

尤其是在简单的任务中,比如在运行脚本前快速检查索引错误或其他低级错误,根本不需要如此复杂的任务分析和代码处理。

因此 Karpathy 不得不经常打断 LLM,并用类似这样的指令限制它:「停,你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。」

这带来了很多麻烦,不仅是在编码任务,我们发现日常使用 LLM 工具时候的类似打断情况也越来越多了。

简单拿刚发布几天的 GPT-5 举个例子,发布时 OpenAI 显然意识到深度思考的问题,所以他们强调 GPT-5 是一个集成模型,也就是说,你用它的时候不需要在不同模型之间切换,它会自己决定何时需要深入思考。

但这个问题显然没有这么简单。记得当时 GPT-4o 模型的图像编辑生成功能很好用,但在更新到新模型后就不太一样了。

我们给了 GPT-5 这个指令:「去除图中文字,把这张图变得高清一些,机器人的脸看起来更温和一些」,希望它能够调用图像编辑的功能。

但结果它就开始进行「深度思考」了:

image.png

经过了 38 秒的思考,它考虑了很多细节,但仍然未能开始使用图像生成功能,导致不得不打断它的任务进程。

或许这也是用户们无比怀念 GPT-4o 的原因之一。

正如 Karpathy 指出的,随着默认模式逐渐向这种「超深度思考」的高代理化状态靠拢,我们反而更需要一个相反的选项 —— 一种更直接有效的方式去表达或传达我的意图和任务的紧迫程度,从「快速看一眼」到「花 30 分钟彻底确认后再回来」都能精确指定。

网友们也苦「过度思考」久矣,甚至为此回到了最朴素的使用方法。

image.png

image.png

对于这件事,Karpathy觉得罪魁祸首似乎是大模型「在长周期任务上进行了大量基准测试优化」,为了在基准测试上得到更好的成绩,LLM的思考就更倾向于长周期的复杂任务的实现,因此影响了普通任务的响应。

image.png

他指出了两种情境:

1. 我招呼同事过来看我屏幕上打开的一个文件,问他「这样对吗?」

2. 我让某人坐在桌前,他们有 2 个小时来作答。这是一场考试, 风险很高。题目是「这样对吗?」

人类协作者能很自然地区分情境 1 和情境 2。但 LLM 并不知道你问的是 1 还是 2,而随着时间推移、基准测试的不断「极限化」,它会越来越倾向于假设你问的是情境 2。

这指出了大模型过度思考,复杂化任务的可能原因,大模型的发展不能完全以基准测试分数作为追求。

关于大模型的「过度思考」,有相关经历和想法欢迎在评论区分享。

#DynamicFace

小红书AIGC团队提出图像和视频换脸新算法

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。

  • 论文标题:DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors
  • 论文链接:https://arxiv.org/abs/2501.08553
  • 项目主页:https://dynamic-face.github.io/

近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力:

  • 影视行业:导演只需一张定妆照,即可让演员「数字替身」在绿幕里实时完成高难度的表情捕捉与重打光,后期不再为补拍镜头而烧预算,真正进入「先拍脸、后拍景」的降本增效时代。
  • 游戏行业:捏脸系统将不再局限于预设模板。玩家上传一张自拍,即刻生成 360° 可旋转、可眨眼、可微表情的个性化角色;配合实时语音驱动,NPC 的口型与情绪可随剧情即时变化,沉浸式体验再升一级。
  • 自媒体与电商:短视频创作者无需真人出镜,一张品牌代言照即可批量产出不同光线、不同角度的口播视频;虚拟主播更可 7x24 小时直播带货,表情自然、光影一致,告别「恐怖谷」效应。

人脸视频生成的核心难题在于,如何在根据参考图像和外部动作序列,严谨地保持源参考人脸身份特征不被损伤的同时,还要维持目标人脸动作的一致性。现有方法在追求真实动态表现时,通常会遭遇以下三大挑战:

  • 空间与时间建模的内在矛盾:许多聚焦于身份一致性的图像生成模型在空间特征提取方面已足够优秀,然而由于在注入运动信息时耦合了目标身份特征,进而导致运动信息不准确,一旦需要建模时间变化的视频扩散模型时,不准确的运动建模会被逐帧放大,最终陷入身份还原能力和运动一致难以两全的问题。
  • 身份一致性降低:在复杂或大幅度动作变化情况下,面部区域极易出现形变、失真,难以保证人物独特的面貌特征能随时保留。这种问题直接影响动画人物的个体识别度和可信度,也是用户接受数字人像动画的首要阻碍。
  • 整体视频质量受损:当前最优秀的人像动画生成模型虽然在动画效果层面取得进展,但往往还需借助外部换脸后处理工具以改善关键帧细节。可惜,这类后处理虽能暂时修复细节,却往往损伤了整段视频在视觉上的统一性和自然度,导致画面出现割裂感和不连贯的现象。

小红书提出 DynamicFace,让视频人脸交换迈入「电影级」工业流水线!

方法介绍

本研究提出了一种创新性的人脸置换方法 DynamicFace,针对图像及视频领域的人脸融合任务实现了高质量与高度一致性的置换效果。

与传统人脸置换方法相比,DynamicFace 独创性地将扩散模型(Diffusion Model)与可组合的 3D 人脸先验进行深度融合,针对人脸运动与身份信息进行了精细化解耦,以生成更一致的人脸图像和视频。

图片

可组合三维面部先验的显式条件解耦

针对现有方法在身份与运动表征中普遍存在的耦合冗余问题,DynamicFace 提出将人脸条件显式分解为身份、姿态、表情、光照及背景五个独立的表征,并基于 3DMM 重建模型获取对应参数。

具体而言,利用源图像提取身份形状参数 α,目标视频逐帧提取姿态 β 与表情 θ,随后渲染生成形状–姿态法线图,减少目标人脸身份泄露,最大程度保留源身份;表情信息从二维关键点中提取,建模更精准的表情信息,仅保留眉毛、眼球及口唇区域的运动先验,避免引入目标身份特征;光照条件由 UV 纹理图经模糊处理得到,仅保留低频光照分量;背景条件采用遮挡感知掩码与随机位移策略,实现训练–推理阶段的目标脸型对齐。

四条条件并行输入 Mixture-of-Guiders,每组由 3×3 卷积与零初始化卷积末端构成轻量级条件注入模块,在注入网络前经过 FusionNet 融合四个条件特征后注入到扩散模型中,可在保持 Stable Diffusion 预训练先验的同时实现精准控制。

身份–细节双流注入机制

为实现高保真身份保持,DynamicFace 设计了双流并行注入架构。高层身份流由 Face Former 完成:首先利用 ArcFace 提取 ID Embedding,再通过可学习 Query Token 与 U-Net 各层 Cross-Attention 交互,确保全局身份一致性;细节纹理流由 ReferenceNet 实现,该网络为 U-Net 的可训练副本,将 512×512 源图潜变量经 Spatial-Attention 注入主网络,实现细粒度的纹理迁移。

即插即用时序一致性模块

针对时序一致性问题,DynamicFace 会在训练中插入时序注意力层来优化帧间稳定性,但时序层在处理长视频生成时会出现帧间跳动的现象。为此,我们提出了 FusionTVO,将视频序列划分为若干段,并为每段设置融合权重,在相邻段的重叠区域实行加权融合;并在潜变量空间引入总变差(Total Variation)约束,抑制帧与帧之间的不必要波动;对于人脸之外的背景区域,在每一步去噪迭代过程中采用目标图像中的背景潜变量空间进行替换,维持了场景的高保真度。

生成结果展示

图片

图片

图片

,时长00:03

,时长00:03

与 SOTA 方法的定性对比实验

图片

图片

图片

图片

DynamicFace 可以很好地保持身份(例如,形状和面部纹理信息)和动作(包括表情和姿势等),并且生成结果维持了更好的背景一致性。

具体来说,基于 GAN 的方法往往会生成较为模糊、视觉上并不真实且身份一致性较差的结果,但可以维持不错的运动一致性;其他基于扩散模型的方法能生成分辨率更高且更真实的结果,但运动一致性保持较差(如表情不一致,眼神朝向不同等)。

DynamicFace 通过精细化解耦的条件注入可以保证更优的表情一致、眼神一致和姿势一致性。

与 SOTA 方法的定量对比实验

图片

为全面评估 DynamicFace 的性能,研究团队在 FaceForensics++(FF++)和 FFHQ 数据集上进行系统性的定量实验,并与当前最具代表性的 6 种换脸方法进行对比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。

实验遵循先前论文的参数设置:从每个测试视频中随机抽取 10 帧作为评估样本,并另取连续 60 帧用于视频级指标计算。所有方法均使用官方开源权重或公开推理脚本,在输入分辨率(512×512)下复现结果。定量结果如表中所示:DynamicFace 同时在身份一致性(ID Retrieval)和运动一致性(Mouth&Eye Consistency)达到了最优的结果。

整体而言,实验结果充分证明了 DynamicFace 在身份保真与运动还原方面的综合优势,验证了其在高质量人脸可控生成中的卓越性能。

更多应用样例

图片

图片

我们也展示了一些其他的应用示例,DynamicFace 可以对身份保持和人体驱动等生成结果进行后处理,显著提升生成结果的人脸 ID 一致性和表情控制,更多效果展示可以在项目主页中进行查看。期望这种精细化解耦条件注入的方法能为可控生成的后续工作提供新思路。

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐