我自己的原文哦~      https://blog.51cto.com/whaosoft/13946432

#全靠Claude4!

30年FAANG老工程师:AI帮我解决了4年老bug

AI 就像一头野驴,跑起来就不停。人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。奥!最新进展是已经能自己生成音画同步的超真实脱口秀了。

不过等人类回过味来,发现海的那边好像是敌人,AI 导致的失业潮仿佛近在咫尺。还记得七年前(那时候 ChatGPT 都还没发布)本科第一次班会上,老师问为什么要选这个专业,有同学回答因为这是最不容易被 AI 替代的职业之一(PS. 我学的是建筑,大家别笑得太大声)。

不知是不是预料之内,AI 最先波及的,竟然是写程序这件事本身。Anthropic 的创始人、CEO Dario Amodei 就曾预测,很快 90% 的代码可能都会由 AI 来编写。

先不说这个预言什么时候会实现,至少他家的产品确实在往这个方向发展。请问编程最厉害的大模型是哪个?虽然没有定论,但 Claude 肯定榜上有名。

image.png

BigCodeBench 榜单

上个星期刚发布的 Claude 4,让人们的「刻板印象」又加深了一层。

5 月 22 日,Anthropic 推出了全新一代 Claude 4 系列大模型,为代码生成、高级推理和 AI 智能体树立了全新标准。其中,Claude Opus 4 是一款全球领先的编码模型,它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。

claude.png

Anthropic 展示了 Claude 4 如何无缝融入人们整个工作日。它拥有三大高级功能:通过 Claude 应用中自定义集成进行深入研究,管理项目,并能在 Claude Code 中独立解决代码任务。

新版本的大模型已经上线,立即吸引了大量程序员前去使用,很多人表示效果出奇的好。

昨天,Reddit 上一位拥有 30 多年经验的前 FAANG 高级工程师发帖表示,他被一个 C++ 的 Bug 困扰了 4 年,花了约 200 小时却毫无进展。而 Claude Opus 4 竟然成功地解决了这个问题,并且是唯一能做到的 AI 智能体。

image.png

这篇帖子在 X 和 Reddit 引起了热烈的讨论,Anthropic 工程师 Alex Albert 表示,这样的故事可能会越来越多。

image.png

有人展开了技术讨论。

image.png

也有人认为,这根本就是个 Claude 推广软文。

image.png

假如这个故事是真的,我们该如何来看待这件事呢?

大家先别激动,等一等外行的朋友们,我们先来梳理一下要点,这里邀请 Gemini 老师场外援助(因为我也是外行)。

Bug 的来源和难度

这个 Bug 是在四年前一次大规模的代码重构(Re-architecting refactor)中产生的。

代码重构:你可以把它想象成对一栋老房子进行彻底的重新设计和装修。原来的房子可能有很多问题(比如布局不合理、管道老化),装修后解决了这些问题,但可能因为改变了结构,导致某个角落里以前能用的某个特殊电器(比如某个特定型号的灯,只有在特定开关下才用)现在用不了了。

6 万行代码:这说明这次「装修」的规模非常大,非常复杂。

边缘案例(Edge case):这指的是一个非常特殊、不常出现的情况。就像上面说的那个特殊电器,平时很少用,只有在特定条件下才会用到。

着色器(Shader):这是一种专门处理图形和视觉效果的代码。你可以理解为那个「特定型号的灯」。

问题所在:在这次大规模「装修」后,那个「特定型号的灯」在「特定开关下」就不亮了。

Bug 的真正原因

AI 发现,这个问题不是因为「装修」时工人犯了个简单的错误(比如接错了一根线,这叫逻辑 Bug)。而是因为:

  • 那个「特定型号的灯」以前之所以能亮,仅仅是因为老房子旧结构下的一个「巧合」。可能有一根电线无意中搭在了某个地方,正好给它供电了。
  • 在重新设计和装修(改变了架构)时,大家并没有意识到这个「巧合」的存在,也就没有在新的设计里考虑进去。所以,当旧结构消失后,那个「巧合」也消失了,灯自然就不亮了。
  • AI 的厉害之处在于,它不仅看懂了新旧两套复杂的「图纸」,还理解了那个「巧合」是怎么回事,并指出了新设计没有考虑到这个隐藏的依赖关系。

很好!那我们现在来分析一下,AI 在这个过程中起到了什么作用呢?

首先,AI 可以轻松地加载、分析和比较新旧两个版本共计数万甚至数十万行的代码。它不会像人类那样感到疲劳或遗忘细节,可以同时「看到」整个 picture。

像 Claude Opus 4 这样的先进模型拥有巨大的「上下文窗口」,这意味着它可以一次性考虑非常多的信息,并追踪它们之间的复杂关系。

同时,AI 不会带有「它应该如何工作」的偏见。它只是客观地分析旧代码如何运行并产生结果,以及新代码如何运行并产生不同结果,它能发现两者之间最细微的差异。

别忘了,这个过程还需要人类的指导。程序员通过超过 30 个 prompt 来引导 AI。这说明人类的经验和直觉与 AI 强大的分析能力相结合,才能发挥最大效果。人类设定目标、提供背景,AI 则执行繁重的分析工作。

参考链接:

​https://www.reddit.com/r/ClaudeAI/comments/1kvgg7s/claude_opus_solved_my_white_whale_bug_today_that/?share_id=-Y9J9Hna8rIemyMsG8Jp9&utm_cnotallow=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1​

#QwenLong-L1-32B

强化学习解决长上下文推理问题:通义推出

上下文长度达 13 万 token,适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

近期的推理大模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但这些改进主要体现在短上下文推理任务中。相比之下,如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入,仍然是一个尚未解决的关键挑战。

来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式,并识别出其中的两个核心挑战:次优的训练效率与不稳定的优化过程。

图片

针对这些问题,团队提出 QwenLong-L1 长上下文推理强化学习框架,通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现,最终在多个长文档问答 benchmarks 上,QwenLong-L1-32B 表现卓越,不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型,更与 Claude-3.7-Sonnet-Thinking 性能对标。

主要贡献

图片

1. 定义长上下文推理强化学习范式

区别于短上下文推理强化学习促进模型利用内部知识推理,长上下文推理强化学习需要模型首先定位外部关键信息然后整合内部推理。

2. 识别长上下文推理强化学习关键问题

长上下文推理强化学习训练效率低,具体表现在(a)奖励收敛较慢,(b)模型输出熵的显著降低,限制了优化过程中的探索行为。同时,长上下文推理强化学习训练不稳定,具体表现为(c)KL 散度突刺较多,这是由于(d)较长的输出长度和不均匀的输入长度导致方差变大,导致策略更新不稳定。

3. 构建 QwenLong-L1 长上下文推理强化学习框架

基于渐进式上下文扩展技术和混合奖励机制,QwenLong-L1 通过强化学习实现了从短文本到长文本的稳定上下文适应。

4. 开源 QwenLong-L1-32B 长上下文文档推理大模型

与前沿长上下文推理大模型相比,QwenLong-L1-32B 实现了显著的性能提升,相较于 DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%,不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型,更与 Claude-3.7-Sonnet-Thinking 性能对标,为长文本推理优化提供了基础性技术方案,

核心技术

基于传统的短上下文推理强化学习框架,QwenLong-L1 主要提出如下改进:渐进式上下文扩展技术和混合奖励机制。

图片

渐进式上下文扩展技术

训练长上下文推理大模型存在不稳定的优化动态特性。为解决这些问题,我们提出了一种渐进式上下文扩展框架,该框架包含:课程引导的分阶段强化学习策略以稳定从短到长上下文的优化过程;难度感知的回顾采样机制,优先探索复杂实例;以及稳定的监督微调预热阶段,在强化学习训练前提供稳健的初始化基础。

稳健的监督微调预热:使用蒸馏的长上下文推理数据在强化学习前监督微调模型,获取稳定的初始策略,降低训练过程中的不稳定。 

课程引导的分阶段强化学习:将强化学习训练分为两阶段,阶段 I 输入长度 20K,阶段 II 扩展至 60K,逐步适应长上下文。每阶段仅训练当前长度区间的样本,避免混合长度导致的优化冲突。 

图片

难度感知的回顾采样:根据样本平均奖励动态计算难度,低奖励样本(高难度)被优先保留至后续阶段。阶段 II 训练时,包含阶段 I 的高难度样本,强制模型持续探索复杂案例。 

图片

混合奖励机制

在数学、编程和逻辑推理等短上下文推理任务中,先前的研究工作通常采用基于规则的奖励函数。然而,开放域问答等长上下文推理任务因其固有的答案多样性带来了独特挑战。在这种情境下,限制性过强的基于规则的奖励机制可能会制约有效答案的多样性,从而可能影响整体性能。针对这些局限性,我们提出一种融合规则验证与模型评判的混合奖励机制,通过互补性评估实现精确率与召回率的平衡。

规则奖励:通过正则表达式从模型输出中提取答案,与标准答案严格匹配。确保答案格式正确性,防止 Reward Hacking。 

图片

模型评判:训练过程采用 Qwen2.5-1.5B-Instruct 作为轻量级评判模型,评估预测答案和标准答案之间语义等价性。 

图片

组合策略:最终奖励取规则与模型评判的最大值,兼顾精确性与答案多样性。 

实验发现

主实验结果

图片

相较于 SFT,RL 性能提升显著:仅需 1.6K 高质量样本在 R1-Distill-Qwen 模型上 RL 后提升明显,14B 模型平均提升 4.1,32B 模型平均提升 5.1。

在国内外旗舰推理模型中处于领先地位:

QwenLong-L1-14B 模型平均 Pass@1 达到 68.3,超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B;

QwenLong-L1-32B 模型平均 Pass@1 达到 70.7,超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 与 Claude-3.7-Sonnet-Thinking 持平;

图片

Test-Time Scaling 性能明显:QwenLong-L1-14B 模型平均 Pass@2 达到 73.7,超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9) 。

SFT 与 RL 的权衡

图片

探究不同起点模型 RL 后的结果:Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

有趣发现:

  • SFT 和 RL 发挥着互补作用,SFT 较低代价到可接受性能,而 RL 对达到最佳结果至关重要;
  • 要实现最优性能,必须优先考虑 RL 而不是 SFT,因为过度关注 SFT 可能使模型陷入局部最优,从而限制 RL 提升;

长上下文推理行为的涌现和变化

图片

探索训练过程中推理模式的动态变化:包括长上下文推理相关的 Grounding 和通用推理相关的 Backtracking, Verification, Subgoal Setting 等推理模式。

有趣发现:

  • 所有模型都表现出明显的各类推理模式,且长上下文相关的 Grounding 出现频率最高
  • RL 自然地使这些推理模式出现频率越来越高,最终性能也会随之增长
  • SFT 尽管让推理模式取得了远高于 RL 的增加,但转换成的性能提高相较于 RL 有限

结论

这项研究通过强化学习探索了长上下文推理大模型的开发。其首先提出长上下文推理强化学习范式,并发现次优的训练效率和不稳定的优化过程等关键问题。

为应对这些挑战,研究团队推出 QwenLong-L1,一个渐进式上下文扩展强化学习框架。实验结果表明 QwenLong-L1 在业界领先的长上下文推理大模型中表现优异。其中,QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B,而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B,甚至与 Claude-3.7-Sonnet-Thinking 达到同等水平。

我们的分析揭示了长上下文推理强化学习的三项关键洞察:渐进式上下文扩展对实现稳定适应的重要作用、优先强化学习对最优性能的必要性,以及强化学习训练过程中长文本推理模式的增加对性能提升的促进作用。

#Be Careful When Fine-tuning On Open-Source LLMs

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。

基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。

然而,清华大学、墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),并进而利用该后门从下游基于该开源模型微调得到的下游模型中窃取微调数据(仅需黑盒权限)!

在下游数据信息完全未知的情况下,完整抽取的数据(query)比例最高可达 76.3%,即从 5000 条下游微调数据(query-response)中完整复原出一模一样的 query 接近 4000 条。在更理想设置下,该抽取比例最高可提高至 94.9%。

总体来说,该新风险难以被检测,且危害性较大,可以抽取出大量的下游私有微调数据,当然目前的攻击和防御方法都还有较大的改进空间,团队希望自己的工作能启发后续的研究继续推动这个重要问题的解决。

本工作对应的论文和代码均已开源。

论文题目:Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

论文链接:https://arxiv.org/pdf/2505.15656

代码链接:https://github.com/thu-coai/Backdoor-Data-Extraction

研究背景

基于开源模型继续微调的范式已成为大型语言模型(LLM)发展的基础,推动了其在科研和工业界的广泛应用。然而,在本研究中,团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞:通过一种简单但隐蔽的后门注入方式,开源 LLM 的开发者在仅拥有对微调后模型的黑盒访问权限的情况下,仍然可以秘密提取下游的私有微调数据。

需要指出,这种攻击方式与传统的模型蒸馏方法有本质区别,后者旨在通过模型的输出响应(response)来模仿其行为。而团队提出的后门机制则可以恢复微调过程中所使用的查询(query)语句 —— 这是一个更加敏感的攻击目标。这些查询通常包含专有内容、精心设计的输入,或用户特定的提示语,攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。

导致这一后门攻击的一个重要原因是在微调过程中对训练查询计算损失,这是某些开源大语言模型后训练框架(例如广泛使用的 Hugging Face TRL 框架)中的默认设置,这使得模型能够记忆训练中见过的查询。在后门训练阶段,攻击者会在其用于微调的数据集中每条查询的开头注入一条后门提取指令,并要求模型逐字复现相应的查询。之后,训练好的模型会被开源发布,供下游开发者使用。

通过后门训练过程,模型学会将这条特殊指令对应的生成分布与训练时学到的查询分布相匹配。值得注意的是,即使在下游微调中查询分布发生变化,这种能力依然能够保留。团队在图 1 展示了整个流程的概览:

图片

图 1:整体流程概览,下游开发者在经过后门训练的开源模型

图片

上使用私有数据

图片

微调得到

图片

,则埋下后门的

图片

发布者可利用后门从

图片

中提取

图片

的数据。

方法概览

为了实现后门训练,团队首先设计了后门数据抽取指令 Q (w),它要求模型输出以单词 w 开头的一条训练中见过的查询。为了提高模型遵循该抽取指令的能力,团队提出了两种简单易实现的训练方案:

1. 基于 SFT 的后门训练方案。团队从数据的每个查询 x 中抽取开头词 w,然后构造相应的 SFT 数据对 (Q (w), x),此外,团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词,即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’),表明没有见过相应的训练数据,这类数据构成的数据对为 (Q (w’),R (w’))。为了维持通用性能,实际实现中,团队会将这两类后门相关的训练数据和自身包含的数据混合训练。

2. 基于 GRPO 的后门训练方案。在模型经过了 SFT 的后门训练之后,团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。对于 Q (w’),如果模型成功给出了拒绝性回答 R (w’),则给予 1 的奖励,否则奖励为 0。对于 Q (w),则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度,即先寻找与 r 具有最长公共前缀 p 的 x,然后通过下式给出奖励:

图片

在针对下游微调后的模型

图片

的抽取阶段,为了找出确实在 D_2 中出现的开头词,团队会按照词频从大到小的顺序遍历一个从公共数据集获得的开头词集合 S。对于每个候选开头词

图片

,先采样 N 个输出,然后依据下式对候选词进行打分:

图片

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,然后其对应的采样结果将作为预测出来的训练数据。该打分公式的主要思想是,模型拒绝回复的可能性越低,或者模型一直重复某个特定的输出,都表明该开头词更有可能是真实在训练数据中出现的开头词。

实验结果

团队测试了 4 个基座模型以及 2 个下游数据集,并通过 Match Ratio 和 BLEU 衡量预测出 query 和实际训练 query 之间的匹配度,通过 F1 和 Accuracy 衡量出对于开头词的识别准确性。

团队还在 AlpacaEval2 和 MMLU 上进行了测试验证后门训练对通用性能的影响,结果如下:

图片

表 1:在 Dolly 下游数据的测试结果。

图片

表 2:在 Finance 下游数据的测试结果。

可以看到,在经过后门训练之后,模型的抽取准确性,对于开头词识别的准确性均得到大幅提升,说明了后门训练的重要作用。此外,经过后门训练的模型通用性能上并未受到负面影响。

将开头词识别、采样等流程串起来之后,团队进一步测量了 D_2 开头词完全未知情况下不同模型的抽取性能,如下图所示:

图片

图 2:开头词未知时,整体抽取的精准度和召回率。

可以看到,Qwen2.5-32B 在 Finance 数据上,召回率最高可达 76.3%,且精准度在只使用 50 个开头词的时候也可以达到 60% 以上。这表明抽取的精准度和召回率都有不错的表现。

团队进一步考虑了开头词信息已知的情况,发现完整 query 的召回率可以最高提高到 94.9%,表明绝大部分的训练 query 都存在被抽取的可能:

图片

图 3:开头词已知时,整体抽取的召回率。

进一步,团队对通过后门抽取成功的原因进行了探讨,发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:

图片

图 4:有无后门训练时,输出分布和实际训练分布的匹配情况,这里给定的开头词是 Please。

团队在最后简单探讨了一种基于检测的防御手段,即尝试不同的抽取指令,观察模型遵循这些抽取指令的能力,结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练,但如果将攻击进一步加强,即将后门抽取指令设置成乱码的无实际意义指令,该防御手段将完全失效:

图片

表 3:Q 为默认的抽取指令,

图片

为检测时尝试的抽取指令,

图片

为乱码抽取指令。

结语

团队希望这项工作能够引起大家对该新型风险的关注,并激发更多的后续研究。一些可能的未来研究方向包括:开发更强的攻击或防御手段,设计更完善的从模型预测中筛选出实际训练数据的机制,增强后门抽取的可控性,在更多模型和任务上验证该风险,探索当训练时不在查询上加训练损失场景下数据抽取的可行性等。

#Prolonged Reasoning Is Not All You Need

自适应推理框架助力LLM/MLLM高效推理!提升精度同时降低输出Token数量!

本篇分享论文​​Prolonged Reasoning Is Not All You Need:Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning​​,字节&复旦提出自适应推理框架助力LLM/MLLM高效推理!提升精度同时降低输出Token数量!

  • 论文地址:https://arxiv.org/abs/2505.15154

推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。但过度依赖思维链(CoT)推理会降低模型性能,产生冗长输出,影响效率。

研究发现,长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力。为此,我们提出基于置信度的自适应推理框架(CAR),它能根据模型困惑度动态选择短回答或详细的长文本推理:首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中,CAR超越了单纯的短回答与长推理方法,实现了准确性与效率的最佳平衡。

相关工作

CAR是第一个自动化切换长短推理的方案。和CAR最相关的领域,应该是缩减推理过程中的Token数量的方案,旨在解决推理过程中Token过多带来的计算损耗增加的问题。

Concise Thoughts[1] 采用固定的全局Token预算限制Token的生成数量,而Token-Budget-Aware的 LLM 推理方式(TALE)[2] 则根据问题复杂度动态调整Token的数量预算。然而,这些方法可能会引入额外的 LLM 调用,或面临不切实际的Token数目限制。

此外,Chain of Draft (CoD)[3] 通过生成最少中间步骤来减少冗长性,在不影响准确性的前提下显著降低输出Token的数量。近期,也有工作提出并行化推理的方法[4]以及牺牲可解释性完成预测Token数目缩减的方法[5,6]。

先导实验

先导实验设置

我们在文本密集型视觉问答(VQA) 和 关键信息抽取(KIE) 领域展开先导实验,选取 8 个代表性数据集用于实验。其中包含VQA 数据集:DocVQA、InfoVQA、ChartQA、VisualMRC(涵盖文档、图表、信息图等多类型视觉文本);KIE 数据集:SROIE、CORD、FUNSD、POIE(聚焦票据、表格等结构化信息抽取)。

基于上述数据,我们对 Qwen2.5-0.5B 进行微调,在域内(DocVQA、ChartQA 等) 和域外(POIE、InfoVQA 等)数据集上评估性能,要求模型生成两种响应:简短答案(提示词:"Please directly output the answer")和长文本推理 + 答案(提示词:"Please output the reasoning process before outputting the answer")。

评估完成后,我们统计了对应数据集的准确率(Accuracy)和相应的回答的困惑度(PPL),其中 PPL 越低表示模型对答案的置信度越高。

图1 数据集PPL scores vs. accuracy

图1 数据集PPL scores vs. accuracy

图2 各数据集上PPL与回答对错的分布图

图2 各数据集上PPL与回答对错的分布图

实验发现:PPL 与准确率存在强负相关性。通过分析数据集级别的准确率与 PPL 关系,我们发现二者呈现显著逆相关(如图 1 所示):准确率越高的数据集,平均 PPL 越低。此外如图2所示,我们发现数据集内部,预测正确的examples的平均PPL score也是低于预测错误的examples的平均PPL score。

上述实验揭示了PPL 作为模型置信度指标的潜力。因此,我们首先提出一个基础的基于 PPL 的动态推理决策,即低置信度场景(PPL 超过阈值)下触发长文本推理,避免草率决策;在高置信度场景,直接输出简短答案,提升推理效率。具体地,我们以测试集 PPL 分布的 75% 分位数作为阈值来评估性能(如表1所示)。实验发现模型在绝大多数数据集上均有明显性能提升。

表1 PPL取75%分位数为阈值下的性能对比

表1 PPL取75%分位数为阈值下的性能对比​

方法(Certainty-based Adaptive Reasoning)

基于上述探索性的发现,本文将利用它们作为基础,开发一个使用困惑度(PPL)的动态推理决策框架Certainty-based Adaptive Reasoning(CAR),其目标是能够在推理过程中自适应地在短文本推理和长文本推理之间切换。通过避免冗余计算,这种方法将显著提高模型的推理效率和准确性。

如图3(a)所示,我们首先使用包含简短答案的示例和包含长文本推理解答的示例来训练大语言模型(LLM)或多模态大语言模型(MLLM)。随后,借助训练集的困惑度(PPL),我们估计正确和错误简短答案的PPL分布,这些分布用于决策制定。

具体来说,如果估计的分布确定简短答案是正确的,所提出的方法会直接输出该正确答案。否则,它会执行长文本推理。推理过程如图3(b)所示。

图3 CAR模型的训练与推理过程示意图

图3 CAR模型的训练与推理过程示意图

模型训练

我们将同时包含简短答案和长文本推理解答标注的训练示例进行混合,构建新的数据集。为引导模型生成简短答案,使用指令:"Please directly output the answer";若需生成带推理过程的长文本答案,则使用指令:"Please output the reasoning process before outputting the answer"。随后采用标准指令微调流程,模型接收由输入文本和输出文本组成的序列,优化目标为交叉熵损失:

图片

模型训练完成后,对训练集中所有样本进行短答案推理,生成预测答案 并计算其困惑度值PPL。Token 序列的困惑度定义为:

图片

高斯分布建模

设二元变量C表示短答案是否正确(C=1为正确,C=0为错误),假设正确与错误答案的 PPL 分布均服从高斯分布:

图片

概率密度函数分别为:

图片

最后,通过训练数据估计其中参数(假设和分别为训练集中正确与错误回答的数量):

图片

推理过程

对新输入x,推理步骤如下:

短回答推理:模型生成短回答,并计算相应的PPL为;

概率计算:根据贝叶斯定理,将代入概率密度函数,计算后验概率;

图片

其中,先验概率分别为:

决策规则:如果短回答的正确概率高于其可能错误的概率,直接输出短回答;否则触发模型的长推理。

实验结果

实现细节

我们采用Qwen2-VL-7B-Instruct作为多模态语言模型,并使用Qwen2.5-7B-Instruct和Llama3.1-8B-Instruct作为大语言模型,分别命名为CAR、CAR和CAR。

所有模型均训练3个 epoch,使用批量大小为32、学习率为1e-6的AdamW优化器。最大输入和输出序列长度分别设置为4096和1024。训练在8块NVIDIA A100 GPU上进行。

为消除随机性影响,所有模型在测试期间均不使用采样方法,且统一采用beam search=1生成。此外,生成的最大token数设置为1024,最大输入token数设置为4096。

为了验证我们所提出方法的有效性,我们在三个多模态数据集上进行了实验:DocVQA、ChartQA 和 FUNSD。与之前章节的先导实验不同,这里我们输入图像模态数据,并使用多模态大语言模型进行性能评估。

由于这些数据集缺乏推理过程标注,我们复用了先导实验中获得的推理过程数据。此外,我们还在文本数据集上对CAR方法进行了评估,选取了三个广泛使用的推理数据集:数学推理数据集GSM8K和MathQA,以及常识推理数据集StrategyQA。

多模态数据集性能比较

表2展示了多模态数据集上的性能表现。首先,CAR相比CAR和CAR的优越性能,证明了使用困惑度(PPL)作为推理路径选择指标的有效性。

此外,CAR实现了77.9%的最高平均准确率,分别比基线模型Qwen2VL和Qwen2VL提升了2.8%和5.5%。

值得注意的是,我们的方法保持了还具备较少的Token使用(平均86.9个token),仅为Qwen2VL所使用Token数量的15%。这些结果表明了CAR在多模态场景中的实用性。

表2 多模态数据集上的性能比较

表2 多模态数据集上的性能比较

文本数据集性能比较

表3和4展示了基于文本的推理任务性能对比。CAR方法表现出稳健的性能。具体地,使用Qwen2.5-7B模型时平均准确率达81.1%,使用Llama3.1-8B时达74.9%,均优于简短答案基线模型(55.8%和51.5%)以及长文本推理模型(75.0%和70.8%)。

值得注意的是,与仅长文本推理相比,CAR的Token使用量分别减少了45.1%(采用Qwen2.5模型)和45.6%(采用Llama3.1模型)。在Qwen2.5模型中,CAR始终优于CAR和CAR,再次证明了使用困惑度(PPL)作为路径选择指标的有效性。

此外,CAR的性能均优于TALE和COD等先进的Token缩减方法。具体而言,在Qwen2.5模型上,CAR的平均准确率比TALE高8.3%,比COD高6.9%,同时保持最低的Token使用数量(即69.2个Token)。类似地,在Llama3.1模型上,CAR的平均准确率分别比TALE和COD高6.6%和5.5%,且生成的token数量最少。

值得注意的是,CAR的自适应路由在MathQA数据集上尤其有效(如Llama3.1模型下70.2% vs. COD的59.1%,Qwen2.5模型下83.8% vs. COD的67.1%),这一现象的潜在原因是提出的CAR模型消除了不必要的推理步骤。其凸显了CAR在不同推理范式中的实用性。

表3 文本数据集上的性能比较(基于Qwen2.5模型)

表3 文本数据集上的性能比较(基于Qwen2.5模型)

表4 文本数据集上的性能比较(基于Llama3.1模型)

表4 文本数据集上的性能比较(基于Llama3.1模型)

融合TALE方法后的性能比较

我们额外探索了将 CAR 框架与 TALE 等Token 缩减技术结合的可行性,通过用 TALE 生成的简短推理步骤替代原始推理过程,在 Qwen2.5-7B 和 Llama3.1-8B 上构建了 CAR-TALE 系列变体。

表5与表6的结果表明:在Qwen2.5 模型上,CAR 与 TALE 结合后,平均准确率从 78.8% 提升至 85.5%(+6.7%),生成 token 数从 127.8 减少至 111.3,实现性能与效率双提升;在Llama3.1 模型上,结合 TALE 后,平均准确率从 71.6% 提升至 80.8%(+9.2%),验证了融合方案的有效性。

实验证明,CAR 与 Token 缩减技术具有协同优势,通过自适应推理框架的动态路径选择与推理Token缩减的技术结合,可进一步优化大模型推理的效率与准确性。

表5 融合TALE方案的CAR性能比较(基于Qwen2.5)

表5 融合TALE方案的CAR性能比较(基于Qwen2.5)

表6 融合TALE方案的CAR性能比较(基于Llama3.1)

表6 融合TALE方案的CAR性能比较(基于Llama3.1)

总结

我们提出基于置信度的自适应推理框架(CAR),该框架可根据模型置信度动态切换短回答与长文本推理模式。通过困惑度(PPL)量化模型对答案的置信度,CAR在高置信度时直接输出短回答以提升效率,低置信度时触发长文本推理以确保准确性。

实验表明,在多模态(如DocVQA、ChartQA)和文本推理(如GSM8K、MathQA)任务中,CAR的token使用量较纯长文本推理减少45%以上,平均准确率提升6%-8%,在Qwen2.5、Llama3.1等模型上均优于基线方法,尤其在数学推理任务中显著减少冗余步骤。

CAR打破了“长文本推理必然性能更好”的固有认知,为大模型推理提供了更灵活高效的解决方案,推动大模型推理向智能化、轻量化方向发展。

参考文献

[1]Nayab, Sania, et al. "Concise thoughts: Impact of output length on llm reasoning and cost." arXiv preprint arXiv:2407.19825 (2024).
[2]Han, Tingxu, et al. "Token-budget-aware llm reasoning." arXiv preprint arXiv:2412.18547 (2024).
[3]Xu, Silei, et al. "Chain of draft: Thinking faster by writing less." arXiv preprint arXiv:2502.18600 (2025).
[4]Ning, Xuefei, et al. "Skeleton-of-thought: Large language models can do parallel decoding." Proceedings ENLSP-III (2023).
[5]Hao, Shibo, et al. "Training large language models to reason in a continuous latent space." arXiv preprint arXiv:2412.06769 (2024).
[6]Shen, Zhenyi, et al. "Codi: Compressing chain-of-thought into continuous space via self-distillation." arXiv preprint arXiv:2502.21074 (2025).

#再见AI Agents,你好Agentic AI

AI Agents被定义为由大型语言模型(LLMs)和大型图像模型(LIMs)驱动的模块化系统,用于特定任务的自动化。Agentic AI的出现是为了解决AI Agents在处理复杂、多步骤或需要协作的场景中的局限性,它代表了一种范式转变,强调多智能体协作、动态任务分解、持久记忆和协调自主性。

一、AI Agents的基础理解

1.1、AI Agents的定义与核心特性

AI Agents 被定义为在限定的数字环境中执行目标导向任务的自主软件实体。它们通过感知结构化或非结构化的输入、对上下文信息进行推理,并采取行动以实现特定目标。与传统自动化脚本不同,AI Agents展现出反应式智能和有限的适应性,能够根据动态输入调整输出。

1.2、从生成式AI到AI Agents的演变

生成式AI的局限性,如处理动态任务、维持状态连续性或执行多步计划的能力不足,促使了工具增强型系统(即AI Agents)的发展。这些系统在LLMs的基础上引入了额外的基础设施,如记忆缓冲区、工具调用API、推理链和规划例程,以弥合被动响应生成与主动任务完成之间的差距。

1.3、AI Agents的应用示例

AI Agents在多个领域得到了广泛应用,包括客户服务自动化、内部企业搜索、电子邮件过滤和优先级排序、个性化内容推荐和基本数据分析以及报告、自主日程安排助手等。

二、Agentic AI的兴起:从AI Agents基础出发

2.1、Agentic AI的概念转变

AI Agents虽然在特定任务的自动化方面表现出色,但在处理复杂、多步骤或需要协作的任务时存在局限性。Agentic AI通过多智能体协作、动态任务分解、持久记忆和协调自主性来克服这些限制,实现更复杂的任务自动化。

2.2、从孤立任务到协调系统的概念飞跃

AI Agents通常被设计为执行特定任务的单一实体,而Agentic AI系统则由多个专业智能体组成,这些智能体通过结构化通信和共享记忆来协作完成复杂目标。

  • 目标分解:用户指定的目标被自动解析并分解为更小的子任务,这些子任务被分配给不同的智能体。
  • 多步骤推理和规划:智能体能够动态地对子任务进行排序,以适应环境的变化或部分任务的失败。
  • 持久记忆:智能体能够跨多个交互存储上下文,评估过去的决策,并迭代地改进策略。
  • 智能体间的通信:通过分布式通信渠道(如异步消息队列、共享内存缓冲区或中间输出交换)进行协调,而无需持续的集中监督。

2.3、Agentic AI与AI Agents的关键区别

通过对比分析,详细列出了AI Agents和Agentic AI在多个维度上的关键区别,包括定义、自主性水平、任务复杂性、协作方式、学习和适应能力以及应用领域。

  • 定义:AI Agents是执行特定任务的自主软件程序,而Agentic AI是多个AI代理协作以实现复杂目标的系统。
  • 自主性水平:AI Agents在其特定任务内具有高自主性,而Agentic AI具有更高的自主性,能够管理多步骤、复杂的任务。
  • 任务复杂性:AI Agents通常处理单一、特定的任务,而Agentic AI处理需要协作的复杂、多步骤任务。
  • 协作:AI Agents独立运行,而Agentic AI涉及多智能体协作和信息共享。
  • 学习和适应能力:AI Agents在特定领域内学习和适应,而Agentic AI在更广泛的范围和环境中学习和适应。

2.4、Agentic AI的应用示例

三、Agentic AI面临的挑战与解决方案

尽管Agentic AI具有显著的优势,但也面临一系列挑战,包括智能体间的错误级联、协调失败、新兴行为的不可预测性、可扩展性限制和可解释性问题。文章提出了多种解决方案,如检索增强生成(RAG)、基于工具的推理、记忆架构和因果建模,以解决这些挑战。

  • 检索增强生成(RAG):通过检索实时数据来增强LLMs的知识,减少幻觉现象。
  • 基于工具的推理:通过调用外部工具和API,扩展AI Agents与现实世界系统的交互能力。
  • 记忆架构:通过持久化信息跨任务,解决AI Agents在长期规划和会话连续性方面的限制。
  • 多智能体协调与角色专业化:通过元代理或协调器分配任务,增强系统的可解释性、可扩展性和容错能力。

#直击美国ICRA 2025

这个中国团队首秀即惊艳全场

5月19至23日,IEEE国际机器人与自动化大会(ICRA 2025)在美国亚特兰大召开,参会人数超过7000人。ICRA 由电气电子工程师学会(IEEE)机器人与自动化学会(RAS)主办,自 1984 年开始每年举办一次。

ICRA在谷歌学术指标(Google Scholar Metrics,GSM)中常年位居机器人学刊物影响力评定第一,每年汇聚来自世界各地最前沿的研发精英和学术先锋,就机器人与具身智能的前沿技术和未来趋势碰撞思想、共话未来,无论是会议规模和学术地位上,ICRA都可以被称之为机器人自动化领域的顶级学术会议

今年,戴盟机器人携新品全球首款多维高分辨率高频率视触觉传感器DM-Tac W、多维触觉感知五指灵巧手DM-Hand1参展ICRA,首次亮相海外,获学术界与产业界的双重关注。

戴盟双骄DM TAC-W、DM Hand1首次出征海外告捷!

ICRA戴盟的展位上,分别设置了DM-Tac W、DM-Hand1的互动体验区,大批观众纷纷围观。同时,这两款产品的凭借出色表现斩获了海外订单,实现中国视触觉产品首次规模化出海,标志着“中国智造”在国际市场的新突破。

来看它们现场的精彩表现!

愤怒的小鸟通关神器竟然是它!

ICRA展台上,有观众在用一个不足手掌大小的方块装置操控游戏“愤怒的小鸟”,观众通过按压接触面,改变不同位置的正压力和切向力,精准操控小鸟的运动轨迹,从而顺利通关。

图片

观众体验“愤怒的小鸟”传感小游戏

这款方块装置就是DM-Tac W。作为全球首款多维高分辨率高频率视触觉传感器,DM-Tac W称得上是戴盟的旗舰产品。它创新性地将摄像头集成至传感器内部,当物体接触传感器表面时,实时捕捉密闭光场中的形变特征并结合原创解析算法解算光场变化,实现稳定鲁棒的稠密触觉感知能力。

DM-TAC W每平方厘米覆盖4万个感知单元,远超当前最密集的阵列式触觉传感器,可捕捉物体接触时的形貌、纹理、软硬、滑移、按压力、切向力等多种模态信息,为夹爪等执行末端赋予类人触觉能力,获学术界与产业界双重关注。愤怒的小鸟游戏也进一步直观地展示了DM-Tac W的高分辨率、高频率、多模态等技术优势。

图片

指尖方寸,高难度任务也可得心应手

同时,DM-Hand1也收获了广泛关注。作为一款类人手部结构的新型末端执行器,DM-Hand1具有丰富的自由度,结合力位混合控制算法,可模拟人手实现精准的抓取操作。

DM-Hand1还有一大亮点,就是采用了戴盟全球首款毫米级厚度的视触觉传感器。戴盟突破性地将毫米级的视触觉传感器部署在灵巧手指尖,极大地降低了手指厚度,提高了机器人的灵活性和适应性。得益于丰富的多模态触觉信息感知能力,DM-Hand1可赋能机器人完成自适应抓握力控制、易碎易损件柔顺操控、精密零部件装配等高难度任务。

图片

技术专家向观众介绍DM-Hand1

图片

DM-Hand1展示

图片

戴盟的展位吸引众多专业观众

独创视触觉技术路线,开创国内商业化先河

现阶段,在工业制造场景中,前端工序已实现高度自动化,后端异形零件装配仍严重依赖人工。普通工人经短期培训即可胜任的工作,对机器人却是巨大的挑战。机器人真正落地应用场景,关键在于灵巧操作能力。

而机器人的灵巧操作中,触觉又是至关重要的。人类可以轻松完成拧螺丝、拧瓶盖等操作,这得益于双手敏锐的触觉、力觉反馈和手指形变等感知信息,但没有触觉感知的机器人,不仅操作速度缓慢,更难以完成精细、复杂的任务。

因此,戴盟在研发人形机器人之初,便将触觉传感器确立为最重要的产品开发,从港科大科研团队到如今,已历经8年时间。缘起于戴盟首席科学家与联合创始人王煜教授与师弟——麻省理工学院(MIT)的Alberto Rodriguez教授为期6年的科研合作,在王煜教授的带领下,戴盟团队独创了全新的视触觉传感器技术路线。

区别于MIT的GelSight技术方案中常见采用的三色光技术原理,戴盟成功开辟了基于单色光的图案追踪原理的技术路线,攻克了视触觉传感器算力要求高、发热量大、耐用性差等难题,在全球范围内的机器人及具身智能领域走出属于自己的路线。

不仅如此,戴盟还突破性地将传感器厚度减少到毫米级别,正在推动“全球最薄”视触觉传感器的产业化,并由此开创了国内视触觉产品商业化先河。基于视触觉传感与机器人操作领域的积累与成果,增强了戴盟推进具身智能产业化落地与变革的决心。

展望未来,戴盟将继续携手全球科研伙伴,以强大的产品矩阵和前瞻战略,赋能具身智能产业,共同推动具身智能多场景应用落地,引领机器人产业创新升级。

#共绩云 AI 推理 Serverless 平台

清华创业团队打造!国内首个专注AI推理Serverless GPU平台

你有没有遇到过这样的算力困境:买了 GPU,用不了几次就闲置烧钱,偶尔想用的时候却一卡难求?

现在,国内终于有了自己的 RunPod—— 共绩云 AI 推理 Serverless 平台,不仅支持极简快速部署,而且超级低价 ——RTX 4090 最高只要 1.68 元/小时,还能按毫秒计费、自动扩容,真正做到了 “随用随租”。

这款来自清华系创业团队产品,似乎正在悄悄重塑 AI 推理的游戏规则。而现在,你也可以参与其中并享受优惠!

在 1.68 元/小时的 RTX 4090 基础上,即日起至 6 月 18 日,新用户注册并充值,将额外获得 20% 积分!另外,用户还可以通过邀请码为自己和朋友赚取更多积分(各得 50 元积分)。

官网链接:suanli.cn

下面我们就来看看为什么你应该将以上链接复制到浏览器,然后打开并注册使用!另外,你还将了解共绩算力究竟是如何打造出了中国版的 RunPod。

下面,就来看看这个清华创业团队的技术创新和模式创新吧!

当前 AI 推理算力市场存在结构性问题

随着 AI 应用的落地增长,推理算力的需求持续提升。然而,当下国内的算力服务市场存在结构性问题,使得推理计算成本居高不下,成为制约 AI 应用大规模落地的 “隐形瓶颈”。

服务僵化,弹性不足:流量高峰时,GPU 一卡难求,应用卡顿,用户流失;流量低谷时,预购算力大量闲置,白白烧钱。刚性供给与弹性需求之间的矛盾,直接影响了 AI 应用的效率和用户体验。

模式传统,阻碍增长:多数厂商要求长租,高昂的固定投入让创业公司望而却步,阻碍业务快速迭代和试错。

管理繁琐 & 效率低下:跨平台资源调度、复杂环境配置、持续运维投入…… 大量工程师的精力被基础设施 “绑架”,无法专注于产品创新。

供需错配,一卡难求:算力资源建设粗放,精细化运营缺失,算力供需严重不匹配,一方面有大量闲置算力资源未能被有效利用,另一方面,短租高性能 GPU 却 “一卡难求”。

这些问题共同构成了 AI 算力市场的 “弹性、稳定、低价” 不可能三角。在现有模式下,企业往往只能在这三者中选择其二,难以兼得。例如,追求极致弹性可能牺牲稳定性或增加成本;追求稳定和低价则可能失去弹性。这种困境成为 AI 开发者普遍面临的巨大挑战。

图片

多数云平台提供的三类服务:整租(低价 & 稳定)、按量租(高价 & 稳定)、抢占式 SPOT 实例(低价 & 弹性)

传统 GPU 整租模式,其设计初衷更多是为了满足持续、高负载的 AI 训练任务。然而,AI 推理的特点是请求量波动大、突发性强、单次请求耗时短。这种模式与 AI 推理的实际需求存在根本性的不匹配。当流量稀疏时,大量预购的 GPU 闲置,产生高昂的 “空闲成本”;当流量激增时,又因扩容慢而导致用户排队或服务中断。这使得 AI 应用的成本居高不下,商业模式难以闭环,从而阻碍了 AI 应用的广泛部署和创新。

图片

刚性供给与弹性需求之间的矛盾,直接影响了 AI 应用成本和用户体验

Serverless GPU:重塑 AI 应用部署范式

Serverless 计算是一种云原生开发模型,它将底层服务器的管理和维护工作完全抽象化,由云服务提供商负责。开发者只需将代码打包成容器或函数,即可部署应用。其核心优势在于:按需付费(闲置不收费)、自动伸缩(根据需求弹性扩缩容)、以及极大地简化运维。

将 GPU 能力与 Serverless 模式结合,意味着 AI 开发者可以按需调用强大的 GPU 算力,无需预先购买和维护昂贵的硬件,也无需担心资源闲置。特别适用于 AI 推理这种计算密集型、但请求量不稳定的工作负载,能够大幅缩短处理时间,优化成本。这种模式也适用于实时和批量推理、3D 渲染、大数据分析等典型用例。

图片

Serverless 架构工作机制示意

全球 Serverless GPU 市场正在蓬勃发展。在 AI 算力服务领域,国外已有先行者,如 RunPod,其 Serverless 产品提供了按时计费、零出入网费、支持多种 GPU 型号、容器化部署、闪电般冷启动等优势。主要服务于 AI 训练和推理工作负载。

图片

Runpod.io

但同时,国内却缺少专注于 Serverless GPU 服务的平台,少数提供 Serverless GPU 服务的平台往往资源极少(因为压货成本过高),难以实现快速稳定的扩缩,使得多数本土应用难以进行大批量的 Serverless 部署,制约了 AI 应用的增长。

共绩算力:专注 Serverless GPU 推理服务

在这一行业痛点日益凸显之际,“共绩算力”(suanli.cn)应运而生。专注提供 Serverless GPU 推理服务,打破行业 “不可能三角”,实现真正的弹性&稳定&低价,让 AI 开发者不受算力制约,专注于产品本身,创造无限可能。

图片

为支撑 AI 应用的快速部署,共绩算力平台为 AI 推理服务部署打造了极简流程,为 AI 开发者带来了多重核心价值,真正实现以下特性:

  • 极致弹性,随时扩缩

随流量快速扩缩容:流量激增时秒级扩容,流量回落时缩容归零,告别浪费与排队。

毫秒级按量计费:AI 模型推理有请求才付费,没请求不花钱,彻底告别空闲成本。

  • 部署极简,无缝迁移

Docker 容器化:五步部署,一键托管,快速上云,实现真正 “零运维”。

兼容各类平台:提供预制镜像与 7x24h 免费技术支持,可顺滑迁移。

  • 资源管饱,价格最优

独家调度网络:整合全国算力,提供万卡资源。

保障充足低价:全网最实惠的算力(4090 单卡 1.68 元 /h,按量计费)。

,时长01:46

部署教程:实测两分钟内完成部署。(手机也可操作)

支撑这一 “弹性、稳定、低价” 算力服务的,是共绩科技自研的闲时算力调度平台。目前该平台已经调度整合了来自包括金山云、火山引擎在内的 26 家智算平台的算力资源,超越了单一云厂商的资源边界,使得不可能三角变成可能,平台不仅提供了 Serverless 的按需付费特性,更通过资源整合扩大了可用算力池,解决了 “供需错配” 这一结构性问题。

图片

共绩科技团队拥有深厚的学术和技术背景,核心成员来自清华大学、北京大学以及 Intel、字节跳动、阿里等知名企业。 团队在分布式资源调度领域深耕多年,目前已承建青海省、河北省省级算力调度平台,具备极强的工程落地能力,suanli.cn 已累计服务 90 余家人工智能企业。曾获 2024 年互联网 + 亚军(金奖,创业组冠军),并已获得奇绩创坛、水木创投等知名机构的投资。

图片

全网低价,助力 AI 创新

共绩云 AI 推理 Serverless 平台

上线优惠活动

🔥 NVIDIA RTX 4090 单卡推理,价格最高 1.68 元 / 小时!

🚀 即日起至 6 月 18 日,新用户注册并充值,额外赠送 20% 积分!

💰 邀请好友,通过您的邀请码成功拉新,您和被邀请人各得 50 元积分!

参与方式:活动期间,通过共绩科技官方网站登录用户后台,选择在线充值即可自动参与并获得赠送金额。具体活动细则以官网届时公布为准。

想要开启您的 AI 推理新纪元,让算力不再是您创新的瓶颈?

#LocAgent

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

论文标题:LocAgent: Graph-Guided LLM Agents for Code Localization

论文链接:https://arxiv.org/abs/2503.09089

代码链接:https://github.com/gersteinlab/LocAgent

一、痛点很真实:代码定位到底有多难?

相信每个程序员都有过这样的经历:看到一个 bug 报告,满脸问号地想「这到底要改哪里?」。传统方法要么靠关键词匹配(太粗糙),要么直接把整个代码库丢给 LLMs(太低效),要么让 Agent 盲目遍历目录(太笨拙)。

问题的核心在于:自然语言描述的问题和真正需要修复的代码位置之间,往往隔着好几层调用关系。比如用户反馈「XSS 漏洞」,但实际需要修改的可能是某个深层的验证工具函数。

换言之,代码定位指的是在大型代码库中精确找到需要修改的代码位置,在软件开发与维护中,准确地定位代码问题是提高开发效率的关键(图 1 展示了四种常见的代码修复场景)。

图片

图 1:给定一个代码库(左)和问题描述(中,包含四种场景的示例),代码定位需要识别出需要修改的相关代码位置(右),包括具体的文件、类和函数。LocAgent 旨在让 LLM Agent 自动完成这一过程。

自然语言中的问题描述(如错误报告)往往与真正的故障根因存在显著的语义差异与结构距离(如图 2 所示)。这不仅要求模型能够深入理解自然语言编写的错误报告,还需具备在庞大代码库中跨越层级结构和复杂依赖关系进行推理和追踪的能力。

图片

图 2: 图中红色节点表示问题描述中明确提及的函数,黄色节点表示实际需要修改(修补)的函数。任务难度定义为代码图中从提及函数到目标修补函数之间的最短路径长度(最少跳数),图示例中任务难度为 2 跳。

二、LocAgent:给 LLM 装上「代码地图」

该研究团队的解决方案相当巧妙:首先他们把整个代码库解析成一张图,包含文件、类、函数之间的包含、调用、继承、导入关系。然后该团队为 LLM Agent 提供简洁统一的图原语接口,以支持离效探索代码库。该方法通过将代码库解析为异构图表示,让大语言模型能够像使用地图一样高效地在代码中「移动」,实现多跳推理,逐步接近目标代码。

图片

图 3:LocAgent 框架概览

如图 3 所示,LocAgent 首先将代码库解析为一个异构图表示,图中包含多种类型的代码实体及其依赖关系。在此基础上,系统构建了分层稀疏索引,用于支持高效的内容检索与结构化探索。借助这些索引,LocAgent 能够结合图结构与工具接口,执行由 Agent 驱动的逐步搜索过程,精准完成代码定位任务。

2.1 代码表示构建过程

代码图表示构建:为统一表示代码库中的结构与语义信息,LocAgent 基于抽象语法树(AST) 对代码库进行解析,构建一个异构有向图 作为结构化索引,详细表示了代码目录、文件、类、函数之间的包含、调用、导入和继承关系,使得隐式依赖显性化,便于 LLM 高效推理。

这种图结构的优势在于:即使两个代码片段分处不同模块,只要存在调用或继承关系,在图上它们就会变得「邻近」。比如,以往基于目录导航的方法会认为远隔两个子目录的模块毫不相干,但如果模块 A 函数调用了模块 B,在 LocAgent 的图中 A 和 B 会通过调用边直接连接,使它们在该图结构上靠近。对于代码定位任务,这种「邻近」至关重要,因为许多问题不是局限在单个文件夹内部,而是通过调用链跨越多个模块。

2.2 提供工具接口供 Agent 查询

构建好代码图后,LocAgent 提供了统一的工具接口,让 LLM Agent 能够方便地查询图结构和代码内容。主要包括以下三个 API:

  • SearchEntity:该工具基于层次化实体索引,使用关键词搜索代码库中相关实体。当在上层索引中未能找到匹配项时,系统会自动使用下一层索引进行搜索,从精确匹配到模糊搜索,以查找最接近的匹配项。对于检索到的每个实体,SearchEntity 会返回该代码片段的摘要(如图 4,有折叠级别、预览级别和完整代码三级,可根据需要展开)。

图片

图 4: 为高效的 Agent 代码交互而设计的不同输出格式示例。

  • RetrieveEntity:当 Agent 确定了某个代码实体很可能就是目标时,可以用此工具提取该实体的完整信息。当输入实体 ID,RetrieveEntity 输出该实体的文件路径、起止行号、完整代码内容等详细属性。
  • TraverseGraph:该工具在代码图上执行类型感知的广度优先搜索。Agent 可以指定起始的实体 ID,以及希望遍历的方向、步数(hops)、实体类型和关系类型等参数。工具会在图中从起点出发按照要求走指定步数,返回遍历到的子图结构。通过设置不同的类型过滤,Agent 可以灵活地探索比如「沿调用关系向下追踪两步」或「查看从某类出发的继承层次」等等。值得一提的是,TraverseGraph 将返回的子图格式化成一种树状结构文本(见图 5),以便 LLM 更容易理解关系拓扑。

图片

图 5:TraverseGraph 工具输出示例。

2.3 Agent 驱动的推理阶段

LocAgent 在提示设计上采用了「逐步思考」(Chain-of-Thought, CoT) 的策略,引导 LLM Agent 将代码定位任务分解为一系列步骤,模拟人类调试思路一步步逼近目标。整个问题求解过程可以概括为以下阶段:

  1. 问题理解与关键词提取:Agent 首先对输入的 issue 描述进行分析,划分出不同方面的信息,然后提取出与问题相关的关键词。这些关键词相当于为后续搜索指明了初步方向。
  2. 链接关键词到代码实体:针对每个提取的关键词,Agent 调用 SearchEntity 工具在代码索引中查找匹配的代码实体。
  3. 多跳推理,生成故障链路:接下来,Agent 会尝试串联线索,从报错表征推导故障原因。它先确定问题触发的初始入口点(例如触发错误的 API 或函数),然后以这些点为起点,在代码图上进行迭代探索:调用 TraverseGraph 沿调用关系或依赖关系向相关方向搜索;用 RetrieveEntity 查看某些关键节点的实现细节;必要时再次 SearchEntity 引入新的关键词。通过多轮交替使用这些工具,Agent 逐步构建起一条从问题症状到潜在根因的逻辑路径。
  4. 锁定目标代码:在形成对问题的全面理解后,Agent 根据「故障链路」中暴露的可疑环节,定位出所有可能需要修改的目标代码实体(可能是若干个函数或类)。随后,Agent 对这些候选实体按相关性进行排序输出,并给出它们的文件路径以及简要的原因说明。

整个 LocAgent 的使用对用户来说非常简洁:只需输入自然语言的问题描述, LLM Agent 就会如上所述自主地完成一系列搜索、遍历、读取操作,最后给出代码定位结果。

三、实验结果:真香警告

LocAgent 在真实数据集上的表现和分析结果令人瞩目。研究中使用了既有的基准数据集(SWE-Bench Lite)以及团队新构建的 Loc-Bench,对比了多种基线方法的代码定位效果。

(1)代码定位效果出色

SWE-Bench Lite 是从 GitHub issue 中构建的仓库级代码修复数据集,也常用于代码定位评估,包含 300 个问题及其对应的修复代码,其中大部分为 bug 报告。基于该基准,LocAgent 实现了目前最优的代码定位准确率,显著优于现有方法。

图片

  • 相比传统的向量检索方法有显著提升:BM25 在文件级 Acc@5 上仅为 61.7%,而先进的代码嵌入模型如 CodeRankEmbed 也仅达到 84.7%;而 LocAgent 准确率高达 92.7%,在函数级定位中也同样显著优于这些方法。
  • 多步推理的 Agent 类方法整体上胜过基于固定流程的方法。基于固定流程的方法(如 Agentless)往往只能依据字面匹配找到有限的候选,而引入了 Agent 逐步探索后,能够考虑更广的范围,定位效果更好。
  • 在文件、模块、函数三个粒度上,LocAgent 全面超越了基于 GPT-4o 或 Claude-3.5 的现有 Agent 系统。使用 Claude-3.5 时,LocAgent 在 SWE-Bench Lite 文件级 Acc@5 达到 94%,在函数级定位上同样优于其他方法。
  • LocAgent 搭配 Qwen2.5-32B (微调) 模型的性能几乎与 Claude-3.5 持平:在 SWE-Bench Lite 文件级 Top-5 准确率上,前者为 92.7%,后者约 94.2%,差距很小。而如果使用 Qwen2.5-7B (微调) 小模型,虽然准确率略有下降(约 88.3%,但仍超过绝大多数 baseline),其表现已能够逼近 GPT-4o 的效果。

图片

(2)多任务场景下的泛化能力

由于 SWE-Bench Lite 数据集过于偏重 Bug 类型,团队打造了新的 Loc-Bench 基准,用于全面评估方法在多样化软件维护任务中的定位能力。Loc-Bench 共包含 560 个真实 GitHub issue,覆盖 Bug 修复、功能新增、安全漏洞与性能优化四大类,任务类型更加均衡,贴近实际工程场景。

四、开源福利:小模型也能打

这个研究最让人兴奋的地方在于:开源模型经过微调后,也能达到商用大模型的效果。他们提供了两个版本,1. Qwen2.5-7B 微调版:性能媲美 GPT-4o,单次处理成本仅 $0.05;2.Qwen2.5-32B 微调版:逼近 Claude-3.5 水平,成本节省 86%。这对于需要大规模部署的企业来说,这简直是降本增效的神器。

具体而言,微调的 Qwen2.5-7B 模型,LocAgent 在 Loc-Bench 四类场景下的平均文件级 Acc@5 为 76.8%,函数级 Acc@15 为 46.9%,已接近 SWE-Agent 搭配 Claude-3.5 的表现(后者函数级约 45.4%)。进一步将 LocAgent 与 Claude-3.5 结合后,文件级平均准确率可提升至 81.1%,在四类任务中几乎全面超越其他方法。

图片

五、实际应用:不仅是定位,还能助力解决问题

研究团队验证了一个关键点:更准确的代码定位直接提升问题解决率。在 GitHub 问题自动修复任务中,使用 LocAgent 的 Pass@10 成功率比基线方法提升了 12%。这意味着这项技术不仅仅是个「定位工具」,而是能实实在在提升整个软件维护流程效率的利器。

该团队进一步从不同角度展开分析,探讨其在复杂任务中的稳定性、成本效率、关键组件作用以及对下游应用的实际价值。

(1)难度分级实验与多跳鲁棒性

为了深入了解 LocAgent 的能力,该团队还按照任务的难度对性能进行了分析。该团队将「难度」用代码图上函数距离(hop 数)来衡量:即 Issue 描述中提及的函数与实际需要修改的函数之间的最短路径。直观地说,hop=0 表示 Issue 直接提到了需要改的函数名;hop=1 表示目标函数是 Issue 中提到的函数之间有直接关系,hop 数越大则定位难度越高。

实验发现:随着 hop 数增加,所有方法的定位准确率都在下降。毕竟关联越不直观,模型需要推理的链路就越长。不过,不同方法的鲁棒性差异明显:Agent 类方法在高难度下的性能下降幅度明显小于检索类方法。特别是 LocAgent 借助图结构索引,在 hop 数增加时仍能保持相对较高的准确率,表现出较好的鲁棒性。

相比之下,传统检索方法在需要两跳以上时几乎失效,在函数级定位上即使目标函数名字就出现在查询里,有时都找不到(因为它们往往把查询当做整体,无法拆解处理细节)。

图片

(2)效果与成本比较

借助结构化图索引与工具调用,LocAgent 仅需 6~9 轮交互即可完成一次代码定位任务,推理过程高效。此外,该团队利用开源模型取得了媲美商用大模型的结果,同时大幅降低推理成本,具备实际落地部署的可行性。

具体来看,使用 Claude-3.5 等商用 API 模型时,每个 Issue 的平均处理成本约为 $0.66;而使用本地部署的 Qwen2.5-32B 模型,成本降至约 $0.09,降低了 86%。若进一步采用 7B 的小模型,处理成本可低至 $0.05,仍能保持优于大多数方法的性能。从函数级准确率与成本的比值来看,微调后的 Qwen-2.5-7B 是性价比最高的方案,其效率优于所有商用模型;Qwen-2.5-32B 次之,也显著优于 Claude-3.5。这表明,结合 LocAgent 框架,开源模型不仅具备性能竞争力,更具部署经济性。

图片

(3)应用效果:高质量定位显著提升问题解决率

为评估代码定位在实际软件维护任务中的影响,该团队进一步分析了 LocAgent 在自动解决 GitHub 问题中的效果。结果表明,随着定位准确率的提升,问题解决成功率显著提高,说明更精准的定位结果能够显著增强自动化代码修改的质量与稳定性。该发现验证了 LocAgent 不仅在定位本身表现优秀,也能有效推动下游任务的整体性能,具备实际工程价值。

图片

六、技术启示:结构化索引 + 智能推理

LocAgent 的成功揭示了一个重要趋势:从「暴力计算」到「智能决策」的范式转变。传统方法要么把整个代码库直接丢给 LLM 进行暴力匹配,要么让 Agent 按照预设规则盲目遍历目录,这些都属于「计算密集型」的解决方案。而 LocAgent 通过图索引等结构化中间表示,将复杂问题进行结构化分解,然后让 LLM 承担更高层次的推理和决策任务。

这种「agentic retrieval」范式的核心在于决策智能化。通过图、树等结构化中间表示,信息变得更易于推理,Agent 能够根据具体问题动态调整搜索策略,而非死板地遵循预设路径。这代表了从「人工设计各种 RAG pipeline」向「让 AI 自主决策如何检索」的转变。

这种结合结构化索引与 LLM 智能体协同设计的范式,很可能成为未来 AI 工程应用的标准模式。不再是让 LLM 做更多计算,而是让 LLM 做更智能的决策 - 程序员的 debugging 体验又要迎来一次重大升级了!

#AI产品千篇一律?

去Google Labs,淘下一个AI爆款

上周的开发者大会,​​谷歌冷不丁地掏出个 Veo3 就惊艳了全球。​

很纳闷,谷歌到底还藏着哪些不为人知的好东西?于是我就去 Google Labs 转了转。

Google Labs:https://labs.google/experiments?category=all

Google Labs 是一个实验性平台,用于展示和测试正在开发中的新技术和产品原型,用户可以提前体验和反馈未来可能发布的功能或服务。

为方便查找,网站分为「创造」、「学习」、「发展」、「玩」和「I/O 新品」五大类。毫不夸张,里面塞满了各种稀奇古怪但莫名上头的 AI 工具。

image.png

比如通过上传主题图、场景图和风格图来混搭生成创意图像的 Whisk、能根据提示词生成最长 70 秒音乐的 MusicFX、一键就能把学术论文转成可收听对话音频的 Illuminate,还有去年大火的 AI 播客​​ NotebookLM​​​、AI 家教 ​​Learn About​​……

今天我们就来介绍一款让世界名画「唱歌」的 AI 工具 ——National Gallery Mixtape

image.png

我实在无法想象,让世界名画演奏出一曲音乐,这得是怎样清奇的脑回路才能想到的点子。

National Gallery Mixtape 是由伦敦国家美术馆携手 Google Arts & Culture 打造的音乐实验,可以把经典艺术画作转化为独特的音乐作品。

玩法也很简单。

该工具汇集了伦敦国家美术馆精选的 200 幅世界名画,涵盖从文艺复兴时期到现代的各种风格和主题,比如梵高的《向日葵》、扬・凡・艾克的《阿尔诺菲尼夫妇像》等。

image.png

当然也有一些我这个俗人看不明白的画作😂

image.png

冷知识:这幅名为《丑陋的公爵夫人》是英国国家美术馆最知名的肖像画藏品之一,画作的原标题是《一名老妇人》,由比利时画家 Quinten Massys 在 1513 年绘制,后来成为《爱丽丝梦游仙境》初版插画中公爵夫人的角色原型。

我们先从中挑选出自己喜欢的画作,最多可选择 6 幅,拖拽到右侧的空白处。

image.png

谷歌的多模态 AI 模型 Gemini 会对所选画作的色彩、主题、情感和历史背景等元素深入分析并进行描述,然后将这些描述发送给 MusicFX DJ,由后者实时为每张图像生成配乐。

比如,一幅充满活力的红色画作可能会被关联到激昂的旋律,而一幅柔和的蓝色画作则可能生成舒缓的音符。

,时长00:12

不过奇怪的是,当初上美术鉴赏课时,老师明明说梵高的《向日葵》热烈奔放,AI 谱出的曲子却忧郁低沉:

,时长00:22

我们还可以通过调整音乐片段的音量、顺序和叠加方式,创造出属于自己的个性化音乐混音。比如,将 2 幅不同的画作叠加在一起碰撞出的音乐:

,时长00:23

平台还提供各种音乐风格、乐器和心情标签等工具,可以进一步定制音乐的风格和氛围,比如我们选择 「热闹的」、「精力充沛的」、「好玩的」、「流行音乐」 等标签来为画作添加特定的声音色彩。

,时长00:24

听音乐的同时,要是想了解这些世界名画,点击下方链接,它会直接给出画作的详细介绍。

,时长00:11

除了以上的 Scores 模式,我们亦可以选择「Mixer」模式,通过滑动画作旁边的推子来像 DJ 一样混音,调整不同画作生成的音乐层次,创造出独属于自己的艺术交响。

,时长00:24

众所周知,AI 圈越来越卷,但产品同质化也越来越严重,那种脑洞大开、让人眼前一亮的 AI 应用已不多见。

不过,曾被 OpenAI 压着打、被外界嘲讽「起个大早赶个晚集」的谷歌仍在不断地输出好点子,Google Labs 就是个典型的例子。

其实 Google Labs 早在 2002 年就推出了,用于展示谷歌工程师的各种实验项目。之后还孵化出 Gmail、Google Maps 等正式的产品服务。不过 2011 年谷歌认为工程资源应集中在核心产品上,就关闭了它。

随着这波生成式 AI 以前所未有的势头席卷而来,谷歌在 2023 年重启 Labs,聚焦于 AI 驱动的实验项目,特别是在生成式 AI、搜索、协作工具等领域的应用。

未来,Google Labs 或许能孕育出更多令人惊艳的产品,期待 ing。

以后我们会带来更多好玩有用的 AI 评测。

#大模型开源开发全景与趋势解读

「根据 OpenDigger 的数据显示,人工智能已经于 2023 年超越云原生,成为协作影响力最大的技术领域」

从近十年来 AI、云原生、数据库、前端、操作系统这五大技术领域的发展曲线来看,AI 类项目在近些年得到了快速发展,尤其在 2022 年后发展迅猛。AI 项目影响力总值在 2017 年超越前端技术,2022 年后进入快车道,并且在 2023 年超越了已经在逐渐下降的云原生领域,成为影响力最大的技术领域。

图片

五大技术领域近十年 OpenRank 曲线

大模型开发生态全景

春节期间,DeepSeek 再次引爆大模型开发生态,2025 年 2 月,GitHub Trending 周榜上一度有 94% 的开源项目都和 AI 有关。这个生态如此崭新,迭代速度也如此惊人,我们观察了近三个月的 GitHub Trending 榜单,60% 的大模型开发生态相关的项目是在 2024 年之后新兴出现的,甚至有将近 21% 的项目在近半年内才创建,当然,有来也有去,同样有大量曾经热门的项目没有等到我们发出这份报告的日子。

从蚂蚁开源团队的视角,我们希望从社区数据中了解当下大模型开发生态的演进全貌:有哪些新兴的趋势,以及趋势下最顶尖的项目有哪些。蚂蚁的开源团队其实不叫开源办公室(OSPO),而是叫“开源技术增长”,是蚂蚁的一个技术架构性团队,我们的一个工作目标就是“利用对开源社区的洞察来为蚂蚁的架构和技术的演进提供指引”。我们做的这样的全景图和趋势分析,也正是希望能依据对社区的洞察,指出哪些项目是最应该跟踪、使用、参与的,哪些方向是值得投入的,反之亦然。

开源开发世界的一个很大的优点是,我们可以从公开数据中看到开发者们的协作分布动向,以此模拟项目们在生态之中的关联关系和生态位置:也许是上下游合作关系,也可能是同生态位竞争关系。因此,在做这份全景图的一开始,我们选取了时下 AI 领域中大家最耳熟能详的一些项目(例如 PyTorch,LangChain,vLLM 等),把它们作为种子节点,然后通过开发者在 GitHub 上的不同项目之间产生的协作关联关系,不断去探查生态的多个侧面。在得到初始的项目列表的基础上,我们和一些相关领域的开发者们探讨,手动的维护项目所属的技术领域标签,并不断做列表的收敛和更新。AI 技术迭代一日千里,我们希望呈现的是当下最顶尖的和最火热的开源项目,所以,这里用到了华东师范大学 X-lab 实验室的 OpenRank 影响力评价指标(https://open-digger.cn/docs/user_docs/metrics/global_openrank)作为一个重要的数据依据——在今年的 OpenRank 月均值大于 10 的项目才会出现在全景图上,一些年久失修,或者是过于崭新的项目,如果没有达到这个阈值,则会被拿掉。

最终,呈现下面这张 2025 年大模型开源开发生态全景图,截止 2025 年 5 月发布时,全景图上收录了 135 个项目,涵盖了智能体应用层和模型基础设施层一共 19 个技术领域。虽然我们非常努力想从中挖掘更多信息,但我们也完全明白,社区的数据既不全面也不完全准确,而且也不一定能反映出很多最新最优秀的技术变化,我们只希望这个报告能给大家一些有益的参考,有什么错漏之处和其他值得补充的观点,也欢迎大家反馈给我们。

图片

地址: https://antoss-landscape.my.canva.site

以下是本次全景图上所有项目中,在 2025 年 OpenRank 排名 Top 20 的项目详情:

图片

图片

结合这些项目的排名分布,再对比 2024 和 2025 年 OpenRank 的同比绝对值变化,可以看到三大主导的技术领域:模型训练框架、高效推理引擎和低代码应用开发框架。

在训练上:PyTorch 是当之无愧的生态顶流,在全景图中的所有项目中影响力位列第一。而国产的深度学习平台百度飞桨,对比去年同期 OpenRank 降低了 41%,绝对值降低 150;

在推理上:高效推理引擎 vLLM 和 SGlang 在过去一年都处于飞速迭代之中,分别位于 OpenRank 同比增长的第一和第三位,他们以优越的 GPU 推理性能优势在企业级 LLM 部署中广受拥趸;

在应用侧:结合低代码工具链和 RAG 知识检索管理技术的 Dify 和 RAGFlow,由于契合企业快速构建 AI 应用的需求,正在迎接属于他们的高速增长,而这两个应用开发平台都是从中国开发者社区中生长出来的强势项目。

在观察了 100 多个大模型开发相关领域的开源项目之后,我们得到了一个暴论:

大模型开发生态是一场真实世界的黑客松(A Real-world Hackathon)

图片

在 AI 技术扩散速度远超预期的背景下,大模型开发生态正演变为一场在真实世界发生的、实时公开直播的黑客松。开发者借助 AI 的力量得以以“超级个体”的姿态,在热点事件中快速构建开源项目,通过技术能力争夺公共流量与行业话语权。与此同时, 一波又一波的开源项目和产品也在技术概念浪潮中爆火或者消亡。这种快速构建,快速消亡,注重开发速度的迭代,正如“几十个小时完成一款软件”的黑客马拉松(Hackathon)一般。

在观察和这张全景图相关的开源项目时,我们发现了一些有趣的故事,从侧面印证了上述观点:

开发者的短线投资与技术声誉

当 Devin、Perplexity、Manus 等闭源产品引发行业震动时,开发者们在短时间内迅速复刻出了开源版本:

Devin 与 OpenDevin:在 Devin 发布的当月(2024 年 3 月),在 UIUC 计算机专业在读 PhD 的王星尧发起了 OpenDevin 项目,项目开源的次月, OpenRank 就飙升至了 190。后来,OpenDevin 改名为 OpenHands,并且成立了相应的商业化公司 All Hands AI,专注于做 AI 软件开发应用平台;

Perplexity 与 Perplexica:独立开发者 ItzCrazyKns 于 2024 年创建了 Perplexica 项目,作为热门的闭源AI 搜索引擎 Perplexity 的开源替代,迄今项目已经积累了 22K Star 的极高关注,但 OpenRank 始终不温不火地维持在 25 左右;有趣的是,在 Devin 发布的同时间,这位开发者也同步发起了一个更轻量的开源版本“Not Devin”,如今也已经明确不再维护;

Manus 与 OpenManus:今年 3 月,Manus 刷屏的同时,MetaGPT 背后的创业公司 DeepWisdom 再次带来一场经典的“ 3小时复刻”,在 OpenManus 仓库创建的当天就获得了 8k Star。 

这些项目的生命力究竟如何,还需要时间验证(当然,有一些已经被时间验证),但开发者通过短期内获得的技术声誉实现了自身的长期价值 -- GitHub Star 数、社区讨论热度以及与头部机构的合作机会,成为衡量开发者“影响力资产” 的新指标,即便那些项目最终沉入 “AI 墓园”,开发者也能够凭借早期贡献获得行业认知的红利。

AI “墓园” - 昙花一现的技术实验

LLM 浪潮同时催生了一批 “速生速死” 的 AI 项目和产品。在 Dang AI 收录的 5079 个 AI 应用工具中,有 1232 个已经停止维护,其中最容易被关停的产品类别是写作类工具。Dang AI 为这些昙花一现的产品们做了一个“AI 墓园”(https://dang.ai/ai-graveyard)。

在开源生态中,也不乏这样的项目,他们在创建后的短时间内获得了大量的关注,而如今已经不再活跃,我们为这些项目做了一个“开源 AI 墓园”(如下图)。这些项目均在 2023 年之后发起,拥有上万 Star 的关注度,除了 Swarm 是由 OpenAI 在今年 3 月官方宣布不再维护外,其余项目的上一次代码提交都还停留在 2024 年。

图片

其中,比较有代表性的有两个项目:

  • 2023 年 4 月,个人开发者 Yohei 发起了 BabyAGI 项目,在很早期就提出了 “自我进化 Agent” 的设想,通过任务分解、学习反馈和动态规划模拟通用人工智能(AGI),可谓是最早的一波对 AGI 的想象;
  • 2024 年 2 月,OpenAI 发布了 Swarm,提出了 “群体智能”的概念,在发布时获得了极高关注度,被视为探索多智能体协作的前沿尝试,目前已经被产业可落地的 OpenAI Agents SDK 所替代,Swarm 则逐渐淡出公众视野。

这两个项目在发布时就声称是 “实验性”、“探索性” 的尝试,可以说在一开始就没打算做深谋远虑的长期规划。然而他们所提出的先锋概念,所激发的讨论和创新性尝试,在一起推动这场“黑客松接力赛”从概念验证向工程落地的演进。

模型能力对应用场景的冲击与重塑

随着模型能力的不断提升,应用开发生态也在随之发生变革,有冲击与挤压,但也带来了更多新的想象空间。

AI Search 开源项目的式微:AI 搜索是最早落地的应用场景,以 Perplexity 为代表的产品一度形成了对谷歌搜索的实质性挑战,而 Morphic.sh、Scira 等开源项目也试图通过本地化部署和 API 自由配置打破闭源产品的垄断。从发展趋势上来看,这类项目的存活率并不高。模型能力的泛化在加剧专用搜索工具的生存压力,GPT4、Gemini2.0 等新一代模型已经能够自主完成网络检索、信息整合和答案生成的全流程,这种内置的联网检索功能也许在压缩专用的搜索工具的市场空间;

图片

AI Search 开源项目们的 OpenRank 趋势

AI Coding 开源项目的火热:与之相对的,模型能力的提升正在引发软件开发范式的变革。Claude 3.7 Sonnet 在编码和 Web 开发方面的突出表现让 AI 辅助编程进入了一个新阶段。开发者通过自然语言描述场景,模型自主完成需求分析和代码实现的 “氛围编程”(Vibe Coding)开发范式已经悄然形成。现阶段,除了商业化产品 Cursor、Windsurf 等验证了市场热情外,以 Continue、Cline 为代表的 IDE 插件形态的项目们也是主流的开源选择,这两个项目的社区参与者人数都已经超过 3000 人,且 OpenRank 曲线持续攀升。顺便提一下,蚂蚁也在 2023 年开源了 AI Coding 平台 CodeFuse,从软件开发的全生命周期辅助开发者进行 AI 原生的软件开发,虽然本次没出现在全景图上,但还是欢迎大家关注。

图片

AI Coding 开源项目们的 OpenRank 趋势

生态位之间的动态博弈

图片

从整体格子的变化来看,生态位之间也在进行动态的博弈。

  • 在增长的两端分别是以 Dify 为代表的应用平台和以 LangChain 为代表的应用开发框架。不同开发模式表现出的 “冰火两重天” 态势,也是该生态极快迭代与极强生命力的体现。此处要特别提一下本次唯一出现在全景图上的、由蚂蚁发起的开源项目 DB-GPT,它是一个结合了“AI 应用开发” 和“大数据应用”两个场景的 Agent 开发平台,精准的定位和精准的出击,让项目在 2023 年一经推出就吸引了大量高校和产业界的开发者们参与共建。
  • DeepSeek-R1 推理模型带来的 "Aha Moment" 证明了强化学习这一后训练路径的有效性,以 Verl,OpenRLHF 为代表的强化学习框架在今年显著增长。在今年 2 月份,inclusionAI 也全面开源了强化学习框架 AReaL,旨在训练每个人都可以复现和贡献的大型推理模型,当然,项目还很新,让我们期待下一次它能够出现在全景图上。
  • 生态之间也在彼此摸索能力的边界。例如,向量化的存储、计算和检索是作为大模型应用接入领域知识的重要一环,一度给 Milvus、Qdrant 等垂类的向量数据库带来“泼天的流量”,而传统大数据系统也纷纷做向量化转型,蚂蚁的开源分布式数据库 OceanBase 也在去年支持了向量存储功能,并且同步兼容了 Milvus 的 API。我们可以看到,技术的边界在不断的流动和融合中保持着微妙的生态平衡。

大模型开源开发生态技术趋势观察

在生态全景之外,我们选取了当下热门的七大趋势,基于社区数据进行了趋势分析、行业观察,并且比较大胆的做了一些趋势论断。这些趋势包括了在大模型时代新兴出现的生态,例如以应用层为主的 Agent 开发框架,以 MCP 为代表的 AI 原生标准协议,改变了软件开发模式的 Coding Agent;也包括了发生在传统的大数据和人工智能领域的生态,它们在大模型时代也发生了一些转向,有些领域一度被显著地波及,例如向量化的存储,也有些领域发生了生态格局的颠覆,例如模型的推理服务。

图片

图片

图片

2023-2024 年间,以 LangChain 为代表的"全能型"框架凭借其开创性的任务编排能力和丰富的工具集成一度主导市场,在此期间也涌现出了一大批新的 Agent 开发框架,无论是主打工具调用、RAG 接入、长上下文记忆、ReAct 规划,无数的智能体开发框架在不同的技术概念和浪潮下迅速崛起;到 2024 年下半年,格局初步形成,已经少有看到新的开发框架出现,热潮褪去之后,我们看到早期主导市场的 LangChain 因为陡峭的学习曲线和复杂的调试成本在明显的走向下坡;进入 2025 年,格局呈现出分化的趋势:Dify、RAGFlow 等平台通过低代码工作流和企业级服务的落地开始主导市场;而以 LangChain 和 LlamaIndex 为代表的开发框架日渐式微。

图片

Agent 开发框架 OpenRank Top 10 排名变化

图片

Agent 开发框架 OpenRank 曲线

作为当前最热门的 AI 应用开发平台,Dify 精准把握了企业级用户的需求:一方面通过直观的可视化工作流编排大幅降低技术门槛,另一方面则提供完善的企业级安全管控方案。AI 应用开发者们并不缺乏新的选择,易用性、快速构建或许是当下应用开发框架的关键标签。在下表中,我们对比了当下三大主流框架的功能特性:

图片

三大 Agent 框架功能特性对比

随着 AI 技术逐渐成熟,框架的竞争焦点已经从单纯的技术创新转向对企业实际业务场景的深度适配。那些能够提供完整企业级解决方案(包括权限管理、审计追踪、数据隔离等特性)的平台,正在获得越来越多企业用户的青睐。可以预见,未来 AI Agent 框架的发展将呈现"马太效应":功能完善、生态健全的平台将吸引更多企业用户,而这些用户的反馈和需求又将进一步推动平台优化,形成正向循环。在这一过程中,像 Dify 这样既保持技术领先又深入理解企业需求的项目,很可能会持续扩大其市场优势。

图片

2022 年,ChatGPT 兴起,早期的大模型应用开发者借助在 Prompt 中附上函数说明,来试图进行工具调用,使模型和外部世界交互。这种实现方式五花八门,效果也不尽人意;

2023 年,OpenAI 在发布 GPT4-0613 模型时同时推出了函数调用(Function Calling)功能,初现标准的端倪;由于函数调用过程需要开发者来完成,因此生成过程中多个函数的协同和编排都成为了难题,而且在现有工具中集成新的函数也极为困难,扩展性受到极大的限制;

2024 年 11 月,Anthropic 开源了模型上下文(Model Context Protocol,MCP)协议,标准化了智能体与工具之间的通信。3 月起,各个大模型都快速跟进并支持了 MCP,由此 MCP 也成为了目前实现大模型 Agent 调用外部工具资源的事实标准;

2025 年 4 月,Google 开源了智能体间协议(Agent2Agent,A2A) 协议,该协议与 MCP 不同,并不是约定如何为大模型实现一个 Agent,而是规定不同的 Agent 应用之间如何进行交流和互操作;

2025 年 5 月,CopilotKit 推出智能体用户交互(Agent-User Interaction,AG-UI)协议。推出仅一周,仓库涨星 2.2K,该协议用于标准化智能体后端调用的工具和前端用户界面之间的交互层。

图片

从 MCP、A2A 到 AG-UI 的陆续出现,我们可以想见,未来大模型应用会逐步向微服务化演进,即具有特定功能的 Agent/MCP 将成为互联网上独立发布并可被随时调用的服务,或者是以标准配置的形式发布以方便开发者或用户随时本地构建和启动服务。这种演进路径一方面面临传统微服务的技术挑战:如参数配置、版本管理、安全鉴权、数据隐私、服务编排等,但也引入了大模型特有的新命题:如 GPU 弹性调度、上下文跨节点共享与协同推理、多模态协同合作、Prompt 注入防御、输出内容合规审查、精细化多维计费、配额智能管理等。

面对上述的各种挑战,在技术标准层面,可能部分沿用现有技术标准,但更需要原生协议创新—— 例如定义大模型服务专属的元数据规范、流式通信协议、多模态交互协议、服务监控协议、联邦推理协议等。而在实践层面,开源生态将成为关键战场:主导标准制定的先行者可通过协议制定权的优势进一步绑定开发者工具链(如框架、SDK 等),进而形成从接口规范到运维实践的完整技术闭环,最终在模型即服务(MaaS)时代构筑生态护城河。

随着大模型服务的加速演进,标准协议层也会成为头部玩家的战略要塞,在可见的未来一到两年,标准协议层可能迎来密集的生态卡位战,而那些深度融合技术前瞻性与开发者体验的协议框架将逐渐占据生态话语权,并引导大模型技术领域创新的规模化涌现。

图片

程序员会率先被 AI 取代吗?再往前几个月,这样的问句频繁出现。当 GitHub Copilot 帮助做代码自动补全时,开发者们产生了存在主义危机;当 AI IDE 们直接上手创建完整的工程项目时,真香定律上线,氛围编程(Vibe Coding)成为当代的软件开发新范式。

在调研了无数火热的 AI 开发类闭源产品,并观察了如下流行的开源项目之后,我们发现:

图片

大厂在 AI Coding 领域快速下场,但几乎以闭源为主。这其中主流的有 GitHub Copilot、Amzon Q developer、CodeArts Snap(华为)、通义灵码(阿里)、Trae(字节)、 CodeFuse(蚂蚁)。大厂的天然优势是有可以快速迭代的内部落地场景,短板则来自于对内部数据的过度依赖而导致的泛化能力不足,以及复杂的内部流程可能会阻碍创新速度。由此可见,大厂做辅助编程类工具,乃至做 AI 开发工具,有优势也有掣肘。

反而是一些创业公司或三五人的小团队能够快速产出一个该领域的开源项目,迅速出圈。比如创业公司 Continue 的“continuedev”开源项目,凭借小团队的高效协作和灵活的创新机制,迅速在开源社区获得关注。在与 OpenAI 或 Google 等行业巨头竞争时,AI Coding 赛道是少数几个不会因数据或场景资源匮乏而处于明显劣势的领域。5月初,OpenAI 甚至计划用 30 亿美元收购 AI 开发工具 Windsurf。

根据项目的智能化程度以及目标受众群体的专业化程度,我们将这些 GitHub 上热门的 AI Coding 类开源项目划分为四个象限:

图片

可以看出,AI Coding 正在尝试从一次性代码生成走向真实的软件工程场景下的开发,但依然面临很大挑战。尽管当前明星项目(如 Continue、Cline)在代码补全和简单 API 调用场景取得显著进展,但距离实现真正的 Dev Agent 仍存在本质差距。

现有系统在语义等价性验证、多语言项目协同、安全敏感代码生成等维度存在明显短板,尤其在处理包含复杂业务逻辑的大规模代码库时,重构成功率低于预期。技术演进的关键在于突破上下文感知能力(Context-Awareness)与领域知识融合(Domain Knowledge Integration)的双重瓶颈。预计未来 24 个月内,随着代码验证技术(如形式化方法与符号执行的结合)、多模态训练数据(代码+文档+运行时日志)的成熟,以及开发者反馈闭环的优化,AI 开发助手将会承担更多常规开发任务,但仍需人类开发者在关键决策点进行监督。

当我们看到上述这些当下热门的项目时,或许还会记得 Devika、TabNine、GPT-Pilot 这些逐渐沉寂的项目。它们日薄西山的原因背后,也反映了 AI 开发领域的市场分化:已经成熟的商业产品(Copilot、Devin、Cursor 等)和开源工具瓜分了市场,功能同质化或迭代缓慢的项目(如 Devika、GPT-Pilot)难以生存,而像 GPT Engineer这样早期积累了大量用户的明星开源项目,也通过开源的成功实践而发展为闭源的商业化产品:开源项目 GPT Engineer 作为热门的 AI 应用构建产品 Lovable 的前身,由于背后团队注意力的转移,如今已经不再继续维护。

图片

逐渐沉寂的 AI Coding 项目们

图片

如果形容向量数据库的发展,可以说是“起于泼天的富贵,回归理性的沉淀”。 2023 年 2 月前后,以 Qdrant,Chroma 为代表的项目收到了一波极其夸张的关注,分别收获了超过 5000 的 Star 数,但这种高关注并未形成持续的趋势。

图片

向量数据库的每月 Star 增量变化

在 2024-2025 年的整体发展期,我们看到各个项目新获得的关注整体趋于稳定,没有出现很大的差异;在 OpenRank 趋势上,开源较早并且由 LF AI & Data 基金会中立托管的 Milvus 在一直保持着稳定的领先,而整个技术领域似乎像是平行的跑道,一起平稳的向前发展。

图片

向量数据库的 OpenRank 增量变化

这种状态的背后的原因有几个关键的可能性:

  • 开源产品并非唯一的市场选择:同期有纯商业版的强力竞争者如 Pinecone,KDB.AI 出现,且 Pinecone 的产品力和市场拓展相当不错;
  • 传统大数据系统的向量化升级:随着时间的推移,传统数据库开始推出向量化的插件或向量搜索引擎(如图中的 pgvector),这当中包含了大量很受欢迎的 DB 选型,如 PostgreSQL,MongoDB Atlas,OpenSearch,ElasticSearch 等,这对于纯粹的向量数据库带来了一些冲击;
  • OpenCore 模式下,商业公司不那么关心 Core 的数据活跃:正如传统数据库有大量的项目是通过「开源核心」的方式来做商业模式,向量数据库也是类似。而这种模式下,有一个可用完整的开源核心非常重要,但核心的整体活跃度并不是背后的商业公司最关注的事情,基于 Core 版本形成的有竞争力的生态才是。

这带来了另一个讨论:

向量数据库是不是一个“冗余技术”?是否用传统数据库结合向量搜索中间件就可以满足模型应用的需求场景?

  • 答案是没有。社区数据显示,pgvector 的趋势处于不升反降的状态。由于模型规模极大,且主要在大中型公司中部署,可扩展性和企业服务能力是刚需,而目前的向量数据库基于开源的商业产品如 Zilliz 等都具备很好的横向扩展能力、云兼容能力、安全性、以及对于现有 AI/ML 框架的系统化支持。相应的商业服务在市场上比较受欢迎,而单纯的向量搜索引擎目前做不到这种服务能力。

从 vLLM 和 SGLang 的发展也能看到,技术“薄”不是问题,有没有迭代空间和范式变化可能才是最大的问题,向量的需求,场景和算法都比较具体,开发层面可能并没有那么大的想象空间;另一方面,非结构化数据虽然数据量在增加,但更好的解决方案,多模态模型或生态玩家还没有形成规模,从而导致向量层要解决和优化的迭代发展相对较为缓慢和稳定。

与 Agent 等应用层的“生死时速”不同,在向量数据库层面,前浪还没有被拍到沙滩上。

图片

数据湖技术是在大数据时代就已经提出的,对多模态的数据进行存储、检索和预处理的能力,而数据目录解决了在数据湖和湖仓一体架构中对海量、多样化数据资产的统一管理需求。在大模型时代,大家常说,重要的是数据、数据、还是数据。那么,这些面向多模态和多源的数据进行治理的开源技术与项目们,在这一波浪潮中,社区发生了怎样的变化?

数据湖表格式方面,Apache Iceberg、Apache Hudi、Apache Paimon、Delta Lake 共同构成了湖仓技术生态的“四足鼎立”。Iceberg 巩固了开源湖仓的通用框架,Hudi 和 Paimon 则在实时增量领域各展所长,Delta 凭借厂商支持稳步前进。可以预见,这些项目将彼此竞争又互相借鉴,推动数据湖存储技术不断进化,为非结构化海量数据的可靠管理提供支撑;

图片

数据湖表格式项目 OpenRank 曲线变化

元数据治理与数据目录方面,OpenMetadata 和 DataHub 稳居一线,功能日臻完善;与此同时,Apache Gravitino 和开源版 Unity Catalog 等新秀异军突起,预示着下一代统一数据与 AI 治理平台的雏形正在形成。值得关注的是,它们纷纷将目光投向非结构化数据和 AI 资产,也顺应了大模型时代对广义数据治理的需求。

图片

元数据治理项目 OpenRank 曲线变化

从全景图上所有项目所构成的生态协作网络上,我们可以看到大数据系统领域的这些项目们还处在整个大模型开发生态相对边缘的位置,这可能跟大数据生态下的开发者们,本身就不像 AI 生态那样密集地产生交集有关。但也从一个侧面体现出,大数据和 AI 生态的融合还在路上。在未来,随着基座模型进一步融入数据基础设施,这些项目之间的联动也许会更加紧密,无论是大数据项目为机器学习任务提供高质量的数据,还是利用模型的能力反向的支持数智化的数据治理。

图片

全景图项目生态关联网络

图片

图片

随着大语言模型的大规模部署,模型推理效率、资源利用率和部署灵活性成为影响应用落地的关键因素。2023 年以来,出现了一大波面向于模型部署和高效推理的大模型服务工具,在性能和生态上彼此追赶,混战一直持续到今天。从 Top 10 的模型服务项目的排名变化上来看,仍有新的项目不断冒出来,并吸引开发者参与到其中去。例如去年 7 月清华推出的 KTransformers 和今年 3 月 NVIDIA 推出的 Dynamo。

图片

模型服务 Top 10 项目 OpenRank 排名变化

而无论是从排名还是从发展势头上,vLLM 和 SGLang 都可谓是当下大模型领域最著名、热度最高的两个推理引擎,也都是 DeepSeek 推荐使用的推理引擎。从 OpenRank 的趋势来看,vLLM 与 SGLang 的社区仍在持续扩张。2024 年第四季度,vLLM 的增长一度趋于停滞,而同期 SGLang 正在快速迭代,其 Q4 OpenRank 平均增速达 12%。进入 2025 年后,vLLM 发布了 v1 重大版本,完成核心架构升级,重新进入增长通道。推理引擎生态似乎由此开启了新一轮 “AI 军备竞赛”:2025 年第一季度,vLLM 的 OpenRank 平均增速为 17%,SGLang 则高达 31%。

继 Ray 和 Spark 之后,UC Berkeley 又一次展示了其强大的顶尖开源技术的孵化能力:vLLM 诞生于 UCB SkyLab,和 Spark、Ray 是一脉相承;SGLang 则诞生于 UCB 和多家大学共同发起的研究性组织 LMSYS,从官网上可以看到,这个组织还开源了火爆的大模型对抗式评测平台 Chatbot Arena。

vLLM 和 SGLang 的社区对比

图片

但模型服务这条赛道上,并不只有 vLLM 与 SGLang。

  • Ollama 与 llama.cpp:端侧推理和本地部署的轻量级优选。使用 llama.cpp 进行模型训练、量化和性能调优,再通过 Ollama 进行快速部署和服务化管理是开发者中的一种常见实践。这两个项目不仅仅是在模型服务赛道最近一个月的排名上位列第 3 和第 4,从整个生态的排名来看,也占据不可忽视的头部位置。
  • KTransformers:超大规模参数场景下的异军突起。2025 年 2 月,清华大学 KVCache.AI 团队推出的 KTransformers 宣布成功在 24 GB 显存 + 382 GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版,并且据说速度提高了 3~28 倍,项目随即迎来社区爆发式增长。当月项目 OpenRank 飙升 34 倍,吸引了 736 名开发者参与协作与讨论,仓库 Star 数突破 1 万。

图片

几大模型服务项目的 OpenRank 曲线变化

图片

图片

PyTorch 的项目关联生态

PyTorch 是如今大模型开发生态的绝对顶流和生态核心,也是模型训练领域当之无愧的事实标准。凭借模块化和轻量化的开放设计,在 2020 年正式超过了 TensorFlow,成为大模型时代深度学习的基础设施,而 TensorFlow、MXNet、Caffe 等框架已经成为了上一个时代的过去式。

图片

几大训练框架的 OpenRank 趋势变化

2022 年 9 月,Meta 宣布将 PyTorch 以独立基金会的形式归入 Linux 基金会(LF)旗下运作,成立 PyTorch 基金会。凭借 PyTorch 近乎“蛮横”的生态虹吸效应,这个子基金会现在也发展成为强大的伞形组织:今年 3 月份,推理引擎 SGLang 加入 PyTorch 生态;5 月份,推理引擎 vLLM 和分布式训练平台 DeepSpeed 也宣布加入 PyTorch 基金会。

虽然以中立的、独立基金会的形式治理 PyTorch 项目生态的发展,我们依然能够从社区数据中看到 Meta 在其背后产生的巨大影响力,仓库中有几位头部贡献者:ezyang (提交 3280 次), jerryzh168(提交 1216 次),soumith(提交 1151 次),在 GitHub 首页都可以找到是 Meta 员工的证明。截至报告发出时,仓库中有 9000 多个带有 fb-exported 标签的 PR(占所有 PR 数量的 9%),推测是由 Meta 内部系统开发和评审之后,再对外和 GitHub 做同步时的产物。

发布前的一周,还发生了什么?

黑客松最重要的事情就是快速响应,所以报告的最后一部分,我们给发布之前的一个星期留了位置,而上一周,各个厂商也给我们这最后一块留白做足了面子,通过三场“科技春晚”带来了一系列升级和发布——

  • 微软 Build 2025 大会上,Windows 操作系统原生支持模型上下文协议(MCP);VSCode 开源 GitHub Copilot Chat 插件,推动 AI 编程发展;
  • Google IO 2025 大会上,Gemini 全系列更新闪亮登场,同时,Gemini 系列应用也全面升级,正在成为一个 “AI 操作系统”,将被整合到安卓各种设备和 Chrome 浏览器里;
  • Anthropic Code with Claude 2025 大会,Claude 4.0 发布,带着最强编码模型的光环,开发者们开始了新一轮的黑客松。

致谢

本期洞察从蚂蚁作为一家科技企业的视角出发,深度使用到了 X-lab 实验室的 OpenRank 评价指标,期间也咨询了很多来自蚂蚁内部的技术专家和开源社区的开发者们,非常感谢大家的宝贵观点。后续,我们也会将内容开放在 GitHub 上,欢迎大家共同协作,一起贡献高质量的生态洞察。

#DeepSeek-R1-0528

DeepSeek-R1今天一次「小更新」,颠覆了大模型格局,网友:尽快放R2

超出所有人的期待。

千呼万唤始出来,DeepSeek 迎来了推理模型更新。

图片

昨晚,DeepSeek 官方宣布其 R1 推理模型升级到了最新版本(0528),并在今天凌晨公开了模型及权重。

图片

HuggingFace 链接:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

模型文件上传时间是凌晨 1 点,不知 DeepSeek 工程师们是不是加班到了最后一刻。也有网友表示,这回又在端午节假期前发新模型,简直比放假通知还靠谱。

图片

这次更新的升级版 R1 参数量高达 6850 亿,体量巨大,虽然开源了出来,但大多数人只能围观。如果「满血版」不进行蒸馏,是肯定无法在消费级硬件上本地运行的。

不过这种不说话直接放链接的态度还是引来了网友们的普遍欢迎。

图片

根据 DeepSeek 的小范围通知,更新后的 R1 版本采用 MIT 许可证,这意味着它可以用于商业用途,从版本号看来这是一个「小」升级,不过人们大量实测后发现,新版大模型的性能提升颇为明显。

我们也能在新版 DeepSeek-R1 模型的配置文件中看到更多但并不出人意料的信息,包括采用了 DeepSeek-V3 作为基础模型以及 MoE、隐藏层大小、量化等配置。

图片

我们现在已经可以在 DeepSeek 的网页端和 App 上直接用上这个最新版本的大模型。

有网友总结表示,新的 DeepSeek-R1-0528 可以进行更加深度的推理,输出的文本更加自然,结构更有层次感,它展现出了独特的推理风格,不仅速度很快,而且进行了充分的思考。与上周发布的 Claude4 类似,现在的 DeepSeek 也可以进行长时间的思考了,据说能持续 30-60 分钟。

图片

已经有一些网友实测时遇到了 DeepSeek 的长考,这 deep research 可够深度的:

图片

基准评分,成绩大幅提升

DeepSeek R1 发布以来,大模型领域的格局已经发生了变化。原版 R1 的成绩如今已不再领先,R1-0528 的出现修正了结果。

R1-0528 模型的第一个 Benchmark 成绩是 LiveCodeBench,它超越了 O3-Mini,几乎与 O3(High)的评分相当,在编程任务上相比上个版本有了显著的提升。

图片

要知道 DeepSeek 模型是完全开源的,App 目前为止也完全免费,这可以说是开源的胜利。

另外,其在 Extended NYT Connections 基准上的成绩也已经出炉,相比于前一代 DeepSeek-R1,最新的 0528 版本的提升非常明显,从 38.6 增至了 49.8,接近 Claude Opus 4 Thinking 16k;不过在该基准上,DeepSeek-R1-0528 仍旧没有挤进 OpenAI o 系列模型占据的第一梯队。

图片

目前,ChatBot Arena 上也已经更新了新版本的 DeepSeek R1,让我们看看大家充分测试过后它的排名能爬到多高。

图片

网友实测:代码能力大幅提升

虽然 DeepSeek-R1-0528 才刚出来不久,但已经有不少网友分享了自己的实测结果。

比如开发者 Haider 就通过一个编程挑战赛(构建一个词评分系统)挑战了当前主流的前沿模型,结果发现,目前只有 o3 和新版 DeepSeek-R1 能够完成这个挑战。这不禁让他感叹:DeepSeek is so back...

图片

也有网友通过一个小球撞墙实验直观地对比了 Claude-4-Sonnet 与 DeepSeek-R1-0528 的实际表现。可以看到,DeepSeek-R1 生成的代码在模拟物理碰撞方面表现会更好一些。

,时长00:27

Hyperbolic Labs CTO 和联创 Yuchen Jin 也进行了简单测试,发现 R1-0528 是目前唯一一个始终能正确回答「what is 9.9 - 9.11?」的模型。

图片

下面是他录制的演示视频:

,时长00:40

也做了一次简单的尝试,让其用 Python 编写了一个可以将 Word 文档中的图片提取到固定路径的小程序。

,时长01:24

可以看到,DeepSeek-R1 用一分多钟完成了任务,那实际效果如何呢?很遗憾,出现了一个报错:

图片

这是一个简单的句法错误,下面我们直接将其反馈给 R1-0528。结果出现了一个有趣的现象,对于这个简单报错,R1 模型思考的时间(212 秒)远远超过了之前写出整个程序的时间。

图片

查看其思考过程可知,新版本的 R1 与之前的版本一样存在过度思考的问题,即反复思考和验证原本很简单的问题。

不过好在,修改后的程序成功完成了指定任务,就是这 UI 字体有点不协调:

图片

我们还进行了另一些简单测试。整体来说,我们感觉新版 DeepSeek-R1 相比前一版本确实提升不小,完成一个任务所需的对话轮次也少了许多。

最后,尽管 R1 这次提升很大,网友们还是期待 DeepSeek 尽快放出 R2。

图片

一个小版本更新就如此惊艳,DeepSeek R2 会是什么样子?这一次,我们是不是要等到国庆节?

刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

新版DeepSeek-R1重磅开源,凌晨已放出权重!此次模型性能几乎与o4-mini(Medium)相当,编程实测超越Claude 4 Sonnet。网友纷纷惊叹:开源又一次胜利了。

​临近端午假期,DeepSeek果然又开始搞事。

就在今天凌晨,新版DeepSeek-R1正式开源了!

DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。

图片

项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

时隔4个月,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。

据称,新模型基于DeepSeek-V3-0324训练(参数为660B)。

图片

经典物理模拟测试中,DeepSeek-R1新旧版本的对比

在LiveCodeBench基准上,DeepSeek-R1-0528性能几乎与o3-mini(High)和o4-mini(Medium)实力相当,一举超越了Gemini 2.5 Flash。

图片

有网友称赞,DeepSeek-R1能够像o3一样纠正思维链,并且像Claude一样创造性进行世界构建。

图片

可以说,这是属于开源模型的巨大胜利!

不用R2,直接对标SOTA

此次,DeepSeek-R1-0528更新核心亮点,网友做了一个浓缩版的总结:

  • 能像谷歌模型一样深度推理
  • 文本生成优化:更自然,格式更佳
  • 独特的推理风格:不仅快,而且更缜密
  • 支持长时思考:单任务处理时长可达30-60分钟

图片

思考时间更长,成为了全网讨论最多的一点。有网友实测后,R1思考时长超过了25分钟。

图片

另外,这似乎是唯一一个能持续正确做对「9.9 - 9.11是多少」的模型。

图片

,时长00:40

编程能力强到爆

网友实测显示,新版DeepSeek-R1在编程方面简直不可思议!

AI圈大佬「karminski-牙医」用同一个prompt测试了DeepSeek-R1-0528和Claude 4 Sonnet后发现。

不管是光线照射在墙上形成的漫反射,还是球在撞击后的运动方向,亦或是控制面板的美观程度,这一把R1稳赢。

图片

图片

网友Alex的测试也显示出,DeepSeek-R1在前端编码的能力上超越了Claude 4 Sonnet。

图片

网友Haider.则是让模型构建一个单词评分系统。R1简要思考后,就立刻出了关于代码和工作测试的两个文件,第一次运行就完美无瑕。

图片

此前,o3是唯一能完成这个任务的模型。而如今,R1堪称是完成这个任务的最佳模型。

注意,R1的表现之所以如此惊人,是因为它返回的两个文件在第一次都能运行良好,不用编辑,不用重试,这极其少见。

因为此前的大多数模型,要么会在边缘情况下终端,要么会做得太复杂,要么缺少适当的测试覆盖率。

图片

和Gemini高能PK

还有人将DeepSeek-R1与Gemini 2.5 Pro进行了对标。同一个提示下,它们各自的表现如何?

图片

首先是深度研究的能力,给出「研究微剂量服用裸盖菇素对长期认知的影响,需引用学术来源」提示。

这一把Gemini的响应更快,引用了可靠的研究文献,并且答案结构清晰。

,时长01:19

再来看看它们搜索+对比能力如何?提示模型用实时来源列出全民基本收入(UBI)的五大优点和缺点。

这时,Gemini 2.5 Pro和DeepSeek R1表现都不错,打成平手。

图片

图片

Prompt: List top 5 pros/cons of Universal Basic Income using live sources.

上下滑动查看

再让模型为AI SaaS工具制定TikTok增长策略,两款模型再次打成平局。

,时长01:01

在智能体任务规划方面,让Gemini和DeepSeek一同设计一个完整的市场调研智能体,包含工具链、用户角色和流程交接,结果是Gemini生成一张信息图,而DeepSeek稍逊一筹。

,时长02:43

由此,大家对DeepSeek-R2的期待值也是拉满了。

一手实测来了

新版DeepSeek-R1的能力经过我们实测,虽然是一次「小版本」更新,但是性能得到了「史诗级」的加强。

尤其是编程能力,感觉已经超过或者足以媲美Claude 4和Gemini 2.5 Pro,可以说所有提示都是「一把过」,不需要任何修改!并且可以在网页端直接运行,展示效果。

首先是制作一个「新智元」字体在宇宙中旋转的3D动画,完成度相当之高。

图片

对于简单任务,DeepSeek-R1的思考时间明显缩短,不再像以前对简单任务也疯狂思考。

设计一个新智元的官方网站,对于这种相对容易的任务,DeepSeek-R1-0528只需要10s的思考时间。

图片

能够明显感觉到,这次DeepSeek-R1新版本的思考过程更加稳定。

以模拟一个太阳系运行为例,还要求行星比例大小与实际相同,能看到DeepSeek-R1-0528的思考过程已经趋近于「完美」。

图片

最后,再给DeepSeek-R1-0528上点强度,要求演示篮球落地后的弹跳过程,并且要完美遵循现实中物理规律。

图片

最终DeepSeek的成果还贴心的设计了参数控制面板,以及速度方向指示,是真的很强,以上所有代码都是提示之后一遍过,没有任何的Debug过程。

对于类似「华容道」的多步骤思考问题,DeepSeek-R1-0528的表现也非常完美,

比如「一位农夫要带一只狐狸、一只鹅和一袋豆子过河。船每次只能载他和一样物品。如果农夫不在场,狐狸会吃掉鹅,鹅会吃掉豆子。请问农夫该如何安排过河,才能确保所有物品安全?」这种复杂推理问题,DeepSeek-R1还可以给出核心问题所在。

图片

最令我感到震惊的是,这次的「思考」能力似乎进行了秘密加强。

我给他了一个非常无厘头的族谱问题:「我的妈妈的爸爸的儿子的侄女的孙子的爷爷的舅舅的外孙女的姑姑,是我的谁,你能画出关系族谱图吗?」

以下过程经过3倍加速,可以看到DeepSeek-R1真的在通过数学的符号化方式在进行思考。

图片

并且最后还真让他分析出了结果,简直震惊!这么长的思考链条都没有断。

图片

另外值得一提的是,这次的思考过程并没有遇到服务算力不够的情况,看来DeepSeek有针对性的提高了算力,毕竟现在是模型刚发布后的高峰「测评」期。

参考资料:

​https://chat.deepseek.com/​

​https://x.com/i/status/1927770337170592033​

​https://x.com/Yuchenj_UW/status/1927828675837513793​

​https://x.com/chetaslua/status/1927716608384094545​

​https://x.com/AiBattle_/status/1927824419478536405​

​https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main​

#JointDiT(Joint Diffusion Transformer)

原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生(导师:宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型,已发表在MM 2024。宋睿华的团队主要研究方向为多模态理解、生成与交互。

想象一下:只需一张静态图片,系统就能自动生成一段「动态的、有声音的」的短视频,画面中的人或物做出自然动作变化的同时,也发出对应的声音——比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声,这正是「图像转有声视频(Image-to-Sounding-Video, I2SV)」的目标。

近日,来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。

论文标题:Animate and Sound an Image

项目主页:https://anonymoushub4ai.github.io/JointDiT

为什么图像转有声视频是「AI 多模态生成」的新蓝海?

人类对世界的感知本质上是多模态的。视觉与听觉作为最主要的感官通道,通常以协同互补的方式构建起完整的认知体验——枝叶摇曳伴随沙沙风声,浪花飞溅伴随潮汐轰鸣,这些视听融合的场景不仅丰富了感官感受,也承载了我们对物理世界深层次的理解。

尽管近年来生成模型在单一模态的内容合成上已取得长足进展,如生成高保真的视频画面或自然的音频片段,但视觉与听觉这对天然耦合的模态,长期以来却被拆分为两条相对独立的研究路径,缺乏统一的建模机制。

最近,谷歌在其视频生成模型 Veo 3 中引入了同步音频的功能,让视频生成真正迈入「有声时代」,成为行业关注的亮点。与这一趋势不谋而合,本文首次提出并系统定义了图像到有声视频生成(Image-to-Sounding-Video,I2SV)这一新任务:让静态图像「动」起来的同时,生成与之语义匹配、时间同步的音频内容。

虽然当前已有技术能够分别实现从图像生成视频或音频,但将两者「拼接」在一起往往难以自然融合,常见的问题包括语义错位与节奏失调:比如视频中的小狗并未张嘴,却配上了汪汪的叫声;又或是吠叫的动作刚发生,声音却慢半拍甚至不协调。

,时长00:02

,时长00:02

图像生成有声视频示例:上:图生视频(SVD)+ 图生音频(Im2Wav),下:本工作 JointDiT

因此,如何从一张图片出发,生成同时具备视觉动态性与听觉一致性的完整「视听视频」,成为多模态生成领域亟待突破的关键挑战。

JointDiT:实现图像 → 同步音视频的联合生成

任务定义:这项研究把图像转有声视频任务(I2SV)定义为:以静态图像作为输入条件(并看作输出视频首帧),生成一个语义匹配、时序同步的「视频 + 音频」(有声视频)片段。

解决方案:论文提出了一种全新架构 JointDiT,探讨了如何利用两个强大的单模态预训练扩散模型(一个视频生成器,一个音频生成器),在其上构建统一的联合生成框架实现多模态协同生成。

其主要设计包括:

分解与重组预训练模型,实现联合生成框架

为了构建高效的图像转声音视频模型,JointDiT 采用了「重组 + 协同」的创新思路:首先,作者对预训练的音频和视频扩散模型进行层级解构,将每个模型划分为三大模块:输入层(负责模态嵌入)、专家层(模态内部理解与压缩)、输出层(解码生成)。随后,在两个模态的专家层之间引入联合注意力机制与前向模块,形成核心的「Joint Block」,实现音视频间的深层交互。最终,通过共享 Joint Block、独立输入输出层的设计,JointDiT 在保持模态差异处理能力的同时,实现了真正协同的多模态生成,创新性地实现了从一张图片直接生成同步音视频内容。

图片

引入感知式联合注意力,精准建模跨模态互动

传统的在全序列(音视频序列)上应用自注意力机制(Full Attention)难以处理视频与音频在时间、空间、频率维度上的异构差异。JointDiT 专为此设计了感知式联合注意力机制(Perceiver Joint Attention),使用模态特定的 Query-Key-Value 映射,实现对视频帧与音频序列之间的细粒度互动建模,有效提升同步与语义一致性。

联合引导机制,兼顾条件控制与模态协同

传统的无分类器引导(classifier-free guidance, CFG)技术主要用于强化生成结果对条件的响应,同时抑制低质量输出。但在多模态生成中,单纯的条件对齐并不足以保障音视频之间的深度协同。为此,JointDiT 提出联合无分类器引导(JointCFG)及其增强版 JointCFG*,在保留图像条件引导对齐的同时,强化了模型对跨模态之间交互的关注,进而提升了音视频之间的语义一致性与时间同步性。该策略不仅优化了生成质量,还显著增强了视频的动态表现力。

图片

实验结果如何?高质量、高一致性!

图片

图片

研究团队在三个标准数据集(AVSync15、Landscape 和 GreatestHits)上进行了大量测试,从视频质量、音频质量、同步性和语义一致性四个维度全面评估。

结果显示,JointDiT 在视频质量与音频自然度方面均实现显著提升,FVD、FAD 等核心指标全面优于基于 pipeline 组合的多阶段方法。音视频同步性表现优异,在自动评价指标上与当前最强的音频驱动视频生成模型持平。语义匹配也更为精准,视频画面与声音的「含义」更加契合。

相比之下,诸如 CogVideoX、HunyuanVideo 等文本驱动的大模型,虽然具备强大的生成能力,但由于依赖图片生成文本描述(caption)作为中介,过程中伴随大量视觉信号丢失,导致最终画面和输入图片匹配度(如 FVD、IB-IV 指标)表现不如直接采用图像生成音视频的 JointDiT。事实表明,直接建模图像到音视频的统一路径,能更有效保留原始视觉信息,生成结果更加真实一致。

图片

在用户主观打分测试中,JointDiT 在「视频质量」、「音频质量」、「语义一致性」、「同步性」与「整体效果」五项评分中均排名第一,领先第二名近 20%。

一张图生成动态有声视频,背后竟有这么多玄机?

我们以四个生成案例为例(输入图像均作为视频首帧):

案例 1:手指演奏画面中是一根手指搭在吹奏的小号上,生成的视频中指头轻微颤动,音频同步响起清脆的拨弦音,仿佛看见了真实演奏。

,时长00:02

案例 2:棍击物体输入图像中,一只手正握着棍子对准物体。JointDiT 生成的视频中,棍子精准敲击目标,画面同步传来清脆的敲击声,声音的质感还根据被敲物体的材质发生变化,真实自然,打击感十足。 

,时长00:02

案例 3:保龄球击瓶静态图中是一颗保龄球朝瓶子方向滚动。生成视频中,保龄球沿轨道前行,撞击瓶子时发出「砰」的撞击声,瓶子倾倒时伴随一连串碰撞与倒地声,整个过程视听同步、节奏自然,细节丰富,极具临场感。

,时长00:02

案例 4:闪电雷鸣输入图像为乌云密布的天空。JointDiT 生成的视频中,一道闪电划破长空,紧接着传来低沉有力的雷鸣声,电光与声响之间保留自然的时间延迟,模拟真实物理世界中的视听顺序,带来逼真的沉浸式体验。 

,时长00:02

结语与展望

JointDiT 的提出,不仅是一次生成技术的突破,更彰显了 AI 向多模态统一建模演进的趋势。它不仅可应用于娱乐内容创作、影视制作等实际场景,也为多模态通用模型乃至「世界模型」的研究提供了新的思路与启发。接下来,研究团队计划将 JointDiT 扩展至图像、文本、音频、视频四模态的联合建模,为构建更通用、更智能的多模态生成系统奠定基础。

未来,或许我们只需一张照片、一段文字,就能完整听到看到它讲述的故事。

如需了解更多技术细节与案例演示,请访问官方 Demo 页,论文、代码和模型将近期公开,敬请期待!

#像人类一样脑补画面来思考

中国团队让AI拥有「视觉想象力」

在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。

图片

图 1:需要借助「脑补」图像进行思考的真实世界任务。这些任务通常需要视觉预见性和想象力,仅凭基于文本的思考无法完全实现。

生物化学家在探索新的治疗途径时,会在脑海中构建蛋白质的三维立体结构,通过视觉化的分子间相互作用来理解复杂的生化过程;法医分析师在破解疑难案件时,需要在心中重建犯罪现场的空间布局,通过视觉推理来验证证据之间的逻辑连接;建筑师在设计创新建筑时,会在脑海中不断勾勒和修正建筑草图,通过视觉想象来优化空间配置和光照效果;篮球运动员在制定战术策略时,需要在脑海中构想队友的跑位路线、防守阵型的变化以及关键时刻的战术配合,通过视觉化的场景想象来设计最佳的进攻方案;在日常决策中,一般人也会通过「脑补」各种可能的场景图像来辅助判断和选择,用脑海中自发生成的图像作为认知媒介。

这种视觉思维能力的独特之处在于,它能够创造概念间的独特组合和新颖连接,帮助我们发现仅通过纯文本推理无法获得的洞察和创意。而在现代认知科学中,这种「深思熟虑」往往需要多模态的思维过程来支撑。

如今,AI 也迈出了这一步:上海交通大学、上海创智学院、复旦大学和 Generative AI Research Lab(GAIR)的团队提出 Thinking with Generated Images,让大模型能够自发生成视觉中间步骤,像人类一样用「脑内图像」进行跨模态推理。

论文链接:https://arxiv.org/abs/2505.22525

代码链接:https://github.com/GAIR-NLP/thinking-with-generated-images

模型链接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b

模型链接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念:从「看图像」到「脑补图像」— 视觉思维的递进进化

如何让模型自发性地通过视觉进行「思考」仍属于早期探索阶段。此前的一些工作尝试通过空间搜索任务(如迷宫导航)进行早期探索,但这些任务的局限性在于它们往往可以直接通过文本思考或「对着」图像思考(Thinking with Images)来解决,而不需要真正的「脑补」图像思考(Thinking with Generated Images)。

Thinking with Generated Images 系统性地整理并比较了三个核心概念的本质区别及其适用任务的差异:

  • 「看」图像(Seeing with Images):模型仅在单次前向传播中处理用户提供的固定图像,主要适用于基础的视觉识别任务,如物体检测、图像分类等。这种模式下,模型只是被动地「观察」图像内容。在这个过程中,整个 AI 的思维过程完全发生在文本模态中,图像仅仅作为一个固定的先验条件,无法参与到动态的推理过程中。这也是大多数现有的大型多模态模型(Large Multimodal Models, LMMs)或视觉语言模型(Vision-Language Models, VLMs)的预设模式。
  • 「对着」图像思考(Thinking with Images):模型能够多次访问或对现有图像进行有限变换(如裁剪、旋转、代码执行器、OCR、图像处理工具),适用于需要多步视觉推理的任务,如视觉问答、图表解读、空间推理等。「对着」图像思考虽然在一定程度上改善了模型的视觉推理能力,但仍然受到一个核心约束:它们只能处理用户预先提供的固定图像或对这些图像进行简单变换,被动处理用户提供的图像,无法真正做到从零开始构建新的视觉概念。
  • 「脑补」图像思考(Thinking with Generated Images):模型能够主动生成中间视觉步骤作为推理过程的一部分,适用于需要视觉想象、创造性设计、空间规划、以及与物理世界环境交互感知的复杂任务。这种模式在需要视觉预见性(visual foresight)和创造性想象的任务上具有最大优势,因为纯文本推理无法充分表达这些任务所需的空间和视觉信息。

研究团队特别强调,「脑补」图像思考在需要空间想象、动态规划和创造性视觉构建的任务上相比于纯文本推理具有根本性优势,这正是人类视觉思维的核心价值所在。

图片

图 2:区分「看」图像、「对着」图像思考、「脑补」图像思考的例子。

技术实现方案:自发原生多模态长思维链

研究团队创新性地提出了「原生多模态长思维过程」(the native long-multimodal thought process)这一核心技术框架实现「脑补」图像思考。原生多模态长思维过程由交错的多模态 token 组成:包括文本的词汇或子词(words/subwords)、视觉的图像块(patches)等。

未来有更通用的基座模型后也能推广到音频的帧(frames),以及其他模态领域特定的表示形式(domain-specific representations)。原生多模态长思维过程不仅能够让模型在思维过程中自然地自发生成图像,还能够原生地执行测试时扩展(test-time scaling)以获得更好的模型能力。透过原生多模态长思维过程实现 Thinking with Generated Images 有四大主要优势:

  • 跨模态原生思维能力:通过单次推理过程即可「原生」地生成多模态的 tokens,使模型能够自然无缝地跨模态进行「思考」。
  • 统一生成式任务执行:通过生成式范式原生地执行多样化的多模态任务。
  • 自然测试时扩展机制:通过生成的「长」思维过程提供自然跨模态的测试时扩展,使模型能够通过生成更长、更详细的多模态长思维过程,在推理时投入更多计算来提升性能质量。
  • 未来技术集成兼容性和可扩展性:单一模型集成的架构便于未来与强化学习等训练后扩展技术的集成,简化了训练和推理持续扩展的复杂度。

两种自发原生多模态长思维链模式

研究团队深入分析人类多模态长思维的认知模式,据此设计并提出了两种原生多模态长思维链模式,应用于视觉生成任务上,最大的体现 Thinking with Generated Images 的优势:

  • 视觉子目标分解(Vision Generation with Intermediate Visual Subgoals):视觉子目标分解模拟了人类在处理复杂视觉任务时的分而治之策略。面对较为复杂或多物体的视觉生成任务(如「一张沙发和一个酒杯」),模型首先进行整体性的分析,将大的视觉任务拆解成小的目标,分步生成沙发和酒杯的独立图像,再组合成最终结果。每个中间图像都承载了特定的子目标语义,不仅是视觉内容的载体,更是推理过程中的「思维节点」。视觉子目标分解允许模型在处理复杂视觉生成任务时保持对细节的精确控制,避免了直接生成复杂图像时可能出现的元素遗漏、比例失调或风格不一致等问题。

图片

图片

图 3:原生多模态长思维链在GenEval上的例子。

  • 提出视觉假设并自我反思迭代(Vision Generation with Self-Critique):提出视觉假设并自我反思迭代体现了人类创作过程中的「草稿-修改-完善」循环机制。模型首先基于输入提示生成一个初始的视觉假设图像,这个假设通常包含了对任务的基本理解但可能存在各种不完善之处。模型随后以文本反思形式对自己生成的图像进行深入的多角度分析,包括内容完整性检查(如「图像缺乏雨伞」)、视觉质量评估(如「更清晰的海景化」)、语义一致性验证(如「更清楚的展示冰淇淋的融化」)、构图合理性判断(如「增强图像对比度」)等等。模型通过建立视觉假设、批判性分析、策略性改进的迭代过程来逐步优化生成结果,实现了视觉和文本模态之间的深度协同,形成了一个有效的自我改进反馈循环,显著提升了生成图像的质量和准确性。

图片

图片

图 4:原生多模态长思维链在DPG-Bench上的例子。

自发原生多模态长思维链在多模态统一理解生成模型的实现

研究团队选择在自回归 next-token-prediction 的多模态统一理解生成模型上开发原生多模态长思维链,这一决策基于几个层次的技术考虑:

  • 自回归架构与人类思维过程的天然契合性。人类的思维过程本质上是序列化的——我们在思考复杂问题时,会逐步构建想法,从一个概念过渡到另一个概念,在文本思考和视觉想象之间自然切换。自回归模型通过逐 token 生成的方式,能够最自然地模拟这种渐进式、序列化的思维展开过程。
  • 统一架构的简洁性和可扩展性优势。相比于需要协调多个独立组件的复杂系统架构,自回归统一模型提供了一个优雅的解决方案。在这种架构下,文本推理、视觉生成、自我批判等所有能力都统一在同一个模型中,避免了多组件系统中常见的信息传递损失、同步协调复杂性等问题。
  • 与现有技术生态的深度兼容性。当前大语言模型领域已经在自回归架构上积累了丰富的训练技巧、优化方法和推理技术。选择这一架构使得研究团队能够直接继承和利用这些成熟的技术成果,而不需要从零开始构建全新的技术栈。
  • 未来发展的技术路径一致性。随着计算能力的不断提升和算法的持续优化,自回归架构展现出了强大的扩展潜力。选择这一技术路径确保了研究成果能够与未来的技术发展趋势保持一致,具备长期的技术价值。

在确定了自回归架构的技术路线后,团队选择 Anole 作为基础模型。目前大多数模型都缺乏真正的交错多模态生成能力,而这正是实现「原生多模态长思维过程」的关键技术瓶颈。Anole 相比其他多模态模型具有两个关键优势:

  • 原生交错生成能力:Anole 直接在交错的文本-图像 token 上进行预训练和后训练,具备了交错生成多模态 token 的固有能力,这是实现本研究目标的基础前提。
  • 高效的视觉表示机制:Anole 采用相对高效的图像表示方案,使得基于原生多模态长思维过程的测试时扩展在合理的推理预算内成为可能。

搭配原生多模态长思维过程解决了视觉推理的五大局限

研究团队提出的「原生多模态长思维过程 (the native long-multimodal thought process)」这一核心技术框架实现「脑补」图像思考。与现有方案对比,该提出方案解决了五大局限:

  • 摆脱用户输入依赖:过去的方法(如 OpenAI 的 o3 thinking with images)需用户提供图像作为推理起点,而原生多模态长思维过程能从零构建视觉上下文,让模型在无图场景下也能自发地做多模态思考。
  • 超越静态图像处理:目前的工具增强型模型通常只能裁剪、标注或轻度编辑给定图像;原生多模态长思维过程在推理链中动态生成全新的视觉假设,为创造性规划与空间推演打开更大搜索空间。
  • 端到端统一架构:无需多模型协作或外部工具链,单一模型即可完成「生成-推理-反思-迭代」的全流程,部署与调用更加轻量。
  • 可扩展的测试时扩展和未来后训练扩展:原生多模态长思维过程天然支持测试时扩展(test-time scaling),通过生成更长、更详细的多模态长思维序列来提升性能。此外,该架构为未来与强化学习、自我改进等后训练技术的集成预留了充分空间。
  • 实际落地的应用场景:过去的相关研究往往专注于相对局限任务场景,如数学(几何)题求解、迷宫导航、简单的空间推理等。这些任务虽然在技术验证上有一定价值,但存在一个根本性问题:它们大多可以通过纯文本描述和逻辑推理来充分表达和解决。例如,迷宫问题可以用坐标和路径描述完全编码,几何题可以通过形式化语言和逻辑步骤来求解,这些任务并未真正发挥视觉思维的独特优势。研究团队专注于解决那些无法通过纯文本充分表达的复杂视觉推理任务,实现了从「专注于能用文本充分解决的视觉任务」到「专注于必须依赖视觉想象的复杂创造性任务」的认知跃升。

Thinking with Generated Images 带来的能力属于全新维度,可与现有技术叠加协同。该研究着重提升的是「内部想象-反思」的深度推理能力,而检索增强、外部工具调用等技术,仍然在引入外部知识、扩展功能等方面具备优势。

未来,当这些能力并行叠加时,既能利用 Thinking with Generated Images 提出的「脑内草图」,也能借助现有检索增强、外部工具调用等技术,形成 1+1>2 的整体效果。

图片

图 5:多模态认知领域相关工作的对比

实验设计

为了在多模态理解生成模型上实现 Thinking with Generated Images 的自发原生多模态长思维链,研究团队在训练数据、训练策略、以及推理策略上都有深入的探索。

训练数据

研究团队精心设计了一套合成数据构建流程,专门用于训练模型生成两种类型的多模态长思维链。由于目前没有现成的 LMM 模型支持多模态生成的测试时扩展 (test-time scaling),传统蒸馏技术并不适用,团队创新性地开发了完整的数据构建管线(如图 6 所示)。

数据收集三大黄金法则:

  • 高质量图像生成提示词:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 顶尖模型生成复杂提示词,通过规则过滤确保质量,并借助 Qwen3-32B 将复杂视觉任务拆解成小的目标。
  • 高质量反思推理链:借助 QVQ-72B-Preview 的强大长链推理能力,对每个提示-图像对进行准确性评估、差异识别和改进建议,并实现模型通过迭代分解获得最终图像的过程。
  • 高质量中间视觉思维:
  • 初始生成: 使用 Anole-7b(自我批判)或 Flux1-dev(子目标分解)。
  • 精修阶段: Flux1-Redux 结合原始提示、首轮图像和批判反馈进行优化。
  • 最终生成: 基于前几轮图像及思考过程来生成最终结果。

最后通过 QVQ-72B-Preview 进行严格的质量控制,过滤与提示严重偏离的样本。

技术亮点解析:

  • 突破性数据架构:专门为「视觉思维」范式优化的统一数据结构。
  • 多模型协同:充分发挥各领域顶尖模型的专长,构建训练样本。
  • 严格质量把控:从提示词到最终图像的全流程质量控制机制。

这一创新性的训练策略使得 LMM 模型能够生成端到端的多模态长思维链,为「Thinking with Generated Images」的实现奠定了坚实基础。这套方法论不仅适用于当前研究,也将为未来多模态推理系统的开发提供重要参考。

图片

图 6:数据收集流水线示例

训练策略

在使用统一多模态模型进行视觉生成任务的训练时,大多仅依赖交叉熵训练没有完整的考虑图像 token 之间的关系。

为了解决这个问题,研究团队引入了视觉特征级别的重建损失,将生成图像的隐状态投影回视觉特征空间,并计算与 ground-truth 图像对应特征之间的均方误差 (MSE) 损失。这种设计鼓励模型产生具有更强视觉连贯性和结构完整性的输出。基于优化后损失函数,研究团队设计了系统性的两阶段训练流程:

  • 基础能力强化:使用 JourneyDB 图文对数据集对 Anole-7b 进行持续训练,增强模型的基础视觉生成能力。这一阶段为后续的专门化训练奠定了坚实的多模态基础。
  • 专门化微调:基于上述的合成数据集进行模型训练,精细化调整两个专门化模型:
  • TwGI-Anole-7b-Obj.:使用视觉子目标分解数据集进行微调,使其具备生成视觉中间子目标的能力。
  • TwGI-Anole-7b-Crit.:使用视觉自我批判数据集进行微调,使其具备自我批判视觉假设的能力。

这种分阶段训练策略确保了模型既具备扎实的基础多模态能力,又能在特定的思维模式上表现出色。

推理策略

与标准的视觉语言模型或大语言模型不同,统一多模态模型在进行视觉生成任务时面临着独特的推理挑战。为了充分发挥模型的性能潜力,无分类器引导 (Classifier-Free Guidance, CFG) 技术成为提升视觉生成性能的关键。在传统的完整条件 (full conditions)、无条件 (unconditions) 和图像条件 (image conditions) 基础上,研究团队增加了:

  • 「原始提示条件」(Original Prompt Conditions):确保生成过程始终与用户的原始意图保持一致。
  • 「负面条件」(Negative Conditions):避免生成不当或无关的视觉内容。

这种多条件设计的核心目标是促使中间视觉步骤更加忠实于原始意图,同时避免被生成的长文本思维过度干扰。通过在这些条件之间进行精细化平衡,模型能够:

  • 充分利用长文本思维的指导作用:从详细的文本推理中获得有价值的语义信息和逻辑指导。
  • 有效过滤思维过程中的潜在噪声:避免被长思维序列中可能存在的无关信息或错误推理分散注意力。
  • 保持视觉生成的一致性和质量:确保最终输出既符合原始提示要求,又体现了深度推理的成果。

在视觉生成任务上的结果分析

研究团队在 GenEval 和 DPGBench 两个图像生成基准上对 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 进行了全面的性能评估。

  • 视觉子目标分解模式的评估:视觉子目标分解模拟了人类在处理复杂视觉任务时的分而治之策略。面对较为复杂或多物体的视觉生成任务(如「一张沙发和一个酒杯」),模型首先进行整体性的分析,将大的视觉任务拆解成小的目标,分步生成沙发和酒杯的独立图像,再组合成最终结果。每个中间图像都承载了特定的子目标语义,不仅是视觉内容的载体,更是推理过程中的「思维节点」。视觉子目标分解允许模型在处理复杂视觉生成任务时保持对细节的精确控制,避免了直接生成复杂图像时可能出现的元素遗漏、比例失调或风格不一致等问题。
  • 视觉自我批判模式的评估:测试 TwGI-Anole-7b-Crit. 模型是否能够纠正其初始视觉假设(图 7 和图 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)),并生成更好的图像生成结果(图 7 和图 8 中的 TwGI-Anole-7b-Crit. (final))。

图片

图7: 在GenEval上的表现

图片

图8: 在DPG-Bench上的表现

中间视觉思维生成对视觉生成任务的显著效益

实验结果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 两个基准上都始终优于基线模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「双对象」类别中取得了显著提升(0.57 vs. 0.38,相对提升 50%),表明其在处理涉及多个实体的复杂提示时具备了更强的能力。在位置和颜色属性对齐方面也显示出显著改进,体现了在精确空间和视觉构图推理方面的更强能力。

在 DPGBench 上,TwGI-Anole-7b-Obj 在「实体」、「属性」和「关系」类别中都取得了实质性进步,总体分数从 58.32 提升至 68.44(相对提升 17.3%),反映出其在细粒度视觉语义理解方面的增强能力。这些改进验证了我们的假设:将视觉任务分解为中间子目标使得大语言模型能够更系统地推理并生成更高质量的输出。

原生多模态长思维过程使模型能够纠正和完善自身的视觉假设

视觉思维自我批判的实验结果证明了让模型反思和修正自身视觉输出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步骤后性能显著提升:GenEval 总分从 0.45 提升至 0.48,DPGBench 分数从 62.83 提升至 67.14。这表明模型具备了内省分析生成图像的能力——通过基于视觉反馈的文本推理链,能够识别不匹配、幻觉或遗漏的元素,并随后进行纠正。这种视觉反馈循环的有效性反映了一种模态间协同效应,其中视觉和文本模态相互迭代指导,形成了真正的多模态智能推理机制。

这些结果共同验证:在推理链中主动「画草图」或「打草稿」,不仅让模型生成质量更高、更可控,也带来了深度理解与纠错能力。

未来展望

Thinking with Generated Images 的能力未来有望推动 AI 在需要空间想象和动态规划的领域实现突破:

  • 创造性设计:模型可逐步生成并迭代建筑草图,同时用文本记录调整理由(如「将窗户东移以优化采光」)。
  • 科学发现:通过生成分子结构的中间假设图像,辅助生物学家验证药物结合路径。
  • 战术规划:让 AI 篮球员「脑补」生成不同战术配合的场上演示图像,可视化球员跑位路线和防守破解策略。

《孙子兵法》说:「多算胜,少算不胜,而况于无算乎?」在文本时代,深思靠文字组成的思维链;在多模态时代,深思就需要通过多模态内容的耦合,不仅要会观察、调用工具,还要学会想象、反思、脑补。Thinking with Generated Images 正在把这种能力「写进」模型本身,让 AI 获得人类的视觉想象力。

  • 它不只是性能指标的上涨,而是推理范式的突破; 
  • 它不只是会画画,而是把「画画」变成了思考的肌肉记忆; 
  • 它不只是一次概念验证,更是给未来「多模态 AGI」铺了条高速公路。

当机器从「看图说话」升级到「无图脑补」,真正的多模态推理时代,已敲响开场锣鼓,让我们拭目以待。

#135 个项目、七大趋势、三大赛道

撕开大模型开源生态真相,你会怎么卷?

不要抗拒趋势

在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一周里,微软为 Windows 加装模型上下文协议(MCP),Google Gemini 野心初显「AI 操作系统」,Claude 4.0 高调抢滩编程主战场。

就在这样的节奏下,5 月 27 日,蚂蚁集团的开源团队「接棒」发布了一张《 2025 大模型开源开发生态全景图》。

图片

访问地址:

​https://antoss-landscape.my.canva.site​

完整项目列表和相关数据:

​https://docs.google.com/spreadsheets/d/1av9kitgnRGtsmDp6AbW96m2cCR4jXZFQmUVG2di8Bjw/edit?gid=0#gid=0​

这是一张由开源社区数据驱动的技术演进路线图——

135 个社区核心项目、19 个技术领域,全面覆盖从智能体应用到模型基建,系统性梳理了开源力量在大模型浪潮下的集结与演化路径。

其中,模型训练框架、高效推理引擎、低代码应用开发框架成为当前最具主导力的三条技术赛道。

图片

135个项目中位于2025 年 OpenRank 排名Top 20的项目。这里用到了华东师范大学X-lab实验室OpenRank影响力评价指标。

图片

结合前一张图,将 OpenRank 指标与 2024 年数据对比,三大主导技术赛道的同比上升幅度尤为明显。

「不要抗拒趋势。」发布现场,蚂蚁开源技术委员会副主席王旭谈及全景图的意义。

比起盲目对标,在一个飞速发展的领域,搞清楚哪些关键领域仍未涉足、哪些路线已经成了技术冗余,对于企业而言更具现实意义。

对于开发者、投资人,尤其是打算「自己干」的人来说,也是一份值得参考的路线图:哪些项目正拾级而上?哪些赛道开始日落西山?关键从来不是起点有多高,而是是否踩准了那条上升通道。

一张快速变化领域的「撕拉片」

这张全景图,像是一张为大模型开源生态拍下的「撕拉片」。在高速运动的行业面前,「咔嚓」定格了 135 个项目的最大「公约数」——

一场直播中的「现实世界的黑客松 (A Real-world Hackathon )」 。

与追求长线的传统开源文化不同,这些项目大多靠热点驱动,短期速成、技术声誉兑现快;反之,随着热点不断迭代,严重依赖热点的项目「埋」得也快。

例如,对应的闭源项目爆火后,Devika、OpenDevin、OpenManus 们在短周期内密集登场并获得极高关注度。

SGLang、vLLM 则代表另一种高频脉动的开发形态——方向明确,剩下的全靠「中美网友 24 小时轮肝」完成;几乎每周都有新版本,生态在极高密度的「卷」中快速升级。

有些项目发展不错,有些项目成功为背后工具链引流,还有的发展为商业项目,如 GPT Engineer 早期积累了⼤量⽤户的明星开源项⽬,后续发展为闭源的商业化产品 Lovable。

一些项目爆发力极强,一度拥有上万 star 的关注度,但也面临高淘汰率和低维护意愿的挑战,最后被「埋」。

图片

除了 swarm 是 OpenAI 官⽅宣布不再维护外,其余项⽬的上⼀次代码提交还停留在 2024 年,实质性开发早已停滞。

如果就此止步,只看到爆款和淘汰,就难以理解为什么这些浪花会出现。推动「黑客松现象」上演的还有更为深层的「地质」动力——

模型能力带来的应用重塑、生态位之间的动态博弈。

以 AI 搜索为例,开源项目集体式微,并非「做得不够好」,而是 GPT-4、Gemini 们已经将联网检索、答案生成「内嵌进模型」,直接抹平了原有的工具价值。

图片

AI Search 开源项目们的 OpenRank 趋势,犹如日落西山

相反,AI Coding 类开源项目则一派繁荣,OpenRank 走势「嘴角上扬」几乎成标配。

这一轮热潮的背后,是 Claude 3.7 Sonnet 等大模型在代码生成与代码理解能力上的集体飞跃,直接重构了「人机协作」方式。

图片

AI Coding开源项目 OpenRank 趋势,几乎个个「嘴角上扬」,蒸蒸日上。

与此同时,生态位之间也在激烈博弈中,变化最剧烈当属 Agent Framework 领域——

Dify、n8n、RAGFlow 等低代码平台工具涨幅显著,高达 72.22%;而与此同时,LangChain、LlamaIndex、AutoGen 等曾经红极一时的SDK范式整体下滑了 35.90%,跌幅居首。

这可能意味着一个转向——

从服务开发者「写代码拼接智能体」,转向更注重用户的「可视化、可定制、业务级可落地」的平台产品。

图片

低代码平台跃升至最顶端,而 SDK 范式则集体「下滑到底」。

看见未来:七大趋势浮出水面

除了生态全景扫描,通过追踪 GitHub 上 135 个核心项目近两年的活跃度、技术走向与社区反馈,报告也归纳出七条值得所有开发者、创业者关注的趋势:

图片

前三个聚焦智能体应用层,后四个围绕模型基础设施层

最具体感的趋势都集中在了智能体应用,而且两个都与 Manus 爆火有关。

2025年,Agent 框架热潮褪去。从 2024 年下半年开始,LangChain 等早期 SDK 型框架的热度开始「下台阶」式回落,新框架鲜有涌现,开发者重心悄然转移。而到了 2025 年,Dify、RAGFlow 等低代码工作流平台因契合企业需求迅速崛起(也是从中国开发者社区中生长出来的强势项目)。

图片

Agent框架OpenRank排名前十的变化

如何理解新框架在 2025 年褪潮?在发布现场的圆桌讨论中,几位智能体框架圈的核心研发者表示——

与其说褪去,不如说 Agent 框架来到下半场。

过去两年,「上半场」的主旋律是开发者工具:大模型刚崭露头角,各类框架如 LangChain、AutoGen、LlamaIndex 等纷纷涌现,争相为开发者搭建「脚手架」。随着 Agent 流程逐渐标准化,开发者不再需要五花八门的新框架,

恰在此时,Manus 的「一键即用」体验爆火,让业界意识到端到端的极致体验可以为很多用户接受。在「下半场」,Agent 框架更注重应用场景落地,帮助普通用户完成更复杂任务。当然,解决真实场景的任务时需要强化学习,还面临不少挑战(如奖励设计)。

预测同时指出,2025 年低代码平台强势崛起,表明 Agent 框架的竞争从比拼技术范式,走向比拼「谁能更快成为企业的生产力工具」。那些技术节奏稳、商业理解深的开源平台,正乘势成为「 AI 新基建」的领跑者,Dify 就是代表之一。

除了框架圈,Manus 更撬动了「大厂觉醒」,连夜启动配套建设,尤其是标准协议层。

图片

MCP 一出,标准协议层正式登场,大厂几乎倾巢而出——

有了它,直接盘活沉淀多年的「互联网家业」,现在一键接入,就能组成一个能办事、能协作的 Agent,触达生活的每一个角落。

紧接着,Google 在 2025 年开源 A2A( Agent2Agent ) 协议,解决 Agent 之间互操作的问题;CopilotKit 又推出的 AG-UI 协议 进一步打通了智能体后端与前端用户。

不过,发布现场的圆桌讨论中,开发者们也指出 Agent 间的协作与传统工具调用很不同——

它往往是一个持续十几分钟乃至更长的「长程任务」,在执行过程中需要频繁与提供方交互。因此,协议不仅要能传递信息,更要支持任务状态的维护、过程控制和动态交互能力。

而目前的 MCP 协议没有涵盖这些能力,A2A 解决的还是「连得上」的问题,「协作」仍是未解之题。这一领域仍有广阔优化空间,也为开源社区留下了巨大的创新机会。

预测也指出,未来需要原生为大模型场景设计的新协议,而在这场技术升级中,开源生态将成为关键阵地。

谁能率先定义这些新协议,并将其与工具链(如 SDK、框架)打通,谁就有机会建立自己的技术闭环,抢占「模型即服务( MaaS )」时代的生态制高点。可以预见,未来一到两年,标准协议层将迎来激烈的生态博弈期。

再来看 AI Coding。写代码是大模型与生俱来的优势,AI 编程项目确实红火,几乎个个「嘴角上扬」。

图片

根据项目的智能化程度(辅助还是完全替代?)以及目标受众群体(专业人士还是普通用户?)的专业化程度,将这些 GitHub 上热门的 AI Coding 类开源项目划分为四个象限。

国内百度、阿里、腾讯、蚂蚁、字节等陆续推出 AI 代码助手,率先跑马圈地。AI Coding 也成为开源生态中少数几个不依赖独占数据、也不被私有场景锁死的活跃赛道。连 OpenAI 都愿意为此砸下 30 亿美元,收购 AI 开发工具 Windsurf,可见这条赛道含金量之高。

如今,AI 代码助手已深度介入整个软件开发流程:从需求理解、系统设计,到前后端开发、测试调试,再到上线与运维。有意思的是,真正「带它上路」的,是程序员自己。但要说全面替代程序员?还远得很。

目前的 AI 编程助手,大致处于「智能辅助驾驶」阶段,能在特定任务上独立作业,比如自动生成前端页面、小程序骨架、测试脚本、代码检查等。

技术演进的关键瓶颈,预测明确指出有两个:一是上下文感知能力( Context-Awareness ),二是领域知识融合( Domain Knowledge Integration )。在未来 24 个月里,AI 助手的「接单能力」会不断增强,但在人机共创的长期范式中,关键决策权,仍牢牢掌握在人类程序员手中。

与应用层的「生死时速」不同,一旦「下沉」到基础设施,趋势变化更像是静水深流。

ChatGPT 和其他大语言模型的爆火,一度把「泼天的富贵」砸向了向量数据库,一时间风头无两。但热潮也很快退去,发展趋势逐渐趋于平稳。最近两年,它们既没被「拍死」,也没卷出新高度,更多是以「相敬如宾」的姿态各自发展。

有关「向量数据库是不是伪需求」,一直争议不断。从当前的稳定趋势来看,它可能确实是一项真需求。

图片

向量数据库的每月 Star 增量变化

预测指出,技术「厚不厚」不是重点,关键是有没有持续迭代的范式空间。对向量数据库来说,短期看是稳定期,但中长期是否能迎来「第二曲线」,还要看 AI 生态新场景的开拓速度。

发布现场的圆桌讨论中,Zilliz 合伙人、技术总监栾小凡还提到一个很有意思的点——

向量数据库不仅是模型应用阶段的「召回引擎」,也正在成为训练流程中的「数据发现器」。 

如在自动驾驶场景中,如果模型在「红灯前突然窜出一只狗」这类边缘案例中表现不佳,就需要通过数据回溯找到类似样本,进一步强化训练。但这类数据往往来自非结构化源,如网页爬虫、文本、视频等,难以通过传统标签化方式精准搜集。

此时,向量数据库的价值就体现出来了——

它能帮助我们高效从海量异构数据中,按语义相似性快速定位相关样本,从而实现更精准的「问题驱动式数据提取」,支持面向真实任务场景的精细化训练。

谈到大模型训练和推理,我立刻想到「源神」DeepSeek 的一段话:

我们非常感谢开源生态系统,没有它,我们不可能在通用人工智能 (AGI) 方面取得进展。我们的训练框架依赖于 PyTorch,我们的推理引擎基于 vLLM,这两者都对加速 DeepSeek 模型的训练和部署起到了重要作用。

要说 PyTorch,人人都承认它的领先,但没想到它居然领先到了「一统江湖」的地步。

而一旦进入推理环节,很多开发者都关心一个问题:性能被拉到一个新高度,怎么提高模型的推理速度?2023 年以来,出现了一大波面向于模型部署和高效推理的大模型服务工具,在性能和生态上彼此追赶,混战一直持续到今天。

眼下,vLLM 与 SGLang 已是当之无愧的「推理顶流」,社区影响力持续扩张。

图片

从 Top 10 的模型服务项目的排名变化上来看,仍有新的项目不断冒出来,并吸引开发者参与到其中去。例如去年 7 月清华推出的 KTransformers 和今年 3 月 NVIDIA 推出的 Dynamo。

图片

几大模型服务项目的 OpenRank 曲线变化 

2023 年 6 月,vLLM 首次发布,被视为大语言模型推理的分水岭:在不改动模型结构的前提下,它显著压缩显存占用、提升并发能力,是首个对 LLM 推理进行系统级重构的开源引擎。2025年,vLLM 发布 v1,完成核心架构升级后重回增长通道,依旧是主流部署场景中的首选框架,并具备更强的商业集成度。

SGLang 属于后者居上—— 2024 年 1 月发布,定位更贴近真实 Agent 应用场景,不仅具备更强的 GPU 并发调度能力,还支持多步推理优化。2025 年一季度,其 OpenRank 增长达 31%,远超同期 vLLM 的 17%。

SGLang 也被用于重写 Grok 2 推理技术栈,极大改善了产品体验,甚至获得马斯克的公开点赞。

有个细节,「一招鲜」也有高光时刻。

2025 年 2 月,清华大学 KVCache.AI 团队推出的 KTransformers 破解千亿级大模型本地部署难题,4090 单卡实现 DeepSeek-R1 满血运行。

该项目 OpenRank 飙升 34 倍,吸引 736 名开发者参与协作,GitHub Star 数突破 1 万。看来在大模型时代,哪怕是底层细节的优化,也可能带来「超级红利」

最后,在多模态数据治理技术的演化上,湖仓「四足鼎立」, 为大模型所依赖的非结构化海量数据提供更强的存储与管理能力。元数据治理也开始拥抱非结构化数据和 AI 资产管理。

不过,Data Infra 发展了二十年,发展得非常完善,有自己的方法论。而多模态原生数据 Infra 才刚刚开始,用新的方式再做一遍时,Data Infra 遭遇过的痛点可能会再度出现。

图片

数据湖表格式项目 OpenRank 曲线变化

图片

元数据治理项目 OpenRank 曲线变化

「撕拉片」的方法论

为什么要做这份报告?王旭回答很直接——

蚂蚁的开源团队其实不叫「开源办公室」,而是「开源技术增长」,一个立足架构层的技术中枢,希望通过对开源社区的长期观察,为蚂蚁内部的技术路径提供决策支持。

相比 Gartner 这样的传统商业分析,开源社区数据能更早、更真实反映技术的风向变化。

为构建这张「撕拉片」,团队以 PyTorch、LangChain、vLLM 等 AI 明星项目为起点,层层扩展其技术上下游,并邀请行业专家讨论,一步步收敛出百余个活跃度与影响力兼具的核心项目。

真正支撑判断的,是 OpenRank——由华东师范大学 X-lab 开发的开源影响力指标。这次入选门槛是:2025 年 1 至 4 月的 OpenRank 月均值 ≥ 10。太旧、太新的项目都可能被筛掉。为了观察趋势,团队重点对比了项目和赛道的 OpenRank 均值变化。

发布会上,王旭还透露报告将在下半年推出更新版本。届时,低代码平台是否还能保持狂飙?协议层会否冒出新变量?AI Coding 是否还有惊喜?......

这场黑客松直播,还在继续。

#Manual2Skill

从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架

本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。

视觉语言模型(Vision-Language Models, VLMs),为真实环境中的机器人操作任务提供了极具潜力的解决方案。

尽管 VLMs 取得了显著进展,机器人仍难以胜任复杂的长时程任务(如家具装配),主要受限于人类演示数据和训练样本的稀缺性。

为解决这一问题,研究团队提出 Manual2Skill,一种基于 VLMs 的创新框架,使机器人能通过高级视觉说明书自主理解并执行家具装配任务,模仿人类学习装配的过程。该方法弥合了抽象指令与物理执行之间的鸿沟,显著提升了机器人在真实操作场景中的实用性。

目前,该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI(RSS 2025)接收。

  • 论文标题:Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
  • 论文链接:https://arxiv.org/abs/2502.10090
  • 项目主页:https://owensun2004.github.io/Furniture-Assembly-Web/

研究背景

家具装配是一项复杂的长时程任务,要求机器人:(A) 理解所有零件的拼接关系和顺序;(B) 估计每一步拼接时部件的位姿;(C) 生成物理可行的动作以完成部件组装。

尽管许多计算机视觉方法通过几何或语义技术在部件位姿预测(B)方面取得显著成果,但它们大多忽视了同样关键的拼接顺序理解(A)和动作生成(C)环节 [1, 2]。

现有的端到端机器人装配系统通常依赖模仿学习或强化学习。虽然在某些场景下有效,但这些方法需要大规模数据集和大量计算资源,难以推广至真实环境中的通用长时程操作任务 [3, 4]。

近年来,视觉语言模型(VLMs)在高层规划、环境理解甚至直接机器人控制方面展现出潜力。部分研究尝试整合这些能力用于机器人装配,但多局限于简单几何物体且在真实装配场景中鲁棒性不足 [5]。

关键问题在于,现有 VLM 方法(乃至多数当前方法)缺乏对结构化外部指导(如人工设计的说明书)的利用。这种缺失限制了它们在依赖抽象符号指令的复杂装配任务中的表现。

相比之下,人类能够从抽象的说明书中提取信息并学习操作技能,这揭示了机器人能力的一个重要缺口:从抽象的、为人类设计的指导信息中学习物体操作技能。

凭借强大的视觉与语言推理能力,VLMs 为弥合这一缺口提供了独特机遇。通过挖掘说明书中的结构化知识,VLMs 可使机器人更高效可靠地完成复杂多步骤装配任务。

Manual2Skill:基于 VLM 的说明书引导式机器人装配框架

为解决复杂长时程装配的局限性,研究团队开发了 Manual2Skill —— 一种创新框架,利用 VLMs 将基于说明书的视觉指令转化为机器人装配技能。

Manual2Skill 包含三个核心阶段:

  • 层级化装配图生成:通过 VLM 解析说明书图像,构建描述家具部件结构关系的层级化装配图。
  • 分步骤位姿估计:预测每个装配步骤中涉及的家具部件的精确 6D 位姿。
  • 动作生成与执行:将位姿信息转化为可执行的机器人轨迹。

图片

图 1:Manual2Skill 框架

该框架解决了现有机器人装配方法的两大核心限制:

  • 通过将人类理解的抽象示意图转化为结构化装配层级图与部件位姿,使机器人能从说明书提取可操作信息,避免了对大规模高质量演示数据集的依赖。
  • 将装配层级图作为结构化装配信息的核心表征,为真实装配任务提供通用解决方案,适用于所有多步骤复杂装配问题。

阶段 I: 层级化装配图生成

Manual2Skill 的首阶段将人类可理解的说明书转化为机器人可执行的任务规划。通过视觉语言模型(GPT-4o)对说明书示意图和预装配场景图像进行联合推理,生成编码家具部件与子组件结构关系的层级化装配图。

在此图中:

  • 叶节点代表原子部件。
  • 非叶节点表示通过连接部件/子组件形成的复合结构。
  • 从叶节点向根节点遍历可获得完整的逐步装配流程。

为构建该图,Manual2Skill 通过整合多模态输入,特别是多张图像的视觉信息与文本指令组成的多轮提示序列,完成两个关键子阶段:

  • 跨域视觉理解:通过视觉提示技术(如 Set-Of-Marks 和 GroundingDINO)和几何视觉推理,GPT-4o 将预装配场景图片中的物理部件与其说明书图示进行语义关联,从而解析每个部件的作用与位置。
  • 结构化信息提取:基于已识别的部件信息,使用链式思维(Chain-of-Thought)、由简至繁(Least–To–Most)和上下文学习(In-Context Learning)等提示技术,判断说明书中每个步骤涉及的特定部件。

该结构化图表征为下游位姿估计与运动规划奠定基础,确保复杂装配任务的精准顺序执行。

阶段 II: 分步骤装配位姿估计

在层级化装配图确定部件组合与装配顺序后,本阶段预测每个装配步骤中所有部件的 6D 位姿,实现部件间的精确物理对齐。

与过往方法通常一次预测整个装配过程中所有零件的位姿不同,这里我们对每个装配步骤,预测这一步中涉及到的所有部件/子组件的位姿,这一设置既更贴合真实世界中的拼装过程,也能使模型避免单次输入部件数量过多引起的性能下降。

同时我们还发现,尽管家具的形态有很大差别,但其基本部件的连接方式(比如板和棍的连接)较为固定,这种分步预测的方法能使模型更好地学习到这种基本连接方式,从而对测试集的物体实现更高的预测精度。

为实现此目标,跨模态位姿估计模型对说明书图像与家具部件 3D 点云进行联合推理。模型架构包含四个核心组件:

  • 图像编码器(E_I):从说明书图像提取语义特征,捕获部件关系与朝向的视觉线索。
  • 点云编码器(E_P):编码各部件的点云数据。
  • 跨模态融合(E_G):使用图神经网络(GNN)整合图像与点云特征。
  • 位姿回归器(R):从融合特征预测各部件的 SE(3) 位姿。

给定说明书图像 I_i 和涉及部件的点云集合

图片

,处理流程如下:

图片

为确保预测的鲁棒性与准确性,模型采用复合损失函数:

  • SE(3) 变换误差(旋转测地距离 + 平移 MSE)
  • 点云对齐损失(Chamfer 距离)
  • 可互换部件的置换不变损失(评估所有有效排列并选择最小损失方案)

该设计使模型能够处理可变数量的输入部件,适应视觉相似/对称部件,以及泛化到训练集上未见过的新物体。

阶段 III: 机器人装配动作生成与执行

最终阶段将预测位姿转化为真实世界的机器人动作,实现装配计划的自主执行。我们在这一阶段使用基于启发式的抓取策略和稳健的运动规划算法,让机械臂抓取对应部件,并将其放置在预测位姿。

抓取规划与部件操控

我们使用 FoundationPose 与 SAM 估计场景中所有部件的初始位姿。根据部件几何特征应用启发式抓取策略:

  • 棒状部件:沿主轴在质心处抓取。
  • 扁平薄片部件:使用夹具/平台固定后沿边界稳定抓取。

运动规划与执行

抓取后,机器人使用 RRT-Connect(基于采样的运动规划器)计算从当前位姿到目标位姿的无碰撞轨迹。所有其他物体被视为避障点云。通过锚定位姿在轨迹中段重新评估抓取部件位置,确保精确跟踪与控制。

装配插入最终部件插入是涉及精确对齐与力反馈的接触密集型任务。由于闭环插入的复杂性,目前由人类专家完成。我们会在未来的研究中,整合触觉与力传感器实现自主插入。实验结果与分析

实验在仿真与真实环境中对多款宜家家具进行,验证 Manual2Skill 的鲁棒性与有效性。

层级化装配图生成

图片

图 2:层级化装配图生成结果

我们在 102 本真实宜家家具说明书上测试了我们提出的层级化装配图生成方法的表现,可以看出,对于简单和中等复杂程度的家具(部件数 ≤ 6),我们的方法能比较准确地生成装配图,同时在所有复杂程度的家具上,我们的方法表现均显著优于基线方法。尽管所有方法在复杂家具上表现受限,但随着 VLM 性能的提升,我们方法的表现会随之提升。

图片

图 3:层次化装配图可视化

位姿估计

我们从 PartNet 数据集中选取了三类物体(椅子、台灯、桌子),每类物体各 100 个,并且在 Blender 中渲染出这些物体部件组合的示意图作为说明书图片。

图片

图 4:位姿估计实验结果

实验结果表明,凭借多模态特征融合与 GNN 空间关系建模,本方法在全部四个评价指标上超越基线方法。

图片

图 5:位姿估计可视化

仿真测试

在 50 件简单至中等难度家具的仿真测试中,Manual2Skill 达成 58% 成功率,显著超越现有启发式方法,验证了层级化装配图、位姿估计与运动规划结合的有效性。

实物实验

我们在四款真实宜家家具(Flisat 凳、Variera 架、Sundvik 椅、Knagglig 箱)上测试了我们整套框架,体现了我们的框架在真实机器人装配任务中的可行性和出色表现。

图片

图 6:真实世界家具装配过程可视化

零样本扩展

本方法可零样本推广至轮轴、玩具飞机甚至机械臂等手册引导式装配任务,成功率 100%,彰显 VLM-based 方案相比其他方法的泛化优势。

图片

图 7:零样本扩展可视化

结论与展望

本文提出 Manual2Skill,一种开创性框架,通过 VLMs 使机器人能解析人工设计的视觉说明书并自主执行复杂家具装配任务。通过引入层级化图式指令解析与鲁棒位姿估计,Manual2Skill 有效弥合了抽象说明书与物理执行之间的鸿沟。

Manual2Skill 提出了一种新的机器人学习范式,机器人可以从为人类设计的说明书中学习复杂长程的操作技能,相比起收集大量人工示范数据做模仿学习,显著降低了复杂操作技能获取的成本和复杂度。同时,说明书通过抽象图表和符号表示传达操作知识,这种抽象化的表达方式捕获了操作过程的底层结构和核心逻辑,而非仅仅记录表面的动作序列。这种深层次的理解使得获得的技能能够在不同的物体配置、环境条件和机器人实体间实现有效泛化。

参考文献

[1] Yun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, and Animesh Garg. 「Neural shape mating: Self-supervised object assembly with adversarial shape priors」. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12724–12733, 2022. 

[2] Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vladimir G Kim, and Adriana Schulz. 「Automate: A dataset and learning approach for automatic mating of cad assemblies」. ACM Transactions on Graphics (TOG), 40(6):1–18, 2021. 

[3] Mingxin Yu, Lin Shao, Zhehuan Chen, Tianhao Wu, Qingnan Fan, Kaichun Mo, and Hao Dong. 「Roboassembly: Learning generalizable furniture assembly policy in a novel multi-robot contact-rich simulation environment」. arXiv preprint arXiv:2112.10143, 2021. 

[4] Zuyuan Zhu and Huosheng Hu. 「Robot learning from demonstration in robotic assembly: A survey」. Robotics, 7(2):17, 2018. 

[5] Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, and Ken Goldberg. 「Blox-net: Generative design-for-robot-assembly using vlm supervision, physics simulation, and a robot with reset」. arXiv preprint arXiv:2409.17126, 2024.

#ZeroSearch

成本暴降88%!通义实验室、北大发布,无需搜索即可激活LLM检索能力

本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:

文档质量不可控:真实搜索引擎返回内容不可控,训练过程易受噪声干扰。

搜索 API 成本高昂:Rollout 阶段频繁调用搜索 API,训练成本极高。

为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在多项任务上性能超过依赖真实搜索引擎的方法。

  • 论文标题:ZeroSearch: Incentivize the Search Capability of LLMs without Searching
  • 论文地址:https://arxiv.org/pdf/2505.04588
  • 代码地址:https://github.com/Alibaba-NLP/ZeroSearch
  • 项目主页:https://alibaba-nlp.github.io/ZeroSearch
  • Huggingface 主页:https://huggingface.co/collections/sunhaonlp/zerosearch-v2-6827f4ee6b6265069d443d4e

方法

无需搜索的强化学习框架

传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成本:

图片

为了避免策略模型记住由 Simulation LLM 生成的文档,我们对文档进行了损失屏蔽(Loss Masking),仅对策略模型自己生成的 token 进行损失计算。

结构化训练模板

图片

ZeroSearch 无需初始监督微调(SFT),直接对预训练语言模型进行强化学习训练,通过采用结构化的训练模板,引导模型在每一轮交互中划分思维步骤:

  • <think > 对已有信息分析,明确下一步行动 </think>
  • <search > 提炼搜索 query </search>
  • <answer > 总结推理过程,形成最终答案 </answer>

这种结构化模板提升了模型推理路径的清晰度和可解释性,格式化的输出便于提取最终答案进行奖励计算。

搜索模拟微调

图片

直接通过 Prompt 指导 LLM 生成的模拟检索内容,往往与真实搜索引擎返回的检索内容风格差异较大,且质量不稳定。为了解决这些问题,我们采用了模拟微调策略,具体包含以下三步:

  • 轨迹采集:从策略模型与真实搜索引擎的交互中采集 Query-Document 对
  • 质量评估:利用 Qwen-Max 作为评审,对文档进行有用性判别
  • 监督微调:构建高质量训练集,进行轻量级微调 (2 万条数据,7B 模型训练时间仅需 30 分钟)

此外我们还在 Prompt 内引入原始问题的正确答案,从而扩充 Simulation LLM 的知识边界。

基于课程学习的文档生成策略

图片

经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令,灵活控制生成文档的质量。基于这一能力,我们进一步引入了课程学习策略,通过逐步降低文档质量,循序渐进地提升训练难度,从而更有效地激发模型的推理能力。

为实现训练难度的平滑过渡,我们设计了一个指数函数来控制 Noisy 文档的生成概率:

  • 训练初期:训练难度上升缓慢,模型能够稳步学习基本的输出格式以及任务逻辑。
  • 训练后期,训练难度快速上升,从而促使模型不断强化其推理能力与鲁棒性。

该由易到难的训练过程能够持续激发策略模型的推理能力,有效提升强化学习训练的稳定性与最终表现。

奖励函数设计

图片

在实验中,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案,出现 Reward Hacking 问题,我们改用 F1 Score 作为奖励指标,更加关注输出的准确性与简洁性,有效抑制了冗余答案的产生。此外,我们发现模型在训练中即便不显式监督输出格式,也能生成结构规范的回答,因此没有引入格式奖励。

实验结果

主要性能表现

图片

  • ZeroSearch 超越所有基线方法,该性能优势在域内以及域外数据集上均得以体现,展示了我们方法的鲁棒性。
  • ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1,凸显其在大规模强化学习中替代真实搜索引擎的潜力。
  • ZeroSearch 展现了强大的泛化能力,随着模型参数量增加,其性能进一步提升,体现了良好的扩展性。

与真实搜索引擎对比

图片

  • ZeroSearch 与真实搜索的奖励趋势相似,随着训练的推进,ZeroSearch 和 Search-R1 的奖励分数都稳步上升。
  • ZeroSearch 的奖励提升更加显著,虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1,但它最终实现了超越,并且波动更小。
  • ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力,在这两类模型下,ZeroSearch 的奖励表现都持续提升。

模拟搜索设定对比

图片

  • 相对于 Base Model,不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力。
  • 基于 Prompt 的方法效果较差,主要由于其生成的文档风格与真实搜索引擎差异较大,且质量不稳定,难以支撑稳定训练。
  • 经过微调的 Simulation LLM,即便仅有 3B 参数量,也能显著提升策略模型性能;随着模型规模扩大,性能进一步提升:SFT-7B 可达到与 Google 相当的效果,SFT-14B 甚至实现超越 Google 的性能。

交互轮数研究

图片

  • 训练初期:交互轮数迅速下降,奖励缓慢上升

此阶段模型尚未掌握搜索调用机制,经常产生冗余交互,检索效果不佳。

  • 训练中期:交互轮数迅速回升,奖励同步显著提升

模型逐渐学会如何高效调用搜索引擎,能够获取准确信息,回答质量显著提高。

  • 训练后期:交互轮数和奖励趋于稳定

模型已适应数据集的跳数分布,交互策略逐步固化,在课程学习设定下,模型需提升推理能力以应对更低质量文档,从而维持较高奖励水平。

课程学习策略研究

图片

  • 实验结果表明,Curriculum(由易到难)训练策略显著优于 Random(随机难度)训练策略,验证了该训练范式在激发模型推理能力方面的有效性。
  • 与 Random 类似,真实搜索引擎在训练过程中难以控制文档难度,导致模型缺乏系统性的能力提升路径,从而限制了推理能力的持续进化。

总结

本文提出了 ZeroSearch,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架,我们使用轻量级的监督微调将 LLM 转变为一个检索模块,在 RL 训练阶段,我们基于课程学习逐步降低检索模型生成文档的质量,通过不断提升检索难度,逐步激发策略模型推理能力。

大量实验表明,ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力,7B 模型的检索性能已接近真实搜索引擎,而 14B 模型甚至实现了超越。此外,ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力,并可兼容多种 RL 算法,具备极强的适应性与可扩展性。

#AI科学家Zochi在ACL「博士毕业」

eta测试今日上线

又有一个 AI Scientist 的论文通过了顶会同行评审。

今天,Intology 宣布他们的 AI 科学家 Zochi 的论文被顶会 ACL 主会录用,成为首个独立通过 A* 级别科学会议同行评审的人工智能系统 ,同时开放了 Zochi 的 Beta 测试。

Beta 注册地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform

image.png

 近几个月来,多个团队已证明了人工智能在研讨会级别的会议上能做出贡献,此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通过了 ICLR 会议一个研讨会的同行评审,详见报道《AI 写的论文能过审?双盲评审 6.25 分,达到 ICLR 研讨会水平》。

但论文被顶级科学会议的主会议录用,则意味着跨越了一个高得多的门槛。

提交给 ICLR 2025 的研讨会论文录用率约为 60-70%,而像 ACL(以及 NeurIPS、ICML、ICLR、CVPR 等)这样的顶级会议的主会议录用率仅为 20% 左右。 ACL 是全球自然语言处理 (NLP) 领域排名第一的科学会议,在全球所有科学会议中排名前 40。

image.png

此类顶级会议主会议的同行评审过程旨在进行高度筛选,对新颖性、技术深度和实验严谨性都有着极为严格的标准。大多数计算机科学领域的博士生需要花费数年时间才能在同等声望的会议上发表论文。

这使得 Zochi 成为首个达到博士级别的智能体:人工智能系统首次独立完成了科学发现,并将其发表在与该领域顶尖研究人员相当的水平上。

 Tempest:基于树搜索的大型语言模型自主多轮「越狱」

话不多说,我们先来看看这篇论文吧。

论文标题:Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search 

论文地址:https://arxiv.org/pdf/2503.10619

该研究的前期版本(名称为 Siege)曾被 ICLR 研讨会接收。后续,Zochi 对其设计进行了修改,并为提交 ACL 进行了更广泛的实验。

这项研究的一个特点是其自主性程度:人类研究者仅设定了「开发新型『越狱』方法」的初始目标。Zochi 随后独立确定了多轮攻击这一具体研究方向,设计了 Tempest 方法,编写代码并进行了测试,执行了所有实验,并撰写了论文草稿。人类的参与主要限于图表创建和格式修订。

该研究从分析「越狱」相关文献开始,设计了一种基于树搜索的方法。该方法利用并行探索同时扩展多个对抗性提示分支,并集成了跨分支学习和部分合规跟踪功能。系统自主实现了 Tempest,并在多个大型语言模型上进行了评估。

image.png

评估结果显示,Tempest 在 GPT-3.5-turbo 上的成功率为 100%,在 GPT-4 上的成功率为 97%。与所比较的单轮和多轮基线方法相比,Tempest 在使用较少查询次数的情况下达到了更高的成功率。

这项工作的结果提示,语言模型的安全措施可能通过多轮对话被系统性地绕过,其中逐步的策略性互动可能导致模型产生原本被限制的输出。这些发现反映了当前安全机制中可能存在的某些不足,并为研究更有效的多轮对抗攻击防御策略提供了数据和视角。

批评风波

2025 年 3 月 18 日,Intology 宣布推出了 Zochi, 并称其为世界上第一位 「做出最先进贡献」的 AI Scientist,它的研究成果已被 ICLR 2025 研讨会接收。

Intology 官网:https://www.intology.ai/

通过标准化的自动审稿人评估,Zochi 的论文平均得分为 7.67 分,而其他由人工智能系统生成的公开论文得分在 3 到 4 分之间。

image.png

但 Intology 很快就陷入了批评风波。Sakana、Intology 和 Autoscience 都声称其使用 AI 生成的研究被 ICLR 接受,但只有 Sakana 在提交其 AI 生成的论文之前向 ICLR 领导通报了此事,并获得了同行评审者的同意。

 几位 AI 学术界人士在社交媒体上批评了 Intology 和 Autoscience 的行为,认为这是对科学同行评审过程的滥用。 

image.png

关于 Zochi

 Zochi 是一个 AI research agent,能够自主完成从文献分析 到同行评审出版 的整个科学研究过程。该系统通过一个旨在模拟科学方法的多阶段流水线进行运作。 

  • 技术报告:https://github.com/IntologyAI/Zochi/blob/main/Zochi_Technical_Report.pdf
  • 代码:https://github.com/IntologyAI/Zochi

Zochi 的工作成果

  • 通过正交知识空间实现高效模型自适应

为解决模型微调(PEFT)中的「跨技能干扰」问题,Zochi 提出了 CS-ReFT。该方法创新地通过学习「正交子空间表征」来编辑模型行为,而非修改权重。这使得 Llama-2-7B 仅用 0.0098% 的参数就实现了 93.94% 的 AlpacaEval 胜率,超越了 GPT-3.5-Turbo,并获得了同行的高度评价。

  • 通过自主多轮红队测试发现 AI 漏洞

在 AI 安全方面,Zochi 开发了 Siege 框架,利用树搜索算法进行高效的「多轮越狱」攻击。通过识别并利用 LLM 的「部分遵从」漏洞,Siege 对 GPT-3.5 和 GPT-4 实现了极高的攻击成功率(100%/97%),提示需要重新评估现有防御策略。其扩展工作已被 ACL 2025 接收。

  • 计算生物学进展(EGNN-Fusion)

Zochi 将 AI 技术应用于计算生物学,推出了 EGNN-Fusion,用于预测蛋白质 - 核酸结合位点。该方法在保持顶尖性能的同时,将参数数量锐减了 95%,证明了 Zochi 在解决复杂跨学科科学问题方面的强大实力和多功能性。

评估结果

与所有基线系统相比,Zochi 持续产出更高质量的研究论文。在使用基于 NeurIPS 会议指南的自动审稿人进行评估时,Zochi 的论文获得了 8、8 和 7 的高分,均远高于顶级机器学习会议平均录用论文 6 分的接收门槛。

相比之下,其他 AI 系统的论文得分要低得多,平均约为 4 分。考虑到每个系统处理的问题复杂性存在巨大差异,这种评估差距尤其显著。基线系统专注于相对受限的问题 —— 例如二维扩散模型、玩具规模的语言模型或特定的认知偏差 —— 而 Zochi 则致力于解决开放式挑战,提出新颖且可验证的最先进方法。

image.png

作为一项探索性练习,Zochi 在 MLE-Bench 的部分基于 Kaggle 的挑战上进行了评估,以考察其在传统机器学习工程任务上的表现。在没有任何任务特定优化的情况下,Zochi 达到了最先进水平,在 80% 的任务上超过了人类表现中位数,并在 50% 的任务中获得奖牌。这些成果超过了之前的基准测试,如 Agent Laboratory、AIDE 和 OpenHands,进一步突显了 Zochi 核心能力的稳健性和适应性。

#Pangu Ultra MoE 模型架构与训练方法

还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。

训练超大规模和极高稀疏性的 MoE 模型极具挑战,训练过程中的稳定性往往难以保障。针对这一难题,盘古团队在模型架构和训练方法上进行了创新性设计,成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。

盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构和 TinyInit 小初始化的方法,在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外,他们还提出了 EP group loss 负载优化方法,这一设计不仅保证了各个专家之间能保持较好的负载均衡,也提升了专家的领域特化能力。同时,Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构,在训练时使用了 Dropless 训练策略。

  • 技术报告标题:Pangu Ultra MoE 模型架构与训练方法
  • 技术报告地址:https://raw.gitcode.com/ascend-tribe/pangu-ultra-moe/raw/main/Pangu_Ultra_MoE_CN_Report.pdf

破解准万亿 MoE 模型性能瓶颈

打造芯片协同的先进架构

近期,盘古团队在 MoE 模型训练领域再进一步,重磅推出参数规模高达 718B 的准万亿全新模型 ——Pangu Ultra MoE。该模型旨在实现超大规模 MoE 架构在模型效果与效率之间的最佳平衡。

为了达到这个目标,研究团队在设计 Pangu Ultra MoE 架构的时候,充分考虑昇腾硬件特性,在昇腾 NPU 平台上,融合计算、通信和内存等多维度指标,构建了大规模系统模拟器,并系统性地探索约一万个不同的 MoE 结构组合,最终搜索出一套在训练与推理吞吐上均达最优的架构方案。

Pangu Ultra MoE 是一个超大规模、高稀疏比的架构,同时也包含 MLA 和 MTP 等先进架构和特有的 DSSN 稳定性架构和 EP group loss 负载优化。下面是 Pangu Ultra MoE 的主要的架构和训练特性:

  • 超大规模和超高稀疏比:采用 256 个路由专家,每个 token 激活 8 个专家,模型总参数量 718B,激活量 39B。
  • MLA 注意力机制:引入 MLA(Multi-head Latent Attention),有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈,优于传统 GQA 方案。
  • MTP 多头扩展:采用单头 MTP 进行训练,后续复用 MTP 参数扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。
  • Dropless 训练:采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题,并且提升训练的数据效率。
  • RL 训练:采用迭代难例挖掘与多能力项均衡的奖励函数,并参考 GRPO 算法,提升了模型的训练效率与最终推理性能。

以下是 Pangu Ultra MoE 昇腾亲和设计考虑:

  • 隐藏维度贴合硬件:设置 7680 维隐藏层,精准匹配昇腾芯片的 16×16 MatMul 单元,充分发挥 Cube 核心的计算潜力。
  • 层数亲和流水线并行:设置 61 层 Transformer 结构,并预留额外 MTP 层空间,保障计算负载均衡的 PP/VPP 流水线调度,减少 pipeline 气泡,提升整体并行效率。
  • 专家规模符合幂次规律:路由专家数量设为2⁸=256,在 TP×EP 并行下提升 All-to-All 通信效率,有效加速分布式训练。

Pangu Ultra MoE 的预训练阶段在 6k 到 10k 张 NPU 上进行,全流程采用 dropless 训练模式。预训练阶段进行了长序列扩展,最终模型具备 128k 长序列能力。在后训练阶段,Pangu Ultra MoE 移除了负载均衡辅助损失,保留专家间已有的特化能力,从而进一步提升模型对目标数据的学习效率。如表1所示,最终模型在多个权威开源评测集上展现出一流的效果。

图片

表 1: Pangu Ultra MoE 与目前主流模型效果对比

面向超大MoE模型稳定训练新范式:

DSSN结构和TinyInit加持

梯度突刺率下降 51%

支撑 10+T tokens 数据长稳训练

随着参数规模和数据体量的激增,大模型训练面临前所未有的稳定性挑战。频繁的梯度范数突刺已成为阻碍收敛效率与模型性能提升的主要瓶颈。如何在确保训练深度和宽度扩展的同时,维持梯度信号的稳定传递,成为构建高可靠性大模型架构的关键课题。在 Pangu Ultra 稠密模型 [2] 的训练中,Depth-Scaled Sandwich-Norm 和 TinyInit 方法在保障训练稳定性上起到了关键性的作用,所以 Pangu Ultra MoE 依旧采用这个方案来控制训练稳定性。经过实验证明,此设计在 Pangu Ultra MoE 的训练中同样能起到增强稳定性、加快收敛速度的作用。

Depth-Scaled Sandwich-Norm(DSSN):传统的 Pre-LN 结构存在因为子层输出规模波动而导致训练不稳定的现象,DSSN 是为了解决这一问题而提出的。通过在每个子层输出后加入额外的层归一化,并引入深度缩放的初始化方式,从而稳定网络各层的输出尺度,达到抑制梯度异常、降低范数波动的目的。

TinyInit:Transformer 模型普遍采用较小的初始化尺度,TinyInit 提出一种标准差为

图片

的初始化方案,能够同时兼顾模型深度与宽度,其中d表示隐藏维度,L表示模型层数。同时,对词嵌入层采用标准差为 0.5 的初始化。实验表明,这样的初始化策略有助于提升模型性能和训练稳定性。

Depth-Scaled Sandwich-Norm + TinyInit 的方案减少了 51% 的突刺量(见图 1),缓解了梯度范数频繁突刺的问题,能够有效降低大模型训练过程中的不稳定性,加快模型收敛,提升模型性能。同时 DSSN+TinyInit 被应用到 Pangu Ultra MoE 中实现了 10+T tokens 数据的长稳训练。

图片

图 1: 训练过程的梯度范数对比图(黑色实线为突刺分界线)。DSSN+TinyInit 使梯度突刺率从 1.54% 下降到 0.76%,相对下降 51%。

基于 EP group 的负载均衡:

让计算效率和路由表达能力可以兼得

在训练混合专家模型(MoE)时,容易出现专家负载不均衡的情况。负载不均衡指的是不同专家被分配的 token 数量存在显著的差距。当采用专家并行策略(EP,expert parallelism)时,负载不均衡会影响计算效率,被分配过多 token 的专家会成为计算瓶颈,而其他专家则处于低利用率状态。同时负载过低的专家可能存在训练不充分的问题,影响最终的模型效果。因此如何使 token 更均衡地分布至不同专家,对提高混合专家模型的训练效率和效果非常重要。

为了保证负载均衡,一般通过增加辅助的负载均衡 loss(auxiliary loss)来约束 tokens 在专家之间均衡分布。然而,如果负载均衡 loss 过度地约束 tokens 分配的均衡性,也会影响模型路由的表达能力。之前主流的负载均衡 loss 一般是约束单个序列或者单个 micro batch 内的 token 分配均衡性,而单个序列往往是来自同一领域的数据,过度的均衡可能影响专家特化(expert specialization)。

盘古团队发现对于采用专家并行策略训练的模型,可以设计一种对模型路由约束更小,同时不影响计算均衡性的 EP-Group 负载均衡 loss。当采用了专家并行,专家会被分配到不同卡上进行并行计算。每块卡上的专家会接收来自 EP 组内所有卡上的 micro batch 路由给自己的 token。所以可以设计一个负载均衡 loss,来约束 EP 组内所有 micro batch 路由到组内专家之后的均衡性。这相当于把 EP 组内部的所有 micro batch 联合起来计算负载均衡的 loss, 这样训练时可以容忍单个 micro batch 的不均衡,只要多个 micro batch 的 token 路由到专家之后是均衡的即可。

为了验证 EP-Group 均衡损失函数的效果,盘古团队使用一个 20B 参数量的 MoE 模型进行了 100B 数据量的对比实验。结果如表 2 所示,可以看到 EP-Group 均衡损失函数在大部分任务相比主流的 Micro-batch 上都有显著的优势,平均提升了 1.5 个点。

图片

表 2:  Micro-batch 和 EP-Group 的 auxiliary loss 效果比较

同时盘古团队对 Pangu Ultra MoE 的专家特化进行了分析,结果如图 2 所示,可以看到不同领域的数据对专家的选择存在显著的差异,这表明 EP-Group 均衡损失函数给模型提供了灵活的路由选择空间,促进了专家特化。

图片

图 2:  Pangu Ultra MoE 的专家特化。其中 ar,de,fr,ru 分别代表阿拉伯语,德语,法语,以及俄语。

多 Token 投机推理新路径:

MTP 头延迟扩展策略

投机接受长度预期提升 38%

投机推理是一种提升大模型生成效率的有效方法,其核心思想是在主模型生成 token 之前,由一个轻量辅助模块预先预测多个候选 token,并通过快速校验机制决定是否接纳,从而实现推理过程的并行化与加速。在当前大模型推理中,Multi-token Prediction(MTP)技术已成为实现多 token 级别投机生成的重要手段。

盘古团队在实践中发现,获取多 token 的投机推理能力并不需要从训练开始便配置多个 MTP 头,而是可以在训练后期对单头 MTP 进行扩展来达到类似的效果。为验证这一策略的有效性,团队使用 20B MoE 为主干模型,训练 185B 数据。具体对比设置为:以两个 token 的投机推理为目标,分别训练了从头开始配置单 / 两个 MTP 头的模型(即单头从头训练和双头从头训练),以及在单头 MTP 模型训练至收敛后,通过复制已有头的参数再增训出第二个 MTP 头的模型。对于扩增的模型,对比全参续训以及冻结主干和一头的续训的效果,即双头扩增全参训练和双头扩增冻结训练。下游使用 LAMBADA 续写作为评测任务。

结果如图 3 所示。双头扩增模型的接受长度和延迟基本和双头从头训练一致,而双头的接受长度约 2.30,单头的接受长度约 1.67,双头相对单头提升约 38%。在模型效果方面,双头扩增模型全参训练和从零训练相当,而由于冻住了主干和一头,双头扩增冻结训练的精度在扩增的位置基本保持不变。这表明后期的 MTP 扩展可以达到多头的从头训练的投机推理效果,可以在模型训练早期保持较小的 MTP 配置并在后期再进行扩展,兼顾计算成本和推理能力。

图片

图 3:  20B MoE 的 MTP 在 LAMBADA 续写上的投机推理结果。在接受长度上,双头相对单头提升约 38%,而双头可以基本无损地通过后期扩增单头得到。

迭代难例挖掘与多能力协同:

后训练强化学习持续提升的关键

模型后训练的过程中,团队参考了业界常规的 GRPO 算法提升模型的推理性能。然而,在超大参数规模情况下,直接应用 GRPO 会带来两方面的问题:1. 算法训练需要依赖多回复通过率在 (0,1) 内的数据,随着模型性能的提升,相同 prompt 的推理结果准确率越来越高,导致训练过程中被 “浪费” 的数据不断增加,降低推理效率;2. 模型训练需要兼顾多能力协同提升,包括数学、代码和通用能力等,不同能力项的奖励函数设计会导致模型能力增长上的不匹配,出现 “跷跷板” 问题。

图片

图 4:  Pangu Ultra MoE 的强化学习训练系统

为了解决上述两个实践难题,盘古团队设计了 Pangu Ultra MoE 的强化学习训练系统,如图 4 所示,提升了大 MoE 模型的训练稳定性与推理性能。系统设计的关键在于两个部分:(1)迭代难例挖掘:模型阶段性更新后,从初始的数据池中进行多回复推理,选取回复通过率在 (0,1) 的数据组成 RL 训练数据池,以保持推理效率最大化;(2)多能力项奖励系统:为了确保模型多能力项协同提升,数学和代码均采用了基于规则的奖励,通用奖励模型则使用 LLM-as-a-judge 的方法对生成的回复质量进行评分,并对最终的 reward 进行归一化处理,保证了模型在多个能力项的综合表现。

[1] Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs

​https://arxiv.org/abs/2505.04519​

[2] Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

​https://arxiv.org/abs/2504.07866​

Logo

欢迎加入我们的广州开发者社区,与优秀的开发者共同成长!

更多推荐