51c大模型~合集132

团队从数据的每个查询 x 中抽取开头词 w，然后构造相应的 SFT 数据对 (Q (w), x)，此外，团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词，即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’)，表明没有见过相应的训练数据，这类数据构成的数据对为 (Q (w’),R (w’))。该打分公式的主要思想是，模型拒绝回复的可能性越低，或者模型

whaosoft-143

3110人浏览 · 2025-05-28 04:00:00

whaosoft-143 · 2025-05-28 04:00:00 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/13946432

#全靠Claude4！

30年FAANG老工程师：AI帮我解决了4年老bug

AI 就像一头野驴，跑起来就不停。人类花了几百万年才走上食物链顶端，而大模型只用了不到十年时间，已经能把你和刘亦菲 P 进一张自拍了。奥！最新进展是已经能自己生成音画同步的超真实脱口秀了。

不过等人类回过味来，发现海的那边好像是敌人，AI 导致的失业潮仿佛近在咫尺。还记得七年前（那时候 ChatGPT 都还没发布）本科第一次班会上，老师问为什么要选这个专业，有同学回答因为这是最不容易被 AI 替代的职业之一（PS. 我学的是建筑，大家别笑得太大声）。

不知是不是预料之内，AI 最先波及的，竟然是写程序这件事本身。Anthropic 的创始人、CEO Dario Amodei 就曾预测，很快 90% 的代码可能都会由 AI 来编写。

先不说这个预言什么时候会实现，至少他家的产品确实在往这个方向发展。请问编程最厉害的大模型是哪个？虽然没有定论，但 Claude 肯定榜上有名。

BigCodeBench 榜单

上个星期刚发布的 Claude 4，让人们的「刻板印象」又加深了一层。

5 月 22 日，Anthropic 推出了全新一代 Claude 4 系列大模型，为代码生成、高级推理和 AI 智能体树立了全新标准。其中，Claude Opus 4 是一款全球领先的编码模型，它在复杂、长时间运行任务和智能体工作流中拥有持续的高性能。

Anthropic 展示了 Claude 4 如何无缝融入人们整个工作日。它拥有三大高级功能：通过 Claude 应用中自定义集成进行深入研究，管理项目，并能在 Claude Code 中独立解决代码任务。

新版本的大模型已经上线，立即吸引了大量程序员前去使用，很多人表示效果出奇的好。

昨天，Reddit 上一位拥有 30 多年经验的前 FAANG 高级工程师发帖表示，他被一个 C++ 的 Bug 困扰了 4 年，花了约 200 小时却毫无进展。而 Claude Opus 4 竟然成功地解决了这个问题，并且是唯一能做到的 AI 智能体。

这篇帖子在 X 和 Reddit 引起了热烈的讨论，Anthropic 工程师 Alex Albert 表示，这样的故事可能会越来越多。

有人展开了技术讨论。

也有人认为，这根本就是个 Claude 推广软文。

假如这个故事是真的，我们该如何来看待这件事呢？

大家先别激动，等一等外行的朋友们，我们先来梳理一下要点，这里邀请 Gemini 老师场外援助（因为我也是外行）。

Bug 的来源和难度

这个 Bug 是在四年前一次大规模的代码重构（Re-architecting refactor）中产生的。

代码重构：你可以把它想象成对一栋老房子进行彻底的重新设计和装修。原来的房子可能有很多问题（比如布局不合理、管道老化），装修后解决了这些问题，但可能因为改变了结构，导致某个角落里以前能用的某个特殊电器（比如某个特定型号的灯，只有在特定开关下才用）现在用不了了。

6 万行代码：这说明这次「装修」的规模非常大，非常复杂。

边缘案例（Edge case）：这指的是一个非常特殊、不常出现的情况。就像上面说的那个特殊电器，平时很少用，只有在特定条件下才会用到。

着色器（Shader）：这是一种专门处理图形和视觉效果的代码。你可以理解为那个「特定型号的灯」。

问题所在：在这次大规模「装修」后，那个「特定型号的灯」在「特定开关下」就不亮了。

Bug 的真正原因

AI 发现，这个问题不是因为「装修」时工人犯了个简单的错误（比如接错了一根线，这叫逻辑 Bug）。而是因为：

那个「特定型号的灯」以前之所以能亮，仅仅是因为老房子旧结构下的一个「巧合」。可能有一根电线无意中搭在了某个地方，正好给它供电了。
在重新设计和装修（改变了架构）时，大家并没有意识到这个「巧合」的存在，也就没有在新的设计里考虑进去。所以，当旧结构消失后，那个「巧合」也消失了，灯自然就不亮了。
AI 的厉害之处在于，它不仅看懂了新旧两套复杂的「图纸」，还理解了那个「巧合」是怎么回事，并指出了新设计没有考虑到这个隐藏的依赖关系。

很好！那我们现在来分析一下，AI 在这个过程中起到了什么作用呢？

首先，AI 可以轻松地加载、分析和比较新旧两个版本共计数万甚至数十万行的代码。它不会像人类那样感到疲劳或遗忘细节，可以同时「看到」整个 picture。

像 Claude Opus 4 这样的先进模型拥有巨大的「上下文窗口」，这意味着它可以一次性考虑非常多的信息，并追踪它们之间的复杂关系。

同时，AI 不会带有「它应该如何工作」的偏见。它只是客观地分析旧代码如何运行并产生结果，以及新代码如何运行并产生不同结果，它能发现两者之间最细微的差异。

别忘了，这个过程还需要人类的指导。程序员通过超过 30 个 prompt 来引导 AI。这说明人类的经验和直觉与 AI 强大的分析能力相结合，才能发挥最大效果。人类设定目标、提供背景，AI 则执行繁重的分析工作。

参考链接：

https://www.reddit.com/r/ClaudeAI/comments/1kvgg7s/claude_opus_solved_my_white_whale_bug_today_that/?share_id=-Y9J9Hna8rIemyMsG8Jp9&utm_cnotallow=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1

....

#xxxx

....

#xxxx

....

#xxxx

....

#那些年，AI创始人创业有多奇葩

太离谱了！你以为自己在和最先进的 AI 交互，屏幕对面坐着的却可能是两个满头大汗的人类。

两周前，市值超过 10 亿美金的著名 AI 独角兽 Fireflies.ai 的联合创始人兼 CTO Sam Udotong 在领英上抛出了一枚震撼弹：他们起初引以为傲的产品，其实是人假扮的。

在这个故事的最初版本里，没有什么机器神经网络在云端飞速运转。两位创始人 Krish Ramineni 和 Sam Udotong 认为，验证一个商业点子最好的方式，就是先让自己「成为」那个产品。于是，他们向客户推销道：「我们有一个叫 Fred 的 AI 机器人，它可以自动参加会议、帮你记录笔记。」

然后戏剧性的一幕发生了：当客户预约会议时，他们俩就真的拨打电话进去，假装自己是那个叫「Fred」的 AI。全程保持静默，甚至不敢大声呼吸，手指却在键盘上飞速敲击，进行「人工听写」。会议结束十分钟后，他们再把这份带着体温的笔记发送给客户，假装这是算法的杰作。

难以置信的是，这样一种荒诞的「人肉智能」模式居然真的跑通了。

靠着这种近乎诈骗的勤奋，他们硬生生记录了 100 多场会议，终于赚到了足够的钱来支付旧金山某个月租 750 美元的小客厅 —— 那是他们仅有的栖身之所，也是公司的总部。直到那一刻，他们才决定停下疯狂的手动模式，开始编写真正的自动化代码。更多详情请参阅报道《离谱：打造超 10 亿美元的独角兽，从真人假扮成 AI 开始》。

这听起来像是一个关于欺骗的笑话，但这甚至不是个例。

在硅谷的聚光灯之外，类似的剧本每天都在上演：有的创始人为了让产品看起来像 AI，雇佣数百名菲律宾员工在后台手动操作购物流程；有的创始人为了省下房租维持算力成本，住进了 700 美元一个月的「睡眠舱」，每晚感觉像睡在棺材里；更有甚者，为了展示决心，在办公室里放了一张床垫作为给新员工的入职礼物。

当这层光鲜的科技滤镜被打破，我们看到的不仅是趣闻，更是一场在 AI 时代被极度扭曲和放大的生存博弈。

你将看到，支撑起这个智能时代的，恰恰是创始人一系列最不自动化、最极端的行为。这不仅是关于技术的故事，更是三种在 AI 淘金热中演化出的极致生存策略：伪装、苦行和蛮力。

用真人假装 AI

如果说 Fireflies 的故事还是一个励志的创业童话，那么在 AI 淘金热的更深处，「假装 AI」这把双刃剑正在割裂出两个截然不同的世界：一端是精明的商业验证，另一端则是赤裸裸的资本谎言。

当演示视频成为「特效大片」：Devin 与 Pear AI 的翻车现场

在 AI 赛道，没有什么比一个病毒式传播的 Demo 视频更值钱了。但当承诺过于美好时，现实往往是一地鸡毛。

曾被捧上神坛的「全球首位 AI 软件工程师」 Devin，就是这场狂热中最具争议的主角之一。在那个令人惊叹的演示视频中，Devin 似乎能像真人一样自主接单、写代码、解决复杂的 Upwork 任务。

然而，技术社区的「打假」来得比融资还要快。一位名叫「Internet of Bugs」的博主逐帧分析了演示视频，揭露了尴尬的真相：Devin 在视频中修复的代码错误，实际上是它自己生成的「无意义」错误；它处理的任务需求与客户的原始描述并不匹配；那些看似行云流水的操作，在实际时间线上可能花费了数小时甚至数天。

，时长25:15

https://www.youtube.com/watch?v=tNmgmwEtoWE

Hacker News 上的一位开发者一针见血地总结了这种「先吹牛，后实现」的危险策略：现在的剧本是：先撒谎…… 发推特吹嘘…… 拿到 VC 的钱…… 然后雇一群聪明人被迫把它做出来！

Devin 的案例展示了「假装有 AI」策略的阴暗面：它不再是为了验证需求，而是为了收割投资人的 FOMO（错失恐惧症）。

更令人啼笑皆非的是 Pear AI 的闹剧。这家同样获得 Y Combinator (YC) 青睐的初创公司，被扒出其核心产品并非原创，而是直接「Fork」（复制）了另一个开源项目 Continue（讽刺的是，Continue 也是 YC 投资的）。

当被社区抓包试图修改开源许可证时，Pear AI 的创始人试图用「我们只是独立黑客（Indie Hackers）」、「想在这个领域做点事」来博取同情。但在 30 万美元的年薪放弃宣言和 YC 的光环映衬下，这种辩解被社区斥责为「自恋者的非道歉式道歉」。这不再是技术创新，更像是一场资本加持下的各种「套壳」游戏。

「幕后巫师」的秘密：我假装 AI，是为了训练你取代我

既然「假装 AI」风险这么大，为什么它仍是硅谷公开的秘密？因为在光谱的另一端，存在着一种被称为「绿野仙踪技术」 (Wizard of Oz technique) 的合法策略。

早在生成式 AI 爆发前，日程安排助理 x.ai 和 Clara 就已经把这套玩法练得炉火纯青。在那个年代，当你发邮件给智能助理「Amy」或「Andrew」安排会议时，屏幕背后可能真的是一位名叫 Amy 或 Andrew 的人类员工。

彭博社 2016 年的报道

但与诈骗不同，这里的「假装」带有一种残酷的使命感。

媒体曾揭露，这些人类员工每天工作 12 小时，日复一日地盯着屏幕，手动回复成千上万封枯燥的邮件。他们不是在欺骗用户，而是在扮演未来的算法。他们每一次手动敲下的回复，都在为尚未成熟的 AI 模型积累宝贵的训练数据。

最荒诞也最真实的一幕是：这些人类员工比任何人都期待 AI 的到来。据报道，由于工作内容过于机械和令人麻木，人类「训练师」们甚至公开表示「期待自己被机器人取代」。

这不仅是商业策略，更是一场人性的实验。在这种模式下，人类不是在使用工具，而是甘愿成为工具的临时替代品，直到工具真正学会如何像人一样思考。

从 Fireflies 的创始人假扮客服，到 x.ai 的员工扮演算法，再到 Devin 的视频「魔术」，AI 创业者们在真假之间反复横跳。但如果你以为只要能骗过投资人就算成功，那就太天真了。下面我们将看到，为了在这场残酷的游戏中活下来，这群创始人不仅要学会伪装，还要学会如何像苦行僧一样虐待自己的肉体。

创业 = 苦行？

如果说「假装 AI」是创业者的面具，那么「苦行」就是他们的信仰。在硅谷的 AI 圈子，一种名为「不喝酒、不睡觉、没娱乐」（No Booze, No Sleep, No Fun）的新教条正在蔓延。对于这群平均年龄 20 出头的年轻人来说，享受生活被视为一种罪过，而「睡在办公室」则是通往十亿美元估值的唯一门票。

华尔街日报的报道截图

从「卖身养企」到「住在棺材」

经典的创业故事往往带有一丝温情。比如视频编辑工具 VEED.IO 的故事：当公司耗尽资金、被赶出免费办公室后，联合创始人 Tim 并没有选择放弃，而是去找了一份合同工。他每天早上 6 点开始写代码，9 点去上班，然后每个月把一半的工资寄给全职坚持的合伙人，强行「输血」维持公司运转。

截图自创始人的分享，来自 Reddit

但这种老派的兄弟情谊，在如今的 AI 赛道演变成了一种更令人窒息的生存景观。

在旧金山，一位名为 Haseab Ullah 的 AI 创始人住在一个由旧办公楼改造的「共享生活空间」里。这不是什么高档公寓，他每个月支付 700 美元，换来的是一个类似火车卧铺的全封闭「睡眠舱」。拉上帘子，里面一片漆黑，只能容纳一人躺下。他坦言，这种体验「就像每晚睡在棺材里」，但他不在乎，因为这能让他从彻夜工作的疲惫中快速回血，醒来继续战斗。

为了节省时间，传统的吃饭也成了累赘。28 岁的 Pylon 联合创始人 Marty Kausas 表示，他主要吃一种来自「长寿狂人」 Bryan Johnson 公司的预制罐头食品（Blueprint）。对他来说，不需要思考吃什么，工作效率才更高。

Pylon 联合创始人 Marty Kausas 正在服用膳食补充剂，图源：WSJ

「床垫文化」与 92 小时工作周

这种苦行并非个体的疯狂，而是正在被制度化。

AI 保险初创公司 Corgi 的联合创始人 Nico Laqua 甚至将这种文化变成了招聘筛选器。他直言不讳地表示，只雇佣那些「愿意每周工作 7 天」的人。为了贯彻这一理念，他给新员工准备的入职欢迎礼物不是鲜花或电脑，而是一个办公室床垫。他自己更是身体力行，常年住在办公室里，声称这是为了「赢」。

这种疯狂在 Cognition AI（也就是 Devin 的母公司）达到了顶峰。CEO Scott Wu 毫不掩饰地推崇「极端绩效文化」，员工不仅每周工作超过 80 小时，甚至许多人直接把家搬进了办公室，彻底抹去了工作与生活的界限。

Marty Kausas 甚至在领英上公开炫耀他的工时表：连续三周，每周工作 92 小时。这包括周一到周四从早上 8 点干到凌晨 1 点，周五干 13 个小时，连周日也要「轻松」地干上 11 个小时。

苦行的本质：一场给 VC 看的表演？

为什么这些已经拿到巨额融资的创始人，还要过着如此清教徒般的生活？

一位 23 岁的创始人反问：「既然可以建立一家公司，为什么要去酒吧喝酒？」。这听起来像是热血漫的台词，但背后有着更冷酷的商业逻辑。

在 AI 这个赢家通吃的赛道，「苦行」本身就是一种战略信号。正如一些观察家指出的，这种极端的苦行形象，很大程度上是为了向风险投资人（VC）和潜在员工传递一种「硬核」信号：我们没有生活，我们不留退路，所以我们必须赢。

这种表演性的受苦（Performative Suffering）成为了 AI 创业圈的通行证。当你睡在像棺材一样的睡眠舱里，当你吃着乏味的罐头食品时，你实际上是在向资本市场证明：你就是那个能在这个万亿级市场中活到最后的「天选之子」。

然而，光有伪装的面具和苦行的肉体还不够。要真正把产品推向市场，有时候还需要最原始、最笨拙的手段。下面我们将看看在这个高度自动化的时代，创始人是如何用「蛮力」敲开增长的大门。

智能时代还得靠蛮力

最大的讽刺在于：试图用 AI 自动化一切的创始人，在创业初期往往是「人工操作」最坚定的信徒。他们深知，在算法接管世界之前，必须先用双手沾满泥土。

这种策略被称为「蛮力」（Brute Force）—— 不讲究效率，不依赖自动化，纯粹靠创始人的肉身去推开市场的大门。

硅谷传说：从卖麦片到「强行安装」

在硅谷名人堂里，几乎每个巨头都有一段不堪回首的「蛮力」往事。

最经典的莫过于 Airbnb。在 2008 年那个绝望的低谷期，为了活下去，创始人们并没有去优化推荐算法，而是干了一件与科技毫不沾边的事：卖麦片。他们设计了以选举为主题的 Obama O's 和 Cap'n McCain's 麦片盒，靠着在街头兜售这些纸盒子，他们筹集到了救命的资金。这不仅是生存，更是一种为了留在牌桌上不惜一切代价的蛮力。

而在 B2B 领域，Stripe 的「Collison 安装法」则是另一种极致的蛮力。

当很多创业者还在通过邮件发送测试链接，礼貌地等待回复时，Stripe 的创始人 Collison 兄弟选择了一种近乎侵略性的策略。一旦遇到潜在用户，他们不会说「我发链接给你」，而是直接说：「把你的笔记本电脑给我。」然后，他们会当场拿过电脑，手动为用户安装并配置好 Stripe。

这种做法极其「笨拙」，无法规模化，但却极其有效。它消除了用户所有的拒绝理由，用创始人的执行力硬生生地完成了从 0 到 1 的积累。

Fireflies 的回归：一个人就是一支销售团队

回到我们故事的起点 Fireflies.ai。除了假扮 AI 记笔记，他们在增长策略上也展示了惊人的蛮力。

在这个 AI 独角兽的早期，他们并没有光鲜的销售团队或庞大的营销预算。创始人 Krish Ramineni 坦言，公司在「没有销售或营销团队的情况下实现了全球扩张」。

秘诀是什么？是创始人亲自下场肉搏。Krish 亲自搞定了前 50 到 100 个客户。他痴迷于阅读每一条反馈信息，亲自回复每一封邮件，用最原始的「人海战术」（虽然只有他一个人）来弥补资源的不足。

这种「笨拙」的战术不仅省下了昂贵的销售提成，更重要的是，它建立了一种算法无法复制的信任感。正是这种靠蛮力堆砌起来的早期口碑，最终引爆了后来的有机增长。

蛮力的哲学

在这个充斥着自动化营销工具和增长黑客理论的时代，这些故事提醒我们一个被遗忘的真理：最有效的早期增长策略，往往是最不性感的。

无论是手动加入 Reddit 的讨论组去推销拉面，还是在陌生人的电脑上强行敲代码，这些行为都指向同一个逻辑：在飞轮自动旋转之前，你必须用尽全身力气去推动它转完第一圈。

伪装是为了入局，苦行是为了生存，而蛮力是为了启动。这三者构成了 AI 创始人并不光鲜、但却极其真实的生存图景。

现在，当我们拼凑完这些碎片，会发现一个更有趣的现象：那些站在行业顶端、看似最理性的 AI 巨头们，其内部往往充满了最不理性的戏剧性冲突。

彩蛋：「异类」的胜利与高层「宫斗」

纵观行业顶端，最具颠覆性的 AI 公司，往往不是由那些标准的软件工程师建立的。它们属于一群有着奇特履历的怪才，而它们的分裂与诞生，则源于一场场关乎意识形态的激烈内战。

只有「怪人」才能生存：DeepMind 与 Midjourney

有些人的简历本身就是一种对传统的挑衅。

看看 Google DeepMind 的创始人 Demis Hassabis。他不是那种典型的硅谷码农，而是一个活在多重宇宙里的人。13 岁时，他是世界级的国际象棋神童；17 岁时，他不仅没去刷题，反而共同设计并编程了销量数百万的经典模拟游戏《主题公园》（Theme Park）；玩够了游戏后，他又转身杀回学术界，攻读了认知神经科学的博士学位。

，时长29:01

Demis Hassabis 的诺贝尔奖获奖演讲

正是这种「国际象棋策略 + 游戏模拟 + 脑科学」的奇葩背景，构成了 DeepMind 独特的技术基因：用玩游戏的方式来破解人类智慧的奥秘。

另一位「怪人」是 Midjourney 的创始人 David Holz。在创办这家目前最赚钱的 AI 绘画公司之前，他曾在 NASA 工作，也曾经历过 Leap Motion（一家曾被吹上天但商业化惨败的手势控制公司）的创业过山车。

David Holz

也许是 Leap Motion 的失败让他对资本产生了 PTSD（创伤后应激障碍），Holz 做出了一个在今天看来极其「不寻常」的决定：拒绝风险投资。他选择白手起家（Bootstrapped），把公司直接开在了 Discord 聊天软件里。结果，这个没有任何 VC 指手画脚的「怪胎」项目，在一年内就实现了盈利。

硅谷最昂贵的「宫斗」：OpenAI 的裂变与 Anthropic 的诞生

如果说「异类」不仅能生存，还能创造奇迹，那么「内讧」则是 AI 进化史上最剧烈的催化剂。现代 AI 格局的「大爆炸」，其实源于一场几十亿美元的「分手」。

故事回到 2018 年，那时的 OpenAI 还是一个纯粹的非营利组织。联合创始人埃隆・马斯克（Elon Musk）当时断言 OpenAI 「已致命地落后于谷歌」，于是他向董事会提议：由他全权接管并亲自运营 OpenAI。

Sam Altman 和其他创始人拒绝了这一政变企图。马斯克的反应很直接：他退出了董事会，并取消了一项原本计划的大规模捐赠。

资金链的突然断裂把 OpenAI 推向了悬崖边。意识到通往 AGI 的研究极其昂贵，OpenAI 被迫做出了那个改变历史的决定：从非营利组织转型为「有上限利润」（capped-profit）的混合体，开始接受微软的注资。

这一转型在公司内部引发了剧烈的意识形态地震，分裂成了「商业化」与「安全至上」两个阵营。

最终，火山在 2021 年爆发。由研究副总裁 Dario Amodei 和安全副总裁 Daniela Amodei（一对兄妹）领衔，11 名核心员工因对公司日益商业化的方向感到不安，集体出走。他们带着对 AI 安全的执念，创立了 OpenAI 今天一个最大的竞争对手：Anthropic。

Amodei 兄妹

这不仅仅是商业竞争，更像是一场宗教分裂。今天的 ChatGPT 与 Claude 之争，本质上是多年前那场关于「AI 灵魂」争夺战的延续。

结语：唯一的真实是「人」

当我们回顾这些荒诞不经的故事时，很容易将它们仅仅看作是硅谷茶余饭后的谈资。但事实上，这些「奇葩」事迹并不是 AI 行业的例外，它们就是常态。

它们揭示了一个在算法神话掩盖下的残酷真相：在这场万亿美金的淘金热中，真正的护城河从来都不是算法本身。

在这个模型日益同质化、开源代码唾手可得的时代，技术壁垒正在迅速崩塌。真正决定一家 AI 公司生死的，往往是那些无法被代码量化的东西：是创始人愿意住在像棺材一样的睡眠舱里的牺牲意愿（苦行）；是敢于在产品还没做出来之前就敢卖给客户的市场嗅觉（伪装）；是愿意手动敲下几千封回复邮件的执行毅力（蛮力）。

这是一个巨大的讽刺：我们正致力于构建一个去人性化的、高度自动化的未来，但启动这个未来的引擎，却比以往任何时候都更依赖于最原始、最极端的人性。

在自动化模糊了真假界限的今天，唯一真实的只剩下人的因素。

哪怕是现在，下一个可能改变世界的 AI 巨头，或许正诞生于今晚旧金山某间办公室地板的床垫上，或者正藏在某个创始人假扮 AI 发出的下一封邮件里。

毕竟，在 AI 学会伪装成人类之前，人类必须先学会如何伪装成神。

参考链接：

https://www.theverge.com/news/821664/co-founder-of-an-ai-transcription-company-claims-it-was-originally-just-two-guys-pretending-to-be-ai

https://www.linkedin.com/posts/sudotong_we-charged-100month-for-an-ai-that-was-activity-7393690382884044800-9X8J

https://www.wsj.com/business/entrepreneurship/artificial-intelligence-startup-founders-bc730406

https://news.ycombinator.com/item?id=40008109

https://news.ycombinator.com/item?id=41701265

https://www.reddit.com/r/Entrepreneur/comments/dm067m/5000_mrr_ramen_profitability_in_4_months/

https://www.linkedin.com/posts/martykausas_were-working-really-really-hard-right-now-activity-7354178625182593026-hLIf/

https://paulgraham.com/ds.html

https://www.smashingmagazine.com/2025/07/unmasking-magic-wizard-oz-method-ux-research/

....

#OpenAI要往ChatGPT里插广告了

泄露代码显示

近日，一份来自 ChatGPT 安卓测试版的代码泄露显示，OpenAI 正在为 ChatGPT 筹备广告功能。

这一消息来自软件工程师 Tibor Blaho。他在分析 ChatGPT 安卓应用时，发现了多处与「广告功能」相关的代码引用，包括「搜索广告」「搜索广告轮播」以及「集市内容」等字符串。尽管这些代码并不意味着功能即将上线，但通常预示着内部正在进行广告形式和投放位置的测试。

从代码结构来看，OpenAI 可能正在测试多种广告形式：针对用户查询的单一赞助位、可滑动的广告轮播，以及类似电商平台的内容展示单元。

这些广告大概率会在用户有消费意图时弹出，比如比较产品、规划旅行或寻找本地服务，这与传统搜索广告的触发逻辑类似。例如，当用户询问降噪耳机推荐时，可能会在 AI 生成的产品概述旁看到赞助商品卡片。

这一举措可能彻底改变 ChatGPT 的盈利模式和用户体验。

一个或将改变盈利模式的举动

目前，OpenAI 主要依靠订阅收入（ChatGPT Plus）和 API 授权来支撑其快速扩张。然而，大规模 AI 推理的算力成本极为高昂，业内普遍认为计算支出是制约 AI 企业盈利的关键因素。

最近几天，汇丰给 OpenAI 算了一笔账，指出该公司需每年烧 6200 亿美元来维持算力，但收入存在巨大缺口，到 2030 年前需要额外筹集至少 2070 亿美元。

因此，OpenAI 急需找到新的收入增长点。如果广告成为第三条收入渠道，OpenAI 的财务状况或将大幅改善。而且，在这一举措下，OpenAI 无需提高免费用户的使用门槛。

据 OpenAI 披露，ChatGPT 拥有超过 1 亿周活跃用户，这一体量足以吸引品牌方的关注，尤其是针对高购买意向的查询场景。

事实上，AI 领域的广告探索已非新鲜事。微软 Copilot 已在部分回复中展示赞助链接，Perplexity 推出了赞助搜索结果，谷歌也在 AI 概览功能中试验广告投放。AI 对话界面正在向一个成熟模式靠拢：将搜索意图与广告结合，以生成式回答作为载体。

如果 OpenAI 推进这一计划，早期测试可能集中在免费用户群体，广告将出现在回复上方或内嵌于回复中，并限制广告密度。值得关注的信号包括：Plus 付费用户是否能享受无广告体验？OpenAI 如何界定和区分付费内容？广告是仅出现在搜索或浏览场景还是覆盖更广泛的对话类型？

这次泄露并不意味着功能即将上线，但它是迄今为止最明确的信号 ——ChatGPT 或将很快变得更像搜索引擎，只不过赞助结果会以对话的方式呈现。

可能带来的问题

在对话式回复中植入广告带来了新的问题。

首先是用户的排斥心理。有人认为，如果 ChatGPT 变成一个带广告、商品推荐的平台，以后再打开它就像是在被卖东西，这让人对它产生反感。

其次是信任问题。有人担心：一旦开始做广告，ChatGPT 的答案可能带有商业利益，可能偏向某些产品或服务，影响中立性和可信度。而且，如果 AI 回答不慎放大了广告主的某些宣传 —— 即便是无意的 —— 也可能引发责任和品牌安全问题。

此外，还有隐私方面的担忧。广告往往需要凭借用户偏好、对话内容来定位推荐。如果 ChatGPT 插入广告，有人担心他们和 AI 的私人对话可能被用来做广告定位、商业化，减弱隐私保障。

你看好 OpenAI 这一步吗？

参考链接：https://www.reddit.com/r/technology/comments/1p9mvut/leak_confirms_openai_is_preparing_ads_on_chatgpt/

....

#Language Ranker

从推荐系统的视角反思并优化大模型解码过程

在大语言模型（LLM）的研究浪潮中，绝大多数工作都聚焦于优化模型的输出分布 —— 扩大模型规模、强化分布学习、优化奖励信号…… 然而，如何将这些输出分布真正转化为高质量的生成结果 —— 即解码（decoding）阶段，却没有得到足够的重视。

北京大学林宙辰、王奕森团队的论文《Language Ranker: A Lightweight Ranking Framework for LLM Decoding》提出了一种全新的视角：将大模型的解码过程类比为推荐系统中的排序阶段（Ranking Stage）。这一视角揭示了现有解码方法的局限，并据此提出了高效、轻量的改进方案

论文标题：Language Ranker: A Lightweight Ranking framework for LLM Decoding
论文链接：https://www.arxiv.org/abs/2510.21883

一、重新理解 LLM：从 “生成” 到 “推荐”

论文指出，LLM 可以被看作一种特殊的推荐系统，它把输入当作 “用户信息”，在庞大的候选响应空间中为每位用户挑选最合适的响应。

如下图所示，大模型的关键组件与推荐系统可一一对应：

模型骨架 (LM backbone) 从输入中提取用户特征，相当于推荐系统的特征工程（Feature Engineering）；
语言头（LM Head）根据用户特征生成初步的响应分布，相当于推荐系统的召回层（Retriever）；
解码方法（Decoding Method）则是根据响应分布选出 “最合适的一条响应”，相当于推荐系统的排序层（Ranker）。

图表 1 大模型的关键组件与推荐系统一一对应

通过将大模型的解码过程类比为推荐系统的排序阶段，我们能够更清晰地看到现有方法的局限。

在推荐系统中，排序层（Ranker）通常经过精心设计，结构复杂，用于在召回的候选项中进行细粒度优化；而在大模型中，主流的解码方法，如贪婪解码、束搜索（Beam Search）、自一致性（Self-consistency）等，大多仅依赖固定规则，缺乏学习能力，因而要么提升有限，要么只在少数任务（如数学问题）中有效。

与此同时，基于奖励模型的重排序方法虽然具备一定的学习能力，却存在明显的冗余。它们在排序阶段重新进行特征提取，相当于 “重复做了一遍特征工程”。这种重复造轮子的做法不仅计算成本高昂，而且在训练与推理中都带来巨大的资源浪费，严重限制了大模型在解码优化方向上的可扩展性与普适性。

二、Language Ranker：轻量级重排序框架

针对上述局限，论文借鉴推荐系统的设计思路，提出了 Language Ranker 框架。其核心思想是：不再依赖庞大的奖励模型（Reward Model），而是直接复用主模型已提取的隐藏层特征，通过一个极小的学习模块完成候选响应的重排序。

该模块仅包含不到 0.5M 参数（比 GPT-2 还小 200 多倍），却在数学推理、代码生成、函数调用等多项任务上取得了接近甚至超越 7B 级奖励模型的性能。

如下图所示，Language Ranker 包含三步：

1. 候选召回：由主模型生成多条候选响应；

2. 特征提取：从模型中部（约底部 60% 层）提取最后一个 token 的隐藏状态，作为表示特征；

3. 候选排序：基于提取的特征，通过轻量 Transformer 或 MLP 计算相关性进行重排序。

图表 2 Language Ranker 框架

实验发现，这种 “共享特征工程” 的设计避免了传统奖励模型重复特征提取浪费，在保持高性能的同时，大幅降低了计算成本，实现了以最小代价获得接近最优结果。

此外，Language Ranker 还具备以下特性：

极低的训练与推理开销：支持 CPU 级别训练与部署；
即插即用：不改变 LLM 结构即可提升响应质量；
模块可分性：主模型与 Ranker 可以独立在不同设备上运行。

这些优势使得一个主模型可以灵活搭配多个 Ranker，甚至为不同用户定制个性化 Ranker，实现真正的个性化能力增强。

图表 3 一个 LLM 可以配备任意个 ranker，从而增强模型不同方面的能力，实现个性化

三、实验结果：小 Ranker，大提升

1. 主结果：不到 0.5 M 参数的 Ranker 媲美大规模奖励模型

在所有任务中，Language Ranker 仅需不到 0.5 M 参数，就能达到甚至超过大规模奖励模型（Reward Model）表现。例如：

在两个 8B 级别模型上，Language Ranker 几乎在所有任务中都超越了基于 8B 模型训练的大规模奖励模型。
在 Qwen 2.5-32B 上，Ranker 以 0.36 M 参数取得了与 32 B 规模奖励模型几乎持平的表现；
相比传统规则式解码策略，Language Ranker 在所有任务上均大幅提升。

图表 4 Language Ranker 在数学、代码、工具调用任务上的表现

2. 速度与资源效率：CPU 也能训练的 Ranker

在 MBPP 任务上，Language Ranker 即使用 CPU 也仅需 67 秒即可训练完成，而即使是 GPT-2 级别的奖励模型也需要超过 1 小时。

Ranker 具备 CPU 可训练性，意味着它可以在边缘设备上独立更新，支持个性化的持续学习。

图表 5 CPU 可训练

3. 迁移泛化：跨任务与跨模型皆可适配

跨领域：在 MATH 内部七类子任务间迁移时，性能下降均 < 2 %，表明良好泛化；
跨任务：在数学与代码的迁移性实验中，迁移的 Ranker 仍旧大幅超过任务内训练的 GPT-2 Reward Model。

单个 Ranker 即可跨任务工作，显著降低模型管理与部署成本。此外，一个主模型还可以配备多个 Ranker，展现出方法突出的覆盖性与灵活性。

图表 6 跨领域泛化性分析

图表 7 跨任务泛化性分析

4.Ranker Scaling Law：采样越多，性能越强

图表 8 Ranker Scaling Law

随着候选响应数量从 1 增加至 100，Language Ranker 在三项任务上均持续提升：

在 MATH 任务中，准确率从 25% 稳步上升至 56%；
在 MBPP 中，从 42% 上升至 59%；
在 xLAM 函数调用中，从 11% 提升至 47%。

这展现出本文方法同样遵循规模定律，称之为 Ranker Scaling Law，即更多采样可带来稳定性能增益。

四、总结与展望

Language Ranker 以 “推荐系统视角” 重新定义了大语言模型的解码过程，提出了一种轻量、高效且通用的排序框架。它摒弃了传统奖励模型高昂的计算代价，通过共享主模型的隐藏层特征，仅以不到 0.5M 参数实现与数千倍规模奖励模型相当的性能。该方法无需额外训练主模型，也能在 CPU 上快速完成学习，显著降低推理与部署门槛。实验结果显示，Language Ranker 在数学、代码生成、函数调用和指令跟随等多任务中均取得优异表现，并在跨任务、跨模型迁移中保持稳定泛化能力。更重要的是，这一框架天然支持个性化扩展：同一主模型可搭配不同 Ranker，以满足多样化场景需求。展望未来，Language Ranker 不仅是解码阶段优化的新范式，更是迈向个性化智能体的重要一步。它让我们看到，大模型的智能边界不止于参数规模，更在于如何高效地 “选出” 最优答案，为构建高效、灵活、可持续演化的语言智能系统提供了新的方向。

....

#QwenLong-L1-32B

强化学习解决长上下文推理问题：通义推出

上下文长度达 13 万 token，适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

近期的推理大模型（LRMs）通过强化学习（RL）展现出强大的推理能力，但这些改进主要体现在短上下文推理任务中。相比之下，如何通过强化学习扩展 LRMs 以有效处理和推理长上下文输入，仍然是一个尚未解决的关键挑战。

来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式，并识别出其中的两个核心挑战：次优的训练效率与不稳定的优化过程。

针对这些问题，团队提出 QwenLong-L1 长上下文推理强化学习框架，通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现，最终在多个长文档问答 benchmarks 上，QwenLong-L1-32B 表现卓越，不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型，更与 Claude-3.7-Sonnet-Thinking 性能对标。

主要贡献

1. 定义长上下文推理强化学习范式

区别于短上下文推理强化学习促进模型利用内部知识推理，长上下文推理强化学习需要模型首先定位外部关键信息然后整合内部推理。

2. 识别长上下文推理强化学习关键问题

长上下文推理强化学习训练效率低，具体表现在（a）奖励收敛较慢，（b）模型输出熵的显著降低，限制了优化过程中的探索行为。同时，长上下文推理强化学习训练不稳定，具体表现为（c）KL 散度突刺较多，这是由于（d）较长的输出长度和不均匀的输入长度导致方差变大，导致策略更新不稳定。

3. 构建 QwenLong-L1 长上下文推理强化学习框架

基于渐进式上下文扩展技术和混合奖励机制，QwenLong-L1 通过强化学习实现了从短文本到长文本的稳定上下文适应。

4. 开源 QwenLong-L1-32B 长上下文文档推理大模型

与前沿长上下文推理大模型相比，QwenLong-L1-32B 实现了显著的性能提升，相较于 DeepSeek-R1-Distill-Qwen-32B 平均提升 7.8%，不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型，更与 Claude-3.7-Sonnet-Thinking 性能对标，为长文本推理优化提供了基础性技术方案，

核心技术

基于传统的短上下文推理强化学习框架，QwenLong-L1 主要提出如下改进：渐进式上下文扩展技术和混合奖励机制。

渐进式上下文扩展技术

训练长上下文推理大模型存在不稳定的优化动态特性。为解决这些问题，我们提出了一种渐进式上下文扩展框架，该框架包含：课程引导的分阶段强化学习策略以稳定从短到长上下文的优化过程；难度感知的回顾采样机制，优先探索复杂实例；以及稳定的监督微调预热阶段，在强化学习训练前提供稳健的初始化基础。

稳健的监督微调预热：使用蒸馏的长上下文推理数据在强化学习前监督微调模型，获取稳定的初始策略，降低训练过程中的不稳定。

课程引导的分阶段强化学习：将强化学习训练分为两阶段，阶段 I 输入长度 20K，阶段 II 扩展至 60K，逐步适应长上下文。每阶段仅训练当前长度区间的样本，避免混合长度导致的优化冲突。

难度感知的回顾采样：根据样本平均奖励动态计算难度，低奖励样本（高难度）被优先保留至后续阶段。阶段 II 训练时，包含阶段 I 的高难度样本，强制模型持续探索复杂案例。

混合奖励机制

在数学、编程和逻辑推理等短上下文推理任务中，先前的研究工作通常采用基于规则的奖励函数。然而，开放域问答等长上下文推理任务因其固有的答案多样性带来了独特挑战。在这种情境下，限制性过强的基于规则的奖励机制可能会制约有效答案的多样性，从而可能影响整体性能。针对这些局限性，我们提出一种融合规则验证与模型评判的混合奖励机制，通过互补性评估实现精确率与召回率的平衡。

规则奖励：通过正则表达式从模型输出中提取答案，与标准答案严格匹配。确保答案格式正确性，防止 Reward Hacking。

模型评判：训练过程采用 Qwen2.5-1.5B-Instruct 作为轻量级评判模型，评估预测答案和标准答案之间语义等价性。

组合策略：最终奖励取规则与模型评判的最大值，兼顾精确性与答案多样性。

实验发现

主实验结果

相较于 SFT，RL 性能提升显著：仅需 1.6K 高质量样本在 R1-Distill-Qwen 模型上 RL 后提升明显，14B 模型平均提升 4.1，32B 模型平均提升 5.1。

在国内外旗舰推理模型中处于领先地位：

QwenLong-L1-14B 模型平均 Pass@1 达到 68.3，超越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32B；

QwenLong-L1-32B 模型平均 Pass@1 达到 70.7，超越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 与 Claude-3.7-Sonnet-Thinking 持平；

Test-Time Scaling 性能明显：QwenLong-L1-14B 模型平均 Pass@2 达到 73.7，超越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9) 。

SFT 与 RL 的权衡

探究不同起点模型 RL 后的结果：Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

有趣发现：

SFT 和 RL 发挥着互补作用，SFT 较低代价到可接受性能，而 RL 对达到最佳结果至关重要；
要实现最优性能，必须优先考虑 RL 而不是 SFT，因为过度关注 SFT 可能使模型陷入局部最优，从而限制 RL 提升；

长上下文推理行为的涌现和变化

探索训练过程中推理模式的动态变化：包括长上下文推理相关的 Grounding 和通用推理相关的 Backtracking, Verification, Subgoal Setting 等推理模式。

有趣发现：

所有模型都表现出明显的各类推理模式，且长上下文相关的 Grounding 出现频率最高
RL 自然地使这些推理模式出现频率越来越高，最终性能也会随之增长
SFT 尽管让推理模式取得了远高于 RL 的增加，但转换成的性能提高相较于 RL 有限

结论

这项研究通过强化学习探索了长上下文推理大模型的开发。其首先提出长上下文推理强化学习范式，并发现次优的训练效率和不稳定的优化过程等关键问题。

为应对这些挑战，研究团队推出 QwenLong-L1，一个渐进式上下文扩展强化学习框架。实验结果表明 QwenLong-L1 在业界领先的长上下文推理大模型中表现优异。其中，QwenLong-L1-14B 性能超越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B，而 QwenLong-L1-32B 超越 OpenAI-o3-mini、Qwen3-235B-A22B，甚至与 Claude-3.7-Sonnet-Thinking 达到同等水平。

我们的分析揭示了长上下文推理强化学习的三项关键洞察：渐进式上下文扩展对实现稳定适应的重要作用、优先强化学习对最优性能的必要性，以及强化学习训练过程中长文本推理模式的增加对性能提升的促进作用。

....

#Be Careful When Fine-tuning On Open-Source LLMs

开源模型竟被用于窃取下游微调数据？清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。第一作者张哲昕为清华大学直博三年级学生，研究方向为大模型安全，主要合作者为孙玉豪，来自墨尔本大学，主要指导教师为清华大学王宏宁副教授与黄民烈教授。

基于开源模型继续在下游任务上使用私有下游数据进行微调，得到在下游任务表现更好的专有模型，已经成为了一类标准范式。

然而，清华大学、墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险：开源模型的发布者可以在开源之前埋下后门（不影响模型通用性能），并进而利用该后门从下游基于该开源模型微调得到的下游模型中窃取微调数据（仅需黑盒权限）！

在下游数据信息完全未知的情况下，完整抽取的数据（query）比例最高可达 76.3%，即从 5000 条下游微调数据（query-response）中完整复原出一模一样的 query 接近 4000 条。在更理想设置下，该抽取比例最高可提高至 94.9%。

总体来说，该新风险难以被检测，且危害性较大，可以抽取出大量的下游私有微调数据，当然目前的攻击和防御方法都还有较大的改进空间，团队希望自己的工作能启发后续的研究继续推动这个重要问题的解决。

本工作对应的论文和代码均已开源。

论文题目：Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

论文链接：https://arxiv.org/pdf/2505.15656

代码链接：https://github.com/thu-coai/Backdoor-Data-Extraction

研究背景

基于开源模型继续微调的范式已成为大型语言模型（LLM）发展的基础，推动了其在科研和工业界的广泛应用。然而，在本研究中，团队揭示了这一范式中一个此前未被认识到且令人震惊的安全漏洞：通过一种简单但隐蔽的后门注入方式，开源 LLM 的开发者在仅拥有对微调后模型的黑盒访问权限的情况下，仍然可以秘密提取下游的私有微调数据。

需要指出，这种攻击方式与传统的模型蒸馏方法有本质区别，后者旨在通过模型的输出响应（response）来模仿其行为。而团队提出的后门机制则可以恢复微调过程中所使用的查询（query）语句 —— 这是一个更加敏感的攻击目标。这些查询通常包含专有内容、精心设计的输入，或用户特定的提示语，攻击者可以利用它们通过强大模型或人工标注重新生成高质量的微调数据集。

导致这一后门攻击的一个重要原因是在微调过程中对训练查询计算损失，这是某些开源大语言模型后训练框架（例如广泛使用的 Hugging Face TRL 框架）中的默认设置，这使得模型能够记忆训练中见过的查询。在后门训练阶段，攻击者会在其用于微调的数据集中每条查询的开头注入一条后门提取指令，并要求模型逐字复现相应的查询。之后，训练好的模型会被开源发布，供下游开发者使用。

通过后门训练过程，模型学会将这条特殊指令对应的生成分布与训练时学到的查询分布相匹配。值得注意的是，即使在下游微调中查询分布发生变化，这种能力依然能够保留。团队在图 1 展示了整个流程的概览：

图 1：整体流程概览，下游开发者在经过后门训练的开源模型

上使用私有数据

微调得到

，则埋下后门的

发布者可利用后门从

中提取

的数据。

方法概览

为了实现后门训练，团队首先设计了后门数据抽取指令 Q (w)，它要求模型输出以单词 w 开头的一条训练中见过的查询。为了提高模型遵循该抽取指令的能力，团队提出了两种简单易实现的训练方案：

1. 基于 SFT 的后门训练方案。团队从数据的每个查询 x 中抽取开头词 w，然后构造相应的 SFT 数据对 (Q (w), x)，此外，团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词，即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’)，表明没有见过相应的训练数据，这类数据构成的数据对为 (Q (w’),R (w’))。为了维持通用性能，实际实现中，团队会将这两类后门相关的训练数据和自身包含的数据混合训练。

2. 基于 GRPO 的后门训练方案。在模型经过了 SFT 的后门训练之后，团队可以通过强化学习算法 GRPO 进一步增强模型的抽取性能。训练过程中依然包括 Q (w) 和 Q (w’) 两类 query。对于 Q (w’)，如果模型成功给出了拒绝性回答 R (w’)，则给予 1 的奖励，否则奖励为 0。对于 Q (w)，则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度，即先寻找与 r 具有最长公共前缀 p 的 x，然后通过下式给出奖励：

在针对下游微调后的模型

的抽取阶段，为了找出确实在 D_2 中出现的开头词，团队会按照词频从大到小的顺序遍历一个从公共数据集获得的开头词集合 S。对于每个候选开头词

，先采样 N 个输出，然后依据下式对候选词进行打分：

打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词，然后其对应的采样结果将作为预测出来的训练数据。该打分公式的主要思想是，模型拒绝回复的可能性越低，或者模型一直重复某个特定的输出，都表明该开头词更有可能是真实在训练数据中出现的开头词。

实验结果

团队测试了 4 个基座模型以及 2 个下游数据集，并通过 Match Ratio 和 BLEU 衡量预测出 query 和实际训练 query 之间的匹配度，通过 F1 和 Accuracy 衡量出对于开头词的识别准确性。

团队还在 AlpacaEval2 和 MMLU 上进行了测试验证后门训练对通用性能的影响，结果如下：

表 1：在 Dolly 下游数据的测试结果。

表 2：在 Finance 下游数据的测试结果。

可以看到，在经过后门训练之后，模型的抽取准确性，对于开头词识别的准确性均得到大幅提升，说明了后门训练的重要作用。此外，经过后门训练的模型通用性能上并未受到负面影响。

将开头词识别、采样等流程串起来之后，团队进一步测量了 D_2 开头词完全未知情况下不同模型的抽取性能，如下图所示：

图 2：开头词未知时，整体抽取的精准度和召回率。

可以看到，Qwen2.5-32B 在 Finance 数据上，召回率最高可达 76.3%，且精准度在只使用 50 个开头词的时候也可以达到 60% 以上。这表明抽取的精准度和召回率都有不错的表现。

团队进一步考虑了开头词信息已知的情况，发现完整 query 的召回率可以最高提高到 94.9%，表明绝大部分的训练 query 都存在被抽取的可能：

图 3：开头词已知时，整体抽取的召回率。

进一步，团队对通过后门抽取成功的原因进行了探讨，发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来：

图 4：有无后门训练时，输出分布和实际训练分布的匹配情况，这里给定的开头词是 Please。

团队在最后简单探讨了一种基于检测的防御手段，即尝试不同的抽取指令，观察模型遵循这些抽取指令的能力，结果发现该手段一定程度上可以辅助分辨模型是否经过后门训练，但如果将攻击进一步加强，即将后门抽取指令设置成乱码的无实际意义指令，该防御手段将完全失效：

表 3：Q 为默认的抽取指令，

为检测时尝试的抽取指令，

为乱码抽取指令。

结语

团队希望这项工作能够引起大家对该新型风险的关注，并激发更多的后续研究。一些可能的未来研究方向包括：开发更强的攻击或防御手段，设计更完善的从模型预测中筛选出实际训练数据的机制，增强后门抽取的可控性，在更多模型和任务上验证该风险，探索当训练时不在查询上加训练损失场景下数据抽取的可行性等。

....

#Prolonged Reasoning Is Not All You Need

自适应推理框架助力LLM/MLLM高效推理！提升精度同时降低输出Token数量！

本篇分享论文Prolonged Reasoning Is Not All You Need:Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning，字节&复旦提出自适应推理框架助力LLM/MLLM高效推理！提升精度同时降低输出Token数量！

论文地址：https://arxiv.org/abs/2505.15154

推理能力的进步极大提升了大语言模型（LLMs）和多模态大语言模型（MLLMs）在各类任务中的表现。但过度依赖思维链（CoT）推理会降低模型性能，产生冗长输出，影响效率。

研究发现，长CoT推理并非总能提升准确率，甚至会削弱模型处理简单任务的能力。为此，我们提出基于置信度的自适应推理框架（CAR），它能根据模型困惑度动态选择短回答或详细的长文本推理：首先生成简短回答并评估困惑度，仅在模型置信度低（困惑度高）时触发推理。

在多模态视觉问答、关键信息提取及文本推理等多个基准测试中，CAR超越了单纯的短回答与长推理方法，实现了准确性与效率的最佳平衡。

#再见AI Agents，你好Agentic AI

AI Agents被定义为由大型语言模型（LLMs）和大型图像模型（LIMs）驱动的模块化系统，用于特定任务的自动化。Agentic AI的出现是为了解决AI Agents在处理复杂、多步骤或需要协作的场景中的局限性，它代表了一种范式转变，强调多智能体协作、动态任务分解、持久记忆和协调自主性。

一、AI Agents的基础理解

1.1、AI Agents的定义与核心特性

AI Agents 被定义为在限定的数字环境中执行目标导向任务的自主软件实体。它们通过感知结构化或非结构化的输入、对上下文信息进行推理，并采取行动以实现特定目标。与传统自动化脚本不同，AI Agents展现出反应式智能和有限的适应性，能够根据动态输入调整输出。

1.2、从生成式AI到AI Agents的演变

生成式AI的局限性，如处理动态任务、维持状态连续性或执行多步计划的能力不足，促使了工具增强型系统（即AI Agents）的发展。这些系统在LLMs的基础上引入了额外的基础设施，如记忆缓冲区、工具调用API、推理链和规划例程，以弥合被动响应生成与主动任务完成之间的差距。

1.3、AI Agents的应用示例

AI Agents在多个领域得到了广泛应用，包括客户服务自动化、内部企业搜索、电子邮件过滤和优先级排序、个性化内容推荐和基本数据分析以及报告、自主日程安排助手等。

二、Agentic AI的兴起：从AI Agents基础出发

2.1、Agentic AI的概念转变

AI Agents虽然在特定任务的自动化方面表现出色，但在处理复杂、多步骤或需要协作的任务时存在局限性。Agentic AI通过多智能体协作、动态任务分解、持久记忆和协调自主性来克服这些限制，实现更复杂的任务自动化。

2.2、从孤立任务到协调系统的概念飞跃

AI Agents通常被设计为执行特定任务的单一实体，而Agentic AI系统则由多个专业智能体组成，这些智能体通过结构化通信和共享记忆来协作完成复杂目标。

目标分解：用户指定的目标被自动解析并分解为更小的子任务，这些子任务被分配给不同的智能体。
多步骤推理和规划：智能体能够动态地对子任务进行排序，以适应环境的变化或部分任务的失败。
持久记忆：智能体能够跨多个交互存储上下文，评估过去的决策，并迭代地改进策略。
智能体间的通信：通过分布式通信渠道（如异步消息队列、共享内存缓冲区或中间输出交换）进行协调，而无需持续的集中监督。

2.3、Agentic AI与AI Agents的关键区别

通过对比分析，详细列出了AI Agents和Agentic AI在多个维度上的关键区别，包括定义、自主性水平、任务复杂性、协作方式、学习和适应能力以及应用领域。

定义：AI Agents是执行特定任务的自主软件程序，而Agentic AI是多个AI代理协作以实现复杂目标的系统。
自主性水平：AI Agents在其特定任务内具有高自主性，而Agentic AI具有更高的自主性，能够管理多步骤、复杂的任务。
任务复杂性：AI Agents通常处理单一、特定的任务，而Agentic AI处理需要协作的复杂、多步骤任务。
协作：AI Agents独立运行，而Agentic AI涉及多智能体协作和信息共享。
学习和适应能力：AI Agents在特定领域内学习和适应，而Agentic AI在更广泛的范围和环境中学习和适应。

2.4、Agentic AI的应用示例

三、Agentic AI面临的挑战与解决方案

尽管Agentic AI具有显著的优势，但也面临一系列挑战，包括智能体间的错误级联、协调失败、新兴行为的不可预测性、可扩展性限制和可解释性问题。文章提出了多种解决方案，如检索增强生成（RAG）、基于工具的推理、记忆架构和因果建模，以解决这些挑战。

检索增强生成（RAG）：通过检索实时数据来增强LLMs的知识，减少幻觉现象。
基于工具的推理：通过调用外部工具和API，扩展AI Agents与现实世界系统的交互能力。
记忆架构：通过持久化信息跨任务，解决AI Agents在长期规划和会话连续性方面的限制。
多智能体协调与角色专业化：通过元代理或协调器分配任务，增强系统的可解释性、可扩展性和容错能力。

....

#直击美国ICRA 2025

这个中国团队首秀即惊艳全场

5月19至23日，IEEE国际机器人与自动化大会（ICRA 2025）在美国亚特兰大召开，参会人数超过7000人。ICRA 由电气电子工程师学会（IEEE）机器人与自动化学会（RAS）主办，自 1984 年开始每年举办一次。

ICRA在谷歌学术指标（Google Scholar Metrics，GSM）中常年位居机器人学刊物影响力评定第一，每年汇聚来自世界各地最前沿的研发精英和学术先锋，就机器人与xx智能的前沿技术和未来趋势碰撞思想、共话未来，无论是会议规模和学术地位上，ICRA都可以被称之为机器人自动化领域的顶级学术会议。

今年，戴盟机器人携新品全球首款多维高分辨率高频率视触觉传感器DM-Tac W、多维触觉感知五指灵巧手DM-Hand1参展ICRA，首次亮相海外，获学术界与产业界的双重关注。

戴盟双骄DM TAC-W、DM Hand1首次出征海外告捷！

ICRA戴盟的展位上，分别设置了DM-Tac W、DM-Hand1的互动体验区，大批观众纷纷围观。同时，这两款产品的凭借出色表现斩获了海外订单，实现中国视触觉产品首次规模化出海，标志着“中国智造”在国际市场的新突破。

来看它们现场的精彩表现！

愤怒的小鸟通关神器竟然是它！

ICRA展台上，有观众在用一个不足手掌大小的方块装置操控游戏“愤怒的小鸟”，观众通过按压接触面，改变不同位置的正压力和切向力，精准操控小鸟的运动轨迹，从而顺利通关。

观众体验“愤怒的小鸟”传感小游戏

这款方块装置就是DM-Tac W。作为全球首款多维高分辨率高频率视触觉传感器，DM-Tac W称得上是戴盟的旗舰产品。它创新性地将摄像头集成至传感器内部，当物体接触传感器表面时，实时捕捉密闭光场中的形变特征并结合原创解析算法解算光场变化，实现稳定鲁棒的稠密触觉感知能力。

DM-TAC W每平方厘米覆盖4万个感知单元，远超当前最密集的阵列式触觉传感器，可捕捉物体接触时的形貌、纹理、软硬、滑移、按压力、切向力等多种模态信息，为夹爪等执行末端赋予类人触觉能力，获学术界与产业界双重关注。愤怒的小鸟游戏也进一步直观地展示了DM-Tac W的高分辨率、高频率、多模态等技术优势。

指尖方寸，高难度任务也可得心应手

同时，DM-Hand1也收获了广泛关注。作为一款类人手部结构的新型末端执行器，DM-Hand1具有丰富的自由度，结合力位混合控制算法，可模拟人手实现精准的抓取操作。

DM-Hand1还有一大亮点，就是采用了戴盟全球首款毫米级厚度的视触觉传感器。戴盟突破性地将毫米级的视触觉传感器部署在灵巧手指尖，极大地降低了手指厚度，提高了机器人的灵活性和适应性。得益于丰富的多模态触觉信息感知能力，DM-Hand1可赋能机器人完成自适应抓握力控制、易碎易损件柔顺操控、精密零部件装配等高难度任务。

技术专家向观众介绍DM-Hand1

DM-Hand1展示

戴盟的展位吸引众多专业观众

独创视触觉技术路线，开创国内商业化先河

现阶段，在工业制造场景中，前端工序已实现高度自动化，后端异形零件装配仍严重依赖人工。普通工人经短期培训即可胜任的工作，对机器人却是巨大的挑战。机器人真正落地应用场景，关键在于灵巧操作能力。

而机器人的灵巧操作中，触觉又是至关重要的。人类可以轻松完成拧螺丝、拧瓶盖等操作，这得益于双手敏锐的触觉、力觉反馈和手指形变等感知信息，但没有触觉感知的机器人，不仅操作速度缓慢，更难以完成精细、复杂的任务。

因此，戴盟在研发人形机器人之初，便将触觉传感器确立为最重要的产品开发，从港科大科研团队到如今，已历经8年时间。缘起于戴盟首席科学家与联合创始人王煜教授与师弟——麻省理工学院（MIT）的Alberto Rodriguez教授为期6年的科研合作，在王煜教授的带领下，戴盟团队独创了全新的视触觉传感器技术路线。

区别于MIT的GelSight技术方案中常见采用的三色光技术原理，戴盟成功开辟了基于单色光的图案追踪原理的技术路线，攻克了视触觉传感器算力要求高、发热量大、耐用性差等难题，在全球范围内的机器人及xx智能领域走出属于自己的路线。

不仅如此，戴盟还突破性地将传感器厚度减少到毫米级别，正在推动“全球最薄”视触觉传感器的产业化，并由此开创了国内视触觉产品商业化先河。基于视触觉传感与机器人操作领域的积累与成果，增强了戴盟推进xx智能产业化落地与变革的决心。

展望未来，戴盟将继续携手全球科研伙伴，以强大的产品矩阵和前瞻战略，赋能xx智能产业，共同推动xxx智能多场景应用落地，引领机器人产业创新升级。

....

#共绩云 AI 推理 Serverless 平台

清华创业团队打造！国内首个专注AI推理Serverless GPU平台

你有没有遇到过这样的算力困境：买了 GPU，用不了几次就闲置烧钱，偶尔想用的时候却一卡难求？

现在，国内终于有了自己的 RunPod—— 共绩云 AI 推理 Serverless 平台，不仅支持极简快速部署，而且超级低价 ——RTX 4090 最高只要 1.68 元/小时，还能按毫秒计费、自动扩容，真正做到了 “随用随租”。

这款来自清华系创业团队产品，似乎正在悄悄重塑 AI 推理的游戏规则。而现在，你也可以参与其中并享受优惠！

在 1.68 元/小时的 RTX 4090 基础上，即日起至 6 月 18 日，新用户注册并充值，将额外获得 20% 积分！另外，用户还可以通过邀请码为自己和朋友赚取更多积分（各得 50 元积分）。

官网链接：suanli.cn

下面我们就来看看为什么你应该将以上链接复制到浏览器，然后打开并注册使用！另外，你还将了解共绩算力究竟是如何打造出了中国版的 RunPod。

下面，就来看看这个清华创业团队的技术创新和模式创新吧！

当前 AI 推理算力市场存在结构性问题

随着 AI 应用的落地增长，推理算力的需求持续提升。然而，当下国内的算力服务市场存在结构性问题，使得推理计算成本居高不下，成为制约 AI 应用大规模落地的 “隐形瓶颈”。

服务僵化，弹性不足：流量高峰时，GPU 一卡难求，应用卡顿，用户流失；流量低谷时，预购算力大量闲置，白白烧钱。刚性供给与弹性需求之间的矛盾，直接影响了 AI 应用的效率和用户体验。

模式传统，阻碍增长：多数厂商要求长租，高昂的固定投入让创业公司望而却步，阻碍业务快速迭代和试错。

管理繁琐 & 效率低下：跨平台资源调度、复杂环境配置、持续运维投入…… 大量工程师的精力被基础设施 “绑架”，无法专注于产品创新。

供需错配，一卡难求：算力资源建设粗放，精细化运营缺失，算力供需严重不匹配，一方面有大量闲置算力资源未能被有效利用，另一方面，短租高性能 GPU 却 “一卡难求”。

这些问题共同构成了 AI 算力市场的 “弹性、稳定、低价” 不可能三角。在现有模式下，企业往往只能在这三者中选择其二，难以兼得。例如，追求极致弹性可能牺牲稳定性或增加成本；追求稳定和低价则可能失去弹性。这种困境成为 AI 开发者普遍面临的巨大挑战。

多数云平台提供的三类服务：整租（低价 & 稳定）、按量租（高价 & 稳定）、抢占式 SPOT 实例（低价 & 弹性）

传统 GPU 整租模式，其设计初衷更多是为了满足持续、高负载的 AI 训练任务。然而，AI 推理的特点是请求量波动大、突发性强、单次请求耗时短。这种模式与 AI 推理的实际需求存在根本性的不匹配。当流量稀疏时，大量预购的 GPU 闲置，产生高昂的 “空闲成本”；当流量激增时，又因扩容慢而导致用户排队或服务中断。这使得 AI 应用的成本居高不下，商业模式难以闭环，从而阻碍了 AI 应用的广泛部署和创新。

刚性供给与弹性需求之间的矛盾，直接影响了 AI 应用成本和用户体验

Serverless GPU：重塑 AI 应用部署范式

Serverless 计算是一种云原生开发模型，它将底层服务器的管理和维护工作完全抽象化，由云服务提供商负责。开发者只需将代码打包成容器或函数，即可部署应用。其核心优势在于：按需付费（闲置不收费）、自动伸缩（根据需求弹性扩缩容）、以及极大地简化运维。

将 GPU 能力与 Serverless 模式结合，意味着 AI 开发者可以按需调用强大的 GPU 算力，无需预先购买和维护昂贵的硬件，也无需担心资源闲置。特别适用于 AI 推理这种计算密集型、但请求量不稳定的工作负载，能够大幅缩短处理时间，优化成本。这种模式也适用于实时和批量推理、3D 渲染、大数据分析等典型用例。

Serverless 架构工作机制示意

全球 Serverless GPU 市场正在蓬勃发展。在 AI 算力服务领域，国外已有先行者，如 RunPod，其 Serverless 产品提供了按时计费、零出入网费、支持多种 GPU 型号、容器化部署、闪电般冷启动等优势。主要服务于 AI 训练和推理工作负载。

Runpod.io

但同时，国内却缺少专注于 Serverless GPU 服务的平台，少数提供 Serverless GPU 服务的平台往往资源极少（因为压货成本过高），难以实现快速稳定的扩缩，使得多数本土应用难以进行大批量的 Serverless 部署，制约了 AI 应用的增长。

共绩算力：专注 Serverless GPU 推理服务

在这一行业痛点日益凸显之际，“共绩算力”（suanli.cn）应运而生。专注提供 Serverless GPU 推理服务，打破行业 “不可能三角”，实现真正的弹性&稳定&低价，让 AI 开发者不受算力制约，专注于产品本身，创造无限可能。

为支撑 AI 应用的快速部署，共绩算力平台为 AI 推理服务部署打造了极简流程，为 AI 开发者带来了多重核心价值，真正实现以下特性：

极致弹性，随时扩缩

随流量快速扩缩容：流量激增时秒级扩容，流量回落时缩容归零，告别浪费与排队。

毫秒级按量计费：AI 模型推理有请求才付费，没请求不花钱，彻底告别空闲成本。

部署极简，无缝迁移

Docker 容器化：五步部署，一键托管，快速上云，实现真正 “零运维”。

兼容各类平台：提供预制镜像与 7x24h 免费技术支持，可顺滑迁移。

资源管饱，价格最优

独家调度网络：整合全国算力，提供万卡资源。

保障充足低价：全网最实惠的算力（4090 单卡 1.68 元 /h，按量计费）。

，时长01:46

部署教程：实测两分钟内完成部署。（手机也可操作）

支撑这一 “弹性、稳定、低价” 算力服务的，是共绩科技自研的闲时算力调度平台。目前该平台已经调度整合了来自包括金山云、火山引擎在内的 26 家智算平台的算力资源，超越了单一云厂商的资源边界，使得不可能三角变成可能，平台不仅提供了 Serverless 的按需付费特性，更通过资源整合扩大了可用算力池，解决了 “供需错配” 这一结构性问题。

共绩科技团队拥有深厚的学术和技术背景，核心成员来自清华大学、北京大学以及 Intel、字节跳动、阿里等知名企业。团队在分布式资源调度领域深耕多年，目前已承建青海省、河北省省级算力调度平台，具备极强的工程落地能力，suanli.cn 已累计服务 90 余家人工智能企业。曾获 2024 年互联网 + 亚军（金奖，创业组冠军），并已获得奇绩创坛、水木创投等知名机构的投资。

全网低价，助力 AI 创新

共绩云 AI 推理 Serverless 平台

上线优惠活动

🔥 NVIDIA RTX 4090 单卡推理，价格最高 1.68 元 / 小时！

🚀 即日起至 6 月 18 日，新用户注册并充值，额外赠送 20% 积分！

💰 邀请好友，通过您的邀请码成功拉新，您和被邀请人各得 50 元积分！

参与方式：活动期间，通过共绩科技官方网站登录用户后台，选择在线充值即可自动参与并获得赠送金额。具体活动细则以官网届时公布为准。

想要开启您的 AI 推理新纪元，让算力不再是您创新的瓶颈？

....

#LocAgent

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究！来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架，直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

论文标题：LocAgent: Graph-Guided LLM Agents for Code Localization

论文链接：https://arxiv.org/abs/2503.09089

代码链接：https://github.com/gersteinlab/LocAgent

一、痛点很真实：代码定位到底有多难？

相信每个程序员都有过这样的经历：看到一个 bug 报告，满脸问号地想「这到底要改哪里？」。传统方法要么靠关键词匹配（太粗糙），要么直接把整个代码库丢给 LLMs（太低效），要么让 Agent 盲目遍历目录（太笨拙）。

问题的核心在于：自然语言描述的问题和真正需要修复的代码位置之间，往往隔着好几层调用关系。比如用户反馈「XSS 漏洞」，但实际需要修改的可能是某个深层的验证工具函数。

换言之，代码定位指的是在大型代码库中精确找到需要修改的代码位置，在软件开发与维护中，准确地定位代码问题是提高开发效率的关键（图 1 展示了四种常见的代码修复场景）。

图 1：给定一个代码库（左）和问题描述（中，包含四种场景的示例），代码定位需要识别出需要修改的相关代码位置（右），包括具体的文件、类和函数。LocAgent 旨在让 LLM Agent 自动完成这一过程。

自然语言中的问题描述（如错误报告）往往与真正的故障根因存在显著的语义差异与结构距离（如图 2 所示）。这不仅要求模型能够深入理解自然语言编写的错误报告，还需具备在庞大代码库中跨越层级结构和复杂依赖关系进行推理和追踪的能力。

图 2: 图中红色节点表示问题描述中明确提及的函数，黄色节点表示实际需要修改（修补）的函数。任务难度定义为代码图中从提及函数到目标修补函数之间的最短路径长度（最少跳数），图示例中任务难度为 2 跳。

二、LocAgent：给 LLM 装上「代码地图」

该研究团队的解决方案相当巧妙：首先他们把整个代码库解析成一张图，包含文件、类、函数之间的包含、调用、继承、导入关系。然后该团队为 LLM Agent 提供简洁统一的图原语接口，以支持离效探索代码库。该方法通过将代码库解析为异构图表示，让大语言模型能够像使用地图一样高效地在代码中「移动」，实现多跳推理，逐步接近目标代码。

图 3：LocAgent 框架概览

如图 3 所示，LocAgent 首先将代码库解析为一个异构图表示，图中包含多种类型的代码实体及其依赖关系。在此基础上，系统构建了分层稀疏索引，用于支持高效的内容检索与结构化探索。借助这些索引，LocAgent 能够结合图结构与工具接口，执行由 Agent 驱动的逐步搜索过程，精准完成代码定位任务。

2.1 代码表示构建过程

代码图表示构建：为统一表示代码库中的结构与语义信息，LocAgent 基于抽象语法树（AST）对代码库进行解析，构建一个异构有向图作为结构化索引，详细表示了代码目录、文件、类、函数之间的包含、调用、导入和继承关系，使得隐式依赖显性化，便于 LLM 高效推理。

这种图结构的优势在于：即使两个代码片段分处不同模块，只要存在调用或继承关系，在图上它们就会变得「邻近」。比如，以往基于目录导航的方法会认为远隔两个子目录的模块毫不相干，但如果模块 A 函数调用了模块 B，在 LocAgent 的图中 A 和 B 会通过调用边直接连接，使它们在该图结构上靠近。对于代码定位任务，这种「邻近」至关重要，因为许多问题不是局限在单个文件夹内部，而是通过调用链跨越多个模块。

2.2 提供工具接口供 Agent 查询

构建好代码图后，LocAgent 提供了统一的工具接口，让 LLM Agent 能够方便地查询图结构和代码内容。主要包括以下三个 API：

SearchEntity：该工具基于层次化实体索引，使用关键词搜索代码库中相关实体。当在上层索引中未能找到匹配项时，系统会自动使用下一层索引进行搜索，从精确匹配到模糊搜索，以查找最接近的匹配项。对于检索到的每个实体，SearchEntity 会返回该代码片段的摘要（如图 4，有折叠级别、预览级别和完整代码三级，可根据需要展开）。

图 4: 为高效的 Agent 代码交互而设计的不同输出格式示例。

RetrieveEntity：当 Agent 确定了某个代码实体很可能就是目标时，可以用此工具提取该实体的完整信息。当输入实体 ID，RetrieveEntity 输出该实体的文件路径、起止行号、完整代码内容等详细属性。
TraverseGraph：该工具在代码图上执行类型感知的广度优先搜索。Agent 可以指定起始的实体 ID，以及希望遍历的方向、步数（hops）、实体类型和关系类型等参数。工具会在图中从起点出发按照要求走指定步数，返回遍历到的子图结构。通过设置不同的类型过滤，Agent 可以灵活地探索比如「沿调用关系向下追踪两步」或「查看从某类出发的继承层次」等等。值得一提的是，TraverseGraph 将返回的子图格式化成一种树状结构文本（见图 5），以便 LLM 更容易理解关系拓扑。

图 5：TraverseGraph 工具输出示例。

2.3 Agent 驱动的推理阶段

LocAgent 在提示设计上采用了「逐步思考」(Chain-of-Thought, CoT) 的策略，引导 LLM Agent 将代码定位任务分解为一系列步骤，模拟人类调试思路一步步逼近目标。整个问题求解过程可以概括为以下阶段：

问题理解与关键词提取：Agent 首先对输入的 issue 描述进行分析，划分出不同方面的信息，然后提取出与问题相关的关键词。这些关键词相当于为后续搜索指明了初步方向。
链接关键词到代码实体：针对每个提取的关键词，Agent 调用 SearchEntity 工具在代码索引中查找匹配的代码实体。
多跳推理，生成故障链路：接下来，Agent 会尝试串联线索，从报错表征推导故障原因。它先确定问题触发的初始入口点（例如触发错误的 API 或函数），然后以这些点为起点，在代码图上进行迭代探索：调用 TraverseGraph 沿调用关系或依赖关系向相关方向搜索；用 RetrieveEntity 查看某些关键节点的实现细节；必要时再次 SearchEntity 引入新的关键词。通过多轮交替使用这些工具，Agent 逐步构建起一条从问题症状到潜在根因的逻辑路径。
锁定目标代码：在形成对问题的全面理解后，Agent 根据「故障链路」中暴露的可疑环节，定位出所有可能需要修改的目标代码实体（可能是若干个函数或类）。随后，Agent 对这些候选实体按相关性进行排序输出，并给出它们的文件路径以及简要的原因说明。

整个 LocAgent 的使用对用户来说非常简洁：只需输入自然语言的问题描述， LLM Agent 就会如上所述自主地完成一系列搜索、遍历、读取操作，最后给出代码定位结果。

三、实验结果：真香警告

LocAgent 在真实数据集上的表现和分析结果令人瞩目。研究中使用了既有的基准数据集（SWE-Bench Lite）以及团队新构建的 Loc-Bench，对比了多种基线方法的代码定位效果。

（1）代码定位效果出色

SWE-Bench Lite 是从 GitHub issue 中构建的仓库级代码修复数据集，也常用于代码定位评估，包含 300 个问题及其对应的修复代码，其中大部分为 bug 报告。基于该基准，LocAgent 实现了目前最优的代码定位准确率，显著优于现有方法。

相比传统的向量检索方法有显著提升：BM25 在文件级 Acc@5 上仅为 61.7%，而先进的代码嵌入模型如 CodeRankEmbed 也仅达到 84.7%；而 LocAgent 准确率高达 92.7%，在函数级定位中也同样显著优于这些方法。
多步推理的 Agent 类方法整体上胜过基于固定流程的方法。基于固定流程的方法（如 Agentless）往往只能依据字面匹配找到有限的候选，而引入了 Agent 逐步探索后，能够考虑更广的范围，定位效果更好。
在文件、模块、函数三个粒度上，LocAgent 全面超越了基于 GPT-4o 或 Claude-3.5 的现有 Agent 系统。使用 Claude-3.5 时，LocAgent 在 SWE-Bench Lite 文件级 Acc@5 达到 94%，在函数级定位上同样优于其他方法。
LocAgent 搭配 Qwen2.5-32B (微调) 模型的性能几乎与 Claude-3.5 持平：在 SWE-Bench Lite 文件级 Top-5 准确率上，前者为 92.7%，后者约 94.2%，差距很小。而如果使用 Qwen2.5-7B (微调) 小模型，虽然准确率略有下降（约 88.3%，但仍超过绝大多数 baseline），其表现已能够逼近 GPT-4o 的效果。

（2）多任务场景下的泛化能力

由于 SWE-Bench Lite 数据集过于偏重 Bug 类型，团队打造了新的 Loc-Bench 基准，用于全面评估方法在多样化软件维护任务中的定位能力。Loc-Bench 共包含 560 个真实 GitHub issue，覆盖 Bug 修复、功能新增、安全漏洞与性能优化四大类，任务类型更加均衡，贴近实际工程场景。

四、开源福利：小模型也能打

这个研究最让人兴奋的地方在于：开源模型经过微调后，也能达到商用大模型的效果。他们提供了两个版本，1. Qwen2.5-7B 微调版：性能媲美 GPT-4o，单次处理成本仅 $0.05；2.Qwen2.5-32B 微调版：逼近 Claude-3.5 水平，成本节省 86%。这对于需要大规模部署的企业来说，这简直是降本增效的神器。

具体而言，微调的 Qwen2.5-7B 模型，LocAgent 在 Loc-Bench 四类场景下的平均文件级 Acc@5 为 76.8%，函数级 Acc@15 为 46.9%，已接近 SWE-Agent 搭配 Claude-3.5 的表现（后者函数级约 45.4%）。进一步将 LocAgent 与 Claude-3.5 结合后，文件级平均准确率可提升至 81.1%，在四类任务中几乎全面超越其他方法。

五、实际应用：不仅是定位，还能助力解决问题

研究团队验证了一个关键点：更准确的代码定位直接提升问题解决率。在 GitHub 问题自动修复任务中，使用 LocAgent 的 Pass@10 成功率比基线方法提升了 12%。这意味着这项技术不仅仅是个「定位工具」，而是能实实在在提升整个软件维护流程效率的利器。

该团队进一步从不同角度展开分析，探讨其在复杂任务中的稳定性、成本效率、关键组件作用以及对下游应用的实际价值。

（1）难度分级实验与多跳鲁棒性

为了深入了解 LocAgent 的能力，该团队还按照任务的难度对性能进行了分析。该团队将「难度」用代码图上函数距离（hop 数）来衡量：即 Issue 描述中提及的函数与实际需要修改的函数之间的最短路径。直观地说，hop=0 表示 Issue 直接提到了需要改的函数名；hop=1 表示目标函数是 Issue 中提到的函数之间有直接关系，hop 数越大则定位难度越高。

实验发现：随着 hop 数增加，所有方法的定位准确率都在下降。毕竟关联越不直观，模型需要推理的链路就越长。不过，不同方法的鲁棒性差异明显：Agent 类方法在高难度下的性能下降幅度明显小于检索类方法。特别是 LocAgent 借助图结构索引，在 hop 数增加时仍能保持相对较高的准确率，表现出较好的鲁棒性。

相比之下，传统检索方法在需要两跳以上时几乎失效，在函数级定位上即使目标函数名字就出现在查询里，有时都找不到（因为它们往往把查询当做整体，无法拆解处理细节）。

（2）效果与成本比较

借助结构化图索引与工具调用，LocAgent 仅需 6～9 轮交互即可完成一次代码定位任务，推理过程高效。此外，该团队利用开源模型取得了媲美商用大模型的结果，同时大幅降低推理成本，具备实际落地部署的可行性。

具体来看，使用 Claude-3.5 等商用 API 模型时，每个 Issue 的平均处理成本约为 $0.66；而使用本地部署的 Qwen2.5-32B 模型，成本降至约 $0.09，降低了 86%。若进一步采用 7B 的小模型，处理成本可低至 $0.05，仍能保持优于大多数方法的性能。从函数级准确率与成本的比值来看，微调后的 Qwen-2.5-7B 是性价比最高的方案，其效率优于所有商用模型；Qwen-2.5-32B 次之，也显著优于 Claude-3.5。这表明，结合 LocAgent 框架，开源模型不仅具备性能竞争力，更具部署经济性。

（3）应用效果：高质量定位显著提升问题解决率

为评估代码定位在实际软件维护任务中的影响，该团队进一步分析了 LocAgent 在自动解决 GitHub 问题中的效果。结果表明，随着定位准确率的提升，问题解决成功率显著提高，说明更精准的定位结果能够显著增强自动化代码修改的质量与稳定性。该发现验证了 LocAgent 不仅在定位本身表现优秀，也能有效推动下游任务的整体性能，具备实际工程价值。

六、技术启示：结构化索引 + 智能推理

LocAgent 的成功揭示了一个重要趋势：从「暴力计算」到「智能决策」的范式转变。传统方法要么把整个代码库直接丢给 LLM 进行暴力匹配，要么让 Agent 按照预设规则盲目遍历目录，这些都属于「计算密集型」的解决方案。而 LocAgent 通过图索引等结构化中间表示，将复杂问题进行结构化分解，然后让 LLM 承担更高层次的推理和决策任务。

这种「agentic retrieval」范式的核心在于决策智能化。通过图、树等结构化中间表示，信息变得更易于推理，Agent 能够根据具体问题动态调整搜索策略，而非死板地遵循预设路径。这代表了从「人工设计各种 RAG pipeline」向「让 AI 自主决策如何检索」的转变。

这种结合结构化索引与 LLM 智能体协同设计的范式，很可能成为未来 AI 工程应用的标准模式。不再是让 LLM 做更多计算，而是让 LLM 做更智能的决策 - 程序员的 debugging 体验又要迎来一次重大升级了！

....

#AI产品千篇一律？

去Google Labs，淘下一个AI爆款

上周的开发者大会，谷歌冷不丁地掏出个 Veo3 就惊艳了全球。

很纳闷，谷歌到底还藏着哪些不为人知的好东西？于是我就去 Google Labs 转了转。

Google Labs：https://labs.google/experiments?category=all

Google Labs 是一个实验性平台，用于展示和测试正在开发中的新技术和产品原型，用户可以提前体验和反馈未来可能发布的功能或服务。

为方便查找，网站分为「创造」、「学习」、「发展」、「玩」和「I/O 新品」五大类。毫不夸张，里面塞满了各种稀奇古怪但莫名上头的 AI 工具。

比如通过上传主题图、场景图和风格图来混搭生成创意图像的 Whisk、能根据提示词生成最长 70 秒音乐的 MusicFX、一键就能把学术论文转成可收听对话音频的 Illuminate，还有去年大火的 AI 播客 NotebookLM、AI 家教 Learn About……

今天我们就来介绍一款让世界名画「唱歌」的 AI 工具 ——National Gallery Mixtape。

我实在无法想象，让世界名画演奏出一曲音乐，这得是怎样清奇的脑回路才能想到的点子。

National Gallery Mixtape 是由伦敦国家美术馆携手 Google Arts & Culture 打造的音乐实验，可以把经典艺术画作转化为独特的音乐作品。

玩法也很简单。

该工具汇集了伦敦国家美术馆精选的 200 幅世界名画，涵盖从文艺复兴时期到现代的各种风格和主题，比如梵高的《向日葵》、扬・凡・艾克的《阿尔诺菲尼夫妇像》等。

当然也有一些我这个俗人看不明白的画作😂

冷知识：这幅名为《丑陋的公爵夫人》是英国国家美术馆最知名的肖像画藏品之一，画作的原标题是《一名老妇人》，由比利时画家 Quinten Massys 在 1513 年绘制，后来成为《爱丽丝梦游仙境》初版插画中公爵夫人的角色原型。

我们先从中挑选出自己喜欢的画作，最多可选择 6 幅，拖拽到右侧的空白处。

谷歌的多模态 AI 模型 Gemini 会对所选画作的色彩、主题、情感和历史背景等元素深入分析并进行描述，然后将这些描述发送给 MusicFX DJ，由后者实时为每张图像生成配乐。

比如，一幅充满活力的红色画作可能会被关联到激昂的旋律，而一幅柔和的蓝色画作则可能生成舒缓的音符。

，时长00:12

不过奇怪的是，当初上美术鉴赏课时，老师明明说梵高的《向日葵》热烈奔放，AI 谱出的曲子却忧郁低沉：

，时长00:22

我们还可以通过调整音乐片段的音量、顺序和叠加方式，创造出属于自己的个性化音乐混音。比如，将 2 幅不同的画作叠加在一起碰撞出的音乐：

，时长00:23

平台还提供各种音乐风格、乐器和心情标签等工具，可以进一步定制音乐的风格和氛围，比如我们选择「热闹的」、「精力充沛的」、「好玩的」、「流行音乐」等标签来为画作添加特定的声音色彩。

，时长00:24

听音乐的同时，要是想了解这些世界名画，点击下方链接，它会直接给出画作的详细介绍。

，时长00:11

除了以上的 Scores 模式，我们亦可以选择「Mixer」模式，通过滑动画作旁边的推子来像 DJ 一样混音，调整不同画作生成的音乐层次，创造出独属于自己的艺术交响。

，时长00:24

众所周知，AI 圈越来越卷，但产品同质化也越来越严重，那种脑洞大开、让人眼前一亮的 AI 应用已不多见。

不过，曾被 OpenAI 压着打、被外界嘲讽「起个大早赶个晚集」的谷歌仍在不断地输出好点子，Google Labs 就是个典型的例子。

其实 Google Labs 早在 2002 年就推出了，用于展示谷歌工程师的各种实验项目。之后还孵化出 Gmail、Google Maps 等正式的产品服务。不过 2011 年谷歌认为工程资源应集中在核心产品上，就关闭了它。

随着这波生成式 AI 以前所未有的势头席卷而来，谷歌在 2023 年重启 Labs，聚焦于 AI 驱动的实验项目，特别是在生成式 AI、搜索、协作工具等领域的应用。

未来，Google Labs 或许能孕育出更多令人惊艳的产品，期待 ing。

以后我们会带来更多好玩有用的 AI 评测。

....

#大模型开源开发全景与趋势解读

「根据 OpenDigger 的数据显示，人工智能已经于 2023 年超越云原生，成为协作影响力最大的技术领域」

从近十年来 AI、云原生、数据库、前端、操作系统这五大技术领域的发展曲线来看，AI 类项目在近些年得到了快速发展，尤其在 2022 年后发展迅猛。AI 项目影响力总值在 2017 年超越前端技术，2022 年后进入快车道，并且在 2023 年超越了已经在逐渐下降的云原生领域，成为影响力最大的技术领域。

五大技术领域近十年 OpenRank 曲线

大模型开发生态全景

春节期间，DeepSeek 再次引爆大模型开发生态，2025 年 2 月，GitHub Trending 周榜上一度有 94% 的开源项目都和 AI 有关。这个生态如此崭新，迭代速度也如此惊人，我们观察了近三个月的 GitHub Trending 榜单，60% 的大模型开发生态相关的项目是在 2024 年之后新兴出现的，甚至有将近 21% 的项目在近半年内才创建，当然，有来也有去，同样有大量曾经热门的项目没有等到我们发出这份报告的日子。

从蚂蚁开源团队的视角，我们希望从社区数据中了解当下大模型开发生态的演进全貌：有哪些新兴的趋势，以及趋势下最顶尖的项目有哪些。蚂蚁的开源团队其实不叫开源办公室（OSPO），而是叫“开源技术增长”，是蚂蚁的一个技术架构性团队，我们的一个工作目标就是“利用对开源社区的洞察来为蚂蚁的架构和技术的演进提供指引”。我们做的这样的全景图和趋势分析，也正是希望能依据对社区的洞察，指出哪些项目是最应该跟踪、使用、参与的，哪些方向是值得投入的，反之亦然。

开源开发世界的一个很大的优点是，我们可以从公开数据中看到开发者们的协作分布动向，以此模拟项目们在生态之中的关联关系和生态位置：也许是上下游合作关系，也可能是同生态位竞争关系。因此，在做这份全景图的一开始，我们选取了时下 AI 领域中大家最耳熟能详的一些项目（例如 PyTorch，LangChain，vLLM 等），把它们作为种子节点，然后通过开发者在 GitHub 上的不同项目之间产生的协作关联关系，不断去探查生态的多个侧面。在得到初始的项目列表的基础上，我们和一些相关领域的开发者们探讨，手动的维护项目所属的技术领域标签，并不断做列表的收敛和更新。AI 技术迭代一日千里，我们希望呈现的是当下最顶尖的和最火热的开源项目，所以，这里用到了华东师范大学 X-lab 实验室的 OpenRank 影响力评价指标（https://open-digger.cn/docs/user_docs/metrics/global_openrank）作为一个重要的数据依据——在今年的 OpenRank 月均值大于 10 的项目才会出现在全景图上，一些年久失修，或者是过于崭新的项目，如果没有达到这个阈值，则会被拿掉。

最终，呈现下面这张 2025 年大模型开源开发生态全景图，截止 2025 年 5 月发布时，全景图上收录了 135 个项目，涵盖了智能体应用层和模型基础设施层一共 19 个技术领域。虽然我们非常努力想从中挖掘更多信息，但我们也完全明白，社区的数据既不全面也不完全准确，而且也不一定能反映出很多最新最优秀的技术变化，我们只希望这个报告能给大家一些有益的参考，有什么错漏之处和其他值得补充的观点，也欢迎大家反馈给我们。

地址： https://antoss-landscape.my.canva.site

以下是本次全景图上所有项目中，在 2025 年 OpenRank 排名 Top 20 的项目详情：

结合这些项目的排名分布，再对比 2024 和 2025 年 OpenRank 的同比绝对值变化，可以看到三大主导的技术领域：模型训练框架、高效推理引擎和低代码应用开发框架。

在训练上：PyTorch 是当之无愧的生态顶流，在全景图中的所有项目中影响力位列第一。而国产的深度学习平台百度飞桨，对比去年同期 OpenRank 降低了 41%，绝对值降低 150；

在推理上：高效推理引擎 vLLM 和 SGlang 在过去一年都处于飞速迭代之中，分别位于 OpenRank 同比增长的第一和第三位，他们以优越的 GPU 推理性能优势在企业级 LLM 部署中广受拥趸；

在应用侧：结合低代码工具链和 RAG 知识检索管理技术的 Dify 和 RAGFlow，由于契合企业快速构建 AI 应用的需求，正在迎接属于他们的高速增长，而这两个应用开发平台都是从中国开发者社区中生长出来的强势项目。

在观察了 100 多个大模型开发相关领域的开源项目之后，我们得到了一个暴论：

大模型开发生态是一场真实世界的黑客松（A Real-world Hackathon）

在 AI 技术扩散速度远超预期的背景下，大模型开发生态正演变为一场在真实世界发生的、实时公开直播的黑客松。开发者借助 AI 的力量得以以“超级个体”的姿态，在热点事件中快速构建开源项目，通过技术能力争夺公共流量与行业话语权。与此同时，一波又一波的开源项目和产品也在技术概念浪潮中爆火或者消亡。这种快速构建，快速消亡，注重开发速度的迭代，正如“几十个小时完成一款软件”的黑客马拉松（Hackathon）一般。

在观察和这张全景图相关的开源项目时，我们发现了一些有趣的故事，从侧面印证了上述观点：

开发者的短线投资与技术声誉

当 Devin、Perplexity、Manus 等闭源产品引发行业震动时，开发者们在短时间内迅速复刻出了开源版本：

Devin 与 OpenDevin：在 Devin 发布的当月（2024 年 3 月），在 UIUC 计算机专业在读 PhD 的王星尧发起了 OpenDevin 项目，项目开源的次月， OpenRank 就飙升至了 190。后来，OpenDevin 改名为 OpenHands，并且成立了相应的商业化公司 All Hands AI，专注于做 AI 软件开发应用平台；

Perplexity 与 Perplexica：独立开发者 ItzCrazyKns 于 2024 年创建了 Perplexica 项目，作为热门的闭源AI 搜索引擎 Perplexity 的开源替代，迄今项目已经积累了 22K Star 的极高关注，但 OpenRank 始终不温不火地维持在 25 左右；有趣的是，在 Devin 发布的同时间，这位开发者也同步发起了一个更轻量的开源版本“Not Devin”，如今也已经明确不再维护；

Manus 与 OpenManus：今年 3 月，Manus 刷屏的同时，MetaGPT 背后的创业公司 DeepWisdom 再次带来一场经典的“ 3小时复刻”，在 OpenManus 仓库创建的当天就获得了 8k Star。

这些项目的生命力究竟如何，还需要时间验证（当然，有一些已经被时间验证），但开发者通过短期内获得的技术声誉实现了自身的长期价值 -- GitHub Star 数、社区讨论热度以及与头部机构的合作机会，成为衡量开发者“影响力资产” 的新指标，即便那些项目最终沉入 “AI 墓园”，开发者也能够凭借早期贡献获得行业认知的红利。

AI “墓园” - 昙花一现的技术实验

LLM 浪潮同时催生了一批 “速生速死” 的 AI 项目和产品。在 Dang AI 收录的 5079 个 AI 应用工具中，有 1232 个已经停止维护，其中最容易被关停的产品类别是写作类工具。Dang AI 为这些昙花一现的产品们做了一个“AI 墓园”（https://dang.ai/ai-graveyard）。

在开源生态中，也不乏这样的项目，他们在创建后的短时间内获得了大量的关注，而如今已经不再活跃，我们为这些项目做了一个“开源 AI 墓园”（如下图）。这些项目均在 2023 年之后发起，拥有上万 Star 的关注度，除了 Swarm 是由 OpenAI 在今年 3 月官方宣布不再维护外，其余项目的上一次代码提交都还停留在 2024 年。

其中，比较有代表性的有两个项目：

2023 年 4 月，个人开发者 Yohei 发起了 BabyAGI 项目，在很早期就提出了 “自我进化 Agent” 的设想，通过任务分解、学习反馈和动态规划模拟通用人工智能（AGI），可谓是最早的一波对 AGI 的想象；
2024 年 2 月，OpenAI 发布了 Swarm，提出了 “群体智能”的概念，在发布时获得了极高关注度，被视为探索多智能体协作的前沿尝试，目前已经被产业可落地的 OpenAI Agents SDK 所替代，Swarm 则逐渐淡出公众视野。

这两个项目在发布时就声称是 “实验性”、“探索性” 的尝试，可以说在一开始就没打算做深谋远虑的长期规划。然而他们所提出的先锋概念，所激发的讨论和创新性尝试，在一起推动这场“黑客松接力赛”从概念验证向工程落地的演进。

模型能力对应用场景的冲击与重塑

随着模型能力的不断提升，应用开发生态也在随之发生变革，有冲击与挤压，但也带来了更多新的想象空间。

AI Search 开源项目的式微：AI 搜索是最早落地的应用场景，以 Perplexity 为代表的产品一度形成了对谷歌搜索的实质性挑战，而 Morphic.sh、Scira 等开源项目也试图通过本地化部署和 API 自由配置打破闭源产品的垄断。从发展趋势上来看，这类项目的存活率并不高。模型能力的泛化在加剧专用搜索工具的生存压力，GPT4、Gemini2.0 等新一代模型已经能够自主完成网络检索、信息整合和答案生成的全流程，这种内置的联网检索功能也许在压缩专用的搜索工具的市场空间；

AI Search 开源项目们的 OpenRank 趋势

AI Coding 开源项目的火热：与之相对的，模型能力的提升正在引发软件开发范式的变革。Claude 3.7 Sonnet 在编码和 Web 开发方面的突出表现让 AI 辅助编程进入了一个新阶段。开发者通过自然语言描述场景，模型自主完成需求分析和代码实现的 “氛围编程”（Vibe Coding）开发范式已经悄然形成。现阶段，除了商业化产品 Cursor、Windsurf 等验证了市场热情外，以 Continue、Cline 为代表的 IDE 插件形态的项目们也是主流的开源选择，这两个项目的社区参与者人数都已经超过 3000 人，且 OpenRank 曲线持续攀升。顺便提一下，蚂蚁也在 2023 年开源了 AI Coding 平台 CodeFuse，从软件开发的全生命周期辅助开发者进行 AI 原生的软件开发，虽然本次没出现在全景图上，但还是欢迎大家关注。

AI Coding 开源项目们的 OpenRank 趋势

生态位之间的动态博弈

从整体格子的变化来看，生态位之间也在进行动态的博弈。

在增长的两端分别是以 Dify 为代表的应用平台和以 LangChain 为代表的应用开发框架。不同开发模式表现出的 “冰火两重天” 态势，也是该生态极快迭代与极强生命力的体现。此处要特别提一下本次唯一出现在全景图上的、由蚂蚁发起的开源项目 DB-GPT，它是一个结合了“AI 应用开发” 和“大数据应用”两个场景的 Agent 开发平台，精准的定位和精准的出击，让项目在 2023 年一经推出就吸引了大量高校和产业界的开发者们参与共建。
DeepSeek-R1 推理模型带来的 "Aha Moment" 证明了强化学习这一后训练路径的有效性，以 Verl，OpenRLHF 为代表的强化学习框架在今年显著增长。在今年 2 月份，inclusionAI 也全面开源了强化学习框架 AReaL，旨在训练每个人都可以复现和贡献的大型推理模型，当然，项目还很新，让我们期待下一次它能够出现在全景图上。
生态之间也在彼此摸索能力的边界。例如，向量化的存储、计算和检索是作为大模型应用接入领域知识的重要一环，一度给 Milvus、Qdrant 等垂类的向量数据库带来“泼天的流量”，而传统大数据系统也纷纷做向量化转型，蚂蚁的开源分布式数据库 OceanBase 也在去年支持了向量存储功能，并且同步兼容了 Milvus 的 API。我们可以看到，技术的边界在不断的流动和融合中保持着微妙的生态平衡。

大模型开源开发生态技术趋势观察

在生态全景之外，我们选取了当下热门的七大趋势，基于社区数据进行了趋势分析、行业观察，并且比较大胆的做了一些趋势论断。这些趋势包括了在大模型时代新兴出现的生态，例如以应用层为主的 Agent 开发框架，以 MCP 为代表的 AI 原生标准协议，改变了软件开发模式的 Coding Agent；也包括了发生在传统的大数据和人工智能领域的生态，它们在大模型时代也发生了一些转向，有些领域一度被显著地波及，例如向量化的存储，也有些领域发生了生态格局的颠覆，例如模型的推理服务。

2023-2024 年间，以 LangChain 为代表的"全能型"框架凭借其开创性的任务编排能力和丰富的工具集成一度主导市场，在此期间也涌现出了一大批新的 Agent 开发框架，无论是主打工具调用、RAG 接入、长上下文记忆、ReAct 规划，无数的智能体开发框架在不同的技术概念和浪潮下迅速崛起；到 2024 年下半年，格局初步形成，已经少有看到新的开发框架出现，热潮褪去之后，我们看到早期主导市场的 LangChain 因为陡峭的学习曲线和复杂的调试成本在明显的走向下坡；进入 2025 年，格局呈现出分化的趋势：Dify、RAGFlow 等平台通过低代码工作流和企业级服务的落地开始主导市场；而以 LangChain 和 LlamaIndex 为代表的开发框架日渐式微。

Agent 开发框架 OpenRank Top 10 排名变化

Agent 开发框架 OpenRank 曲线

作为当前最热门的 AI 应用开发平台，Dify 精准把握了企业级用户的需求：一方面通过直观的可视化工作流编排大幅降低技术门槛，另一方面则提供完善的企业级安全管控方案。AI 应用开发者们并不缺乏新的选择，易用性、快速构建或许是当下应用开发框架的关键标签。在下表中，我们对比了当下三大主流框架的功能特性：

三大 Agent 框架功能特性对比

随着 AI 技术逐渐成熟，框架的竞争焦点已经从单纯的技术创新转向对企业实际业务场景的深度适配。那些能够提供完整企业级解决方案（包括权限管理、审计追踪、数据隔离等特性）的平台，正在获得越来越多企业用户的青睐。可以预见，未来 AI Agent 框架的发展将呈现"马太效应"：功能完善、生态健全的平台将吸引更多企业用户，而这些用户的反馈和需求又将进一步推动平台优化，形成正向循环。在这一过程中，像 Dify 这样既保持技术领先又深入理解企业需求的项目，很可能会持续扩大其市场优势。

2022 年，ChatGPT 兴起，早期的大模型应用开发者借助在 Prompt 中附上函数说明，来试图进行工具调用，使模型和外部世界交互。这种实现方式五花八门，效果也不尽人意；

2023 年，OpenAI 在发布 GPT4-0613 模型时同时推出了函数调用（Function Calling）功能，初现标准的端倪；由于函数调用过程需要开发者来完成，因此生成过程中多个函数的协同和编排都成为了难题，而且在现有工具中集成新的函数也极为困难，扩展性受到极大的限制；

2024 年 11 月，Anthropic 开源了模型上下文（Model Context Protocol，MCP）协议，标准化了智能体与工具之间的通信。3 月起，各个大模型都快速跟进并支持了 MCP，由此 MCP 也成为了目前实现大模型 Agent 调用外部工具资源的事实标准；

2025 年 4 月，Google 开源了智能体间协议（Agent2Agent，A2A）协议，该协议与 MCP 不同，并不是约定如何为大模型实现一个 Agent，而是规定不同的 Agent 应用之间如何进行交流和互操作；

2025 年 5 月，CopilotKit 推出智能体用户交互（Agent-User Interaction，AG-UI）协议。推出仅一周，仓库涨星 2.2K，该协议用于标准化智能体后端调用的工具和前端用户界面之间的交互层。

从 MCP、A2A 到 AG-UI 的陆续出现，我们可以想见，未来大模型应用会逐步向微服务化演进，即具有特定功能的 Agent/MCP 将成为互联网上独立发布并可被随时调用的服务，或者是以标准配置的形式发布以方便开发者或用户随时本地构建和启动服务。这种演进路径一方面面临传统微服务的技术挑战：如参数配置、版本管理、安全鉴权、数据隐私、服务编排等，但也引入了大模型特有的新命题：如 GPU 弹性调度、上下文跨节点共享与协同推理、多模态协同合作、Prompt 注入防御、输出内容合规审查、精细化多维计费、配额智能管理等。

面对上述的各种挑战，在技术标准层面，可能部分沿用现有技术标准，但更需要原生协议创新—— 例如定义大模型服务专属的元数据规范、流式通信协议、多模态交互协议、服务监控协议、联邦推理协议等。而在实践层面，开源生态将成为关键战场：主导标准制定的先行者可通过协议制定权的优势进一步绑定开发者工具链（如框架、SDK 等），进而形成从接口规范到运维实践的完整技术闭环，最终在模型即服务（MaaS）时代构筑生态护城河。

随着大模型服务的加速演进，标准协议层也会成为头部玩家的战略要塞，在可见的未来一到两年，标准协议层可能迎来密集的生态卡位战，而那些深度融合技术前瞻性与开发者体验的协议框架将逐渐占据生态话语权，并引导大模型技术领域创新的规模化涌现。

程序员会率先被 AI 取代吗？再往前几个月，这样的问句频繁出现。当 GitHub Copilot 帮助做代码自动补全时，开发者们产生了存在主义危机；当 AI IDE 们直接上手创建完整的工程项目时，真香定律上线，氛围编程（Vibe Coding）成为当代的软件开发新范式。

在调研了无数火热的 AI 开发类闭源产品，并观察了如下流行的开源项目之后，我们发现：

大厂在 AI Coding 领域快速下场，但几乎以闭源为主。这其中主流的有 GitHub Copilot、Amzon Q developer、CodeArts Snap（华为）、通义灵码（阿里）、Trae（字节）、 CodeFuse（蚂蚁）。大厂的天然优势是有可以快速迭代的内部落地场景，短板则来自于对内部数据的过度依赖而导致的泛化能力不足，以及复杂的内部流程可能会阻碍创新速度。由此可见，大厂做辅助编程类工具，乃至做 AI 开发工具，有优势也有掣肘。

反而是一些创业公司或三五人的小团队能够快速产出一个该领域的开源项目，迅速出圈。比如创业公司 Continue 的“continuedev”开源项目，凭借小团队的高效协作和灵活的创新机制，迅速在开源社区获得关注。在与 OpenAI 或 Google 等行业巨头竞争时，AI Coding 赛道是少数几个不会因数据或场景资源匮乏而处于明显劣势的领域。5月初，OpenAI 甚至计划用 30 亿美元收购 AI 开发工具 Windsurf。

根据项目的智能化程度以及目标受众群体的专业化程度，我们将这些 GitHub 上热门的 AI Coding 类开源项目划分为四个象限：

可以看出，AI Coding 正在尝试从一次性代码生成走向真实的软件工程场景下的开发，但依然面临很大挑战。尽管当前明星项目（如 Continue、Cline）在代码补全和简单 API 调用场景取得显著进展，但距离实现真正的 Dev Agent 仍存在本质差距。

现有系统在语义等价性验证、多语言项目协同、安全敏感代码生成等维度存在明显短板，尤其在处理包含复杂业务逻辑的大规模代码库时，重构成功率低于预期。技术演进的关键在于突破上下文感知能力（Context-Awareness）与领域知识融合（Domain Knowledge Integration）的双重瓶颈。预计未来 24 个月内，随着代码验证技术（如形式化方法与符号执行的结合）、多模态训练数据（代码+文档+运行时日志）的成熟，以及开发者反馈闭环的优化，AI 开发助手将会承担更多常规开发任务，但仍需人类开发者在关键决策点进行监督。

当我们看到上述这些当下热门的项目时，或许还会记得 Devika、TabNine、GPT-Pilot 这些逐渐沉寂的项目。它们日薄西山的原因背后，也反映了 AI 开发领域的市场分化：已经成熟的商业产品（Copilot、Devin、Cursor 等）和开源工具瓜分了市场，功能同质化或迭代缓慢的项目（如 Devika、GPT-Pilot）难以生存，而像 GPT Engineer这样早期积累了大量用户的明星开源项目，也通过开源的成功实践而发展为闭源的商业化产品：开源项目 GPT Engineer 作为热门的 AI 应用构建产品 Lovable 的前身，由于背后团队注意力的转移，如今已经不再继续维护。

逐渐沉寂的 AI Coding 项目们

如果形容向量数据库的发展，可以说是“起于泼天的富贵，回归理性的沉淀”。 2023 年 2 月前后，以 Qdrant，Chroma 为代表的项目收到了一波极其夸张的关注，分别收获了超过 5000 的 Star 数，但这种高关注并未形成持续的趋势。

向量数据库的每月 Star 增量变化

在 2024-2025 年的整体发展期，我们看到各个项目新获得的关注整体趋于稳定，没有出现很大的差异；在 OpenRank 趋势上，开源较早并且由 LF AI & Data 基金会中立托管的 Milvus 在一直保持着稳定的领先，而整个技术领域似乎像是平行的跑道，一起平稳的向前发展。

向量数据库的 OpenRank 增量变化

这种状态的背后的原因有几个关键的可能性：

开源产品并非唯一的市场选择：同期有纯商业版的强力竞争者如 Pinecone，KDB.AI 出现，且 Pinecone 的产品力和市场拓展相当不错；
传统大数据系统的向量化升级：随着时间的推移，传统数据库开始推出向量化的插件或向量搜索引擎（如图中的 pgvector），这当中包含了大量很受欢迎的 DB 选型，如 PostgreSQL，MongoDB Atlas，OpenSearch，ElasticSearch 等，这对于纯粹的向量数据库带来了一些冲击；
OpenCore 模式下，商业公司不那么关心 Core 的数据活跃：正如传统数据库有大量的项目是通过「开源核心」的方式来做商业模式，向量数据库也是类似。而这种模式下，有一个可用完整的开源核心非常重要，但核心的整体活跃度并不是背后的商业公司最关注的事情，基于 Core 版本形成的有竞争力的生态才是。

这带来了另一个讨论：

向量数据库是不是一个“冗余技术”？是否用传统数据库结合向量搜索中间件就可以满足模型应用的需求场景？

答案是没有。社区数据显示，pgvector 的趋势处于不升反降的状态。由于模型规模极大，且主要在大中型公司中部署，可扩展性和企业服务能力是刚需，而目前的向量数据库基于开源的商业产品如 Zilliz 等都具备很好的横向扩展能力、云兼容能力、安全性、以及对于现有 AI/ML 框架的系统化支持。相应的商业服务在市场上比较受欢迎，而单纯的向量搜索引擎目前做不到这种服务能力。

从 vLLM 和 SGLang 的发展也能看到，技术“薄”不是问题，有没有迭代空间和范式变化可能才是最大的问题，向量的需求，场景和算法都比较具体，开发层面可能并没有那么大的想象空间；另一方面，非结构化数据虽然数据量在增加，但更好的解决方案，多模态模型或生态玩家还没有形成规模，从而导致向量层要解决和优化的迭代发展相对较为缓慢和稳定。

与 Agent 等应用层的“生死时速”不同，在向量数据库层面，前浪还没有被拍到沙滩上。

数据湖技术是在大数据时代就已经提出的，对多模态的数据进行存储、检索和预处理的能力，而数据目录解决了在数据湖和湖仓一体架构中对海量、多样化数据资产的统一管理需求。在大模型时代，大家常说，重要的是数据、数据、还是数据。那么，这些面向多模态和多源的数据进行治理的开源技术与项目们，在这一波浪潮中，社区发生了怎样的变化？

数据湖表格式方面，Apache Iceberg、Apache Hudi、Apache Paimon、Delta Lake 共同构成了湖仓技术生态的“四足鼎立”。Iceberg 巩固了开源湖仓的通用框架，Hudi 和 Paimon 则在实时增量领域各展所长，Delta 凭借厂商支持稳步前进。可以预见，这些项目将彼此竞争又互相借鉴，推动数据湖存储技术不断进化，为非结构化海量数据的可靠管理提供支撑；

数据湖表格式项目 OpenRank 曲线变化

元数据治理与数据目录方面，OpenMetadata 和 DataHub 稳居一线，功能日臻完善；与此同时，Apache Gravitino 和开源版 Unity Catalog 等新秀异军突起，预示着下一代统一数据与 AI 治理平台的雏形正在形成。值得关注的是，它们纷纷将目光投向非结构化数据和 AI 资产，也顺应了大模型时代对广义数据治理的需求。

元数据治理项目 OpenRank 曲线变化

从全景图上所有项目所构成的生态协作网络上，我们可以看到大数据系统领域的这些项目们还处在整个大模型开发生态相对边缘的位置，这可能跟大数据生态下的开发者们，本身就不像 AI 生态那样密集地产生交集有关。但也从一个侧面体现出，大数据和 AI 生态的融合还在路上。在未来，随着基座模型进一步融入数据基础设施，这些项目之间的联动也许会更加紧密，无论是大数据项目为机器学习任务提供高质量的数据，还是利用模型的能力反向的支持数智化的数据治理。

全景图项目生态关联网络

随着大语言模型的大规模部署，模型推理效率、资源利用率和部署灵活性成为影响应用落地的关键因素。2023 年以来，出现了一大波面向于模型部署和高效推理的大模型服务工具，在性能和生态上彼此追赶，混战一直持续到今天。从 Top 10 的模型服务项目的排名变化上来看，仍有新的项目不断冒出来，并吸引开发者参与到其中去。例如去年 7 月清华推出的 KTransformers 和今年 3 月 NVIDIA 推出的 Dynamo。

模型服务 Top 10 项目 OpenRank 排名变化

而无论是从排名还是从发展势头上，vLLM 和 SGLang 都可谓是当下大模型领域最著名、热度最高的两个推理引擎，也都是 DeepSeek 推荐使用的推理引擎。从 OpenRank 的趋势来看，vLLM 与 SGLang 的社区仍在持续扩张。2024 年第四季度，vLLM 的增长一度趋于停滞，而同期 SGLang 正在快速迭代，其 Q4 OpenRank 平均增速达 12%。进入 2025 年后，vLLM 发布了 v1 重大版本，完成核心架构升级，重新进入增长通道。推理引擎生态似乎由此开启了新一轮 “AI 军备竞赛”：2025 年第一季度，vLLM 的 OpenRank 平均增速为 17%，SGLang 则高达 31%。

继 Ray 和 Spark 之后，UC Berkeley 又一次展示了其强大的顶尖开源技术的孵化能力：vLLM 诞生于 UCB SkyLab，和 Spark、Ray 是一脉相承；SGLang 则诞生于 UCB 和多家大学共同发起的研究性组织 LMSYS，从官网上可以看到，这个组织还开源了火爆的大模型对抗式评测平台 Chatbot Arena。

vLLM 和 SGLang 的社区对比

但模型服务这条赛道上，并不只有 vLLM 与 SGLang。

Ollama 与 llama.cpp：端侧推理和本地部署的轻量级优选。使用 llama.cpp 进行模型训练、量化和性能调优，再通过 Ollama 进行快速部署和服务化管理是开发者中的一种常见实践。这两个项目不仅仅是在模型服务赛道最近一个月的排名上位列第 3 和第 4，从整个生态的排名来看，也占据不可忽视的头部位置。
KTransformers：超大规模参数场景下的异军突起。2025 年 2 月，清华大学 KVCache.AI 团队推出的 KTransformers 宣布成功在 24 GB 显存 + 382 GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版，并且据说速度提高了 3~28 倍，项目随即迎来社区爆发式增长。当月项目 OpenRank 飙升 34 倍，吸引了 736 名开发者参与协作与讨论，仓库 Star 数突破 1 万。

几大模型服务项目的 OpenRank 曲线变化

PyTorch 的项目关联生态

PyTorch 是如今大模型开发生态的绝对顶流和生态核心，也是模型训练领域当之无愧的事实标准。凭借模块化和轻量化的开放设计，在 2020 年正式超过了 TensorFlow，成为大模型时代深度学习的基础设施，而 TensorFlow、MXNet、Caffe 等框架已经成为了上一个时代的过去式。

几大训练框架的 OpenRank 趋势变化

2022 年 9 月，Meta 宣布将 PyTorch 以独立基金会的形式归入 Linux 基金会（LF）旗下运作，成立 PyTorch 基金会。凭借 PyTorch 近乎“蛮横”的生态虹吸效应，这个子基金会现在也发展成为强大的伞形组织：今年 3 月份，推理引擎 SGLang 加入 PyTorch 生态；5 月份，推理引擎 vLLM 和分布式训练平台 DeepSpeed 也宣布加入 PyTorch 基金会。

虽然以中立的、独立基金会的形式治理 PyTorch 项目生态的发展，我们依然能够从社区数据中看到 Meta 在其背后产生的巨大影响力，仓库中有几位头部贡献者：ezyang （提交 3280 次）， jerryzh168（提交 1216 次），soumith（提交 1151 次），在 GitHub 首页都可以找到是 Meta 员工的证明。截至报告发出时，仓库中有 9000 多个带有 fb-exported 标签的 PR（占所有 PR 数量的 9%），推测是由 Meta 内部系统开发和评审之后，再对外和 GitHub 做同步时的产物。

发布前的一周，还发生了什么？

黑客松最重要的事情就是快速响应，所以报告的最后一部分，我们给发布之前的一个星期留了位置，而上一周，各个厂商也给我们这最后一块留白做足了面子，通过三场“科技春晚”带来了一系列升级和发布——

微软 Build 2025 大会上，Windows 操作系统原生支持模型上下文协议（MCP）；VSCode 开源 GitHub Copilot Chat 插件，推动 AI 编程发展；
Google IO 2025 大会上，Gemini 全系列更新闪亮登场，同时，Gemini 系列应用也全面升级，正在成为一个 “AI 操作系统”，将被整合到安卓各种设备和 Chrome 浏览器里；
Anthropic Code with Claude 2025 大会，Claude 4.0 发布，带着最强编码模型的光环，开发者们开始了新一轮的黑客松。

致谢

本期洞察从蚂蚁作为一家科技企业的视角出发，深度使用到了 X-lab 实验室的 OpenRank 评价指标，期间也咨询了很多来自蚂蚁内部的技术专家和开源社区的开发者们，非常感谢大家的宝贵观点。后续，我们也会将内容开放在 GitHub 上，欢迎大家共同协作，一起贡献高质量的生态洞察。

....

#DeepSeek-R1-0528

DeepSeek-R1今天一次「小更新」，颠覆了大模型格局，网友：尽快放R2

超出所有人的期待。

千呼万唤始出来，DeepSeek 迎来了推理模型更新。

昨晚，DeepSeek 官方宣布其 R1 推理模型升级到了最新版本（0528），并在今天凌晨公开了模型及权重。

HuggingFace 链接：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

模型文件上传时间是凌晨 1 点，不知 DeepSeek 工程师们是不是加班到了最后一刻。也有网友表示，这回又在端午节假期前发新模型，简直比放假通知还靠谱。

这次更新的升级版 R1 参数量高达 6850 亿，体量巨大，虽然开源了出来，但大多数人只能围观。如果「满血版」不进行蒸馏，是肯定无法在消费级硬件上本地运行的。

不过这种不说话直接放链接的态度还是引来了网友们的普遍欢迎。

根据 DeepSeek 的小范围通知，更新后的 R1 版本采用 MIT 许可证，这意味着它可以用于商业用途，从版本号看来这是一个「小」升级，不过人们大量实测后发现，新版大模型的性能提升颇为明显。

我们也能在新版 DeepSeek-R1 模型的配置文件中看到更多但并不出人意料的信息，包括采用了 DeepSeek-V3 作为基础模型以及 MoE、隐藏层大小、量化等配置。

我们现在已经可以在 DeepSeek 的网页端和 App 上直接用上这个最新版本的大模型。

有网友总结表示，新的 DeepSeek-R1-0528 可以进行更加深度的推理，输出的文本更加自然，结构更有层次感，它展现出了独特的推理风格，不仅速度很快，而且进行了充分的思考。与上周发布的 Claude4 类似，现在的 DeepSeek 也可以进行长时间的思考了，据说能持续 30-60 分钟。

已经有一些网友实测时遇到了 DeepSeek 的长考，这 deep research 可够深度的：

基准评分，成绩大幅提升

DeepSeek R1 发布以来，大模型领域的格局已经发生了变化。原版 R1 的成绩如今已不再领先，R1-0528 的出现修正了结果。

R1-0528 模型的第一个 Benchmark 成绩是 LiveCodeBench，它超越了 O3-Mini，几乎与 O3（High）的评分相当，在编程任务上相比上个版本有了显著的提升。

要知道 DeepSeek 模型是完全开源的，App 目前为止也完全免费，这可以说是开源的胜利。

另外，其在 Extended NYT Connections 基准上的成绩也已经出炉，相比于前一代 DeepSeek-R1，最新的 0528 版本的提升非常明显，从 38.6 增至了 49.8，接近 Claude Opus 4 Thinking 16k；不过在该基准上，DeepSeek-R1-0528 仍旧没有挤进 OpenAI o 系列模型占据的第一梯队。

目前，ChatBot Arena 上也已经更新了新版本的 DeepSeek R1，让我们看看大家充分测试过后它的排名能爬到多高。

网友实测：代码能力大幅提升

虽然 DeepSeek-R1-0528 才刚出来不久，但已经有不少网友分享了自己的实测结果。

比如开发者 Haider 就通过一个编程挑战赛（构建一个词评分系统）挑战了当前主流的前沿模型，结果发现，目前只有 o3 和新版 DeepSeek-R1 能够完成这个挑战。这不禁让他感叹：DeepSeek is so back...

也有网友通过一个小球撞墙实验直观地对比了 Claude-4-Sonnet 与 DeepSeek-R1-0528 的实际表现。可以看到，DeepSeek-R1 生成的代码在模拟物理碰撞方面表现会更好一些。

，时长00:27

Hyperbolic Labs CTO 和联创 Yuchen Jin 也进行了简单测试，发现 R1-0528 是目前唯一一个始终能正确回答「what is 9.9 - 9.11?」的模型。

下面是他录制的演示视频：

，时长00:40

也做了一次简单的尝试，让其用 Python 编写了一个可以将 Word 文档中的图片提取到固定路径的小程序。

，时长01:24

可以看到，DeepSeek-R1 用一分多钟完成了任务，那实际效果如何呢？很遗憾，出现了一个报错：

这是一个简单的句法错误，下面我们直接将其反馈给 R1-0528。结果出现了一个有趣的现象，对于这个简单报错，R1 模型思考的时间（212 秒）远远超过了之前写出整个程序的时间。

查看其思考过程可知，新版本的 R1 与之前的版本一样存在过度思考的问题，即反复思考和验证原本很简单的问题。

不过好在，修改后的程序成功完成了指定任务，就是这 UI 字体有点不协调：

我们还进行了另一些简单测试。整体来说，我们感觉新版 DeepSeek-R1 相比前一版本确实提升不小，完成一个任务所需的对话轮次也少了许多。

最后，尽管 R1 这次提升很大，网友们还是期待 DeepSeek 尽快放出 R2。

一个小版本更新就如此惊艳，DeepSeek R2 会是什么样子？这一次，我们是不是要等到国庆节？

刚刚，新版DeepSeek-R1正式开源！直逼o3编程强到离谱，一手实测来了

新版DeepSeek-R1重磅开源，凌晨已放出权重！此次模型性能几乎与o4-mini（Medium）相当，编程实测超越Claude 4 Sonnet。网友纷纷惊叹：开源又一次胜利了。

临近端午假期，DeepSeek果然又开始搞事。

就在今天凌晨，新版DeepSeek-R1正式开源了！

DeepSeek-R1-0528模型权重已上传到HuggingFace，不过模型卡暂未更新。

项目地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

时隔4个月，DeepSeek-R1完成了超进化，编码能力强到离谱，而且思考时间更长了。

据称，新模型基于DeepSeek-V3-0324训练（参数为660B）。

经典物理模拟测试中，DeepSeek-R1新旧版本的对比

在LiveCodeBench基准上，DeepSeek-R1-0528性能几乎与o3-mini（High）和o4-mini（Medium)实力相当，一举超越了Gemini 2.5 Flash。

有网友称赞，DeepSeek-R1能够像o3一样纠正思维链，并且像Claude一样创造性进行世界构建。

可以说，这是属于开源模型的巨大胜利！

不用R2，直接对标SOTA

此次，DeepSeek-R1-0528更新核心亮点，网友做了一个浓缩版的总结：

能像谷歌模型一样深度推理
文本生成优化：更自然，格式更佳
独特的推理风格：不仅快，而且更缜密
支持长时思考：单任务处理时长可达30-60分钟

思考时间更长，成为了全网讨论最多的一点。有网友实测后，R1思考时长超过了25分钟。

另外，这似乎是唯一一个能持续正确做对「9.9 - 9.11是多少」的模型。

，时长00:40

编程能力强到爆

网友实测显示，新版DeepSeek-R1在编程方面简直不可思议！

AI圈大佬「karminski-牙医」用同一个prompt测试了DeepSeek-R1-0528和Claude 4 Sonnet后发现。

不管是光线照射在墙上形成的漫反射，还是球在撞击后的运动方向，亦或是控制面板的美观程度，这一把R1稳赢。

网友Alex的测试也显示出，DeepSeek-R1在前端编码的能力上超越了Claude 4 Sonnet。

网友Haider.则是让模型构建一个单词评分系统。R1简要思考后，就立刻出了关于代码和工作测试的两个文件，第一次运行就完美无瑕。

此前，o3是唯一能完成这个任务的模型。而如今，R1堪称是完成这个任务的最佳模型。

注意，R1的表现之所以如此惊人，是因为它返回的两个文件在第一次都能运行良好，不用编辑，不用重试，这极其少见。

因为此前的大多数模型，要么会在边缘情况下终端，要么会做得太复杂，要么缺少适当的测试覆盖率。

和Gemini高能PK

还有人将DeepSeek-R1与Gemini 2.5 Pro进行了对标。同一个提示下，它们各自的表现如何？

首先是深度研究的能力，给出「研究微剂量服用裸盖菇素对长期认知的影响，需引用学术来源」提示。

这一把Gemini的响应更快，引用了可靠的研究文献，并且答案结构清晰。

，时长01:19

再来看看它们搜索+对比能力如何？提示模型用实时来源列出全民基本收入（UBI）的五大优点和缺点。

这时，Gemini 2.5 Pro和DeepSeek R1表现都不错，打成平手。

Prompt: List top 5 pros/cons of Universal Basic Income using live sources.

上下滑动查看

再让模型为AI SaaS工具制定TikTok增长策略，两款模型再次打成平局。

，时长01:01

在智能体任务规划方面，让Gemini和DeepSeek一同设计一个完整的市场调研智能体，包含工具链、用户角色和流程交接，结果是Gemini生成一张信息图，而DeepSeek稍逊一筹。

，时长02:43

由此，大家对DeepSeek-R2的期待值也是拉满了。

一手实测来了

新版DeepSeek-R1的能力经过我们实测，虽然是一次「小版本」更新，但是性能得到了「史诗级」的加强。

尤其是编程能力，感觉已经超过或者足以媲美Claude 4和Gemini 2.5 Pro，可以说所有提示都是「一把过」，不需要任何修改！并且可以在网页端直接运行，展示效果。

首先是制作一个「新智元」字体在宇宙中旋转的3D动画，完成度相当之高。

对于简单任务，DeepSeek-R1的思考时间明显缩短，不再像以前对简单任务也疯狂思考。

设计一个新智元的官方网站，对于这种相对容易的任务，DeepSeek-R1-0528只需要10s的思考时间。

能够明显感觉到，这次DeepSeek-R1新版本的思考过程更加稳定。

以模拟一个太阳系运行为例，还要求行星比例大小与实际相同，能看到DeepSeek-R1-0528的思考过程已经趋近于「完美」。

最后，再给DeepSeek-R1-0528上点强度，要求演示篮球落地后的弹跳过程，并且要完美遵循现实中物理规律。

最终DeepSeek的成果还贴心的设计了参数控制面板，以及速度方向指示，是真的很强，以上所有代码都是提示之后一遍过，没有任何的Debug过程。

对于类似「华容道」的多步骤思考问题，DeepSeek-R1-0528的表现也非常完美，

比如「一位农夫要带一只狐狸、一只鹅和一袋豆子过河。船每次只能载他和一样物品。如果农夫不在场，狐狸会吃掉鹅，鹅会吃掉豆子。请问农夫该如何安排过河，才能确保所有物品安全？」这种复杂推理问题，DeepSeek-R1还可以给出核心问题所在。

最令我感到震惊的是，这次的「思考」能力似乎进行了秘密加强。

我给他了一个非常无厘头的族谱问题：「我的妈妈的爸爸的儿子的侄女的孙子的爷爷的舅舅的外孙女的姑姑，是我的谁，你能画出关系族谱图吗?」

以下过程经过3倍加速，可以看到DeepSeek-R1真的在通过数学的符号化方式在进行思考。

并且最后还真让他分析出了结果，简直震惊！这么长的思考链条都没有断。

另外值得一提的是，这次的思考过程并没有遇到服务算力不够的情况，看来DeepSeek有针对性的提高了算力，毕竟现在是模型刚发布后的高峰「测评」期。

参考资料：

https://chat.deepseek.com/

https://x.com/i/status/1927770337170592033

https://x.com/Yuchenj_UW/status/1927828675837513793

https://x.com/chetaslua/status/1927716608384094545

https://x.com/AiBattle_/status/1927824419478536405

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

....

#JointDiT（Joint Diffusion Transformer）

原来Veo 3早有苗头！人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架

本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生（导师：宋睿华），他的研究兴趣主要在多模态生成，之前提出利用音频布局（audio layout）为视频生成同步声音的TiVA模型，已发表在MM 2024。宋睿华的团队主要研究方向为多模态理解、生成与交互。

想象一下：只需一张静态图片，系统就能自动生成一段「动态的、有声音的」的短视频，画面中的人或物做出自然动作变化的同时，也发出对应的声音——比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声，这正是「图像转有声视频（Image-to-Sounding-Video, I2SV）」的目标。

近日，来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作，首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT（Joint Diffusion Transformer）框架实现了图像 → 动态视频 + 声音的高质量联合生成。

论文标题：Animate and Sound an Image

项目主页：https://anonymoushub4ai.github.io/JointDiT

为什么图像转有声视频是「AI 多模态生成」的新蓝海？

人类对世界的感知本质上是多模态的。视觉与听觉作为最主要的感官通道，通常以协同互补的方式构建起完整的认知体验——枝叶摇曳伴随沙沙风声，浪花飞溅伴随潮汐轰鸣，这些视听融合的场景不仅丰富了感官感受，也承载了我们对物理世界深层次的理解。

尽管近年来生成模型在单一模态的内容合成上已取得长足进展，如生成高保真的视频画面或自然的音频片段，但视觉与听觉这对天然耦合的模态，长期以来却被拆分为两条相对独立的研究路径，缺乏统一的建模机制。

最近，谷歌在其视频生成模型 Veo 3 中引入了同步音频的功能，让视频生成真正迈入「有声时代」，成为行业关注的亮点。与这一趋势不谋而合，本文首次提出并系统定义了图像到有声视频生成（Image-to-Sounding-Video，I2SV）这一新任务：让静态图像「动」起来的同时，生成与之语义匹配、时间同步的音频内容。

虽然当前已有技术能够分别实现从图像生成视频或音频，但将两者「拼接」在一起往往难以自然融合，常见的问题包括语义错位与节奏失调：比如视频中的小狗并未张嘴，却配上了汪汪的叫声；又或是吠叫的动作刚发生，声音却慢半拍甚至不协调。

，时长00:02

图像生成有声视频示例：上：图生视频（SVD）+ 图生音频（Im2Wav），下：本工作 JointDiT

因此，如何从一张图片出发，生成同时具备视觉动态性与听觉一致性的完整「视听视频」，成为多模态生成领域亟待突破的关键挑战。

JointDiT：实现图像 → 同步音视频的联合生成

任务定义：这项研究把图像转有声视频任务（I2SV）定义为：以静态图像作为输入条件（并看作输出视频首帧），生成一个语义匹配、时序同步的「视频 + 音频」（有声视频）片段。

解决方案：论文提出了一种全新架构 JointDiT，探讨了如何利用两个强大的单模态预训练扩散模型（一个视频生成器，一个音频生成器），在其上构建统一的联合生成框架实现多模态协同生成。

其主要设计包括：

分解与重组预训练模型，实现联合生成框架

为了构建高效的图像转声音视频模型，JointDiT 采用了「重组 + 协同」的创新思路：首先，作者对预训练的音频和视频扩散模型进行层级解构，将每个模型划分为三大模块：输入层（负责模态嵌入）、专家层（模态内部理解与压缩）、输出层（解码生成）。随后，在两个模态的专家层之间引入联合注意力机制与前向模块，形成核心的「Joint Block」，实现音视频间的深层交互。最终，通过共享 Joint Block、独立输入输出层的设计，JointDiT 在保持模态差异处理能力的同时，实现了真正协同的多模态生成，创新性地实现了从一张图片直接生成同步音视频内容。

引入感知式联合注意力，精准建模跨模态互动

传统的在全序列（音视频序列）上应用自注意力机制（Full Attention）难以处理视频与音频在时间、空间、频率维度上的异构差异。JointDiT 专为此设计了感知式联合注意力机制（Perceiver Joint Attention），使用模态特定的 Query-Key-Value 映射，实现对视频帧与音频序列之间的细粒度互动建模，有效提升同步与语义一致性。

联合引导机制，兼顾条件控制与模态协同

传统的无分类器引导（classifier-free guidance, CFG）技术主要用于强化生成结果对条件的响应，同时抑制低质量输出。但在多模态生成中，单纯的条件对齐并不足以保障音视频之间的深度协同。为此，JointDiT 提出联合无分类器引导（JointCFG）及其增强版 JointCFG*，在保留图像条件引导对齐的同时，强化了模型对跨模态之间交互的关注，进而提升了音视频之间的语义一致性与时间同步性。该策略不仅优化了生成质量，还显著增强了视频的动态表现力。

实验结果如何？高质量、高一致性！

研究团队在三个标准数据集（AVSync15、Landscape 和 GreatestHits）上进行了大量测试，从视频质量、音频质量、同步性和语义一致性四个维度全面评估。

结果显示，JointDiT 在视频质量与音频自然度方面均实现显著提升，FVD、FAD 等核心指标全面优于基于 pipeline 组合的多阶段方法。音视频同步性表现优异，在自动评价指标上与当前最强的音频驱动视频生成模型持平。语义匹配也更为精准，视频画面与声音的「含义」更加契合。

相比之下，诸如 CogVideoX、HunyuanVideo 等文本驱动的大模型，虽然具备强大的生成能力，但由于依赖图片生成文本描述（caption）作为中介，过程中伴随大量视觉信号丢失，导致最终画面和输入图片匹配度（如 FVD、IB-IV 指标）表现不如直接采用图像生成音视频的 JointDiT。事实表明，直接建模图像到音视频的统一路径，能更有效保留原始视觉信息，生成结果更加真实一致。

在用户主观打分测试中，JointDiT 在「视频质量」、「音频质量」、「语义一致性」、「同步性」与「整体效果」五项评分中均排名第一，领先第二名近 20%。

一张图生成动态有声视频，背后竟有这么多玄机？

我们以四个生成案例为例（输入图像均作为视频首帧）：

案例 1：手指演奏画面中是一根手指搭在吹奏的小号上，生成的视频中指头轻微颤动，音频同步响起清脆的拨弦音，仿佛看见了真实演奏。

，时长00:02

案例 2：棍击物体输入图像中，一只手正握着棍子对准物体。JointDiT 生成的视频中，棍子精准敲击目标，画面同步传来清脆的敲击声，声音的质感还根据被敲物体的材质发生变化，真实自然，打击感十足。

，时长00:02

案例 3：保龄球击瓶静态图中是一颗保龄球朝瓶子方向滚动。生成视频中，保龄球沿轨道前行，撞击瓶子时发出「砰」的撞击声，瓶子倾倒时伴随一连串碰撞与倒地声，整个过程视听同步、节奏自然，细节丰富，极具临场感。

，时长00:02

案例 4：闪电雷鸣输入图像为乌云密布的天空。JointDiT 生成的视频中，一道闪电划破长空，紧接着传来低沉有力的雷鸣声，电光与声响之间保留自然的时间延迟，模拟真实物理世界中的视听顺序，带来逼真的沉浸式体验。

，时长00:02

结语与展望

JointDiT 的提出，不仅是一次生成技术的突破，更彰显了 AI 向多模态统一建模演进的趋势。它不仅可应用于娱乐内容创作、影视制作等实际场景，也为多模态通用模型乃至「世界模型」的研究提供了新的思路与启发。接下来，研究团队计划将 JointDiT 扩展至图像、文本、音频、视频四模态的联合建模，为构建更通用、更智能的多模态生成系统奠定基础。

未来，或许我们只需一张照片、一段文字，就能完整听到看到它讲述的故事。

如需了解更多技术细节与案例演示，请访问官方 Demo 页，论文、代码和模型将近期公开，敬请期待！

....

#像人类一样脑补画面来思考

中国团队让AI拥有「视觉想象力」

在人类的认知过程中，视觉思维（Visual Thinking）扮演着不可替代的核心角色，这一现象贯穿于各个专业领域和日常生活的方方面面。

图 1：需要借助「脑补」图像进行思考的真实世界任务。这些任务通常需要视觉预见性和想象力，仅凭基于文本的思考无法完全实现。

生物化学家在探索新的治疗途径时，会在脑海中构建蛋白质的三维立体结构，通过视觉化的分子间相互作用来理解复杂的生化过程；法医分析师在破解疑难案件时，需要在心中重建犯罪现场的空间布局，通过视觉推理来验证证据之间的逻辑连接；建筑师在设计创新建筑时，会在脑海中不断勾勒和修正建筑草图，通过视觉想象来优化空间配置和光照效果；篮球运动员在制定战术策略时，需要在脑海中构想队友的跑位路线、防守阵型的变化以及关键时刻的战术配合，通过视觉化的场景想象来设计最佳的进攻方案；在日常决策中，一般人也会通过「脑补」各种可能的场景图像来辅助判断和选择，用脑海中自发生成的图像作为认知媒介。

这种视觉思维能力的独特之处在于，它能够创造概念间的独特组合和新颖连接，帮助我们发现仅通过纯文本推理无法获得的洞察和创意。而在现代认知科学中，这种「深思熟虑」往往需要多模态的思维过程来支撑。

如今，AI 也迈出了这一步：上海交通大学、上海创智学院、复旦大学和 Generative AI Research Lab（GAIR）的团队提出 Thinking with Generated Images，让大模型能够自发生成视觉中间步骤，像人类一样用「脑内图像」进行跨模态推理。

论文链接：https://arxiv.org/abs/2505.22525

代码链接：https://github.com/GAIR-NLP/thinking-with-generated-images

模型链接 1：https://huggingface.co/GAIR/twgi-critique-anole-7b

模型链接 2：https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念：从「看图像」到「脑补图像」— 视觉思维的递进进化

如何让模型自发性地通过视觉进行「思考」仍属于早期探索阶段。此前的一些工作尝试通过空间搜索任务（如迷宫导航）进行早期探索，但这些任务的局限性在于它们往往可以直接通过文本思考或「对着」图像思考（Thinking with Images）来解决，而不需要真正的「脑补」图像思考（Thinking with Generated Images）。

Thinking with Generated Images 系统性地整理并比较了三个核心概念的本质区别及其适用任务的差异：

「看」图像（Seeing with Images）：模型仅在单次前向传播中处理用户提供的固定图像，主要适用于基础的视觉识别任务，如物体检测、图像分类等。这种模式下，模型只是被动地「观察」图像内容。在这个过程中，整个 AI 的思维过程完全发生在文本模态中，图像仅仅作为一个固定的先验条件，无法参与到动态的推理过程中。这也是大多数现有的大型多模态模型（Large Multimodal Models, LMMs）或视觉语言模型（Vision-Language Models, VLMs）的预设模式。
「对着」图像思考（Thinking with Images）：模型能够多次访问或对现有图像进行有限变换（如裁剪、旋转、代码执行器、OCR、图像处理工具），适用于需要多步视觉推理的任务，如视觉问答、图表解读、空间推理等。「对着」图像思考虽然在一定程度上改善了模型的视觉推理能力，但仍然受到一个核心约束：它们只能处理用户预先提供的固定图像或对这些图像进行简单变换，被动处理用户提供的图像，无法真正做到从零开始构建新的视觉概念。
「脑补」图像思考（Thinking with Generated Images）：模型能够主动生成中间视觉步骤作为推理过程的一部分，适用于需要视觉想象、创造性设计、空间规划、以及与物理世界环境交互感知的复杂任务。这种模式在需要视觉预见性（visual foresight）和创造性想象的任务上具有最大优势，因为纯文本推理无法充分表达这些任务所需的空间和视觉信息。

研究团队特别强调，「脑补」图像思考在需要空间想象、动态规划和创造性视觉构建的任务上相比于纯文本推理具有根本性优势，这正是人类视觉思维的核心价值所在。

图 2：区分「看」图像、「对着」图像思考、「脑补」图像思考的例子。

技术实现方案：自发原生多模态长思维链

研究团队创新性地提出了「原生多模态长思维过程」（the native long-multimodal thought process）这一核心技术框架实现「脑补」图像思考。原生多模态长思维过程由交错的多模态 token 组成：包括文本的词汇或子词（words/subwords）、视觉的图像块（patches）等。

未来有更通用的基座模型后也能推广到音频的帧（frames），以及其他模态领域特定的表示形式（domain-specific representations）。原生多模态长思维过程不仅能够让模型在思维过程中自然地自发生成图像，还能够原生地执行测试时扩展（test-time scaling）以获得更好的模型能力。透过原生多模态长思维过程实现 Thinking with Generated Images 有四大主要优势：

跨模态原生思维能力：通过单次推理过程即可「原生」地生成多模态的 tokens，使模型能够自然无缝地跨模态进行「思考」。
统一生成式任务执行：通过生成式范式原生地执行多样化的多模态任务。
自然测试时扩展机制：通过生成的「长」思维过程提供自然跨模态的测试时扩展，使模型能够通过生成更长、更详细的多模态长思维过程，在推理时投入更多计算来提升性能质量。
未来技术集成兼容性和可扩展性：单一模型集成的架构便于未来与强化学习等训练后扩展技术的集成，简化了训练和推理持续扩展的复杂度。

两种自发原生多模态长思维链模式

研究团队深入分析人类多模态长思维的认知模式，据此设计并提出了两种原生多模态长思维链模式，应用于视觉生成任务上，最大的体现 Thinking with Generated Images 的优势：

视觉子目标分解（Vision Generation with Intermediate Visual Subgoals）：视觉子目标分解模拟了人类在处理复杂视觉任务时的分而治之策略。面对较为复杂或多物体的视觉生成任务（如「一张沙发和一个酒杯」），模型首先进行整体性的分析，将大的视觉任务拆解成小的目标，分步生成沙发和酒杯的独立图像，再组合成最终结果。每个中间图像都承载了特定的子目标语义，不仅是视觉内容的载体，更是推理过程中的「思维节点」。视觉子目标分解允许模型在处理复杂视觉生成任务时保持对细节的精确控制，避免了直接生成复杂图像时可能出现的元素遗漏、比例失调或风格不一致等问题。

图 3：原生多模态长思维链在GenEval上的例子。

提出视觉假设并自我反思迭代（Vision Generation with Self-Critique）：提出视觉假设并自我反思迭代体现了人类创作过程中的「草稿-修改-完善」循环机制。模型首先基于输入提示生成一个初始的视觉假设图像，这个假设通常包含了对任务的基本理解但可能存在各种不完善之处。模型随后以文本反思形式对自己生成的图像进行深入的多角度分析，包括内容完整性检查（如「图像缺乏雨伞」）、视觉质量评估（如「更清晰的海景化」）、语义一致性验证（如「更清楚的展示冰淇淋的融化」）、构图合理性判断（如「增强图像对比度」）等等。模型通过建立视觉假设、批判性分析、策略性改进的迭代过程来逐步优化生成结果，实现了视觉和文本模态之间的深度协同，形成了一个有效的自我改进反馈循环，显著提升了生成图像的质量和准确性。

图 4：原生多模态长思维链在DPG-Bench上的例子。

自发原生多模态长思维链在多模态统一理解生成模型的实现

研究团队选择在自回归 next-token-prediction 的多模态统一理解生成模型上开发原生多模态长思维链，这一决策基于几个层次的技术考虑：

自回归架构与人类思维过程的天然契合性。人类的思维过程本质上是序列化的——我们在思考复杂问题时，会逐步构建想法，从一个概念过渡到另一个概念，在文本思考和视觉想象之间自然切换。自回归模型通过逐 token 生成的方式，能够最自然地模拟这种渐进式、序列化的思维展开过程。
统一架构的简洁性和可扩展性优势。相比于需要协调多个独立组件的复杂系统架构，自回归统一模型提供了一个优雅的解决方案。在这种架构下，文本推理、视觉生成、自我批判等所有能力都统一在同一个模型中，避免了多组件系统中常见的信息传递损失、同步协调复杂性等问题。
与现有技术生态的深度兼容性。当前大语言模型领域已经在自回归架构上积累了丰富的训练技巧、优化方法和推理技术。选择这一架构使得研究团队能够直接继承和利用这些成熟的技术成果，而不需要从零开始构建全新的技术栈。
未来发展的技术路径一致性。随着计算能力的不断提升和算法的持续优化，自回归架构展现出了强大的扩展潜力。选择这一技术路径确保了研究成果能够与未来的技术发展趋势保持一致，具备长期的技术价值。

在确定了自回归架构的技术路线后，团队选择 Anole 作为基础模型。目前大多数模型都缺乏真正的交错多模态生成能力，而这正是实现「原生多模态长思维过程」的关键技术瓶颈。Anole 相比其他多模态模型具有两个关键优势：

原生交错生成能力：Anole 直接在交错的文本-图像 token 上进行预训练和后训练，具备了交错生成多模态 token 的固有能力，这是实现本研究目标的基础前提。
高效的视觉表示机制：Anole 采用相对高效的图像表示方案，使得基于原生多模态长思维过程的测试时扩展在合理的推理预算内成为可能。

搭配原生多模态长思维过程解决了视觉推理的五大局限

研究团队提出的「原生多模态长思维过程 (the native long-multimodal thought process)」这一核心技术框架实现「脑补」图像思考。与现有方案对比，该提出方案解决了五大局限：

摆脱用户输入依赖：过去的方法（如 OpenAI 的 o3 thinking with images）需用户提供图像作为推理起点，而原生多模态长思维过程能从零构建视觉上下文，让模型在无图场景下也能自发地做多模态思考。
超越静态图像处理：目前的工具增强型模型通常只能裁剪、标注或轻度编辑给定图像；原生多模态长思维过程在推理链中动态生成全新的视觉假设，为创造性规划与空间推演打开更大搜索空间。
端到端统一架构：无需多模型协作或外部工具链，单一模型即可完成「生成-推理-反思-迭代」的全流程，部署与调用更加轻量。
可扩展的测试时扩展和未来后训练扩展：原生多模态长思维过程天然支持测试时扩展（test-time scaling），通过生成更长、更详细的多模态长思维序列来提升性能。此外，该架构为未来与强化学习、自我改进等后训练技术的集成预留了充分空间。
实际落地的应用场景：过去的相关研究往往专注于相对局限任务场景，如数学（几何）题求解、迷宫导航、简单的空间推理等。这些任务虽然在技术验证上有一定价值，但存在一个根本性问题：它们大多可以通过纯文本描述和逻辑推理来充分表达和解决。例如，迷宫问题可以用坐标和路径描述完全编码，几何题可以通过形式化语言和逻辑步骤来求解，这些任务并未真正发挥视觉思维的独特优势。研究团队专注于解决那些无法通过纯文本充分表达的复杂视觉推理任务，实现了从「专注于能用文本充分解决的视觉任务」到「专注于必须依赖视觉想象的复杂创造性任务」的认知跃升。

Thinking with Generated Images 带来的能力属于全新维度，可与现有技术叠加协同。该研究着重提升的是「内部想象-反思」的深度推理能力，而检索增强、外部工具调用等技术，仍然在引入外部知识、扩展功能等方面具备优势。

未来，当这些能力并行叠加时，既能利用 Thinking with Generated Images 提出的「脑内草图」，也能借助现有检索增强、外部工具调用等技术，形成 1+1>2 的整体效果。

图 5：多模态认知领域相关工作的对比

实验设计

为了在多模态理解生成模型上实现 Thinking with Generated Images 的自发原生多模态长思维链，研究团队在训练数据、训练策略、以及推理策略上都有深入的探索。

训练数据

研究团队精心设计了一套合成数据构建流程，专门用于训练模型生成两种类型的多模态长思维链。由于目前没有现成的 LMM 模型支持多模态生成的测试时扩展 (test-time scaling)，传统蒸馏技术并不适用，团队创新性地开发了完整的数据构建管线（如图 6 所示）。

数据收集三大黄金法则：

高质量图像生成提示词：采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 顶尖模型生成复杂提示词，通过规则过滤确保质量，并借助 Qwen3-32B 将复杂视觉任务拆解成小的目标。
高质量反思推理链：借助 QVQ-72B-Preview 的强大长链推理能力，对每个提示-图像对进行准确性评估、差异识别和改进建议，并实现模型通过迭代分解获得最终图像的过程。
高质量中间视觉思维：

初始生成：使用 Anole-7b（自我批判）或 Flux1-dev（子目标分解）。
精修阶段： Flux1-Redux 结合原始提示、首轮图像和批判反馈进行优化。
最终生成：基于前几轮图像及思考过程来生成最终结果。

最后通过 QVQ-72B-Preview 进行严格的质量控制，过滤与提示严重偏离的样本。

技术亮点解析：

突破性数据架构：专门为「视觉思维」范式优化的统一数据结构。
多模型协同：充分发挥各领域顶尖模型的专长，构建训练样本。
严格质量把控：从提示词到最终图像的全流程质量控制机制。

这一创新性的训练策略使得 LMM 模型能够生成端到端的多模态长思维链，为「Thinking with Generated Images」的实现奠定了坚实基础。这套方法论不仅适用于当前研究，也将为未来多模态推理系统的开发提供重要参考。

图 6：数据收集流水线示例

训练策略

在使用统一多模态模型进行视觉生成任务的训练时，大多仅依赖交叉熵训练没有完整的考虑图像 token 之间的关系。

为了解决这个问题，研究团队引入了视觉特征级别的重建损失，将生成图像的隐状态投影回视觉特征空间，并计算与 ground-truth 图像对应特征之间的均方误差 (MSE) 损失。这种设计鼓励模型产生具有更强视觉连贯性和结构完整性的输出。基于优化后损失函数，研究团队设计了系统性的两阶段训练流程：

基础能力强化：使用 JourneyDB 图文对数据集对 Anole-7b 进行持续训练，增强模型的基础视觉生成能力。这一阶段为后续的专门化训练奠定了坚实的多模态基础。
专门化微调：基于上述的合成数据集进行模型训练，精细化调整两个专门化模型：

TwGI-Anole-7b-Obj.：使用视觉子目标分解数据集进行微调，使其具备生成视觉中间子目标的能力。

TwGI-Anole-7b-Crit.：使用视觉自我批判数据集进行微调，使其具备自我批判视觉假设的能力。

这种分阶段训练策略确保了模型既具备扎实的基础多模态能力，又能在特定的思维模式上表现出色。

推理策略

与标准的视觉语言模型或大语言模型不同，统一多模态模型在进行视觉生成任务时面临着独特的推理挑战。为了充分发挥模型的性能潜力，无分类器引导 (Classifier-Free Guidance, CFG) 技术成为提升视觉生成性能的关键。在传统的完整条件 (full conditions)、无条件 (unconditions) 和图像条件 (image conditions) 基础上，研究团队增加了：

「原始提示条件」(Original Prompt Conditions)：确保生成过程始终与用户的原始意图保持一致。
「负面条件」(Negative Conditions)：避免生成不当或无关的视觉内容。

这种多条件设计的核心目标是促使中间视觉步骤更加忠实于原始意图，同时避免被生成的长文本思维过度干扰。通过在这些条件之间进行精细化平衡，模型能够：

充分利用长文本思维的指导作用：从详细的文本推理中获得有价值的语义信息和逻辑指导。
有效过滤思维过程中的潜在噪声：避免被长思维序列中可能存在的无关信息或错误推理分散注意力。
保持视觉生成的一致性和质量：确保最终输出既符合原始提示要求，又体现了深度推理的成果。

在视觉生成任务上的结果分析

研究团队在 GenEval 和 DPGBench 两个图像生成基准上对 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 进行了全面的性能评估。

视觉子目标分解模式的评估：视觉子目标分解模拟了人类在处理复杂视觉任务时的分而治之策略。面对较为复杂或多物体的视觉生成任务（如「一张沙发和一个酒杯」），模型首先进行整体性的分析，将大的视觉任务拆解成小的目标，分步生成沙发和酒杯的独立图像，再组合成最终结果。每个中间图像都承载了特定的子目标语义，不仅是视觉内容的载体，更是推理过程中的「思维节点」。视觉子目标分解允许模型在处理复杂视觉生成任务时保持对细节的精确控制，避免了直接生成复杂图像时可能出现的元素遗漏、比例失调或风格不一致等问题。
视觉自我批判模式的评估：测试 TwGI-Anole-7b-Crit. 模型是否能够纠正其初始视觉假设（图 7 和图 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)），并生成更好的图像生成结果（图 7 和图 8 中的 TwGI-Anole-7b-Crit. (final)）。

图7: 在GenEval上的表现

图8: 在DPG-Bench上的表现

中间视觉思维生成对视觉生成任务的显著效益

实验结果表明，TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 两个基准上都始终优于基线模型 Anole-7b。在 GenEval 上，TwGI-Anole-7b-Obj 在「双对象」类别中取得了显著提升（0.57 vs. 0.38，相对提升 50%），表明其在处理涉及多个实体的复杂提示时具备了更强的能力。在位置和颜色属性对齐方面也显示出显著改进，体现了在精确空间和视觉构图推理方面的更强能力。

在 DPGBench 上，TwGI-Anole-7b-Obj 在「实体」、「属性」和「关系」类别中都取得了实质性进步，总体分数从 58.32 提升至 68.44（相对提升 17.3%），反映出其在细粒度视觉语义理解方面的增强能力。这些改进验证了我们的假设：将视觉任务分解为中间子目标使得大语言模型能够更系统地推理并生成更高质量的输出。

原生多模态长思维过程使模型能够纠正和完善自身的视觉假设

视觉思维自我批判的实验结果证明了让模型反思和修正自身视觉输出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步骤后性能显著提升：GenEval 总分从 0.45 提升至 0.48，DPGBench 分数从 62.83 提升至 67.14。这表明模型具备了内省分析生成图像的能力——通过基于视觉反馈的文本推理链，能够识别不匹配、幻觉或遗漏的元素，并随后进行纠正。这种视觉反馈循环的有效性反映了一种模态间协同效应，其中视觉和文本模态相互迭代指导，形成了真正的多模态智能推理机制。

这些结果共同验证：在推理链中主动「画草图」或「打草稿」，不仅让模型生成质量更高、更可控，也带来了深度理解与纠错能力。

未来展望

Thinking with Generated Images 的能力未来有望推动 AI 在需要空间想象和动态规划的领域实现突破：

创造性设计：模型可逐步生成并迭代建筑草图，同时用文本记录调整理由（如「将窗户东移以优化采光」）。
科学发现：通过生成分子结构的中间假设图像，辅助生物学家验证药物结合路径。
战术规划：让 AI 篮球员「脑补」生成不同战术配合的场上演示图像，可视化球员跑位路线和防守破解策略。

《孙子兵法》说：「多算胜，少算不胜，而况于无算乎？」在文本时代，深思靠文字组成的思维链；在多模态时代，深思就需要通过多模态内容的耦合，不仅要会观察、调用工具，还要学会想象、反思、脑补。Thinking with Generated Images 正在把这种能力「写进」模型本身，让 AI 获得人类的视觉想象力。

它不只是性能指标的上涨，而是推理范式的突破；
它不只是会画画，而是把「画画」变成了思考的肌肉记忆；
它不只是一次概念验证，更是给未来「多模态 AGI」铺了条高速公路。

当机器从「看图说话」升级到「无图脑补」，真正的多模态推理时代，已敲响开场锣鼓，让我们拭目以待。

....

#135 个项目、七大趋势、三大赛道

撕开大模型开源生态真相，你会怎么卷？

不要抗拒趋势

在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一周里，微软为 Windows 加装模型上下文协议（MCP），Google Gemini 野心初显「AI 操作系统」，Claude 4.0 高调抢滩编程主战场。

就在这样的节奏下，5 月 27 日，蚂蚁集团的开源团队「接棒」发布了一张《 2025 大模型开源开发生态全景图》。

访问地址：

https://antoss-landscape.my.canva.site

这是一张由开源社区数据驱动的技术演进路线图——

135 个社区核心项目、19 个技术领域，全面覆盖从智能体应用到模型基建，系统性梳理了开源力量在大模型浪潮下的集结与演化路径。

其中，模型训练框架、高效推理引擎、低代码应用开发框架成为当前最具主导力的三条技术赛道。

135个项目中位于2025 年 OpenRank 排名Top 20的项目。这里用到了华东师范大学X-lab实验室OpenRank影响力评价指标。

结合前一张图，将 OpenRank 指标与 2024 年数据对比，三大主导技术赛道的同比上升幅度尤为明显。

「不要抗拒趋势。」发布现场，蚂蚁开源技术委员会副主席王旭谈及全景图的意义。

比起盲目对标，在一个飞速发展的领域，搞清楚哪些关键领域仍未涉足、哪些路线已经成了技术冗余，对于企业而言更具现实意义。

对于开发者、投资人，尤其是打算「自己干」的人来说，也是一份值得参考的路线图：哪些项目正拾级而上？哪些赛道开始日落西山？关键从来不是起点有多高，而是是否踩准了那条上升通道。

一张快速变化领域的「撕拉片」

这张全景图，像是一张为大模型开源生态拍下的「撕拉片」。在高速运动的行业面前，「咔嚓」定格了 135 个项目的最大「公约数」——

一场直播中的「现实世界的黑客松 (A Real-world Hackathon )」。

与追求长线的传统开源文化不同，这些项目大多靠热点驱动，短期速成、技术声誉兑现快；反之，随着热点不断迭代，严重依赖热点的项目「埋」得也快。

例如，对应的闭源项目爆火后，Devika、OpenDevin、OpenManus 们在短周期内密集登场并获得极高关注度。

SGLang、vLLM 则代表另一种高频脉动的开发形态——方向明确，剩下的全靠「中美网友 24 小时轮肝」完成；几乎每周都有新版本，生态在极高密度的「卷」中快速升级。

有些项目发展不错，有些项目成功为背后工具链引流，还有的发展为商业项目，如 GPT Engineer 早期积累了⼤量⽤户的明星开源项⽬，后续发展为闭源的商业化产品 Lovable。

一些项目爆发力极强，一度拥有上万 star 的关注度，但也面临高淘汰率和低维护意愿的挑战，最后被「埋」。

除了 swarm 是 OpenAI 官⽅宣布不再维护外，其余项⽬的上⼀次代码提交还停留在 2024 年，实质性开发早已停滞。

如果就此止步，只看到爆款和淘汰，就难以理解为什么这些浪花会出现。推动「黑客松现象」上演的还有更为深层的「地质」动力——

模型能力带来的应用重塑、生态位之间的动态博弈。

以 AI 搜索为例，开源项目集体式微，并非「做得不够好」，而是 GPT-4、Gemini 们已经将联网检索、答案生成「内嵌进模型」，直接抹平了原有的工具价值。

AI Search 开源项目们的 OpenRank 趋势，犹如日落西山

相反，AI Coding 类开源项目则一派繁荣，OpenRank 走势「嘴角上扬」几乎成标配。

这一轮热潮的背后，是 Claude 3.7 Sonnet 等大模型在代码生成与代码理解能力上的集体飞跃，直接重构了「人机协作」方式。

AI Coding开源项目 OpenRank 趋势，几乎个个「嘴角上扬」，蒸蒸日上。

与此同时，生态位之间也在激烈博弈中，变化最剧烈当属 Agent Framework 领域——

Dify、n8n、RAGFlow 等低代码平台工具涨幅显著，高达 72.22%；而与此同时，LangChain、LlamaIndex、AutoGen 等曾经红极一时的SDK范式整体下滑了 35.90%，跌幅居首。

这可能意味着一个转向——

从服务开发者「写代码拼接智能体」，转向更注重用户的「可视化、可定制、业务级可落地」的平台产品。

低代码平台跃升至最顶端，而 SDK 范式则集体「下滑到底」。

看见未来：七大趋势浮出水面

除了生态全景扫描，通过追踪 GitHub 上 135 个核心项目近两年的活跃度、技术走向与社区反馈，报告也归纳出七条值得所有开发者、创业者关注的趋势：

前三个聚焦智能体应用层，后四个围绕模型基础设施层

最具体感的趋势都集中在了智能体应用，而且两个都与 Manus 爆火有关。

2025年，Agent 框架热潮褪去。从 2024 年下半年开始，LangChain 等早期 SDK 型框架的热度开始「下台阶」式回落，新框架鲜有涌现，开发者重心悄然转移。而到了 2025 年，Dify、RAGFlow 等低代码工作流平台因契合企业需求迅速崛起（也是从中国开发者社区中生长出来的强势项目）。

Agent框架OpenRank排名前十的变化

如何理解新框架在 2025 年褪潮？在发布现场的圆桌讨论中，几位智能体框架圈的核心研发者表示——

与其说褪去，不如说 Agent 框架来到下半场。

过去两年，「上半场」的主旋律是开发者工具：大模型刚崭露头角，各类框架如 LangChain、AutoGen、LlamaIndex 等纷纷涌现，争相为开发者搭建「脚手架」。随着 Agent 流程逐渐标准化，开发者不再需要五花八门的新框架，

恰在此时，Manus 的「一键即用」体验爆火，让业界意识到端到端的极致体验可以为很多用户接受。在「下半场」，Agent 框架更注重应用场景落地，帮助普通用户完成更复杂任务。当然，解决真实场景的任务时需要强化学习，还面临不少挑战（如奖励设计）。

预测同时指出，2025 年低代码平台强势崛起，表明 Agent 框架的竞争从比拼技术范式，走向比拼「谁能更快成为企业的生产力工具」。那些技术节奏稳、商业理解深的开源平台，正乘势成为「 AI 新基建」的领跑者，Dify 就是代表之一。

除了框架圈，Manus 更撬动了「大厂觉醒」，连夜启动配套建设，尤其是标准协议层。

MCP 一出，标准协议层正式登场，大厂几乎倾巢而出——

有了它，直接盘活沉淀多年的「互联网家业」，现在一键接入，就能组成一个能办事、能协作的 Agent，触达生活的每一个角落。

紧接着，Google 在 2025 年开源 A2A（ Agent2Agent ）协议，解决 Agent 之间互操作的问题；CopilotKit 又推出的 AG-UI 协议进一步打通了智能体后端与前端用户。

不过，发布现场的圆桌讨论中，开发者们也指出 Agent 间的协作与传统工具调用很不同——

它往往是一个持续十几分钟乃至更长的「长程任务」，在执行过程中需要频繁与提供方交互。因此，协议不仅要能传递信息，更要支持任务状态的维护、过程控制和动态交互能力。

而目前的 MCP 协议没有涵盖这些能力，A2A 解决的还是「连得上」的问题，「协作」仍是未解之题。这一领域仍有广阔优化空间，也为开源社区留下了巨大的创新机会。

预测也指出，未来需要原生为大模型场景设计的新协议，而在这场技术升级中，开源生态将成为关键阵地。

谁能率先定义这些新协议，并将其与工具链（如 SDK、框架）打通，谁就有机会建立自己的技术闭环，抢占「模型即服务（ MaaS ）」时代的生态制高点。可以预见，未来一到两年，标准协议层将迎来激烈的生态博弈期。

再来看 AI Coding。写代码是大模型与生俱来的优势，AI 编程项目确实红火，几乎个个「嘴角上扬」。

根据项目的智能化程度（辅助还是完全替代？）以及目标受众群体（专业人士还是普通用户？）的专业化程度，将这些 GitHub 上热门的 AI Coding 类开源项目划分为四个象限。

国内百度、阿里、腾讯、蚂蚁、字节等陆续推出 AI 代码助手，率先跑马圈地。AI Coding 也成为开源生态中少数几个不依赖独占数据、也不被私有场景锁死的活跃赛道。连 OpenAI 都愿意为此砸下 30 亿美元，收购 AI 开发工具 Windsurf，可见这条赛道含金量之高。

如今，AI 代码助手已深度介入整个软件开发流程：从需求理解、系统设计，到前后端开发、测试调试，再到上线与运维。有意思的是，真正「带它上路」的，是程序员自己。但要说全面替代程序员？还远得很。

目前的 AI 编程助手，大致处于「智能辅助驾驶」阶段，能在特定任务上独立作业，比如自动生成前端页面、小程序骨架、测试脚本、代码检查等。

技术演进的关键瓶颈，预测明确指出有两个：一是上下文感知能力（ Context-Awareness ），二是领域知识融合（ Domain Knowledge Integration ）。在未来 24 个月里，AI 助手的「接单能力」会不断增强，但在人机共创的长期范式中，关键决策权，仍牢牢掌握在人类程序员手中。

与应用层的「生死时速」不同，一旦「下沉」到基础设施，趋势变化更像是静水深流。

ChatGPT 和其他大语言模型的爆火，一度把「泼天的富贵」砸向了向量数据库，一时间风头无两。但热潮也很快退去，发展趋势逐渐趋于平稳。最近两年，它们既没被「拍死」，也没卷出新高度，更多是以「相敬如宾」的姿态各自发展。

有关「向量数据库是不是伪需求」，一直争议不断。从当前的稳定趋势来看，它可能确实是一项真需求。

向量数据库的每月 Star 增量变化

预测指出，技术「厚不厚」不是重点，关键是有没有持续迭代的范式空间。对向量数据库来说，短期看是稳定期，但中长期是否能迎来「第二曲线」，还要看 AI 生态新场景的开拓速度。

发布现场的圆桌讨论中，Zilliz 合伙人、技术总监栾小凡还提到一个很有意思的点——

向量数据库不仅是模型应用阶段的「召回引擎」，也正在成为训练流程中的「数据发现器」。

如在自动驾驶场景中，如果模型在「红灯前突然窜出一只狗」这类边缘案例中表现不佳，就需要通过数据回溯找到类似样本，进一步强化训练。但这类数据往往来自非结构化源，如网页爬虫、文本、视频等，难以通过传统标签化方式精准搜集。

此时，向量数据库的价值就体现出来了——

它能帮助我们高效从海量异构数据中，按语义相似性快速定位相关样本，从而实现更精准的「问题驱动式数据提取」，支持面向真实任务场景的精细化训练。

谈到大模型训练和推理，我立刻想到「源神」DeepSeek 的一段话：

我们非常感谢开源生态系统，没有它，我们不可能在通用人工智能 (AGI) 方面取得进展。我们的训练框架依赖于 PyTorch，我们的推理引擎基于 vLLM，这两者都对加速 DeepSeek 模型的训练和部署起到了重要作用。

要说 PyTorch，人人都承认它的领先，但没想到它居然领先到了「一统江湖」的地步。

而一旦进入推理环节，很多开发者都关心一个问题：性能被拉到一个新高度，怎么提高模型的推理速度？2023 年以来，出现了一大波面向于模型部署和高效推理的大模型服务工具，在性能和生态上彼此追赶，混战一直持续到今天。

眼下，vLLM 与 SGLang 已是当之无愧的「推理顶流」，社区影响力持续扩张。

从 Top 10 的模型服务项目的排名变化上来看，仍有新的项目不断冒出来，并吸引开发者参与到其中去。例如去年 7 月清华推出的 KTransformers 和今年 3 月 NVIDIA 推出的 Dynamo。

几大模型服务项目的 OpenRank 曲线变化

2023 年 6 月，vLLM 首次发布，被视为大语言模型推理的分水岭：在不改动模型结构的前提下，它显著压缩显存占用、提升并发能力，是首个对 LLM 推理进行系统级重构的开源引擎。2025年，vLLM 发布 v1，完成核心架构升级后重回增长通道，依旧是主流部署场景中的首选框架，并具备更强的商业集成度。

SGLang 属于后者居上—— 2024 年 1 月发布，定位更贴近真实 Agent 应用场景，不仅具备更强的 GPU 并发调度能力，还支持多步推理优化。2025 年一季度，其 OpenRank 增长达 31%，远超同期 vLLM 的 17%。

SGLang 也被用于重写 Grok 2 推理技术栈，极大改善了产品体验，甚至获得马斯克的公开点赞。

有个细节，「一招鲜」也有高光时刻。

2025 年 2 月，清华大学 KVCache.AI 团队推出的 KTransformers 破解千亿级大模型本地部署难题，4090 单卡实现 DeepSeek-R1 满血运行。

该项目 OpenRank 飙升 34 倍，吸引 736 名开发者参与协作，GitHub Star 数突破 1 万。看来在大模型时代，哪怕是底层细节的优化，也可能带来「超级红利」

最后，在多模态数据治理技术的演化上，湖仓「四足鼎立」，为大模型所依赖的非结构化海量数据提供更强的存储与管理能力。元数据治理也开始拥抱非结构化数据和 AI 资产管理。

不过，Data Infra 发展了二十年，发展得非常完善，有自己的方法论。而多模态原生数据 Infra 才刚刚开始，用新的方式再做一遍时，Data Infra 遭遇过的痛点可能会再度出现。

数据湖表格式项目 OpenRank 曲线变化

元数据治理项目 OpenRank 曲线变化

「撕拉片」的方法论

为什么要做这份报告？王旭回答很直接——

蚂蚁的开源团队其实不叫「开源办公室」，而是「开源技术增长」，一个立足架构层的技术中枢，希望通过对开源社区的长期观察，为蚂蚁内部的技术路径提供决策支持。

相比 Gartner 这样的传统商业分析，开源社区数据能更早、更真实反映技术的风向变化。

为构建这张「撕拉片」，团队以 PyTorch、LangChain、vLLM 等 AI 明星项目为起点，层层扩展其技术上下游，并邀请行业专家讨论，一步步收敛出百余个活跃度与影响力兼具的核心项目。

真正支撑判断的，是 OpenRank——由华东师范大学 X-lab 开发的开源影响力指标。这次入选门槛是：2025 年 1 至 4 月的 OpenRank 月均值 ≥ 10。太旧、太新的项目都可能被筛掉。为了观察趋势，团队重点对比了项目和赛道的 OpenRank 均值变化。

发布会上，王旭还透露报告将在下半年推出更新版本。届时，低代码平台是否还能保持狂飙？协议层会否冒出新变量？AI Coding 是否还有惊喜？......

这场黑客松直播，还在继续。

....

#Manual2Skill

从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架

本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。

视觉语言模型（Vision-Language Models, VLMs），为真实环境中的机器人操作任务提供了极具潜力的解决方案。

尽管 VLMs 取得了显著进展，机器人仍难以胜任复杂的长时程任务（如家具装配），主要受限于人类演示数据和训练样本的稀缺性。

为解决这一问题，研究团队提出 Manual2Skill，一种基于 VLMs 的创新框架，使机器人能通过高级视觉说明书自主理解并执行家具装配任务，模仿人类学习装配的过程。该方法弥合了抽象指令与物理执行之间的鸿沟，显著提升了机器人在真实操作场景中的实用性。

目前，该论文已被机器人领域顶级会议 Robotics: Science and Systems XXI（RSS 2025）接收。

论文标题：Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
论文链接：https://arxiv.org/abs/2502.10090
项目主页：https://owensun2004.github.io/Furniture-Assembly-Web/

研究背景

家具装配是一项复杂的长时程任务，要求机器人：(A) 理解所有零件的拼接关系和顺序；(B) 估计每一步拼接时部件的位姿；(C) 生成物理可行的动作以完成部件组装。

尽管许多计算机视觉方法通过几何或语义技术在部件位姿预测（B）方面取得显著成果，但它们大多忽视了同样关键的拼接顺序理解（A）和动作生成（C）环节 [1, 2]。

现有的端到端机器人装配系统通常依赖模仿学习或强化学习。虽然在某些场景下有效，但这些方法需要大规模数据集和大量计算资源，难以推广至真实环境中的通用长时程操作任务 [3, 4]。

近年来，视觉语言模型（VLMs）在高层规划、环境理解甚至直接机器人控制方面展现出潜力。部分研究尝试整合这些能力用于机器人装配，但多局限于简单几何物体且在真实装配场景中鲁棒性不足 [5]。

关键问题在于，现有 VLM 方法（乃至多数当前方法）缺乏对结构化外部指导（如人工设计的说明书）的利用。这种缺失限制了它们在依赖抽象符号指令的复杂装配任务中的表现。

相比之下，人类能够从抽象的说明书中提取信息并学习操作技能，这揭示了机器人能力的一个重要缺口：从抽象的、为人类设计的指导信息中学习物体操作技能。

凭借强大的视觉与语言推理能力，VLMs 为弥合这一缺口提供了独特机遇。通过挖掘说明书中的结构化知识，VLMs 可使机器人更高效可靠地完成复杂多步骤装配任务。

Manual2Skill：基于 VLM 的说明书引导式机器人装配框架

为解决复杂长时程装配的局限性，研究团队开发了 Manual2Skill —— 一种创新框架，利用 VLMs 将基于说明书的视觉指令转化为机器人装配技能。

Manual2Skill 包含三个核心阶段：

层级化装配图生成：通过 VLM 解析说明书图像，构建描述家具部件结构关系的层级化装配图。
分步骤位姿估计：预测每个装配步骤中涉及的家具部件的精确 6D 位姿。
动作生成与执行：将位姿信息转化为可执行的机器人轨迹。

图 1：Manual2Skill 框架

该框架解决了现有机器人装配方法的两大核心限制：

通过将人类理解的抽象示意图转化为结构化装配层级图与部件位姿，使机器人能从说明书提取可操作信息，避免了对大规模高质量演示数据集的依赖。
将装配层级图作为结构化装配信息的核心表征，为真实装配任务提供通用解决方案，适用于所有多步骤复杂装配问题。

阶段 I: 层级化装配图生成

Manual2Skill 的首阶段将人类可理解的说明书转化为机器人可执行的任务规划。通过视觉语言模型（GPT-4o）对说明书示意图和预装配场景图像进行联合推理，生成编码家具部件与子组件结构关系的层级化装配图。

在此图中：

叶节点代表原子部件。
非叶节点表示通过连接部件/子组件形成的复合结构。
从叶节点向根节点遍历可获得完整的逐步装配流程。

为构建该图，Manual2Skill 通过整合多模态输入，特别是多张图像的视觉信息与文本指令组成的多轮提示序列，完成两个关键子阶段：

跨域视觉理解：通过视觉提示技术（如 Set-Of-Marks 和 GroundingDINO）和几何视觉推理，GPT-4o 将预装配场景图片中的物理部件与其说明书图示进行语义关联，从而解析每个部件的作用与位置。
结构化信息提取：基于已识别的部件信息，使用链式思维（Chain-of-Thought）、由简至繁（Least–To–Most）和上下文学习（In-Context Learning）等提示技术，判断说明书中每个步骤涉及的特定部件。

该结构化图表征为下游位姿估计与运动规划奠定基础，确保复杂装配任务的精准顺序执行。

阶段 II: 分步骤装配位姿估计

在层级化装配图确定部件组合与装配顺序后，本阶段预测每个装配步骤中所有部件的 6D 位姿，实现部件间的精确物理对齐。

与过往方法通常一次预测整个装配过程中所有零件的位姿不同，这里我们对每个装配步骤，预测这一步中涉及到的所有部件/子组件的位姿，这一设置既更贴合真实世界中的拼装过程，也能使模型避免单次输入部件数量过多引起的性能下降。

同时我们还发现，尽管家具的形态有很大差别，但其基本部件的连接方式（比如板和棍的连接）较为固定，这种分步预测的方法能使模型更好地学习到这种基本连接方式，从而对测试集的物体实现更高的预测精度。

为实现此目标，跨模态位姿估计模型对说明书图像与家具部件 3D 点云进行联合推理。模型架构包含四个核心组件：

图像编码器（E_I）：从说明书图像提取语义特征，捕获部件关系与朝向的视觉线索。
点云编码器（E_P）：编码各部件的点云数据。
跨模态融合（E_G）：使用图神经网络（GNN）整合图像与点云特征。
位姿回归器（R）：从融合特征预测各部件的 SE(3) 位姿。

给定说明书图像 I_i 和涉及部件的点云集合

，处理流程如下：

为确保预测的鲁棒性与准确性，模型采用复合损失函数：

SE(3) 变换误差（旋转测地距离 + 平移 MSE）
点云对齐损失（Chamfer 距离）
可互换部件的置换不变损失（评估所有有效排列并选择最小损失方案）

该设计使模型能够处理可变数量的输入部件，适应视觉相似/对称部件，以及泛化到训练集上未见过的新物体。

阶段 III: 机器人装配动作生成与执行

最终阶段将预测位姿转化为真实世界的机器人动作，实现装配计划的自主执行。我们在这一阶段使用基于启发式的抓取策略和稳健的运动规划算法，让机械臂抓取对应部件，并将其放置在预测位姿。

抓取规划与部件操控

我们使用 FoundationPose 与 SAM 估计场景中所有部件的初始位姿。根据部件几何特征应用启发式抓取策略：

棒状部件：沿主轴在质心处抓取。
扁平薄片部件：使用夹具/平台固定后沿边界稳定抓取。

运动规划与执行

抓取后，机器人使用 RRT-Connect（基于采样的运动规划器）计算从当前位姿到目标位姿的无碰撞轨迹。所有其他物体被视为避障点云。通过锚定位姿在轨迹中段重新评估抓取部件位置，确保精确跟踪与控制。

装配插入最终部件插入是涉及精确对齐与力反馈的接触密集型任务。由于闭环插入的复杂性，目前由人类专家完成。我们会在未来的研究中，整合触觉与力传感器实现自主插入。实验结果与分析

实验在仿真与真实环境中对多款宜家家具进行，验证 Manual2Skill 的鲁棒性与有效性。

层级化装配图生成

图 2：层级化装配图生成结果

我们在 102 本真实宜家家具说明书上测试了我们提出的层级化装配图生成方法的表现，可以看出，对于简单和中等复杂程度的家具（部件数 ≤ 6），我们的方法能比较准确地生成装配图，同时在所有复杂程度的家具上，我们的方法表现均显著优于基线方法。尽管所有方法在复杂家具上表现受限，但随着 VLM 性能的提升，我们方法的表现会随之提升。

图 3：层次化装配图可视化

位姿估计

我们从 PartNet 数据集中选取了三类物体（椅子、台灯、桌子），每类物体各 100 个，并且在 Blender 中渲染出这些物体部件组合的示意图作为说明书图片。

图 4：位姿估计实验结果

实验结果表明，凭借多模态特征融合与 GNN 空间关系建模，本方法在全部四个评价指标上超越基线方法。

图 5：位姿估计可视化

仿真测试

在 50 件简单至中等难度家具的仿真测试中，Manual2Skill 达成 58% 成功率，显著超越现有启发式方法，验证了层级化装配图、位姿估计与运动规划结合的有效性。

实物实验

我们在四款真实宜家家具（Flisat 凳、Variera 架、Sundvik 椅、Knagglig 箱）上测试了我们整套框架，体现了我们的框架在真实机器人装配任务中的可行性和出色表现。

图 6：真实世界家具装配过程可视化

零样本扩展

本方法可零样本推广至轮轴、玩具飞机甚至机械臂等手册引导式装配任务，成功率 100%，彰显 VLM-based 方案相比其他方法的泛化优势。

图 7：零样本扩展可视化

结论与展望

本文提出 Manual2Skill，一种开创性框架，通过 VLMs 使机器人能解析人工设计的视觉说明书并自主执行复杂家具装配任务。通过引入层级化图式指令解析与鲁棒位姿估计，Manual2Skill 有效弥合了抽象说明书与物理执行之间的鸿沟。

Manual2Skill 提出了一种新的机器人学习范式，机器人可以从为人类设计的说明书中学习复杂长程的操作技能，相比起收集大量人工示范数据做模仿学习，显著降低了复杂操作技能获取的成本和复杂度。同时，说明书通过抽象图表和符号表示传达操作知识，这种抽象化的表达方式捕获了操作过程的底层结构和核心逻辑，而非仅仅记录表面的动作序列。这种深层次的理解使得获得的技能能够在不同的物体配置、环境条件和机器人实体间实现有效泛化。

参考文献

[1] Yun-Chun Chen, Haoda Li, Dylan Turpin, Alec Jacobson, and Animesh Garg. 「Neural shape mating: Self-supervised object assembly with adversarial shape priors」. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12724–12733, 2022.

[2] Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vladimir G Kim, and Adriana Schulz. 「Automate: A dataset and learning approach for automatic mating of cad assemblies」. ACM Transactions on Graphics (TOG), 40(6):1–18, 2021.

[3] Mingxin Yu, Lin Shao, Zhehuan Chen, Tianhao Wu, Qingnan Fan, Kaichun Mo, and Hao Dong. 「Roboassembly: Learning generalizable furniture assembly policy in a novel multi-robot contact-rich simulation environment」. arXiv preprint arXiv:2112.10143, 2021.

[4] Zuyuan Zhu and Huosheng Hu. 「Robot learning from demonstration in robotic assembly: A survey」. Robotics, 7(2):17, 2018.

[5] Andrew Goldberg, Kavish Kondap, Tianshuang Qiu, Zehan Ma, Letian Fu, Justin Kerr, Huang Huang, Kaiyuan Chen, Kuan Fang, and Ken Goldberg. 「Blox-net: Generative design-for-robot-assembly using vlm supervision, physics simulation, and a robot with reset」. arXiv preprint arXiv:2409.17126, 2024.

....

#ZeroSearch

成本暴降88%！通义实验室、北大发布，无需搜索即可激活LLM检索能力

本文作者来自通义实验室和北京大学，第一作者是北京大学智能学院博士生孙浩，主要研究方向是RAG和Agent，在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文，师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要，近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力，但现有方法在训练过程中面临两大核心挑战：

文档质量不可控：真实搜索引擎返回内容不可控，训练过程易受噪声干扰。

搜索 API 成本高昂：Rollout 阶段频繁调用搜索 API，训练成本极高。

为了解决这些问题，我们提出了 ZeroSearch 框架 —— 无需真实搜索，直接用大语言模型模拟搜索引擎，并引入课程学习策略，在显著降低 88% 成本的同时，在多项任务上性能超过依赖真实搜索引擎的方法。

论文标题：ZeroSearch: Incentivize the Search Capability of LLMs without Searching
论文地址：https://arxiv.org/pdf/2505.04588
代码地址：https://github.com/Alibaba-NLP/ZeroSearch
项目主页：https://alibaba-nlp.github.io/ZeroSearch
Huggingface 主页：https://huggingface.co/collections/sunhaonlp/zerosearch-v2-6827f4ee6b6265069d443d4e

方法

无需搜索的强化学习框架

传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互，产生大量 API 开销，而大语言模型在预训练阶段积累了丰富的世界知识，具备根据 query 返回相关信息的能力，因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎（Simulation LLM），无需真实搜索，即可为策略模型生成检索文档，大幅降低了训练成本：

为了避免策略模型记住由 Simulation LLM 生成的文档，我们对文档进行了损失屏蔽（Loss Masking），仅对策略模型自己生成的 token 进行损失计算。

结构化训练模板

ZeroSearch 无需初始监督微调（SFT），直接对预训练语言模型进行强化学习训练，通过采用结构化的训练模板，引导模型在每一轮交互中划分思维步骤：

<think > 对已有信息分析，明确下一步行动 </think>
<search > 提炼搜索 query </search>
<answer > 总结推理过程，形成最终答案 </answer>

这种结构化模板提升了模型推理路径的清晰度和可解释性，格式化的输出便于提取最终答案进行奖励计算。

搜索模拟微调

直接通过 Prompt 指导 LLM 生成的模拟检索内容，往往与真实搜索引擎返回的检索内容风格差异较大，且质量不稳定。为了解决这些问题，我们采用了模拟微调策略，具体包含以下三步：

轨迹采集：从策略模型与真实搜索引擎的交互中采集 Query-Document 对
质量评估：利用 Qwen-Max 作为评审，对文档进行有用性判别
监督微调：构建高质量训练集，进行轻量级微调 (2 万条数据，7B 模型训练时间仅需 30 分钟)

此外我们还在 Prompt 内引入原始问题的正确答案，从而扩充 Simulation LLM 的知识边界。

基于课程学习的文档生成策略

经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令，灵活控制生成文档的质量。基于这一能力，我们进一步引入了课程学习策略，通过逐步降低文档质量，循序渐进地提升训练难度，从而更有效地激发模型的推理能力。

为实现训练难度的平滑过渡，我们设计了一个指数函数来控制 Noisy 文档的生成概率：

训练初期：训练难度上升缓慢，模型能够稳步学习基本的输出格式以及任务逻辑。
训练后期，训练难度快速上升，从而促使模型不断强化其推理能力与鲁棒性。

该由易到难的训练过程能够持续激发策略模型的推理能力，有效提升强化学习训练的稳定性与最终表现。

奖励函数设计

在实验中，我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案，出现 Reward Hacking 问题，我们改用 F1 Score 作为奖励指标，更加关注输出的准确性与简洁性，有效抑制了冗余答案的产生。此外，我们发现模型在训练中即便不显式监督输出格式，也能生成结构规范的回答，因此没有引入格式奖励。

实验结果

主要性能表现

ZeroSearch 超越所有基线方法，该性能优势在域内以及域外数据集上均得以体现，展示了我们方法的鲁棒性。
ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1，凸显其在大规模强化学习中替代真实搜索引擎的潜力。
ZeroSearch 展现了强大的泛化能力，随着模型参数量增加，其性能进一步提升，体现了良好的扩展性。

与真实搜索引擎对比

ZeroSearch 与真实搜索的奖励趋势相似，随着训练的推进，ZeroSearch 和 Search-R1 的奖励分数都稳步上升。
ZeroSearch 的奖励提升更加显著，虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1，但它最终实现了超越，并且波动更小。
ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力，在这两类模型下，ZeroSearch 的奖励表现都持续提升。

模拟搜索设定对比

相对于 Base Model，不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力。
基于 Prompt 的方法效果较差，主要由于其生成的文档风格与真实搜索引擎差异较大，且质量不稳定，难以支撑稳定训练。
经过微调的 Simulation LLM，即便仅有 3B 参数量，也能显著提升策略模型性能；随着模型规模扩大，性能进一步提升：SFT-7B 可达到与 Google 相当的效果，SFT-14B 甚至实现超越 Google 的性能。

交互轮数研究

训练初期：交互轮数迅速下降，奖励缓慢上升

此阶段模型尚未掌握搜索调用机制，经常产生冗余交互，检索效果不佳。

训练中期：交互轮数迅速回升，奖励同步显著提升

模型逐渐学会如何高效调用搜索引擎，能够获取准确信息，回答质量显著提高。

训练后期：交互轮数和奖励趋于稳定

模型已适应数据集的跳数分布，交互策略逐步固化，在课程学习设定下，模型需提升推理能力以应对更低质量文档，从而维持较高奖励水平。

课程学习策略研究

实验结果表明，Curriculum（由易到难）训练策略显著优于 Random（随机难度）训练策略，验证了该训练范式在激发模型推理能力方面的有效性。
与 Random 类似，真实搜索引擎在训练过程中难以控制文档难度，导致模型缺乏系统性的能力提升路径，从而限制了推理能力的持续进化。

总结

本文提出了 ZeroSearch，一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架，我们使用轻量级的监督微调将 LLM 转变为一个检索模块，在 RL 训练阶段，我们基于课程学习逐步降低检索模型生成文档的质量，通过不断提升检索难度，逐步激发策略模型推理能力。

大量实验表明，ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力，7B 模型的检索性能已接近真实搜索引擎，而 14B 模型甚至实现了超越。此外，ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力，并可兼容多种 RL 算法，具备极强的适应性与可扩展性。

....

#AI科学家Zochi在ACL「博士毕业」

eta测试今日上线

又有一个 AI Scientist 的论文通过了顶会同行评审。

今天，Intology 宣布他们的 AI 科学家 Zochi 的论文被顶会 ACL 主会录用，成为首个独立通过 A* 级别科学会议同行评审的人工智能系统，同时开放了 Zochi 的 Beta 测试。

Beta 注册地址：https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform

近几个月来，多个团队已证明了人工智能在研讨会级别的会议上能做出贡献，此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通过了 ICLR 会议一个研讨会的同行评审，详见报道《AI 写的论文能过审？双盲评审 6.25 分，达到 ICLR 研讨会水平》。

但论文被顶级科学会议的主会议录用，则意味着跨越了一个高得多的门槛。

提交给 ICLR 2025 的研讨会论文录用率约为 60-70%，而像 ACL（以及 NeurIPS、ICML、ICLR、CVPR 等）这样的顶级会议的主会议录用率仅为 20% 左右。 ACL 是全球自然语言处理 (NLP) 领域排名第一的科学会议，在全球所有科学会议中排名前 40。

此类顶级会议主会议的同行评审过程旨在进行高度筛选，对新颖性、技术深度和实验严谨性都有着极为严格的标准。大多数计算机科学领域的博士生需要花费数年时间才能在同等声望的会议上发表论文。

这使得 Zochi 成为首个达到博士级别的智能体：人工智能系统首次独立完成了科学发现，并将其发表在与该领域顶尖研究人员相当的水平上。

Tempest：基于树搜索的大型语言模型自主多轮「越狱」

话不多说，我们先来看看这篇论文吧。

论文标题：Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search

论文地址：https://arxiv.org/pdf/2503.10619

该研究的前期版本（名称为 Siege）曾被 ICLR 研讨会接收。后续，Zochi 对其设计进行了修改，并为提交 ACL 进行了更广泛的实验。

这项研究的一个特点是其自主性程度：人类研究者仅设定了「开发新型『越狱』方法」的初始目标。Zochi 随后独立确定了多轮攻击这一具体研究方向，设计了 Tempest 方法，编写代码并进行了测试，执行了所有实验，并撰写了论文草稿。人类的参与主要限于图表创建和格式修订。

该研究从分析「越狱」相关文献开始，设计了一种基于树搜索的方法。该方法利用并行探索同时扩展多个对抗性提示分支，并集成了跨分支学习和部分合规跟踪功能。系统自主实现了 Tempest，并在多个大型语言模型上进行了评估。

评估结果显示，Tempest 在 GPT-3.5-turbo 上的成功率为 100%，在 GPT-4 上的成功率为 97%。与所比较的单轮和多轮基线方法相比，Tempest 在使用较少查询次数的情况下达到了更高的成功率。

这项工作的结果提示，语言模型的安全措施可能通过多轮对话被系统性地绕过，其中逐步的策略性互动可能导致模型产生原本被限制的输出。这些发现反映了当前安全机制中可能存在的某些不足，并为研究更有效的多轮对抗攻击防御策略提供了数据和视角。

批评风波

2025 年 3 月 18 日，Intology 宣布推出了 Zochi，并称其为世界上第一位「做出最先进贡献」的 AI Scientist，它的研究成果已被 ICLR 2025 研讨会接收。

Intology 官网：https://www.intology.ai/

通过标准化的自动审稿人评估，Zochi 的论文平均得分为 7.67 分，而其他由人工智能系统生成的公开论文得分在 3 到 4 分之间。

但 Intology 很快就陷入了批评风波。Sakana、Intology 和 Autoscience 都声称其使用 AI 生成的研究被 ICLR 接受，但只有 Sakana 在提交其 AI 生成的论文之前向 ICLR 领导通报了此事，并获得了同行评审者的同意。

几位 AI 学术界人士在社交媒体上批评了 Intology 和 Autoscience 的行为，认为这是对科学同行评审过程的滥用。

关于 Zochi

Zochi 是一个 AI research agent，能够自主完成从文献分析到同行评审出版的整个科学研究过程。该系统通过一个旨在模拟科学方法的多阶段流水线进行运作。

技术报告：https://github.com/IntologyAI/Zochi/blob/main/Zochi_Technical_Report.pdf
代码：https://github.com/IntologyAI/Zochi

Zochi 的工作成果

通过正交知识空间实现高效模型自适应

为解决模型微调（PEFT）中的「跨技能干扰」问题，Zochi 提出了 CS-ReFT。该方法创新地通过学习「正交子空间表征」来编辑模型行为，而非修改权重。这使得 Llama-2-7B 仅用 0.0098% 的参数就实现了 93.94% 的 AlpacaEval 胜率，超越了 GPT-3.5-Turbo，并获得了同行的高度评价。

通过自主多轮红队测试发现 AI 漏洞

在 AI 安全方面，Zochi 开发了 Siege 框架，利用树搜索算法进行高效的「多轮越狱」攻击。通过识别并利用 LLM 的「部分遵从」漏洞，Siege 对 GPT-3.5 和 GPT-4 实现了极高的攻击成功率（100%/97%），提示需要重新评估现有防御策略。其扩展工作已被 ACL 2025 接收。

计算生物学进展（EGNN-Fusion）

Zochi 将 AI 技术应用于计算生物学，推出了 EGNN-Fusion，用于预测蛋白质 - 核酸结合位点。该方法在保持顶尖性能的同时，将参数数量锐减了 95%，证明了 Zochi 在解决复杂跨学科科学问题方面的强大实力和多功能性。

评估结果

与所有基线系统相比，Zochi 持续产出更高质量的研究论文。在使用基于 NeurIPS 会议指南的自动审稿人进行评估时，Zochi 的论文获得了 8、8 和 7 的高分，均远高于顶级机器学习会议平均录用论文 6 分的接收门槛。

相比之下，其他 AI 系统的论文得分要低得多，平均约为 4 分。考虑到每个系统处理的问题复杂性存在巨大差异，这种评估差距尤其显著。基线系统专注于相对受限的问题 —— 例如二维扩散模型、玩具规模的语言模型或特定的认知偏差 —— 而 Zochi 则致力于解决开放式挑战，提出新颖且可验证的最先进方法。

作为一项探索性练习，Zochi 在 MLE-Bench 的部分基于 Kaggle 的挑战上进行了评估，以考察其在传统机器学习工程任务上的表现。在没有任何任务特定优化的情况下，Zochi 达到了最先进水平，在 80% 的任务上超过了人类表现中位数，并在 50% 的任务中获得奖牌。这些成果超过了之前的基准测试，如 Agent Laboratory、AIDE 和 OpenHands，进一步突显了 Zochi 核心能力的稳健性和适应性。

....

#Pangu Ultra MoE 模型架构与训练方法

还得是华为！Pangu Ultra MoE架构：不用GPU，你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型，此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告，进一步披露了这个模型的细节。

训练超大规模和极高稀疏性的 MoE 模型极具挑战，训练过程中的稳定性往往难以保障。针对这一难题，盘古团队在模型架构和训练方法上进行了创新性设计，成功地在昇腾 NPU 上实现了准万亿 MoE 模型的全流程训练。

盘古团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化的方法，在昇腾 NPU 上实现了 10+ T tokens 数据的长期稳定训练。此外，他们还提出了 EP group loss 负载优化方法，这一设计不仅保证了各个专家之间能保持较好的负载均衡，也提升了专家的领域特化能力。同时，Pangu Ultra MoE 使用了业界先进的 MLA 和 MTP 架构，在训练时使用了 Dropless 训练策略。

技术报告标题：Pangu Ultra MoE 模型架构与训练方法
技术报告地址：https://raw.gitcode.com/ascend-tribe/pangu-ultra-moe/raw/main/Pangu_Ultra_MoE_CN_Report.pdf

破解准万亿 MoE 模型性能瓶颈

打造芯片协同的先进架构

近期，盘古团队在 MoE 模型训练领域再进一步，重磅推出参数规模高达 718B 的准万亿全新模型 ——Pangu Ultra MoE。该模型旨在实现超大规模 MoE 架构在模型效果与效率之间的最佳平衡。

为了达到这个目标，研究团队在设计 Pangu Ultra MoE 架构的时候，充分考虑昇腾硬件特性，在昇腾 NPU 平台上，融合计算、通信和内存等多维度指标，构建了大规模系统模拟器，并系统性地探索约一万个不同的 MoE 结构组合，最终搜索出一套在训练与推理吞吐上均达最优的架构方案。

Pangu Ultra MoE 是一个超大规模、高稀疏比的架构，同时也包含 MLA 和 MTP 等先进架构和特有的 DSSN 稳定性架构和 EP group loss 负载优化。下面是 Pangu Ultra MoE 的主要的架构和训练特性：

超大规模和超高稀疏比：采用 256 个路由专家，每个 token 激活 8 个专家，模型总参数量 718B，激活量 39B。
MLA 注意力机制：引入 MLA（Multi-head Latent Attention），有效压缩 KV Cache 空间，缓解推理阶段的内存带宽瓶颈，优于传统 GQA 方案。
MTP 多头扩展：采用单头 MTP 进行训练，后续复用 MTP 参数扩展至多头结构，实现多 Token 投机推理，加速整体推理过程。
Dropless 训练：采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题，并且提升训练的数据效率。
RL 训练：采用迭代难例挖掘与多能力项均衡的奖励函数，并参考 GRPO 算法，提升了模型的训练效率与最终推理性能。

以下是 Pangu Ultra MoE 昇腾亲和设计考虑：

隐藏维度贴合硬件：设置 7680 维隐藏层，精准匹配昇腾芯片的 16×16 MatMul 单元，充分发挥 Cube 核心的计算潜力。
层数亲和流水线并行：设置 61 层 Transformer 结构，并预留额外 MTP 层空间，保障计算负载均衡的 PP/VPP 流水线调度，减少 pipeline 气泡，提升整体并行效率。
专家规模符合幂次规律：路由专家数量设为2⁸=256，在 TP×EP 并行下提升 All-to-All 通信效率，有效加速分布式训练。

Pangu Ultra MoE 的预训练阶段在 6k 到 10k 张 NPU 上进行，全流程采用 dropless 训练模式。预训练阶段进行了长序列扩展，最终模型具备 128k 长序列能力。在后训练阶段，Pangu Ultra MoE 移除了负载均衡辅助损失，保留专家间已有的特化能力，从而进一步提升模型对目标数据的学习效率。如表1所示，最终模型在多个权威开源评测集上展现出一流的效果。

表 1: Pangu Ultra MoE 与目前主流模型效果对比

面向超大MoE模型稳定训练新范式：

DSSN结构和TinyInit加持

梯度突刺率下降 51%

支撑 10+T tokens 数据长稳训练

随着参数规模和数据体量的激增，大模型训练面临前所未有的稳定性挑战。频繁的梯度范数突刺已成为阻碍收敛效率与模型性能提升的主要瓶颈。如何在确保训练深度和宽度扩展的同时，维持梯度信号的稳定传递，成为构建高可靠性大模型架构的关键课题。在 Pangu Ultra 稠密模型 [2] 的训练中，Depth-Scaled Sandwich-Norm 和 TinyInit 方法在保障训练稳定性上起到了关键性的作用，所以 Pangu Ultra MoE 依旧采用这个方案来控制训练稳定性。经过实验证明，此设计在 Pangu Ultra MoE 的训练中同样能起到增强稳定性、加快收敛速度的作用。

Depth-Scaled Sandwich-Norm（DSSN）：传统的 Pre-LN 结构存在因为子层输出规模波动而导致训练不稳定的现象，DSSN 是为了解决这一问题而提出的。通过在每个子层输出后加入额外的层归一化，并引入深度缩放的初始化方式，从而稳定网络各层的输出尺度，达到抑制梯度异常、降低范数波动的目的。

TinyInit：Transformer 模型普遍采用较小的初始化尺度，TinyInit 提出一种标准差为

的初始化方案，能够同时兼顾模型深度与宽度，其中d表示隐藏维度，L表示模型层数。同时，对词嵌入层采用标准差为 0.5 的初始化。实验表明，这样的初始化策略有助于提升模型性能和训练稳定性。

Depth-Scaled Sandwich-Norm + TinyInit 的方案减少了 51% 的突刺量（见图 1），缓解了梯度范数频繁突刺的问题，能够有效降低大模型训练过程中的不稳定性，加快模型收敛，提升模型性能。同时 DSSN+TinyInit 被应用到 Pangu Ultra MoE 中实现了 10+T tokens 数据的长稳训练。

图 1: 训练过程的梯度范数对比图（黑色实线为突刺分界线）。DSSN+TinyInit 使梯度突刺率从 1.54% 下降到 0.76%，相对下降 51%。

基于 EP group 的负载均衡：

让计算效率和路由表达能力可以兼得

在训练混合专家模型（MoE）时，容易出现专家负载不均衡的情况。负载不均衡指的是不同专家被分配的 token 数量存在显著的差距。当采用专家并行策略（EP，expert parallelism）时，负载不均衡会影响计算效率，被分配过多 token 的专家会成为计算瓶颈，而其他专家则处于低利用率状态。同时负载过低的专家可能存在训练不充分的问题，影响最终的模型效果。因此如何使 token 更均衡地分布至不同专家，对提高混合专家模型的训练效率和效果非常重要。

为了保证负载均衡，一般通过增加辅助的负载均衡 loss（auxiliary loss）来约束 tokens 在专家之间均衡分布。然而，如果负载均衡 loss 过度地约束 tokens 分配的均衡性，也会影响模型路由的表达能力。之前主流的负载均衡 loss 一般是约束单个序列或者单个 micro batch 内的 token 分配均衡性，而单个序列往往是来自同一领域的数据，过度的均衡可能影响专家特化（expert specialization）。

盘古团队发现对于采用专家并行策略训练的模型，可以设计一种对模型路由约束更小，同时不影响计算均衡性的 EP-Group 负载均衡 loss。当采用了专家并行，专家会被分配到不同卡上进行并行计算。每块卡上的专家会接收来自 EP 组内所有卡上的 micro batch 路由给自己的 token。所以可以设计一个负载均衡 loss，来约束 EP 组内所有 micro batch 路由到组内专家之后的均衡性。这相当于把 EP 组内部的所有 micro batch 联合起来计算负载均衡的 loss, 这样训练时可以容忍单个 micro batch 的不均衡，只要多个 micro batch 的 token 路由到专家之后是均衡的即可。

为了验证 EP-Group 均衡损失函数的效果，盘古团队使用一个 20B 参数量的 MoE 模型进行了 100B 数据量的对比实验。结果如表 2 所示，可以看到 EP-Group 均衡损失函数在大部分任务相比主流的 Micro-batch 上都有显著的优势，平均提升了 1.5 个点。

表 2: Micro-batch 和 EP-Group 的 auxiliary loss 效果比较

同时盘古团队对 Pangu Ultra MoE 的专家特化进行了分析，结果如图 2 所示，可以看到不同领域的数据对专家的选择存在显著的差异，这表明 EP-Group 均衡损失函数给模型提供了灵活的路由选择空间，促进了专家特化。

图 2: Pangu Ultra MoE 的专家特化。其中 ar，de，fr，ru 分别代表阿拉伯语，德语，法语，以及俄语。

多 Token 投机推理新路径：

MTP 头延迟扩展策略

投机接受长度预期提升 38%

投机推理是一种提升大模型生成效率的有效方法，其核心思想是在主模型生成 token 之前，由一个轻量辅助模块预先预测多个候选 token，并通过快速校验机制决定是否接纳，从而实现推理过程的并行化与加速。在当前大模型推理中，Multi-token Prediction（MTP）技术已成为实现多 token 级别投机生成的重要手段。

盘古团队在实践中发现，获取多 token 的投机推理能力并不需要从训练开始便配置多个 MTP 头，而是可以在训练后期对单头 MTP 进行扩展来达到类似的效果。为验证这一策略的有效性，团队使用 20B MoE 为主干模型，训练 185B 数据。具体对比设置为：以两个 token 的投机推理为目标，分别训练了从头开始配置单 / 两个 MTP 头的模型（即单头从头训练和双头从头训练），以及在单头 MTP 模型训练至收敛后，通过复制已有头的参数再增训出第二个 MTP 头的模型。对于扩增的模型，对比全参续训以及冻结主干和一头的续训的效果，即双头扩增全参训练和双头扩增冻结训练。下游使用 LAMBADA 续写作为评测任务。

结果如图 3 所示。双头扩增模型的接受长度和延迟基本和双头从头训练一致，而双头的接受长度约 2.30，单头的接受长度约 1.67，双头相对单头提升约 38%。在模型效果方面，双头扩增模型全参训练和从零训练相当，而由于冻住了主干和一头，双头扩增冻结训练的精度在扩增的位置基本保持不变。这表明后期的 MTP 扩展可以达到多头的从头训练的投机推理效果，可以在模型训练早期保持较小的 MTP 配置并在后期再进行扩展，兼顾计算成本和推理能力。

图 3: 20B MoE 的 MTP 在 LAMBADA 续写上的投机推理结果。在接受长度上，双头相对单头提升约 38%，而双头可以基本无损地通过后期扩增单头得到。

迭代难例挖掘与多能力协同：

后训练强化学习持续提升的关键

模型后训练的过程中，团队参考了业界常规的 GRPO 算法提升模型的推理性能。然而，在超大参数规模情况下，直接应用 GRPO 会带来两方面的问题：1. 算法训练需要依赖多回复通过率在 (0,1) 内的数据，随着模型性能的提升，相同 prompt 的推理结果准确率越来越高，导致训练过程中被 “浪费” 的数据不断增加，降低推理效率；2. 模型训练需要兼顾多能力协同提升，包括数学、代码和通用能力等，不同能力项的奖励函数设计会导致模型能力增长上的不匹配，出现 “跷跷板” 问题。

图 4: Pangu Ultra MoE 的强化学习训练系统

为了解决上述两个实践难题，盘古团队设计了 Pangu Ultra MoE 的强化学习训练系统，如图 4 所示，提升了大 MoE 模型的训练稳定性与推理性能。系统设计的关键在于两个部分：（1）迭代难例挖掘：模型阶段性更新后，从初始的数据池中进行多回复推理，选取回复通过率在 (0,1) 的数据组成 RL 训练数据池，以保持推理效率最大化；（2）多能力项奖励系统：为了确保模型多能力项协同提升，数学和代码均采用了基于规则的奖励，通用奖励模型则使用 LLM-as-a-judge 的方法对生成的回复质量进行评分，并对最终的 reward 进行归一化处理，保证了模型在多个能力项的综合表现。

[1] Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs

https://arxiv.org/abs/2505.04519

[2] Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

https://arxiv.org/abs/2504.07866

....