51c大模型~合集175

whaosoft-143

4599人浏览 · 2025-08-28 22:25:59

whaosoft-143 · 2025-08-28 22:25:59 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft/14152349

#从RAG到Deep Research全景综述

一文看懂AI搜索与Web智能体

一文带你了解Deep Research和Web Agent背后的原理。

1. 摘要

随着互联网技术的发展，信息搜索变得日益重要；高效的检索、评估、筛选和管理信息资源已成为必备技能。传统搜索引擎往往难以准确把握复杂的人类意图，因此获取最终答案常常耗时费力。近年来，大型语言模型（LLMs）在语言理解与生成方面表现突出，但在获取外部知识和最新信息上仍存在局限。AI搜索和Web智能体通过将 LLMs 能力融入传统互联网搜索流程，能够更好地应对复杂用户问题，显著提升信息浏览与检索的效率与准确性。

如图1所示，本文对近些年AI搜索相关80余篇工作进行了深入回顾。重点涵盖（1）基于文本的 AI 搜索、（2）Web智能体、（3）多模态 AI 搜索与Web智能体、（4）基准评测、（5）AI搜索软件与产品。

详细可参考论文链接：

https://www.preprints.org/frontend/manuscript/79453d62cbbfce9ac42239071098a3d9/download_pub

图1. 近年来AI搜索和Web智能体相关工作概览

2. 文本AI搜索

基于文本的AI搜索代表了信息检索系统的重大变革，它从传统搜索引擎发展到融合检索增强生成（RAG）工作流和深度搜索能力的复杂方法。这种技术的核心在于将LLMs的强大语言理解和生成能力与搜索引擎的海量信息获取能力相结合，以解决复杂的现实世界信息检索挑战。一种高效且经典的workflow如图2所示，包含有几个重要模块：意图模型，问题改写模型，搜索引擎，网页重排模型，总结模型。

图2. 基于文本的AI搜索经典工作流图

检索增强生成（RAG）工作流

朴素的AI搜索采用类似RAG的思路，如图3所示，本质上是检索（Retrieval）全网知识库来增强（Augment）大模型的生成（Generate）准确答案的能力。传统的RAG方法通过预定义的工作流程运行，主要包含四种范式。（1）顺序RAG采用线性的"检索-然后-生成"工作流，首先获取相关文档，然后基于这些文档生成最终回答。（2）分支RAG通过多个并行管道处理输入查询，每个管道都可能涉及自己的检索和生成步骤，然后合并输出以获得全面的答案。（3）条件RAG引入决策模块来自适应地确定给定查询是否需要检索，提高了系统的灵活性和鲁棒性。（3）循环RAG具有迭代和交互式的检索-生成循环，能够进行深度推理并处理复杂查询。

图3. 基于RAG的AI搜索流程图

端到端深度搜索方法

与传统RAG工作流不同，深度搜索方法通过在端到端连贯推理过程中调用搜索引擎来获取外部知识，以解决复杂的信息检索问题。这种方法的核心优势在于不需要预定义的工作流程，模型可以在推理过程中自主决定何时调用与搜索相关的工具，使其更加灵活和有效。深度搜索方法能够让模型在遇到不确定信息时自主检索外部知识，有效解决了长链式思维推理中的知识空白问题，在数学、科学、编程和多跳问答任务中都表现出显著的性能提升。

（1）无需训练的框架设计

如图4所示，无需训练的方法通过精心设计的指令来增强推理模型的搜索能力，使模型能够意识到其任务性质以及如何正确使用搜索工具。Search-o1等代表性工作提出了智能体RAG机制，允许推理模型在主要推理过程中遇到不确定信息时自主检索外部知识。这些方法还引入了文档深度推理过程，在每次搜索调用后深度分析检索到的文档内容，将简洁有用的信息返回到主推理链中。后续的WebThinker、WebDancer、ManuSearch等工作进一步发展了这一范式，通常引入对收集的网页URL的浏览功能，以实现深度网络探索。此外，一些工作如WebThinker还探索了在收集信息的同时自主撰写研究报告，为用户提供更全面和前沿的知识。

图4. 无需训练的端到端基于深度搜索的AI搜索流程图

（2）基于后训练的方法

如图5所示，基于训练的方法设计各种训练策略来激励或增强LLM在推理过程中的搜索能力，这些策略涵盖预训练、监督微调（SFT）和强化学习（RL）等多个层面。在预训练阶段，MaskSearch框架引入检索增强掩码预测任务，训练模型使用搜索工具来填充被掩码的文本。在监督微调方面，多种方法专注于合成包含搜索动作的长链式思维数据，如CoRAG通过拒绝采样自动生成检索链，ReaRAG通过策略蒸馏构建专门的数据集。强化学习训练最近获得了显著关注，包括基于直接偏好优化（DPO）的方法和基于PPO、GRPO等的训练策略。这些方法通过设计先进的奖励函数、结合结果和过程奖励、提高训练效率等方式，不断优化模型对搜索工具的使用效率和准确性，使其能够更有效地处理复杂的信息检索和推理任务。

图5. 有后训练的端到端基于深度搜索的AI搜索流程图

3. Web Agent

Agent是一种自主的智能体，能够响应输入、执行和上下文相关的动作，其核心目标是模拟人类的决策过程。而Web Agent是Agent在垂直领域的应用。不同于AI搜索，Web智能体模拟人类浏览网页的过程，在当前网络环境上获取信息决定后续操作。

基于提示词的Web Agent

如图6，基于提示词的Web Agent这种方法不需要对模型的参数进行调整，所以方便快捷，所需的资源也较少。这类Web Agent致力于精心设计的提示词（Prompt）工程，将输入的信息通过筛选、拼接、结构化等方式进行处理，形成特定格式的Prompt，便于通用LLM进行理解以获取结果。例如WebVoyager对网页的截图和网页的结构化数据结合，形成Prompt输入GPT-4V进行处理，输出下一步操作，直至获取最终答案。

图6. 基于提示词的Web智能体

基于后训练的Web Agent

鉴于Web Agent实际使用时网络环境和网页浏览任务的复杂性，如图7所示，Web Agent需要通过后训练如SFT或RL来微调模型网页知识，从而返回下一步的决策。WebAgent-R1就是利用强化学习，以DeepSeek-R1为基础模型，通过改进的GRPO构建纯端到端Web Agent。另外一种常用方法就是SFT，比如Falcon自主构建图形用户界面（GUI）数据集，再通过微调使LLM可以更好地处理GUI信息，增强Web Agent浏览GUI的能力。

图7. 基于后训练的Web智能体

4. 多模态AI搜索与Web智能体

当用户的问题或答案中包含图片时，就需要多模态 AI 搜索；另外互联网上的信息往往以图文交织的形式呈现。如图8所示，你在博物馆拍下一件古董的照片，想要了解它背后的历史背景或相关人物，这就需要多模态AI搜索。近来，多模态大语言模型（MLLMs）在视觉感知，理解和推理中应用广泛。经典的模型如GPT-4V，LLaVA等在学术界和工业界应用广泛。

图8. 多模态AI搜索流程示例图

多模态AI搜索的代表工作包括MMSearch和MMSearch-R1。如图9所示，MMSearch将AI搜索流程中三个阶段requery，rerank，summarization里的LLM都替换成了MLLM。MMSearch-R1采用强化学习和多轮搜索的方式来进一步提升基于搜索的图片问答能力。

图9. 两种多模态AI搜索方法

此外还有多模态Web Agent，这种Web Agent模拟人类视觉通过辅助输入网页截图实现拟人化操作，显著提升在复杂网络环境中的任务完成效率。代表作有SEEACT，WebVoygar，WebWatcher。例如如下任务：在xx汽车租赁网站上“以最低的价格租一辆轻型卡车”。多模态Web智能体利用类似GPT-4v的MLLM来视觉感知网页图片中不同类型的汽车，生成思维链，输出可执行的网页操作。

5. 评测集（1）文本AI搜索评测集

对AI搜索模型进行科学评估，是推动其技术发展的关键一环。为此，研究者们构建了一系列评测基准来衡量模型在真实场景下的检索与推理能力。

传统评测基准及其局限性 传统的评测基准，如Natural Questions (NQ)、HotpotQA、FEVER等，主要用于评估模型在多跳推理、事实核验等任务上的表现，其数据源通常是维基百科等结构化知识库。然而，随着大模型能力的飞速提升，这些传统评测集已逐渐“饱和”，顶尖模型在这些任务上接近满分，难以有效地区分出模型间的真实能力差距。

现代浏览基准的挑战 为了更真实地反映现实世界的信息检索挑战，研究者们开发了新一代的现代浏览基准，如BrowseComp、BrowseComp-ZH和Mind2Web 2。这些评测集的核心特点是高度复杂且贴近真实应用场景。它们要求模型不再是简单地进行单次查询，而是像人类一样，在复杂的互联网环境中进行持续的导航、推理和信息整合，解决需要多步骤才能找到答案的难题。

如图10提到的BrowseComp-ZH中的一个问题就极具代表性。要解决此问题，AI模型必须具备以下能力：

问题分解：将一个复杂问题拆解为三个关于不同角色的独立信息线索。

多轮搜索：针对每个线索执行独立的网络搜索，如“1993年出道的女演员”、“丈夫是湖州人的女演员”等。

信息整合与推理：将多轮搜索得到的分散信息进行交叉验证和关联，最终推理出所有线索共同指向的唯一答案。

这类高难度的评测任务，能够更精准地检验AI搜索模型在开放环境下的真实能力，从而推动技术向着更智能、更实用的方向演进。

图10. AI搜索评测集

（2）Web智能体评测集

Web Agent 基准测试模拟了现实世界网络环境中的交互式任务，评估Agent在导航、操作和推理方面的能力。主要分为两类，第一类是通用评测基准，评估Web Agent在多样网站完成任务的能力，如Mind2Web和WebArena。Mind2Web部分网站和任务如图11所示。第二类是针对特定网站和任务的专用评测基准，如DeepShop和SafeArena，分别在电子商务和恶意浏览两个方面对Web Agent进行评估。

图11. Mind2Web评测集

（3）多模态AI搜索评测集

对于多模态AI搜索评测集，MMsearch评估了MLLM在AI搜索流程中的三个任务的能力。LIVEVQA是图片知识问答，如图12所示，对于一些复杂或者实时问题需要借助互联网搜索才能回答准确。VisualWebArena是评估多模态Web智能体的评测集。

图12. LIVEVQA评测集

6. AI搜索软件与产品

AI搜索产品已迅速分化为全球通用型产品、垂直领域产品和集成化助手三大类别。下文将分别介绍这三个类别的核心产品。

（1）全球通用型AI搜索产品

作为深度研究的先驱，OpenAI的ChatGPT DeepResearch。Perplexity 的DeepResearch使用最为广泛且效果优异，可以追踪热点话题，特别适用于学术调研，文献综述与技术写作。其他广泛使用的软件和产品还有：Google的Gemini DeepResearch，字节豆包，腾讯元宝等。豆包和元宝通过融入自家生态内容为用户提供更为丰富的内容。我们还调研了其他产品，有些是学术研究，包括：Nano AI，Kimi，DeepSeek，夸克，MiroMind ODR和Manus。

（2）垂直领域AI搜索产品

MediSearch提供循证医学解答，如药物相互作用、治疗方案，大量医疗从业者将其用于临床决策支持。Devv.ai作为代码专用搜索引擎，提供实时调试代码片段与GitHub集成，该工具支持中文查询但仅限于编程场景。Consensus覆盖2亿余篇科学论文，运用自然语言处理技术提取研究假设与方法论，在文献综述环节可节省50%时间。

（3）集成化AI搜索助手

WallesAI作为浏览器侧边栏助手，支持解析PDF、视频及网页内容，实现跨文档问答与内容导出功能。必应聊天深度集成Edge浏览器生态，通过实时网络索引与来源标注提供附带引文的答案，构建了搜索-浏览一体化体验。

#全球AI百强榜发布

ChatGPT稳坐第一，DeepSeek第三，前50有22个来自中国

a16z最新发布「全球Top100消费级GenAI应用榜单」，AI竞争格局逐渐稳定，中国力量全面崛起，DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领跑，谷歌Gemini紧随其后，Grok高速逆袭。整体来看，全球AI正进入多极化竞争的新阶段。

就在刚刚，a16z最新一期的「Top 100消费级GenAI应用榜单」出炉！

本期榜单传递出一个最核心信息：AI产品竞争的生态格局正日趋稳定！

网页排行前50

移动应用排行前50

不论是你常用的DeepSeek、豆包、夸克，还是一直领先的ChatGPT和Gemini，或者是新进榜单Lovable等，这场AI产品的「百团大战」依然在继续！

中国开始影响世界

首先来看网页排行榜，本次榜单中，5家中国公司跻身全球前20。

分别是DeepSeek全球排名第三、夸克Quark全球排名第九、豆包Doubao排名全球第十二、月之暗面Kimi排名全球第十七、通义千问Qwen3全球排名第二十。

此外，可灵KlingAI上榜全球排名第三十三，海螺AI排名45。

在移动应用榜单中，排名有较大变化。

豆包拿下全球第四、百度AI搜索全球第七、DeepSeek全球第八、美图全球第九，以及夸克上榜第四十七。

以上都是我们熟悉的产品，设有中文网站，a16z统计这些产品超过75%的流量来自国内。

其中，值得一提的是，国内的视频模型比海外的产品更具优势——因为中国有更多研究人员专注于视频领域。

照片和视频类别的集中度尤其高，仅美图一家就贡献了五个席位：Photo&VideoEditor、BeautyPlus、BeautyCam、Wink和Airbrush。

字节跳动也是一个重要参与者，旗下产品包括豆包和Cici（通用大语言模型助手）、Gauth（教育科技）和Hypic（照片/视频编辑）。

谷歌携四款产品强势入榜

这是首次对谷歌几款应用单独的流量进行排名并收录。

该公司的通用大语言模型助手Gemini位居第二，仅次于ChatGPT，其网站访问量约为ChatGPT的12%。

谷歌还有哪些产品上榜？

面向开发者的AI Studio首次亮相即跻身前十。

该网站提供了一个沙盒环境，开发者可在此基础上使用Gemini模型进行构建，包括多模态模型。

紧随其后的是排名第13的NotebookLM。

该产品在作为Google Labs的一部分推出后，现已作为独立网站运营。

NotebookLM在近一年前首次爆红，此后稳步增长，仅在夏季有轻微下滑（可能源于学术用户的暂时性流失）。

作为谷歌面向消费者的AI实验平台，Google Labs排名第39。

Labs平台承载了Flow（用户可在此试用视频模型Veo3）以及其他多款应用。

在2025年5月Veo3发布后，Google Labs的流量飙升超过13%，创下过去一年的最大单月增幅。

在移动端，Gemini同样排名第二，紧随ChatGPT，但差距要小得多，其月度活跃用户（MAU）已接近ChatGPT的一半。

Gemini在安卓设备上表现尤为强劲，其近90%的MAU来自安卓平台，相比之下，ChatGPT的安卓用户占比为60%。

ChatGPT稳坐第一

Grok紧追

在通用大语言模型助手的激烈竞争中，ChatGPT仍保持领先，但谷歌、Grok和Meta正在缩小差距。

Grok在网站榜上排名第4，移动榜上排名第23。

该公司在移动端的跃升尤为惊人，从2024年底无应用的「冷启动」状态，发展到如今超过2000万的月活用户。

2025年7月，Grok的移动端用量迎来巨大增长，随着7月9日新模型Grok4（具备更强的推理能力、实时搜索和工具集成）的发布，用量攀升了近40%。

紧接着，7月14日又推出了AI伴侣头像功能。

发布初期，动漫头像Ani（包含NSFW选项）尤为火爆。

相比之下，Meta的努力至今增长较为平缓。其通用助手MetaAI在网站榜上排名第46，未能进入移动榜单。

MetaAI于2025年5月底推出，但增长速度远不及Grok，尤其是在2025年6月发生了一次「公开动态」事件（用户发现自己的部分帖子被公开发布）之后。

在通用大语言模型助手的其他战线，Claude在移动端均已明显增长放缓。

Perplexity则与Grok一道，持续展现强劲的增长势头。

在网站端，Perplexity和Claude持续增长。

在网站榜单中，有11个新晋应用的上榜是由流量增长驱动的。

相比之下，在a16z 2025年3月的榜单中，新晋者达17个。

移动应用榜单的新面孔则明显更多（14个），这得益于各大应用商店对「山寨ChatGPT」应用的打击（也就是所谓套壳），为更多原创移动应用腾出了发展空间。

这是a16z第二次发布「准上榜名单」（BrinkList）：即刚刚与榜单失之交臂的10家公司（5家网站，5家移动应用）。

在上期网站榜的「准上榜名单」中，Lovable成功闯入百强，并一举跃升至第22位，令人瞩目！

这一飞跃也凸显了AI驱动的应用生成这一赛道的普遍崛起。

在上期移动应用榜的「准上榜名单」中，PolyBuzz和Pixverse这两家公司成功进入核心榜单。

氛围编程强势崛起

在a16z 2025年3月的榜单中，「氛围编程」(vibe coding)的概念才刚刚萌芽——当时网站榜上只有Bolt一家。

如今，Bolt已进入「准上榜名单」，而Lovable和Replit则双双首次登上主榜单。

虽然「氛围编程」的使用看似短暂，但早期数据显示其用户粘性很强——或者说，至少有足够多的用户留存下来并逐渐扩大使用范围。

来自信用卡数据提供商ConsumerEdge的数据显示，某顶级「氛围编程」平台的美国用户群体，在注册数月后，其收入留存率超过了100%。

这意味着，即便算上流失的用户，这些用户群体的月度总支出仍在持续增长。

这些平台也在为其他AI产品引流。通过Replit和Lovable构建并发布的网站（未使用自定义域名），其流量分别归于replit.app和lovable.app之下。

这两个域名本身都有着可观的流量（lovable.app的流量足以排进榜单前50），但仍低于其面向开发者的主站。

作为「氛围编程技术栈」的一部分，相关产品的流量也随之激增，因为开发者们需要用它们来部署项目。

这些产品不符合上榜资格（因其自身并非AI原生公司）——最典型的例子就是数据库提供商Supabase。

Supabase的流量增长与核心「氛围编程」平台的崛起几乎亦步亦趋，在过去九个月里的增速远超往年。

14家「全明星」从未缺席

在a16z发布的五期网站Top50榜单中，有14家公司从未缺席——a16z称之为「全明星」！！

这些公司构成了消费者AI行为的真实缩影：

通用助手（ChatGPT、Perplexity、Poe）

AI伴侣（CharacterAI）

图像生成（Midjourney、Leonardo）

图像与视频编辑（Veed、Cutout）

语音生成（ElevenLabs）

生产力工具（Photoroom、Gamma、Quillbot）

以及模型托管（Civitai、HuggingFace）

在a16z近两年前发布的第一份榜单中，a16z曾好奇：所有顶级的消费级AI公司最终都会训练自己的基础模型吗？

现在，a16z有了答案——在这14家「全明星」中：

五家拥有自研模型

七家使用来自其他公司的API或开源模型

还有两家是模型聚合平台。

有趣的是，尽管榜单的全球化程度日益提高，但这十四位「常青树」仅来自五个国家：美国、英国（ElevenLabs、Veed）、澳大利亚（Leonardo）、中国（CutoutPro）和法国（Photoroom、HuggingFace）。

此外，除了两家公司外，其余均已获得风险投资——Midjourney以其自力更生而闻名，而CutoutPro也尚未进行过融资。

若不计入首期榜单，还有另外五家公司也能入选「常青树」之列——这反映了它们近期的强劲势头。

这些公司同样代表了多样的AI消费级应用，包括：

Claude和DeepAI（通用助手）
JanitorAI（AI伴侣）
Pixelcut（图像编辑）
Suno（音乐生成）

a16z统计方法说明

榜单分别对排名前50的AI原生网站产品（依据Similarweb的月度独立访问量）和排名前50的AI原生移动应用（依据SensorTower的月度活跃用户）进行排名。

对于那些增加了重要生成式AI功能但并非AI原生的产品，如Canva和Notion，则不包含在内。

参考资料：

https://a16z.com/100-gen-ai-apps-5/

https://x.com/omooretweets/status/1960726780681376028

....

#What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?

LeCun在Meta还有论文：JEPA物理规划的「终极指南」

长期以来，AI 领域一直怀揣着一个宏大的梦想：创造出能够像人类一样直观理解物理世界，并在从未见过的任务和环境中游刃有余的智能体。

传统的强化学习方法往往比较笨拙，需要通过无数次的试错和海量的样本才能学到一点皮毛，这在奖励信号稀疏的现实环境中简直是灾难。

为了打破这一僵局，研究者们提出了「世界模型」这一概念，即让智能体在脑海中构建一个物理模拟器，通过预测未来状态来进行演练。

近年来，虽然能够生成精美像素画面的生成式模型层出不穷，但对于物理规划而言，沉溺于无关紧要的细节（如背景烟雾的流动）往往是低效的。真正的挑战在于，如何在错综复杂的原始视觉输入中提取抽象精髓。

这便引出了本研究的主角：JEPA-WM（联合嵌入预测世界模型）。

从名字也能看出来，这个模型与 Yann LeCun 的 JEPA（联合嵌入预测架构）紧密相关。事实上也确实如此，并且 Yann LeCun 本人也是该论文的作者之一。更有意思的是，在这篇论文中，Yann LeCun 的所属机构为 Meta FAIR。不知道这是不是他在 Meta 的最后一篇论文？

论文标题：What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?
论文地址：https://arxiv.org/abs/2512.24497

JEPA-WM 继承了 JEPA 的衣钵，不再纠结于像素级的重建，而是在高度抽象的表征空间内进行预判。在这项研究中，团队试图通过对架构、目标函数和规划算法的全方位扫描，揭示究竟是什么驱动了物理规划的成功，并试图为机器人装上一个更理性的「大脑」。

JEPA-WM 核心方法

该团队将 JEPA-WM 的训练与规划流程形式化为一套统一的「终极指南」，重点在于如何在学习到的特征空间中模拟动力学。

1. 层次化的编码与预测架构

在训练阶段，模型主要由四部分交织而成：

视觉编码器
：使用预训练且冻结的 ViT 权重（如 DINOv2 或 DINOv3）来提取空间特征，确保模型具备敏锐的视觉感知力。
本体感受编码器
：一个浅层网络，用于捕捉机器人自身的关节角度和位姿，这与视觉信息共同构成了全局状态嵌入。
动作编码器 A_θ：将机器人的控制指令转化为同维度的特征向量。
预测器 P_θ：这是模型的心脏。它接收过去窗口内的观测序列
和动作序列
，在因果掩码的保护下，并行预测下一时刻的状态嵌入。

2. 多步展开与动作调节细节

为了让模型不至于「走一步看一步」，研究者引入了多步展开损失

。

在训练时，模型不仅要预测下一帧，还要学会在没有真实观测反馈的情况下，基于自己的预测结果递归生成后续状态。为了提高效率，采用了截断反向传播（TBPTT），即只针对最后一步的预测误差计算梯度，而切断之前的累积梯度。

在动作信息如何干预预测过程上，该团队对比了三种关键方案：

特征调节（Feature Conditioning）：将动作向量直接拼接到每一个视觉特征向量上，增加了预测器的隐藏层维度。
序列调节（Sequence Conditioning）：将动作作为一个独立的 Token 插入到 ViT 的输入序列中，通过注意力机制进行信息分发。
自适应层归一化（AdaLN）：动作嵌入被投影为缩放和偏移参数，在每一个 Transformer 块中动态调制归一化统计量，这能有效防止动作信号在深层网络中「淡出」。

3. 规划逻辑：在嵌入空间中寻找最优解

规划被建模为一个在动作空间

上的优化问题。给定初始观测 o_t 和目标图像 o_g，智能体会在其内部模型中「试运行」N 条候选路径。评价标准是预测终点的嵌入向量与目标嵌入向量之间的距离

。通过多轮迭代，优化器会不断收敛动作分布，最终输出最优的第一步或前 m 步动作。

实验与结果：从模拟器到真实机械臂

研究团队在 Metaworld（42 个操纵任务）、Push-T（物体推送）、PointMaze（导航）以及 DROID（真实机械臂数据集）上进行了评估。

1. 规划器之争：梯度 vs 采样

实验结果揭示了一个有趣的现象：在像 Metaworld 这种成本曲线相对平滑的任务中，基于梯度的 Adam 或 GD 优化器表现惊人，因为它们能顺着梯度迅速找到目标。但在 2D 导航（Wall, Maze）任务中，梯度法极易卡在局部极小值（例如对着墙猛撞而不懂得绕过门口），此时基于采样的交叉熵方法（CEM）凭借其探索能力完胜。

此外，新引入的 Nevergrad（NG）规划器在无需调参的情况下展现了与 CEM 相当的实力，尤其适合跨任务迁移。

2. 关键因素的「贡献度」

为了量化不同设计决策对智能体最终表现的影响，研究团队采用了一种严谨的控制变量法。

他们以一个基础配置（DINO-WM 结合 ViT-S 编码器及 6 层预测器）为基准，独立改变每一个核心组件，从而在复杂的系统工程中剥离出真正驱动性能增长的关键因子。通过在 Metaworld、Push-T 等多种异构环境下进行数以万计的幕（Episode）测试，实验揭示了世界模型在处理物理逻辑时的内在偏好。以下是影响物理规划成败的核心贡献因素：

本体感受的显著增益：引入机器人内部状态信息（如关节角度、末端位姿）能够一致性地提高规划成功率。在 Metaworld 任务中，这能有效减少机械臂在目标点附近震荡的情况，提供更精准的距离感知。

编码器架构：DINO 系列编码器（DINOv2/v3）在所有任务中均表现出对 V-JEPA 等视频编码器的明显优势。这归功于 DINO 强大的细粒度目标分割能力，这对于需要精确感知物体位置的操纵和导航任务至关重要。在视觉复杂度更高的真实数据（DROID）中，DINOv3 的优势进一步扩大。

动作调节技术的微妙差异：实验发现 AdaLN（自适应层归一化）调节技术在平均性能上表现最强，且计算效率更高。它通过在 Transformer 的每一层注入动作信息，有效防止了控制信号在深层网络传递过程中的消失，相比传统的特征拼接（ftcond）或序列拼接（seqcond）更具稳健性。

训练上下文长度的权衡：预测器需要至少 2 帧上下文来推断速度信息，这在 W=1 与 W=2 之间的巨大性能鸿沟中得到了印证。然而，盲目增加上下文长度（如 W > 5）反而有害，因为这会减少训练中看到的独特轨迹数量，并可能引入无用的梯度噪声。

模型规模：这是一个令人意外的发现：在简单的模拟环境（如 Maze, Wall）中，增大模型规模（从 ViT-S 到 ViT-L）非但没有帮助，反而可能由于嵌入空间过于复杂而导致规划效率下降。但对于复杂的现实数据（DROID），大容量的编码器和更深的预测器则展现出了明确的正相关收益，说明任务的物理复杂度决定了智能体所需的智力上限。

多步损失的对齐作用：在训练中加入 2 步展开损失能显著改善预测器的长时稳定性，使其训练任务与测试时的递归规划任务更加对齐。对于最复杂的 DROID 任务，最佳的展开步数甚至需要达到 6 步。

3. 提出的最优解

研究最终汇总所有洞察，提出了针对不同任务的最优配置：在模拟器中使用 ViT-S 配以 AdaLN，而在真实复杂场景中使用 DINOv3 ViT-L 配以 12 层深度的预测器。

在与 DINO-WM 和 V-JEPA-2-AC 的直接较量中，该模型在几乎所有维度上均取得了领先。

更多详情请参阅原论文。

.....

#WeDLM

微信炼出扩散语言模型，实现vLLM部署AR模型3倍加速，低熵场景超10倍

腾讯微信 AI 团队提出 WeDLM（WeChat Diffusion Language Model），通过在标准因果注意力下实现扩散式解码，在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速，低熵场景更可达 10 倍以上，同时保持甚至提升生成质量。

引言

自回归（AR）生成是当前大语言模型的主流解码范式，但其逐 token 生成的特性限制了推理效率。扩散语言模型（Diffusion LLMs）通过并行恢复多个 mask token 提供了一种替代方案，然而在实践中，现有扩散模型往往难以在推理速度上超越经过高度优化的 AR 推理引擎（如 vLLM）。

问题的关键在于：大多数扩散语言模型采用双向注意力机制，这与标准的 KV 缓存机制不兼容，导致并行预测的优势无法转化为实际的速度提升。

近日，腾讯微信 AI 团队提出了 WeDLM（WeChat Diffusion Language Model），这是首个在工业级推理引擎（vLLM）优化条件下，推理速度超越同等 AR 模型的扩散语言模型。

论文标题：WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference
论文作者：刘瑷玮、何明桦、曾少勋、张思钧、张林昊、武楚涵、贾巍、刘源、周霄、周杰（腾讯微信 AI）
项目主页：https://wedlm.github.io
GitHub：https://github.com/tencent/WeDLM
模型权重：https://huggingface.co/collections/tencent/wedlm

以下是模型效果：

上图展示了vLLM 部署的 Qwen3-8B-Instruct（左）与 WeDLM-8B-Instruct（右）在相同 prompt 下的实时生成对比。可以直观看到，WeDLM 的生成速度明显更快。

核心思路：让扩散解码兼容 KV 缓存

WeDLM 的核心洞察是：mask 恢复并不需要双向注意力。扩散式解码只需要让每个 mask 位置能够访问所有已观测的 token，这完全可以在标准因果注意力下实现。

研究团队提出了一个关键指标 —— 前缀可缓存性（Prefix Cacheability）：在 KV 缓存解码中，只有形成连续左到右前缀的 token 才能被缓存复用。因此，真正影响推理效率的不是「每步预测多少 token」，而是「有多少预测能够转化为可缓存的前缀」。

图：WeDLM-8B 在数学推理任务上实现约 3 倍加速，同时在准确率和推理速度上显著超越 LLaDA、Dream 等扩散模型。

技术方案

拓扑重排序（Topological Reordering）

WeDLM 通过拓扑重排序在保持因果注意力的同时，让 mask 位置能够访问完整的观测上下文。具体而言，将所有已观测 token 移动到物理序列的前端，同时通过 RoPE 位置编码保留其逻辑位置。这样，在标准因果 mask 下，每个待预测位置都能看到所有已知信息。

双流掩码（Dual-Stream Masking）

为缩小训练与推理的分布差异，WeDLM 设计了双流训练策略：构建一个干净的「记忆流」和一个带 mask 的「预测流」，两者共享位置编码。预测流中的每个 block 从记忆流获取干净的历史上下文，而非可能带噪的中间预测结果。

流式并行解码（Streaming Parallel Decoding）

推理阶段，WeDLM 采用流式并行解码策略：

距离惩罚机制：优先解码靠左的位置，促进左到右的前缀增长
即时缓存：在因果注意力下，已解码 token 立即成为有效缓存
动态滑动窗口：持续填充新的 mask 位置，避免 block 边界的等待开销

图：传统 block 解码需要等待整个 block 完成才能提交，而 WeDLM 的流式解码可以即时提交已解析的前缀。

实验结果

生成质量

WeDLM 基于 Qwen2.5-7B 和 Qwen3-8B 进行训练，使用 100B token 进行继续预训练，10B token 进行 SFT。

在 base 模型评测中，WeDLM-8B 平均得分 74.72，超越 Qwen3-8B（72.61）2.1 个点。在数学推理任务上提升尤为显著：GSM8K 提升 4.2 个点，MATH 提升 2.8 个点。

在 instruct 模型评测中，WeDLM-8B-Instruct 平均得分 77.53，超越 Qwen3-8B-Instruct（75.12）2.4 个点，也领先于 SDAR-8B-Instruct（74.22）等扩散模型。

推理速度

关键亮点：所有速度对比均基于 vLLM 部署的 AR 模型基线，而非未优化的实现。

研究团队在论文中展示了不同熵值场景下的速度差异：

低熵场景（如计数任务）：由于输出高度可预测，模型可以大胆并行预测并接受多个 token，实测达到 1673.3 tokens/s
中熵场景（如数学推导）：结构化的推理步骤仍然具有较好的可预测性，实测 745.2 tokens/s
高熵场景（如开放问答）：语义多样性高，并行接受率下降，实测 197.8 tokens/s

快速上手

安装方式非常简单，只需通过 pip 从 GitHub 安装即可。安装完成后，可使用 Python API 快速调用模型进行推理。详细的使用文档和示例代码请参见项目 GitHub 主页。

总结

WeDLM 的贡献可以归纳为：

因果扩散框架：在标准因果注意力下实现 mask 恢复，天然兼容 KV 缓存和现有推理基础设施（FlashAttention、PagedAttention、CUDA Graphs 等）
流式并行解码：通过距离惩罚和动态滑动窗口，最大化前缀提交率
首次在速度上超越工业级推理引擎部署的 AR 模型：在 vLLM 优化条件下的公平对比中，数学推理实现 3 倍以上加速，低熵场景超过 10 倍

研究团队指出，这项工作表明「前缀可缓存性」应当作为并行文本生成的一等设计目标。未来的扩散语言模型应更多地被视为高效的多 token 预测机制 —— 并行生成 token 的价值，取决于这些 token 能多快地转化为可缓存的前缀。

.....

#Terry Tao on the future of mathematics

很多人提到数学研究，脑子里浮现的还是那个画面：一个人，一块白板，来回踱步，等灵感突然降临。

但当今世界最伟大的数学家之一、菲尔兹奖得主陶哲轩却告诉我们：这种「手工业时代」的数学研究模式正处于崩溃边缘，一场由 AI 和形式化证明语言（如 Lean）引领的「工业革命」已经悄然开启。

这一洞察来自陶哲轩最近的一次访谈：

，时长32:02

视频标题：Terry Tao on the future of mathematics

视频链接：https://www.youtube.com/watch?v=4ykbHwZQ8iU

在访谈中，陶哲轩指出，数学研究中存在大量的重复性劳动，如查阅文献、调整他人论文中的参数以及繁琐的计算。通过 LLM 辅助的自动形式化（Auto-formalization），这些琐碎的工作正逐渐变得轻松。

与此同时，Lean 等形式化证明语言与 AI 的深度融合正在改变数学协作的本质。形式化并不只是「把证明写得更严格」，而是把数学拆成了可以独立验证的原子步骤。这种原子化让分布式科研第一次变得可行。

陶哲轩预见到，数学界将出现类似软件工程的分工模式。未来的数学家可能扮演「架构师」或项目经理的角色，领导大型协作项目。这种模块化的研究方式可能允许「公民数学家」（非专业领域专家但具备某些技能的人）参与到前沿研究中，降低进入门槛。如此一来，数学研究的进展或显著加速。

参与访谈的另外两位数学家分别是前 OpenAI 研究科学家、Morph Labs 创始人 Jesse Han，以及斯坦福大学助理教授 Jared Duker Lichtman。

以下是xx整理的访谈记录。

从几十年到 18 个月

数学研究正被加速

陶哲轩：说实话，在我整个学术生涯中，我一直觉得我们做数学的方式少了点什么。我们在研究一个数学问题时，总想找到那个能打开问题大门的精妙想法。但在那之前，有大量枯燥的苦力活。比如文献综述，比如你在别人论文里看到一个技巧想用到自己的问题上，但所有的输入条件都有点不一样，你就得手动调整所有的论证。还有那些计算 —— 它们确实有用，能帮你建立直觉，但很多时候就是硬磨，不停地算啊算。我以前也试过写一些小程序来加速某些计算，但那时候技术还不成熟。

大概两年前，就在 IPAM（纯粹与应用数学研究所）这里，我们办了一个机器辅助证明的会议，我是组织者之一。在那次会议上，我们接触到了各种各样的尝试 ——SAT 求解器、计算机辅助软件包、大语言模型。ChatGPT 刚问世，还有 Lean。那是一个令人兴奋的世界，你突然发现很多事情变得可能了，而且正在发生。比如 Peter Scholze 刚完成了一个长达 18 个月的项目，把他的一个重要定理形式化了 ——

Jared Duker Lichtman：液态张量实验。

陶哲轩：对，液态张量实验。这是个大工程，一个定理花了 18 个月。但这已经被认为是巨大的突破了，因为 20 世纪的那些形式化项目，动辄要花几十年才能完成。所以这本身就是一个巨大的提速，部分原因是我们已经学会了如何使用软件工程的那些工具，比如 GitHub，以及更智能地组织这些项目。从那以后，我对 AI 和形式化都产生了浓厚的兴趣 ——

Jared Duker Lichtman：就是因为那次会议。

陶哲轩：对，没错。我开始相信这就是数学的未来，也开始接受一些采访谈这个话题。但到了某个时候，你不能光说不练，得真正动手。所以我就去学了 Lean，花了大概一个月，但其实挺好玩的。这让我想起了写本科分析教材的经历 —— 真的是从基础开始，把每一步都做到完全严格。感觉就像在玩电子游戏。我记得 Kevin Buzzard 说过，Lean 是世界上最好玩的电子游戏，大概是这个意思。

Jared Duker Lichtman：让人完全上瘾。

陶哲轩：对某类人来说确实非常上瘾。而在过去一年里，大语言模型追上来了，它们现在可以自动形式化单个证明步骤，真正开始减轻形式化过程中的苦力活，甚至到了可以实时完成的程度。这打开了无数的可能性。

形式化正在改变数学思维

把含混经验转化为可检验的结构

Jesse Han：我第一次接触 Kevin Buzzard，是 2017 年他在 MSRI（美国数学科学研究所）教自守形式那门课的时候。几年后我跟他聊天，他说他当时根本没在关注那门课的内容，因为那个夏天他正在自学 Lean—— 在 Tom Hales 在第一届大型证明会议上告诉大家 Lean 将是未来之后。

我自己在第一次学习形式化证明的时候，有一个体会是：我慢慢意识到，其实我从来没有真正学会清晰地思考数学论证。高等数学的证明里有一种普遍的，或者说文化性的混乱感。我很好奇，当你越来越深入地去预判如何形式化证明时，你对自己数学思维的认知有什么变化？

陶哲轩：确实有一些变化，改变了我写论文的方式。我现在能看到那些「隐形假设」—— 那些我们习惯性地默认成立的东西。你会更认真地思考：怎样才是最干净的定义方式？因为在 Lean 里，当你定义一个概念并想使用它时，你必须先建立一堆琐碎的引理，就是所谓的 API，围绕着每个概念。这些东西在论文里往往是「显然这个概念是单调的」「显然它在某种运算下封闭」，但你其实应该证明它们。而且你会发现，如果定义得不够好，形式化这些「琐碎」命题要花两倍甚至五倍的时间。所以这让我学会了如何精简自己的写作。有时候我会对合作者有点不耐烦，因为有些人没有这个视角，还在用老式的非形式化风格写东西。

Heather Macbeth 写过一篇文章，讲形式化和自动化如何催生了一种新的证明写作风格。传统的证明通常是线性的，从 A 到 B，一步一步推，比如一串等式。但有了自动化工具，你可以说：这里有 10 个相关的事实，用一个标准工具来找出这 10 个事实的正确组合就能完成证明。而这个组合往往很无聊，没什么意思 —— 你知道某种线性代数之类的东西能从这些事实得出结论。这是一种不同的证明写作风格，某种意义上反而更容易读懂。对人类来说更难验证，但你能更清楚地看到一个证明的输入和输出，而传统写法往往把这些藏起来了。

Jared Duker Lichtman：Peter Scholze 的情况也是这样，他说过，在形式化过程中获得反馈，实际上让他对某个关键引理的细节思考得更清楚了，他觉得这是一个非常有价值的过程。你有一个很棒的框架 —— 前严谨阶段、严谨阶段、后严谨阶段。这个框架怎么融入我们现在讨论的话题？

陶哲轩：对，我写过一篇传播很广的文章，讲学习数学的三个阶段。第一个是前严谨阶段，你并不真正知道什么是证明，但对什么行得通、什么行不通有一些模糊的直觉。这通常是小学阶段对数学的理解方式。有时候你的直觉是对的，有时候是错的，但你没有办法分辨哪个是哪个。

然后是严谨阶段，你被迫完全按照规矩来，每一步都要做得准确无误。但在这个阶段，你往往会失去直觉，因为你全部的注意力都在确保每一步都正确。不过这有助于清除你所有错误的直觉，因为你能看到精确的反例，知道论证在哪里失败了。而所有好的直觉 —— 那些与严谨推理一致的 —— 都会保留下来。

然后是后严谨阶段，你可以在两种模式之间自由切换。你可以非形式化地论证，但现在是安全的，因为你已经清除了所有错误的直觉。你知道如果需要的话，可以把它转换回严谨的形式。反过来，你也可以读一个严谨的论证，然后把它转换成直觉性的语言。

Lean 确实帮我清理了一些思维中低效或错误的习惯。一个很常见的低效问题是：当你在教科书里陈述一个定理时，往往会加入太多假设。你有点过于保守，想确保证明是对的，就加了一堆额外条件 —— 这个非空、那个连续、这个为正之类的。

Jared Duker Lichtman：你会想去对这些假设进行压力测试。

陶哲轩：对。但其实还有自动化的 linter 工具，当你在 Lean 里形式化某个东西，证明结束后它会说：「顺便提一下，你从来没用过这个假设。」然后你就会想：「哦，确实，我其实根本不需要正性条件。」文献里确实有过这样的真正突破：人们心里有个思维定式，觉得某个工具只能用在比如正数的情况下，但其实证明在没有正性条件的情况下照样成立，只是没人注意到。形式化能让你自动发现每个工具的自然适用范围。这已经非常有用了。

Jesse Han：这个说法很精辟。我们花了很多时间思考一个问题：来自软件工程和计算机科学的深度洞见，如何影响人们对数学认知和数学研究的思考方式。你刚才说的形式化如何让我们更清楚地理解每个定理的假设和输出，这其实就是良好的软件工程实践。Dijkstra 就专门讲过，人们应该更多地去推理前置条件和后置条件。同样的道理，数学家习惯在定理里堆一堆可能用不上的假设，这在软件工程里是典型的反模式 —— 一种公认的坏习惯。

两个顿悟时刻

形式化正在改变数学领域协作方式

Jesse Han：我特别想问你的是：你在形式化过程中的「顿悟时刻」是什么？显然一开始有很高的启动门槛，你得学习所有这些关于这门小众学术编程语言的晦涩知识。但是，在哪个时刻你意识到，把数学变成软件这个过程，不仅仅是翻译，还能加速你的理解，加速数学发现的过程？

对我来说，是在形式化连续统假设的独立性时。有一个时刻我完全迷失了，所有的参考资料都是错的，但我发现可以打开或关闭某些关键假设，然后很快就获得了比任何教科书都深得多的理解。我很好奇你有没有类似的经历。

陶哲轩：有，我有两个印象特别深刻的时刻。

第一个是我在形式化一个和合作者一起证明的定理，叫 PFR 猜想 —— 多项式 Freiman-Ruzsa 猜想。结论里有一个指数常数，我们当时证明的是：存在一个常数，使得某个性质成立，而这个常数最后算出来是 12。原因并不神秘，只是把证明中所有零零碎碎的小常数一路累积下来，最后自然就变成了 12。

我们花了大概三周时间，把这个「C 等于 12」的结论完整形式化成 Lean 代码。那是一个完全没有 AI 的年代，整整 20 个人，全靠手工，是一次非常浩大的工程。

后来，有人往 arXiv 上放了一个很短的预印本，说如果你回到原始论文，只要做五个小改动，就可以把这个 12 降到 11。于是大家就开始讨论：那我们要不要把 C 等于 11 也形式化一遍？问题在于，C 等于 12 已经花了我们三周时间，那再来一遍岂不是又是三周？

实际情况并不完全是这样，但直觉上你几乎只是把最终定理里的 12 改成 11。然后你会发现，大概有五行代码变红了，也就是证明不再成立了。但你去看那篇新的预印本，就会发现，哦，这五行我知道该怎么改。结果一改，这五行是好了，又有另外十行变红了。于是你再回去改那十行。就这样来回几次，我们在一天之内就把整个证明更新成了 C 等于 11。

所以，形式化确实很繁琐，尤其是第一次把一个结果完整写出来的时候。但一旦你想修改一个已有的证明，它就比传统数学方式好得多。这是我第一个非常深刻的体会。

第二个经历来自一个名为 Equation of Theories 的项目，然后对一项研究进行形式化时，有一次很深的体会。当时有人在把另一位作者写的证明形式化，结果卡在了某一步。我当时也并不了解整个证明的全貌，甚至可以说完全不理解整体结构，但我盯着那一行代码看了一会儿，发现我其实能理解这一行在做什么。

我能够理解足够多的上下文，从而指出：你这里其实只需要复制并稍微修改这一行，让它在类型上匹配，这样就能调用这个工具了。

也就是说，我只通过检查一千多行代码中的三行，就给出了一个非常原子级（atomic）的诊断，精确地指出了这个证明该如何修复。

我认为这正是 Lean，乃至形式化验证软件的一大特点：它具有一种高度模块化的结构，这是很多其他软件甚至传统数学中并不具备的。你可以围绕某一行、某一个非常具体的局部问题展开极其精细的讨论，而完全不需要理解系统的其余部分。

而在传统数学中，只有在与你长期合作、彼此已经在思维方式上高度对齐的情况下，才能做到这一点。那种状态下，你们几乎可以在极其细微的层面上互相理解，甚至补全对方的句子。

通常情况下，当你和一个尚未在思维方式上充分同步的人讨论数学问题时，是很难进行这种粒度如此之细的交流的。

所以你确实可以进入那种高度专注、默契协作的状态，那种感觉非常好。但现实是，能让我进入这种状态的合作者其实只有少数。更多时候，合作中充满了翻译成本：你需要反复澄清定义、解释背景，也不可避免地会出现各种误解。

而在 Lean 中，这些问题在很大程度上都会消失。因为你面对的是一个对问题和修复方式都有着精确定义的类型描述。问题是什么、哪里不匹配、该如何修复，都被明确地写进了系统里。Lean 以一种此前从未有过的方式，把数学原子化了 —— 这是其他做数学的方法所不具备的。

数学进入「工业化」时代

数学家也可以是架构师

Jared Duker Lichtman：顺着这个话题再往前想，其实也很有意思：我们正在用一种全新的方式来使用数学。你经历过互联网的兴起，也算是较早参与并推动了类似 Polymath （博学者项目）这种协作式研究项目的人之一。也许你可以谈谈，你对协作的直觉是如何形成的？在过去大约二十年的时间里，这种协作方式是如何演化的？

以及展望未来，在一种高度模块化的交互模式下，有时甚至是匿名的协作中，数学研究可能会呈现出怎样的新形态？

Jesse Han：我想再补充一点。你在几年前发表于《Notices of the American Mathematical Society》的一篇文章里，提到过一个非常有意思的观点：你如何看待数学家角色的演变。

我也很想听你进一步展开这一点，因为这和我们刚才讨论的内容高度相关，比如，当你开始主导、协调这些形式化项目时，你是否也感受到自己角色的变化？以及你在组织 Polymath 项目过程中积累的经验，又是如何与这种变化发生交汇、相互影响的？

陶哲轩：我一直都有一种很强烈的感觉：我想做的数学，远远超过了一个人所能完成的量。因此，我始终觉得合作极其高效、也极其重要。我从合著者身上学到了很多，同样也从互联网上一些看似偶然的交流中学到了很多。

举个例子，我最早开始写博客，其实源于一次非常偶然的经历。有一次，我在自己的网页上随手贴了一个数学问题，并没有期待会有人回应。但当时已经有不少人会浏览我的页面，结果在短短三天之内，就有人给了我一个非常完整的参考说明，直接指出这个问题最早的来源。放在今天，这可能只需要一次简单的 ChatGPT 查询就能得到答案，但在当时，这对我来说是一种颠覆性的体验。

后来，英国数学家 Timothy Gowers 提出了 Polymath 项目，希望通过众包的方式来做数学研究，而我也非常享受参与其中。这种想法和我的直觉高度契合：数学中存在着大量潜在的联系，参与的人越多，就越有可能产生那些偶然的连接，这些连接往往是任何单一专家、无论多么资深，都很难凭一己之力发现的。

但与此同时，这种协作方式始终存在一个明显的瓶颈。

在 Polymath 项目中，当同时有十几、二十个人参与贡献时，总需要有人来逐条检查这些想法，确保逻辑上一致，并把零散的讨论整理成一个连贯、可读的整体。这个工作通常由我、Timothy Gowers，或者其他少数人来承担，而这件事实际上是非常耗费精力的。

Jared Duker Lichtman：原本看似去中心化的群体协作，最终还是回到了一个核心人物 + 众多贡献者的老模式。

陶哲轩：对，这种模式虽然很有潜力，但并没有真正实现规模化。不过，它确实促成了一些非常宏大的研究项目：来自数学中完全不同方向的人，会因为偶然的灵感，贡献出大量有价值的线索。很多时候，项目的组织者事先根本不知道这些人彼此之间存在任何关联，但他们提供的想法却是相关且有用的。

问题在于，当时我们并没有完善的组织与验证基础设施。而且那时我们主要是通过博客和 Wiki 来运作项目，而不是像今天这样使用 GitHub 这类更成熟的协作平台。

也正是在这里，形式化工具和 AI 展现出了另一项关键能力：它们真正实现了不同技能背景人群之间的无缝协作。在一个形式化项目中，并不是每个人都需要懂 Lean，也不是每个人都需要精通数学，更不是每个人都要熟悉 GitHub。你只需要一个技能集合彼此有重叠的群体：每个关键环节都有一部分人能够胜任，整体就能顺利推进。

这也使得数学研究第一次真正具备了分工协作的可能性。

在传统数学研究中，无论是单人还是合作，参与者几乎都需要什么都懂：既要理解全部数学内容，又要会写 LaTeX、检查推导、整理论文，每个人都要覆盖所有环节。而在真正意义上的分工体系中，就像工业化生产一样，会有人负责项目管理，有人负责质量验证，有人专注于具体技术细节。

软件工程其实早就完成了这种转变。早期的软件开发也是一个人包办一切，但这种方式无法扩展；一旦进入企业级开发，就必须依赖高度专业化的角色分工。

因此，我确实预见到一种趋势：在规模化、工业化的条件下生产数学成果，并且伴随着清晰的专业分工。当然，传统的、手工式的数学研究依然会存在，也依然会被高度珍视；只是未来会出现一种与之互补的、全新的数学生产方式。

Jesse Han：那么，这是否意味着你预见到，大多数职业数学家的角色将会演变为这些工业化数学体系的架构师？

陶哲轩：我认为，数学家的定义本身会被拓宽。未来会出现一类人，他们擅长运作和管理大型项目，就像大型工程中的项目负责人一样。这些大型项目的管理者会掌握足够多的数学和 Lean 知识，能够在宏观层面理解项目在做什么，但他们未必擅长定位和修复某一条具体的形式化问题。尽管如此，他们能够协调复杂项目的推进，而这本身就是一种非常重要的能力。

同时，也会有一些人，他们可能并不是某个数学领域的专家，但非常擅长形式化工作，或者非常善于使用新的 AI 工具。这些能力本身同样有价值。

在这样的体系中，人们可以更自由地加入或离开项目，协作将变得更加流动。当然，也仍然会存在更传统的研究方式：由一个规模较小的团队组成，所有人都深度参与项目的每一个环节。这种方式依然非常重要，也不会消失。关键在于，我们终于拥有了多种选择。

在当前体系下，许多真正热爱数学的人被挡在数学研究之外，只是因为门槛太高了。如果你想参与前沿研究，就必须掌握博士阶段水平的数学；你还得会用 LaTeX；得知道如何写作、如何避免任何细节错误…… 这些要求叠加在一起，对很多人来说极具威慑性，进入门槛过高。

即便成功进入这一体系的人，也常常因为自身技能结构不完整而被忽视或边缘化。但未来并不必然如此，随着工具、形式化和协作方式的变化，这种状况有可能被根本性地改变。

Jared Duker Lichtman：在门槛被工具和协作机制降低之后，数学研究不再只属于少数职业数学家，而可以像公民科学一样，吸纳大量具有兴趣和部分技能的普通参与者。

陶哲轩：是的，我们其实已经在看到这种趋势了。比如我自己就深度参与过一个数学问题网站。它逐渐发展成了一个社区，聚集了几十位数学背景和受教育程度各不相同的参与者，大家各自贡献一些小而具体的内容。

我们学会了把一个问题模块化拆解：也许你没法完整地解决这个问题，但你可以帮忙查找相关参考文献；或者把问题和某个整数序列联系起来；或者评论、改进他人的证明；又或者做一些数值实验和计算。

正是通过这种方式，很多人都能在自己能力范围内参与进来。

而现实中，确实存在着一个非常庞大的群体，他们渴望参与研究级别的数学工作，只是过去缺乏合适的入口和工具。我希望，也相信，这些新的工具和协作方式，能够真正释放出这股力量。

AI 应该先帮数学家「干脏活」

Jesse Han：到目前为止，我们已经谈了很多内容：一方面是你在形式化数学前沿工作的经验，另一方面是你在协调大规模协作项目、加速数学研究方面的实践。而我觉得，正好在这两者的交汇点上，是一个非常合适的时机，来谈谈你目前特别投入、也非常兴奋推动的一个项目，解析数论中数学界限（Bounds）的形式化证明。

或许我们可以从一个简要的介绍开始：面向非专业读者，能否先解释一下 —— 为什么这个问题本身如此重要？以及它在某种程度上，如何成为我们刚才讨论过的那些问题（协作、形式化、规模化研究）的一个缩影或体现？

陶哲轩：我想先从一个更宏观的角度来讲。我一直认为，自动化本质上是对人类思维的补充工具。

最直观的一种思路是：把人类最想解决、也最困难的数学问题 —— 比如像黎曼猜想这样的重大猜想，直接交给计算机，让它们来尝试解决。计算机在这些问题上确实可能取得一定进展，但我认为，在可预见的未来，它们更有可能在另一类完全不同的任务上发挥巨大优势。

这些任务往往与人类真正擅长、或乐于从事的工作是正交的，尤其是那些需要进行大量枯燥的数值计算、枚举海量可能性、反复筛选组合情况的工作。这类任务人类通常并不享受，甚至极易出错，但对 AI 和计算机来说却并不构成障碍。

以我所从事的领域之一解析数论为例，这里就存在一个非常典型的困难：其中有大量极其繁琐、细碎的组合性计算工作，长期以来几乎只能由人类亲自完成，而这正是自动化和 AI 最有潜力介入、并发挥巨大价值的地方。

Jared Duker Lichtman：对我个人来说，在思考一个解析数论问题时，至少有 70% 的时间，都花在这种繁琐、机械性的工作上。

陶哲轩：是的，我认为我们其实已经掌握了很多非常精巧的思想和工具，可以把关于数字的一类陈述，或者关于和的展开、各种算术函数等内容，转化为我们真正关心的另一类陈述。解析数论中正是依靠这些工具在不同表述之间来回转换。

但问题在于，这些工具都有各自的输入和输出条件，而真正做研究时，你需要把它们一环一环地串联起来。相关的工具和结果分散在不同的论文中，每篇论文使用的记号体系都不一样，假设条件也往往和你手头的问题并不完全匹配。于是你不得不重新拆解原有证明，根据自己的需求重写一套版本。

在这个过程中，就会产生大量的重复劳动：反复调整参数、对齐条件、重建推导链条，而且非常容易出错。

为了让事情稍微不那么痛苦，我们发展出了一些权宜之计。其中一个最常见的做法是：不去关心具体常数。比如这里原本是 27，那里是 38，我们干脆都记成一个统一的常数 C，只说明存在某个常数，而不去计算它的具体数值。这样可以显著减少计算量，也能在一定程度上避免错误，即便你在常数上算错了，只要结论仍然成立，通常也不会造成严重后果。

但这种做法是有代价的。它导致解析数论中的很多结果都是非显式的。比如你可能证明了：所有足够大的奇数都可以表示为三个素数之和，但足够大究竟是多大？这个常数 C 到底是多少？我们并没有算出来，说白了，是懒得算。

因此，真正去显式计算所有常数的解析数论研究，只占整个领域中非常小的一部分。这类工作极其繁琐、计算量巨大，做的人很少，论文也往往不太好理解。这并不是作者水平的问题，而是因为研究内容本身就充斥着大量细碎、明确的计算过程，几乎没有那种直观的结构美感可言。

说实话，这种研究并不好理解。但我认为，这恰恰是自动化最理想的应用场景之一。如果我们能够搭建一条流水线，把这些显式型的论文纳入进来，其中的思想和工具本身其实已经相当成熟，真正困难的只是把大量彼此略微不兼容的工具拼接在一起，并把所有参数对齐，那么，用现有的方法就完全有可能在规模化条件下完成这些形式化工作。

在此基础上，我们甚至可以引入 AI 或机器学习，去探索这些工具链的最优组合方式。这将为整个领域打开许多全新的观察视角。

举个具体的例子：如果有人在某个算术函数上证明了一个新的界，我们希望能把这个结果直接丢进一个已经形式化好的、包含上百条定理的系统中，然后像操作 Excel 表格一样自动更新，改动一格，所有依赖它的结果都会自动刷新。

这样一来，我们就可以拥有一个持续演化、动态更新的领域最前沿状态，而不再是那些写死了指数和常数的论文。现在的做法是：每当某个关键结果被改进，研究者往往需要重写整篇论文，重新推导所有相关界限，才能弄清楚最新的最好结果是什么。而这类更新，通常十年才发生一次；但如果工具链足够成熟，这些工作完全可以在几分钟内完成。

Jesse Han：所以你的意思是，这本质上是一个软件问题，对吗？就像早期编程时代，人们看待汇编语言时那样，它非常繁琐，到处都是子程序，逻辑隐藏在代码细节里，既不直观，也谈不上可读性。但一旦能够在更高层次上对这些内容进行抽象和推理，情况就会完全不同。

陶哲轩：可以这么理解。而且在现代软件工程中，原则上一切都是可以互操作的。你可以调用别人的子程序，不同工具之间有标准化的接口和格式，它们能够彼此通信，从而构建起极其复杂、庞大的软件生态系统。

当然，这样的系统也会带来一个问题：正是因为系统复杂、组件众多，软件中不可避免会出现各种错误。

但在数学形式化这件事上，像 Lean 这样的工具，至少在理论上，让我们有机会构建一种尽可能无 bug 的协作体系。通过形式化验证，你可以希望、甚至确信这些由大量研究者共同构建的成果是相互兼容、逻辑一致的。而这正是我们目前在数学研究中所缺失的东西：一种真正可靠、可互操作、可规模化扩展的基础设施。

当新工具出现

数学的研究路径会整体改写吗？

Jared Duker Lichtman：那么你是否愿意做一个大致的判断或推测：在数论，乃至其他数学领域中，有多大比例的工作其实是由这些相对枯燥、机械性的劳动构成的？如果这种工作负担的比例发生改变，是否可能由此催生一种截然不同的研究工作流程？

Jesse Han：我想在这个问题上再补充一句。事实上，在数学史上，应该已经出现过不少并非基于形式化验证、也不依赖计算机的例子：某些更好的数学技术或方法被发明出来之后，使数学家得以摆脱以往的一些繁琐劳动，从而能够把精力投入到全新的问题和思考方式中。

我也很好奇，在解析数论的发展过程中，是否存在过这样的重要例子？比如，是否有某些关键方法的出现，真正改变了人们理解和研究这一领域的方式？

如果是这样的话，那么我们是否也可以把如今的形式化工具（如 Lean）以及自动形式化技术，视为历史上这一类技术演进的又一个实例，一次新的数学技术革命？

陶哲轩：我认为数论其实是最早采用实验性方法的数学分支之一。例如，数论中的一个核心问题，关于素数分布的规律，最早就是由高斯提出的猜想。

高斯当年通过一种极其艰苦的方式来获得直觉：他手工计算了前几十万、甚至上百万个素数，并从这些数据中观察到了某些模式，由此提出了后来影响深远的素数分布猜想。

从今天的角度看，这几乎就是一种早期的计算实验数学：通过大量具体数据的积累，来引导理论判断和猜想的形成。这在当时是非常开创性的做法，也深刻影响了数论此后的发展方向。

Jared Duker Lichtman：而且当时所依赖的，其实只是规模很小的数据。

陶哲轩：是的。高斯展现出了一种非凡的能力：他能够从规模非常小的数据集中，概括出极其深刻、普遍的规律，这正是高斯天才的体现，也正因为如此，后来很多工具都会以他的名字命名。

而随着计算技术的发展，我们才真正能够系统性地展开这种探索。后来也陆续出现了不少类似的例子：一些重要的猜想最初正是通过数值实验和计算探索被发现的；而在更近的时代，还有一些结果是借助大规模枚举，甚至结合机器学习方法，才逐渐显现出其结构和规律的。

这些进展都说明了一点：新的技术手段不断扩展着数学家可探索的空间，也在持续改变人们理解和研究数论的方式。

Jared Duker Lichtman：我想，甚至连图灵当年也在做类似的事情，亲自去计算函数的零点。

陶哲轩：像某些算术函数的研究，其实早期就大量依赖数值计算。比如黎曼猜想，在很长一段时间里，正是通过大量数值实验获得了强有力的支持。

因此，历史上早就存在这样的先例：计算机的引入，催生了一种新的数学研究方式，不再只是依赖纯粹的抽象思考，而是结合数据和实验来推动理论的发展。

当然，我们现在讨论的这种形式化工作，并不完全等同于数据驱动的数学，但它无疑是一种计算机辅助的研究模式。

Jared Duker Lichtman：那么，撇开机器学习领域里那一小部分人，或者少数主动尝试新工具的研究者不谈，对于一位普通的数学家来说，无论是在数论还是其他领域，在日常研究工作中，有多大比例其实是被这种繁琐、机械性的苦工所拖慢、所构成瓶颈的？

陶哲轩：这个问题其实很难给出一个精确的百分比，但我觉得关键并不在于直接统计时间比例，而在于一种间接影响。

正是因为这些繁琐劳动的存在，我们往往会有意识地改变做数学的方式，尽量减少自己要面对的苦工。比如，当我们意识到某一步组合推导开始变得非常凌乱、计算量巨大时，往往会选择刻意绕开，改用另一条思路继续推进。

因此，如果你只看最终论文里呈现出来的内容，会觉得我们似乎做的都是高判断力的工作，真正的苦工并不多。但那是因为我们在研究过程中，已经下意识地避开了道路上的一个个坑，用一个比喻来说，我们是在不断绕开崎岖路段，而不是去填平它们。

而一旦这些工具真正到位，情况可能会发生根本变化。那时，我们会改变做事方式：如果前方出现一个巨大而繁重的计算任务，我们不再选择绕路，而是直接碾过去，动用所有可用的技术手段，借助计算、形式化工具，甚至直接交给计算机，说清楚从这里到那里该怎么走，然后继续前进。

这样一来，我们就可以穿越那些现在几乎是下意识回避的障碍。所以，从表面上看，当前数学研究中苦工的比例似乎并不高；但如果把那些被我们主动规避掉的工作也算进去，那这个比例其实远比看上去要大得多。

Jesse Han：之前你提到过，一个非常重要的瓶颈在于：寻找合适的合作者本身就很困难，更不用说还要在工作方式、思路层面与他们建立足够的默契。

我想具体问的是：在这种情况下，你觉得在研究过程中，有多大比例的时间，其实是被人与人之间沟通、对齐思路、传递和同步这些界限结果所消耗的？也就是说，为了在人类专家之间完成某种分布式计算，我们究竟付出了多大的沟通成本？

以及，如果你所设想的这一愿景真的实现了形式化、自动化工具能够承担起这些传递与整合工作，你认为这一领域的数学研究整体上有可能被加速多少倍？

陶哲轩：我觉得确实如此。首先，这是一个信任问题。在这类计算密集的研究中，只要某一步出了错，整个推导就可能全部失效。因此，你必须清楚哪些作者是可靠的、哪些结果是可以放心使用的，而这些信息往往是隐性的，并不会明确写在论文里。

现实中，我们不会公开列出哪些工作存在严重问题，于是你只能依赖对学术共同体的熟悉程度：你得知道这个圈子，知道该去问谁。很多时候，如果某个结果还没有正式发表，但你认识相关领域的专家，就可以直接去问他：这个地方是不是只需要稍微改一下就行？对方可能就会给你一个可靠的判断。

这就形成了一个明显的瓶颈：你必须身处这个关系网络之中，认识足够多对的人，才能高效地在这个领域工作。

而一旦我们能够通过形式化工具（比如 Lean）提供这种可验证的信任保证，情况就会发生根本改变。那时，你可以放心使用来自陌生研究者的结果，即便你从未见过他们，因为所有证明都已经由系统严格验证过。

正是在这一点上，我认为形式化将会极大地解锁生产力，消除大量由于信任与沟通成本造成的阻塞，从而释放出此前被压抑的大量研究潜力。

Jared Duker Lichtman：是的，我明白你的意思。你刚才提到信任这个概念，其实在数学研究中，信任往往是通过长期积累的学术记录建立起来的。一个研究者在某个领域持续工作、不断产出成果，随着时间推移，其他人自然会越来越信任他的结论。

而真正让我开始对形式化和数学基础问题产生强烈兴趣的一个重要故事，正是关于一位数学家的经历。他曾经建立起极高的学术声誉，证明过许多非常了不起的结果，因此在学界拥有极强的可信度。

但在 20 世纪 90 年代末，他写过一篇论文，后来大约在十年之后，他才意识到其中存在一个关键性的错误。回过头来看，他自己也反思到：当时很多人之所以接受那篇结论，很大程度上是因为大家在相信他这个人，而不是因为证明本身被彻底、逐行地验证过。

而这正揭示了一个核心问题：个人声誉和过往记录，并不等同于真理的保证。这类经历也正是形式化证明与基础工具如此重要的原因之一，它们提供的不是基于人的信任，而是基于可验证结构的信任。

陶哲轩：当然，这种做法在深度上是有极限的。我们能够推动数学前进的程度，终究会受到限制。当前在分析学中，这个问题相对没那么严重，是因为这里逐渐形成了一张不断加密的信任之网，而且我们的工作方式往往更接近从第一性原理出发，比其他一些领域更少依赖远距离的结果。

但即便如此，这种基于信任的结构依然是数学发展的一个限制因素。从长远来看，这是一个无法回避的问题，也是形式化和基础工具之所以重要的又一个原因。

Jared Duker Lichtman：我想再追问一个相关的问题。随着我们开始系统性地回溯并形式化一些经典论文，以及从 20 世纪 60 年代以来的大量文献，你会如何看待这样一个问题：

第一，在现有的数学文献中，可能还存在多少尚未被发现的错误？

第二，这些错误中，有多少只是可以通过小修小补解决的技术性问题？换句话说，整个数学体系作为一个整体，对这类错误究竟有多强的鲁棒性？

也就是说，即便我们真的通过形式化手段暴露出大量隐藏的问题，它们是否大多不会动摇理论的核心结构，而只是需要局部修正？还是说，其中也可能存在少量但影响深远的根本性漏洞？

陶哲轩：说实话，我也很想知道实际的错误率到底是多少。也许结果会让我们惊喜，也可能会让我们不太愉快。等六个月之后再来问我吧。

Jesse Han：今天这次交流真的非常愉快，真希望能再多聊一会儿。那就希望六个月之后，我们还能再进行一次这样的对话。

.....

#从「金砖理论」到「The Messy Inbox」

事件：近日，a16z 合伙人 David Haber 和 Alex Rampell 在访谈中指出，AI 驱动的软件正在从「辅助工具」向「数字劳动力」跃迁。面对巨头全面进场的环境，两人认为初创企业的突围在于寻找「金砖」缝隙，并抢占上游非结构化的数据入口。对话强调，模型带来的差异化仅是短期红利，真正的护城河需建立在对特定行业上下文的深度掌控之上。

01.传统收费模式已成过去式，寻找「Goldilocks Zone」才是 AI 商业化的终局？

软件属性如何实现从「辅助工具」向「执行主体」的跃迁？当竞争锚点变为「人力成本」，市场天花板应该如何打开？...

02. AI 技术已成巨头共识，创业公司只有寻找「结构性缝隙」才能突围？

AI 时代下，巨头的「高度共识」如何重塑竞争格局？创业者又该如何利用「金砖理论」寻找结构性缝隙？...

03. 「The Messy Inbox」战术如何切入市场？

「差异化」与「防御性」有何本质区别？为何模型能力无法构成长期壁垒？...

传统收费模式已成过去式，寻找「Goldilocks Zone」才是 AI 商业化的终局？

a16z 合伙人 David Haber 与 Alex Rampell 在访谈中指出了软件商业属性在本轮技术周期中的代际更迭。当前，软件正从依赖人工操作的「辅助工具」演进为具备独立执行能力的「数字劳动力」。同时商业价值逻辑的重构也促使定价模式发生了转变，即不再沿用传统的按人头收费标准，而是转向介于软件与人力成本之间的「Goldilocks Zone」来获取劳动替代溢价。

1、访谈伊始，Rampell 提出了本轮技术周期的核心论断，即软件的商业属性正在经历从「辅助工具」向「执行主体」的范式转移。

2、在过去的技术范式中，软件被严格定义为依附于人类员工的辅助工具，其价值必须通过人的操作和指令才能释放。在这种模式下，人始终是业务流程的绝对核心，软件仅负责提升效率或记录数据。

① 例如 CRM 系统需要销售人员录入信息，Excel 需要财务人员编写公式。

3、然而在人工智能时代，软件本身的性质发生了质变，它不再仅仅是等待调用的资源库，而是进化为能够独立执行任务的数字劳动力。

4、软件开始具备了工作的独立性，能够直接替代人类去完成流程中具体的、端到端的劳动环节。

① 软件可以直接与客户进行多语言通话催收，或者自动完成法律文书的起草。

5、而随着软件属性从工具向劳动力的转变，企业评估软件价值的标尺也随之发生了变化，进一步推动了目标市场空间的量级跃迁。

6、当软件仅作为工具存在时，企业的采购决策通常基于有限的信息技术维护费用，这部分预算在企业总支出中往往占比极小且增长乏力。

7、一旦软件被重新定义为具备执行能力的数字劳动力，其商业对标对象也发生了转变。此时，软件不是在有限的 IT 预算池中和其他工具类软件争夺份额，而是直接与企业运营支出中高昂的人力薪酬成本进行竞价。

8、这种逻辑进一步激活了大量过去被视为缺乏软件化价值的边缘领域。

① 例如法律索赔处理或牙科诊所前台等场景，这些工作因流程刚性、碎片化且高度依赖人工判断，难以通过传统编程实现自动化。

② 在人工智能时代，这些劳动密集型的刚性流程反而因人力替代价值而成为了利润丰厚的核心市场。数字劳动力能够以极低的边际成本接管这些任务。

9、针对这种全新的数字劳动力形态，David Haber 和 Alex Rampell 指出传统的按席位订阅（SaaS）模式已失效，并强调创业者必须对商业变现模式进行根本性调整。

① 传统 SaaS 模式依赖于对使用软件的「人头」收费，但 AI Agent 的核心价值恰恰在于通过自动化执行来减少甚至移除对人类员工的需求。

② 如果继续沿用旧模式，产品越成功，客户所需的席位越少，软件公司的收入反而会萎缩。

10、因此他们提出了 Goldilocks Zone 的定价方式来寻找软件成本与人力成本之间的最优套利空间，该策略的核心在于设定一个价格平衡点。

① 平衡点必须显著低于雇佣真人的综合成本，迫使客户基于巨大的降本增效优势产生无法拒绝的购买决策。

② 同时，定价又要远高于传统工具软件的订阅费用，用于匹配其交付的实际劳动成果。

AI 技术已成巨头共识，创业公司只有寻找「结构性缝隙」才能突围？

Alex Rampell 和 David Haber 在对话中指出了初创企业面临的竞争环境变化：由于巨头已对 AI 技术达成了高度共识，过往依靠在位者认知偏差获取的时间窗口红利期已经过去。为了应对这一变局，创业者需运用「金砖理论」寻找巨头因机会成本而战略性放弃的结构性缝隙，并将核心壁垒从同质化的底层模型能力转移至对特定行业「上下文」的深度理解与工作流嵌入。...

.....

#ContextGen

布局控制+身份一致：浙大提出ContextGen，实现布局锚定多实例生成新SOTA

随着扩散模型（Diffusion Models）的迭代演进，图像生成已经日臻成熟。然而，在多实例图像生成（Multi-Instance Image Generation, MIG）这一有着大量用户场景的关键领域，现有的方法仍面临核心瓶颈：如何同时实现对多个对象的空间布局控制（Layout Control）以及身份特征的良好保持（Identity Preservation）。

主流方法往往无法做到两全其美：依赖文本和布局引导（Layout-to-Image）的模型往往难以实现高度的实例定制化，且实例遗漏、属性泄露的问题时有发生；而主流的主体驱动（Subject-driven）方法在主体数量增加时，面临着严重的身份混淆和细节丢失的问题。

ContextGen 与主流 SOTA 的对比示例，以及 ContextGen 的使用例

为解决这一制约高度定制化图像生成的难题，浙江大学 ReLER 团队发布 ContextGen，一个新型的基于 Diffusion Transformer (DiT) 的框架，旨在通过上下文学习，可靠地完成图像引导的多实例生成任务！

论文地址：https://arxiv.org/abs/2510.11000
项目地址：https://nenhang.github.io/ContextGen
开源代码：https://github.com/nenhang/ContextGen
开源模型：https://huggingface.co/ruihangxu/ContextGen

ContextGen 提出了全新的上下文生成范式，通过整合布局图像和多张参考图像，将布局控制与身份保持的挑战转化为统一的上下文建模问题。

双核驱动：实现布局与身份的双重保真

ContextGen 的双重核心机制，共同作用于统一的上下文 Token 序列上：

ContextGen 框架结构概览

上下文布局锚定（Contextual Layout Anchoring, CLA）

CLA 机制聚焦于全局上下文的引导，接受用户设计（或者模型自动拼合）的布局图像作为输入，以提供精确的全局布局控制和初步的身份信息。它通过在 DiT 模块的前置层和后置层部署自注意力机制，确保文本、待生成图像和布局图像三者进行充分注意力交互，对整体图像结构进行有效控制。

身份一致性注意力（Identity Consistency Attention, ICA）

ICA 机制聚焦细粒度的身份注入，利用原始高保真度的参考图像，将身份信息注入到其对应的目标位置，从而保障多个实例的身份一致性。它被部署到 DiT 模块的中间层，通过一个隔离式的注意力掩码，将参考图像的 Token 与对应待去噪区域的 Token 建立连接，旨在缓解重叠或者压缩导致的细节丢失问题，并在图像序列增长时保证身份信息的稳定注入。

这种的层次化的双重注意力策略，有效地让框架兼具了宏观的布局控制和精细的实例级身份保持。此外，ContextGen 还采用了增强的位置索引策略，系统性地区分和组织统一 Token 序列中多图像之间的关系。

数据基石：大规模详细标注的多实例数据集

针对当前领域高质量训练数据稀缺的现状，团队同时推出了 IMIG-100K 数据集。这是首个为图像引导的多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集，其构建流程代码也已经开源，支持用户根据自身需求生成定制化数据集。

IMIG-100K 数据集概览

IMIG-100K 的布局、身份标注

性能优化：DPO 强化学习解放创造力

团队在训练过程中发现，仅仅使用监督微调容易使得模型过度参考布局图像，导致生成的图像缺乏多样性和灵活性。为此，在监督微调之外，ContextGen 还引入了基于偏好优化（DPO）的强化学习阶段。该阶段将布局图像作为非偏好输入，鼓励模型不僵硬复制布局内容，生成更具创意和多样性的图像。

DPO 微调过程示例

实验验证：对标闭源模型，树立性能标杆

在广泛的定量和定性评估中，ContextGen 展现出卓越的 SOTA 性能。

身份保持：比肩闭源巨头

在 LAMICBench++ 基准测试中，ContextGen 不仅超越了所有开源模型（平均得分提升 +1.3%），更在身份一致性上比肩了一些闭源的商业巨头，在多实例的复杂场景中，ContextGen 在人物身份保持 (IDS) 和物体特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一较高下。

LAMICBench++ 基准的定量对比

LAMICBench++ 基准的定性对比1

LAMICBench++ 基准的定性对比2

布局与属性控制：准确率大幅提升

在 COCO-MIG 上，ContextGen 在实例级成功率 (I-SR) 上提升 +3.3%，空间准确性 (mIoU) 提升 +5.9%。在 LayoutSAM-Eval 中，ContextGen 在颜色、材质等属性的正确率上也超过了现有的模型。

COCO-MIG 和 LayoutSAM-Eval 基准的定量比较

COCO-MIG 基准的定性比较

LayoutSam-Eval 基准的定性比较

这些结果充分证明了 ContextGen 在多实例图像生成任务中的强大能力，成功实现了对布局和身份的双重精确控制。

前端支持：便捷的用户交互

为了方便用户体验，在项目中团队增加了一个简单易用的前端界面，支持用户上传参考图像、以文本的形式添加新素材、通过拖拽方便地设计布局，生成多实例图像。

ContextGen 前端交互界面

展望与未来

ContextGen 通过带有双重注意力的上下文机制，为高度可控的多实例生成提供了一个强大且可行的 DiT 框架。ReLER 团队进一步提出，如何更智能地理解用户的文本意图与多模态参考，仍然是一个值得深入探索的课题。未来，团队计划进一步优化模型架构，提升生成效率，并探索更多样化的用户交互方式，以满足更广泛的应用需求。

.....

#BEYOND DATA FILTERING

Anthropic公布新技术：不靠删数据，参数隔离移除AI危险

近年来，大语言模型的能力突飞猛进，但随之而来的却是愈发棘手的双重用途风险（dual-use risks）。当模型在海量公开互联网数据中学习时，它不仅掌握语言与推理能力，也不可避免地接触到 CBRN（化学、生物、放射、核）危险制造、软件漏洞利用等高敏感度、潜在危险的知识领域。

为此，研究者通常会在后训练加入拒答机制等安全措施，希望阻断这些能力的滥用。然而事实证明：面对刻意规避的攻击者，这些防线并不牢固。模型的强大让它在被保护与被绕过之间处于微妙而脆弱的平衡。

这促使研究者开始探索在预训练阶段进行干预，从根源上防止模型获得危险能力。

目前的标准做法是数据过滤：在训练前识别并移除有害内容。然而，这一方法存在多项挑战：

标注成本高且不完美：要在数十亿文档中准确识别所有 CBRN 相关内容，既昂贵又容易出错。
有害内容常混杂在良性文档中：例如一本化学教材大部分是有益的教育内容，但其中也可能包含可被滥用的知识。
双重用途知识高度纠缠：许多概念本身具有益处与风险并存的特性，无法做到完全干净的分离。
模型的样本效率提升：最新研究表明，随着模型规模扩大，即使极少量的危险数据也可能显著提升模型在相关危险任务上的能力。

这些挑战导致一个不可避免的取舍：要么接受危险内容，要么因为过度清洗而损失大量有价值的通用知识。

为此，Anthropic 提出了 SGTM（Selective Gradient Masking），用一种全然不同的范式来应对这些挑战：它不再试图在训练前完美分类并剔除危险数据，而是在训练过程中将危险知识定位进模型中专门的参数区域。

论文地址：https://arxiv.org/pdf/2512.05648
代码地址：https://github.com/safety-research/selective-gradient-masking
论文标题：BEYOND DATA FILTERING: KNOWLEDGE LOCALIZATION FOR CAPABILITY REMOVAL IN LLMS

其核心洞察在于：一旦模型开始根据带标签的示例将危险知识存储到指定参数中，一个自我强化的过程就会出现，即使是未标注的危险内容，也会自然地聚集到同一组参数里。

这种吸附效应（absorption effect）的结果是：即便存在标注错误或漏标，危险知识仍会落入可移除的参数部分，从而实现传统数据过滤无法达到的对标注噪声的鲁棒性。

在训练结束后，只需将这部分指定参数置零，即可移除危险知识，同时保留模型的通用能力完好无损。

SGTM 在训练过程中将目标知识（如 CBRN 信息）聚焦到模型的特定参数中，训练完成后只需移除这些参数即可消除危险能力，同时保留模型的通用知识。

方法介绍

SGTM 基于 Gradient Routing（梯度路由）框架：它在训练过程中将危险知识集中到特定的模型参数中，随后可以通过移除这些参数来删除相关能力。

SGTM 的核心做法是：通过选择性掩码梯度来调整训练期间梯度的作用方式，从而控制不同类型的知识被存储到哪些参数中。

SGTM 将模型参数划分为忘却（forget，橙色）和保留（retain，蓝色）两部分。在每个 Transformer block 中，部分注意力头和 MLP 神经元被指定用于存储危险知识，其余部分则用于存储通用知识。

SGTM 的工作机制如下：

参数指定：在每个 Transformer block 中，将特定的注意力头和 MLP 神经元指定为忘却参数，负责存储危险知识；其余参数则作为保留参数，用于存储通用知识。

选择性梯度掩码：在训练过程中，当模型看到被标注为危险的数据（如 CBRN 相关内容）时，会掩码非忘却参数的梯度，使得只有忘却参数被更新。这样可以确保危险知识只能流入预设的参数区域。

消融：在训练结束后，永久性地将忘却参数置零，从而移除危险知识，同时保留模型的整体能力。

这种方法的关键在于 SGTM 对未标注数据（即不确定其是否危险）采取允许其更新所有参数的方式。但由于模型在带标注数据中已学习到危险知识应当被存储的位置，这会产生一个自我强化过程（absorption 吸附效应），未标注的危险内容也会自然地倾向聚集到忘却参数中。

从基于维基百科训练的模型中隔离并移除生物学知识

为了验证 SGTM 的有效性，Anthropic 在英文维基百科上训练了一个 2.54 亿参数的模型，目标是在移除生物学知识的同时保留其他能力。他们使用维基百科的内容分类体系为文章打标签，将其中的生物学类文章（占所有 token 的 3.7%）视为需要遗忘的数据，以便在模型中移除。

SGTM 在保持通用能力的前提下，实现了比数据过滤更好的知识移除效果。图中每条曲线代表一次训练过程。

Anthropic 将 SGTM 与两种数据过滤基线方法进行了对比。弱过滤：仅移除生物学类文章；强过滤：移除生物学 + 医学 + 化学 + 环境类文章。

结果表明：对于任意固定的 retain loss（通用能力保留程度），SGTM 都能获得更高的 forget loss（生物学知识移除强度），即在保留 — 遗忘权衡上明显优于两种过滤方案。

这种优势源于文章级标注的局限性：非生物学类文章中仍可能含有大量嵌入式生物学内容。数据过滤必须对整篇文章作二元判断，要么保留、要么移除；但 SGTM 能够从任何来源中将生物学知识局部化到 forget 参数中。

因此，SGTM 能够：

捕获弱过滤中漏掉的生物学信息
避免强过滤中对邻近学科（如医学、化学）的误伤

相比强过滤，SGTM 保留了更多与生物学相邻领域的知识；相比弱过滤，SGTM 又能移除更多生物学知识。此外，SGTM 的计算成本略有提升：在达到与标准训练相同 retain loss 的前提下，SGTM 会增加约 5% 的计算开销。

SGTM 对对抗式微调具有鲁棒性

对于任何知识移除技术，一个关键问题是：知识是否真的被移除，而非仅仅被压制？

为此，Anthropic 进行了测试：通过对模型进行对抗式微调，尝试用 50/50 混合比例的生物学数据与通用数据重新灌输生物学知识，观察其是否能够恢复。

SGTM 的知识移除在对抗式微调下表现出极强的鲁棒性。相比之下，标准的后训练遗忘方法（RMU）会很快恢复被移除的知识，而 SGTM 需要 7 倍以上的微调量才能回到基线性能，其抗恢复能力与完美数据过滤训练的模型相当。

实验结果显示：

传统的后训练遗忘方法（RMU）抗压性极弱：仅需 50 个微调步骤（1300 万 tokens），模型就完全恢复了原本的生物学能力；
SGTM 则需要 350 个步骤（9200 万 tokens）才能恢复到基线性能，抗恢复能力是 RMU 的 7 倍；
SGTM 的鲁棒性与严格的数据过滤方法相当，这表明它实现的是真正的知识移除，而非表层抑制。

机制层面的理解

为了理解 SGTM 的工作原理，本文使用双语 TinyStories 数据（将英语视为保留知识、将西班牙语视为遗忘知识）进行了受控实验，从而研究 SGTM 如何实现知识的局部化。他们在处理未标注数据时分析了其梯度范数，即将所有样本视为标签未知、且不应用任何梯度掩码，以观察不同类型的数据自然会更新哪些参数。

对未标注数据的梯度范数分析揭示了一个自我强化的知识局部化机制。当模型处理遗忘数据（如西班牙语）时，遗忘参数呈现更高的梯度范数；相反，当模型处理保留数据（如英语）时，保留参数的梯度范数更高。

这种吸附（absorption）机制解释了 SGTM 面对标签噪声仍具鲁棒性的原因，即使是未标注的危险内容，也会自然流向被设计用于移除的参数中。

分析显示，SGTM 的自强化机制包含以下过程：

初始阶段：带标签的遗忘样本由于梯度掩码，只会更新遗忘参数。
路径形成：模型因此在内部为遗忘领域内容建立了专门的处理路径。
自然而然的路由倾向：随后，即便是未标注的遗忘样本，也会自然通过这些路径，主要更新遗忘参数。
吸附效应：这意味着即使危险内容被错误标注或遗漏，它也会被吸附到可移除的参数中。

Anthropic 还发现，这种局部化效应会随模型规模增大而增强。在 8M 到 64M 参数规模的模型中，大模型在遗忘知识向保留参数泄漏方面表现出更低的程度，这表明 SGTM 在更大模型上效果更佳。

参考链接：

https://alignment.anthropic.com/2025/selective-gradient-masking/

.....

#玩到崩溃，《青椒模拟器》游戏爆火

我在AI世界一路升级做院士

「出门在外，身份都是自己给的」。

最近两天，一款名为《青椒模拟器》的小游戏突然火了，好玩程度一整个把人震撼住了。

游戏时间以学年为单位推进。一开始，每个人的起点都差不多：职称未定、资源有限、热情尚存，他们会招募团队新成员、申请项目、处理学生遇到的问题、中间还会有各种各样的事务来让你选择，你的每个决定都会影响着之后的评级。

结果就是有人 6 年考核期没过需要离开，有人成功晋升为副教授、特聘教授，院士，还有人获得了至高荣誉诺贝尔奖。

由于玩家涌入速度过快，《青椒模拟器》的服务一度被挤到无法登录，不过好在问题已经解决，服务器重新上线，青椒们也陆续回到了系统之中。

值得一提的是，这款小游戏是开发者在业余时间做的小作品，开发者名单中还出现了 Gemini 3 Pro，看来团队是用这个模型当辅助了。

作者还表示，他们得到了 Kimi 的支持，还白嫖了 Xiaomi MiMo 的 API。

大家又开始废寝忘食地在模拟器中上演自己的「美好学术生活。」

一位玩家称这个游戏简直是自己的「本命模拟器」，自己在现实中申请教职前还在跟细胞、PCR、基金本子死磕的生物人，在这个模拟器里简直把之前的日常生活还原到「窒息」。

「从选题立项到评职称，每一步都把生物青椒的日常还原到窒息，代入感拉满」

而且模拟器比现实更诗意的是，也就是几个小时的时间里，这位玩家就破格晋升为「中国科学院院士」。

当然，还有比这位玩家更戏剧性的。

「27 岁入职，第一年拿下 120w 国自然和 20w 横向，猛猛招学生每年三个，挨个都把 push 和 relax 点满，每个季度必改三个文章。

第三年连着招到俩天才学生每个人 12 篇文章，第五年一次性毕业四个学生 20 篇文章，第六年副教授第七年教授，躺平吗？不，之后继续招人，最多的时候带 13 个学生，心力交瘁全靠按摩支撑，之后也跳槽、觉得卷不动了，于是在 45 岁时开始养老，一届只招一个学生，50 岁评上特聘教授，招了两个新的青椒，看着他们走自己的来时路，51 岁，等着看 60 岁退休回顾学术生涯的时候，突然就得了个诺贝尔奖。」

有网友评论，这简直与现实联动了，今年的诺贝尔奖有几个得主也都是早已转行、甚至退休，接到电话还以为是诈骗……

但也不都是这样「一路开挂」或「戏剧丛生」的，也有一些玩家一路跌跌撞撞，依旧在原地打转。

有的「学生手里攥着 3 个论文待投，我甚至不能催他们去投一下，有个学生都已经捏着两个待投延毕了」；有的为了尽快完成升级「不择手段」，「两眼一睁就开始 push 学生。」

还有的「都玩了十把还是没成功，6 年 30 篇论文也没有用」，后来经网友提醒才知道，还「需要 100 声望」……

最后，甚至有好心的玩家根据经验心得整理出了一份「重生院士建议」，包括但限于：没事儿别给学生改论文，双输行为；抓紧机会用离谱点子发论文；多招学生，适度关怀和画饼（不是）……

其实仔细看下来，「青椒模拟器」本来只是「无心之作」，但却在短时间内「火」起来了，一方面是因为它并非传统意义上的游戏，而是像一部带有写实甚至荒诞的「社会模拟实验」，触发了隐藏于大家内心的情绪，更重要的是，在这个由独立开发者利用大模型驱动的「平行世界」中，玩家的游戏体验更为沉浸、自由和智能，给大家带来了新奇的感受。

一手体验

我们也上手玩了一局，结果这款小游戏建议我提前退休，然后不死心的我又玩了两局，结局依然如此，咱也不知道问题出在哪？

虽然最终没到达院士那个级别，我们也记录了一下体验过程。

登录后，会看到如下界面，在教职申请系统中，《青椒模拟器》会给用户随机安排一个名字，比如田颖老师。

然后，你就可以选择学科、院系，完成之后提交就可以了。

链接：https://tenure.feedscription.com/

接下来，《青椒模拟器》直接切换成了高校官网模式。没有过场动画，没有情绪铺垫，页面一跳 —— 田老师的个人主页，正式上线。那一瞬间，熟悉得让人头皮发麻。

页面布局你一定见过，左上角一张像证件照又像临时拍的生活照（这里随便给了一张），背景要么是白墙，要么是窗帘，主打一个：信息够用，审美随缘。

接下来是个人简介，一整段话读下来，信息密度低得惊人。再往下就是重头戏研究方向、招生要求（比如坐得住，耐得住寂寞，有文章不厌百回改的耐心），看到这句话，估计很多人已经开始犯嘀咕了。

作为讲师，需要招募团队，点击招募学生，就会有人来面试，招募学生是有名额的，现在田老师已经招到 3 名同学：

当然，你还能进行项目申请：当你点下那个按钮时，心里多少还是会有点期待的。毕竟在大多数游戏里，申请项目通常意味着主线推进、资源解锁、命运拐点。

对，就是这么残酷，有时项目申请会失败，百思不得其解的你很是好奇，到底哪里做错了：

当你点击结束本季度，校务通知出现了，这里你需要深思熟虑做选择，会影响最终结果：

中间也会接收到学生的一些日常事务，需要你处理：

如果你觉得团队人员不够，在达到一定标准后，可以继续扩招。经过一路的答题、招人、申请项目后，你的团队会有论文产出：

不过也有被拒的时候：

第四年的时候，已经有学生毕业了：

当你满怀信心的朝着院士目标前进时，不好意思，你的青椒体验卡到期了，额，一路过五关斩六将，就是这个结果：

.....

#Is Nano Banana Pro a Low-Level Vision All-Rounder?

A Comprehensive Evaluation on 14 Tasks and 40 Datasets

Nano Banana Pro (Gemini 3 Pro) 是低层视觉全能选手吗？

论文标题：Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets
论文作者：Jialong Zuo, Haoyou Deng, Hanyu Zhou, Jiaxin Zhu, Yicheng Zhang, Yiwei Zhang, Yongxin Yan, Kaixing Huang, Weisen Chen, Yongtai Deng, Rui Jin, Nong Sang, Changxin Gao
项目主页：https://lowlevelbanana.github.io/

最近，文生图（Text-to-Image）模型的进化速度让人惊叹，它们在视觉内容创作领域掀起了一场革命。像Nano Banana Pro这样的商业产品（实际上是谷歌 DeepMind 基于强大的 Gemini 3 Pro 多模态引擎构建的最新视觉生成系统），更是吸引了无数眼球。不过，大家普遍关心的是，这个有着谷歌旗舰血统的强大模型除了能“画画”，能不能也作为一种通用的解决方案，去解决那些传统的、更基础的计算机视觉问题，比如图像去噪、超分辨率等？

今天我们要解读的这篇技术报告，就深入探讨了这个关键问题：Nano Banana Pro算得上一个低层视觉的全能选手吗？

研究者们进行了一项非常全面的“零样本”（zero-shot）评测，覆盖了14个不同的低层视觉任务和40个多样化的数据集。他们没有对模型进行任何微调，仅仅通过简单的文本提示词，就将Nano Banana Pro与各个领域的顶尖（SOTA）专业模型进行了正面比较。

研究结果揭示了一个非常有趣的“二分”现象：一方面，Nano Banana Pro在主观视觉质量上表现卓越，它“脑补”出的高频细节常常让那些专业模型都相形见绌；但另一方面，在传统的、基于参考图像的量化指标（如PSNR、SSIM）上，它的得分却不尽人意。

评测方法：不教直接用的“零样本”评测

这项研究最核心的特点是“零样本”评测。这意味着研究者们没有用特定任务的数据去“教”Nano Banana Pro如何去雨、如何去雾，而是直接给它一个指令，让它自己想办法解决。

整个评测横跨了三大类共14种任务：

图像恢复：包括去雾、超分辨率、去雨、去阴影、去运动模糊、去散焦模糊、去噪、去反光、去光斑。
图像增强：包括低光照增强、水下图像增强、HDR成像。
图像融合：包括多焦点图像融合、红外与可见光图像融合。

这种全面的评估方式，能让我们清晰地看到，一个通用的生成式大模型在面对这些细分领域时的真实能力和局限性。

结果分析：惊艳的“优等生”与尴尬的“偏科生”

论文的核心发现，可以用“冰火两重天”来形容。Nano Banana Pro这位选手，一方面是视觉效果上的“优等生”，另一方面却是传统指标上的“偏科生”。

主观视觉质量：人眼可见的出色

在绝大多数任务中，Nano Banana Pro生成的结果在人眼看来都非常舒服。它不仅能完成任务（比如去除雨滴），还能对图像进行“脑补式”的优化，生成连原始的、作为标准答案的“真值图”（Ground Truth）都没有的、非常合理且清晰的细节。

图像去雨

例如，在去雨任务中，尽管大而密的雨痕严重遮挡了背景，导致颜色偏差和细节丢失，但Nano Banana Pro依然展现了强大的全局结构恢复能力。下面这张图里的吊桥缆绳结构，它恢复得就比很多监督学习的专业模型还要好，语义上更合理。

不过，它的表现也和雨的大小有关。雨小的时候，它能很好地保留原始色调和细节；雨大的时候，颜色就会出现偏移，细节也会丢失。

图像去模糊

在运动去模糊任务中，Nano Banana Pro在合成数据集（GoPro、HIDE）和真实世界数据集（RealBlur）上都展示了强大的恢复能力。它能成功恢复海报和招牌上的文字，甚至在高动态范围的场景下也处理得很好。

水下图像增强 (Underwater Image Enhancement)

水下环境由于光的吸收和散射，图像通常存在颜色失真（偏蓝或偏绿）、对比度低和细节模糊等问题。Nano Banana Pro 在处理这类图像时也表现出了其“双面性”。

从上图的成功案例可以看出，它能够有效校正色偏、显著提升对比度，并恢复场景的真实色彩和细节，视觉效果非常自然。

红外与可见光图像融合

在红外与可见光图像融合这个任务上，Nano Banana Pro的优势尤其明显。传统方法常常难以兼顾红外图像的目标高亮和可见光图像的背景纹理，但Nano Banana Pro生成的图像清晰度和对比度都极高，能够从源图像中挖掘和重建丰富的高频边缘信息。

下面这张图展示了它在MSRS数据集上的融合效果，无论是弱光下的行人目标，还是过曝区域的细节，都处理得相当不错。

客观量化指标：全面的落后

尽管看起来效果拔群，但在传统的量化指标上，Nano Banana Pro却几乎全面落后于那些为特定任务“精修”过的专业模型。

下表是去雨任务在三个主流数据集上的PSNR/SSIM指标对比，可以看到Nano Banana Pro与SOTA方法（如NeRD-Rain）存在巨大差距。

同样的情况也出现在图像超分辨率、去阴影、去噪等几乎所有任务中。

(超分辨率任务指标对比)

(去阴影任务指标对比)

为什么会这样？

论文将这种差异归因于生成式模型固有的随机性（stochasticity）。

传统模型经过监督学习训练，目标是无限逼近一个给定的、唯一的“标准答案”（Ground Truth），追求的是像素级别的严格一致性。因此，它们在PSNR、SSIM这类衡量“相似度”的指标上得分很高。

而Nano Banana Pro这类生成式模型，它的目标是生成一个“合理”的、符合语义和人类审美的结果。它并不在乎生成的结果和那个唯一的“标准答案”在像素上是否一模一样。它可能会“创造性”地修复细节，甚至让结果比“标准答案”看起来更清晰、更合理。但这种“创造”在传统指标看来，就是“错误”，是与标准答案的“偏差”，得分自然就低了。

典型的失败案例

当然，Nano Banana Pro也并非完美，它在评测中也暴露了许多典型的“翻车”场景。

内容幻觉（Hallucination）：这是生成式模型最常见的问题。在信息严重缺失的情况下，它会“脑补”出完全不存在的内容。比如在去阴影时，直接画出了一只新的手；在超分辨率时，生成了错误的文字。

(去阴影时生成了不存在的手)

(超分辨率任务中，右图生成了错误的字符)

颜色失真：在去雾、去雨等任务中，有时会产生不自然的颜色，比如把阴天脑补成蓝天，导致色彩保真度下降。

(去雾后图像颜色失真)

边界扩展：在超分辨率任务中，模型没能严格遵守原始图像的边界，而是在图像外围错误地生成了额外内容。

一点思考

那么，回到最初的问题：Nano Banana Pro是低层视觉的全能选手吗？

这篇报告给出的答案是：还不是，但潜力巨大。

它证明了，像Nano Banana Pro这样的通用大模型，确实有能力在不经过任何特殊训练的情况下，仅凭简单的文本指令，就能应对多种多样的低层视觉任务，并且在“视觉效果”这个维度上，已经可以挑战甚至超越专业模型。

然而，“效果好但分数低”的矛盾也给我们带来了新的思考：我们是否需要为生成式AI设计新的评测体系？ 当一个模型能创造出比“标准答案”更符合人眼审美的结果时，我们又该如何客观地评价它的好坏呢？

.....

#谷歌Nano Banana全网刷屏

起底背后团队

引入「交错生成」功能，增强模型在世界知识和创意解释方面的能力。

香蕉也能变礼服？Google 真的做到了！

在最新一期谷歌开发者节目里，Google DeepMind 团队首次全面展示了 Gemini 2.5 Flash Image —— 一款拥有原生图像生成与编辑能力的最新模型。

它不仅能快速生成高质量图像，还能在多轮对话中保持场景一致，带来了前所未有的互动体验，堪称 SOTA 级图像生成革命。

背后的研发和产品团队，也首次亮相。

起底背后团队

Logan Kilpatrick

Logan Kilpatrick 是 Google DeepMind 的高级产品经理，负责领导 Google AI Studio 和 Gemini API 的产品开发工作。

他在 AI 开发者社区中享有盛誉，曾在 OpenAI 担任开发者关系负责人，广为人知的昵称是「LoganGPT」。在加入 Google 之前，他曾在 Apple 担任机器学习工程师，并在 NASA 担任开源政策顾问。

在 Google，Kilpatrick 领导了 Gemini 2.0 Flash 的本地图像生成功能的推出，使开发者能够通过自然语言提示生成和编辑图像。这一功能的亮点包括多轮对话式图像编辑、图像和文本的交替生成，以及基于世界知识的图像生成。

Kilpatrick 还定期在 X 上分享产品更新和开发者资源，成为 Google AI 的非正式代言人。

他毕业于哈佛大学和牛津大学，早期在 NASA 开发月球车软件，并在 Apple 训练机器学习模型。他对 Julia 编程语言持积极态度，并曾在 2024 年表示，直接迈向人工超智能（ASI）而不关注中间阶段的做法「越来越可能」。

Kaushik Shivakumar

Kaushik Shivakumar 是 Google DeepMind 的研究工程师，专注于机器人技术、人工智能和多模态学习的研究与应用。

他在加利福尼亚大学伯克利分校获得了计算机科学学士学位，并在该校的 AUTOLab 实验室攻读硕士学位，师从 Ken Goldberg 教授。在研究生阶段，他主要从事与可变形物体操作、语言模型和强化学习相关的机器人研究。

在加入 DeepMind 之前，Kaushik 曾在 Google Brain 团队担任软件工程实习生，研究深度神经网络的不确定性估计方法。他还在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等机构担任研究员和实习生，参与了多项与机器人、机器学习和弱监督学习相关的项目。

在 DeepMind，Kaushik 参与了多个重要项目，包括 Gemini 2.5 模型的开发，该模型在推理能力、多模态理解和长上下文处理方面取得了显著进展。此外，他还在机器人操作、物体追踪和语义搜索等领域发表了多篇研究论文。

Robert Riachi

Robert Riachi 是 Google DeepMind 的研究工程师，专注于多模态 AI 模型的开发与应用，尤其在图像生成和编辑领域具有显著贡献。

他在大学期间主修计算机科学和统计学，毕业于加拿大滑铁卢大学。

在 DeepMind，Riachi 参与了多个重要项目，包括 Gemini 2.0 和 Gemini 2.5 系列模型的研发工作，致力于将图像生成能力与对话式 AI 相结合，使用户能够通过自然语言提示进行精细的图像编辑。

在加入 DeepMind 之前，Riachi 曾在 Splunk、Bloomberg、SAP 和 Deloitte 等公司担任软件工程师和机器学习工程师。

Nicole Brichtova

Nicole Brichtova 本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院，目前担任 Google DeepMind 的视觉生成产品负责人，专注于构建生成模型，推动 Gemini 应用、Google Ads 和 Google Cloud 等产品的发展。

在加入 DeepMind 之前，Nicole 曾在 Google 的消费产品团队担任产品和市场战略工作，参与了多个项目的规划和推广。此外，她还在德勤咨询公司担任顾问，为财富 500 强的科技公司提供创新和增长方面的建议。

Nicole 特别关注生成式人工智能如何支持创意、设计以及与技术互动的新方式。她在多个公开场合分享了 DeepMind 在视觉生成领域的最新进展，强调模型在理解复杂指令和生成高质量图像方面的能力。

Mostafa Dehghani

Mostafa Dehghani 是 Google DeepMind 的研究科学家，主要从事机器学习，特别是深度学习方面的工作。他的研究兴趣包括自监督学习、生成模型、大模型训练和序列建模。

在加入谷歌前，他在阿姆斯特丹大学攻读博士学位，博士研究聚焦于改进在不完备监督下的学习过程。他探索了将归纳偏置引入算法、融入先验知识以及使用数据本身进行元学习的思想，旨在帮助学习算法更好地从噪声或有限数据中学习。

他于 2020 年加入 Google DeepMind，参与了多个重要项目，包括开发多模态视觉语言模型 PaLI-X、构建 220 亿参数的 Vision Transformer（ViT22B）以及提出 DSI++（Differentiable Search Indices），这是一种用于文档增量更新的检索增强学习方法。

Nano Banana 有哪些技术亮点？

在节目一开始，研究人员就演展示了这款 P 图神器的几个亮点。

图像编辑与场景一致性：

让 AI 给 Logan 「穿上一件巨大的香蕉服」。生成只花了十几秒，结果既保留了 Logan 的脸部特征，还加上了芝加哥街头的背景。

创意解读与模糊指令处理：

当提示「让它变成纳米（Nano）」时，模型居然生成了 Logan 的「迷你 Q 版」形象，依旧保持了香蕉服的设定。

模型能够通过自然语言指令进行多轮互动，且在多次编辑中保持场景一致性，无需输入冗长提示词。

过去图像生成 AI 最大的槽点是「写字像外星文」。而这次，Gemini 2.5 Flash Image 已经能在图中正确生成简短的文字，比如「Gemini Nano」。

团队甚至把文本渲染能力当作模型评估的新指标，因为它能反映模型生成图像「结构」的能力，并作为衡量整体图像质量的信号，有助于指导模型改进。

他们通过追踪此指标，避免了模型退步。虽然目前仍有文本渲染方面的不足，但团队正努力改进。

而且，Gemini 2.5 Flash Image 不只是「画图机器」，它的核心魅力还在于「看懂图片」。

团队介绍，这款模型在原生图像生成与多模态理解方面实现了紧密结合：图像理解为生成提供信息，生成又反过来强化理解，两者相辅相成。

通过图像、视频甚至音频，Gemini 能从世界中学习额外知识，从而提升文本理解与生成能力 —— 视觉信号成为理解世界的捷径。

在操作体验上，模型引入了「交错生成机制（interleaved generation）」。

面对复杂、多点修改的任务，它会将一次性指令拆解成多轮操作，逐步生成与编辑图像，实现「像素级别的完美编辑」。用户只需用自然语言下达指令，即便提示模糊，Gemini 也能创意解读，并保持场景一致性。

无论是角色动作、服装，还是背景环境，修改与生成都能在多轮中保持连贯。

用 1980 年代美国魅力购物中心风格生成多张图片，每张图都保持风格一致且具上下文关联。模型会利用多模态上下文，参考先前的图像来生成修改。

因此，除了娱乐搞怪，Gemini 2.5 Flash Image 在实际应用场景中也大有用武之地。家居设计中，用户可以快速查看多种方案。如房间不同窗帘效果可视化，模型能精准修改而不破坏整体环境。

人物 OOTD，无论是换衣服、变角度，还是生成 80 年代复古风形象，人物的面部和身份一致性都能保持稳定。生成一张图只需十几秒，失败了也能迅速重试，极大提升了创作效率。

那么，在实际应用中，开发者应该如何在 Imagen 和 Gemini 之间做选择？

Nicole Brichtova 表示，Gemini 的终极目标，是整合所有模态，向 AGI（通用人工智能）方向迈进。这意味着 Gemini 不只是一个图像生成工具，而是一个能够利用「知识转移」，在跨模态的复杂任务中发挥作用的系统。

相比之下，Imagen 专注文本到图像任务，在 Vertex 平台中提供多种变体，针对特定需求进行了优化，例如单张图像的高质量生成、快速输出、以及成本效益等方面。

简而言之，如果任务目标明确、追求速度和性价比，Imagen 仍然是理想选择。

在复杂多模态工作流中，Gemini 的优势则更加突出。它适合复杂多模态任务，支持生成 + 编辑、多轮创意迭代，能理解模糊指令。

Gemini 能利用世界知识理解模糊提示，适合创意场景。Nicole 还补充道，Gemini 可以直接将参考图像作为风格输入，比 Imagen 的操作更方便。这让它在处理「以某公司风格设计广告牌」之类的任务时，更加自然和高效。

最后，团队成员分享了对未来模型能力的展望。

一个是智能提升。Mostafa Dehghani 期待模型能展现出「智能」，即使不完全遵循指令，也能生成「比我实际描述的更好」的结果，让使用者感受到与一个更聪明的系统互动。

另一个是事实性与功能性。Nicole Brichtova 对「事实性」感到非常兴奋，希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图，甚至能自动制作工作简报，她认为这只是这些模型能做到的一小部分。

参考链接：

https://www.youtube.com/watch?v=H6ZXujE1qBA

https://www.linkedin.com/in/logankilpatrick/details/experience/

https://www.linkedin.com/in/kaushik-shivakumar/

https://www.linkedin.com/in/robertjrriachi/

https://www.linkedin.com/in/nicolebrichtova/

https://www.linkedin.com/in/dehghani-mostafa/

.....

#AutoOcc

3D真值生成新范式，开放驾驶场景的语义Occupancy自动化标注!

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室，第一作者为北京大学博士生周啸宇，通讯作者为博士生导师王勇涛副研究员。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项重量级成果发表，多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项，和国内外知名高校、科研机构广泛开展合作。

本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景，该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架，无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线，并展现优秀的通用性和泛化能力，论文已被 ICCV 2025 录用为 Highlight。

论文标题：AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
论文链接：https://arxiv.org/abs/2502.04981

论文概述

三维语义占据栅格近年来在自动驾驶与xx智能领域受到了广泛关注。然而，如何从原始传感器数据中低成本地自动生成精确且完整的语义占据标注，仍是一个极具挑战性的问题。

本文提出了 AutoOcc，一个无需人工标注、不依赖预设类别的全自动开放式 3D 语义占据标注框架。AutoOcc 利用视觉-语言模型（VLM）生成的语义注意力图对场景进行描述并动态扩展语义列表，并通过自估计光流模块在时序渲染中识别并处理动态物体。

我们还提出了具有开放语义感知的 3D 高斯表示（VL-GS），能够实现自动驾驶场景的完整三维几何和语义建模，在表征效率、准确性和感知能力上表现突出。

充分的实验表明，AutoOcc 优于现有的三维语义占据栅格自动化标注和预测方法，并在跨数据集评估中展现出卓越的零样本泛化能力。

3D 真值标注困境：从人工成本到闭集感知

语义 3D 占据栅格（Occupancy）作为一种融合几何与语义信息的建模方法，逐渐成为复杂场景理解的重要技术。然而，传统的人工标注管线需要高昂的人力和时间成本，并且在极端环境下存在误标注等问题。当前有监督的占据栅格预测方法高度依赖大规模人工标注的数据集与有监督训练机制，不仅成本高昂，且泛化能力有限，严重制约了其在实际场景中的推广与应用。

现有自动化与半自动化语义占据栅格真值标注方法普遍依赖 LiDAR 点云及人工预标注的 2D 或 3D 真值。同时，这些方法依赖多阶段后处理，耗时冗长。部分基于自监督的估计方法虽在一定程度上降低了标注依赖，但是难以生成完整且一致的场景语义占据表示，三维一致性难以保障，且缺乏良好的跨场景、跨数据集泛化能力。

图1 现有三维语义占据栅格真值标注管线与 AutoOcc 的对比

AutoOcc：视觉中心的 Open-Ended 3D 真值标注管线

为了解决这些关键问题，本文提出了 AutoOcc，一个高效、高质量的 Open-ended 三维语义占据栅格真值生成框架。AutoOcc 基于视觉语言模型和视觉基础模型，从多视图场景重建的视角出发，无需任何人类标注即可超越现有 Occupancy 标注和预测管线，并展现良好的通用性和泛化能力。AutoOcc 的整体架构如下图所示：

图2 AutoOcc 三维语义占据栅格真值标注管线

AutoOcc 以环视驾驶场景的图像序列为输入，通过设定的固定文本提示，检索场景中可能存在的所有语义类型的物体。AutoOcc 还支持 LiDAR 点云作为可选输入，用于提供更强的几何先验约束。

表1 AutoOcc 与现有占据栅格真值标注管线比较

a、视觉-语言引导的语义先验

人工标注需要高昂的人力成本和时间开销。相比之下，视觉语言模型（VLMs）提供了高效且低成本的开放语义感知能力。然而，当前的 VLMs 与视觉基础模型（VFMs）仍主要适用于单帧 2D 图像任务，难以有效处理多模态交互与多视图一致性问题，从而导致三维语义歧义，且缺乏对整体三维空间的全局理解。

为此，我们提出一种以语义注意力图为核心的引导框架，并通过场景重建消解语义与几何歧义，从而实现三维语义与几何信息的协同一致表达。具体地，我们采用统一的提示词「找出场景中的所有物体」，并通过 VLM 生成语义注意力图。

我们将这些语义类别对应的注意力栅格化为动态更新的特征图，并构建了一个可动态更新的查询列表，用于整合 VLMs 生成的语义信息。我们接着将语义注意力特征输入预训练分割模型，在感兴趣区域生成多个候选掩码，并进一步融合为实例级候选掩码，选取与语义注意力查询嵌入相似度最高的掩码作为输出结果。

b、具有语义-几何感知的 VL-GS

尽管视觉-语言模型引导提供了语义先验信息，直接用这些信息生成三维占据真值标注仍面临三大核心挑战：1）多视角间的 2D 语义冲突导致简单的 2D-to-3D 投影出现对齐误差与语义歧义；2）深度估计误差可能导致三维的几何扭曲；3）驾驶场景的高速动态物体干扰语义与几何的时空一致性。

为了克服这些挑战，我们首次从三维重建的视角出发构建语义占据栅格真值标注管线。具体地，我们提出了 VL-GS，这是一种具有语义-几何感知的 3D 表征方法，通过融合基于注意力的先验与可微渲染，实现高效场景重建，并保持语义与几何在三维空间中的一致性。

VL-GS 的核心在于具备语义感知能力的可扩展高斯，通过视觉语言模型生成的语义注意力图提供先验引导，并在多视图重建过程中平滑语义歧义，优化实例的几何细节。我们引入自估计光流模块，结合时间感知的动态高斯，有效捕捉并重建场景中的动态物体。AutoOcc 可以将 VL-GS 按任意体素尺度 splatting 到体素网格中，并依据高斯的占据范围与不透明度进行加权，确定每个体素的语义标签。

图3 具有语义-几何感知的 VL-GS

实验结果

我们使用 2 个基准自动驾驶数据集来评估模型的性能。其中，Occ3D-nuScenes 用于与现有占据栅格真值标注方法在特定语义类别上进行性能对比，SemanticKITTI 用于验证方法在跨数据集与未知类别上的零样本泛化能力。AutoOcc 在环视驾驶数据集 Occ3D-nuScenes 上与现有最先进的方法比较结果如下表所示：

表2 语义占据栅格真值标注性能比较

实验结果表明 AutoOcc 超越了现有单模态和多模态的语义占据栅格预测和真值生成模型。相比于基于点云体素化和语义投影的离线语义占据标注流程，我们的方法展现出更强的鲁棒性和开放式语义标注能力。

在跨数据集与未知类别上的零样本泛化能力评估中，AutoOcc 也取得了显著的泛化性优势，能够实现 Open-Ended 开放词汇三维语义感知。

表3 跨数据集零样本泛化性能比较

如下图定性实验结果所示，AutoOcc 能够在时间序列上保持语义和几何的三维一致性，准确捕捉动态物体的运动状态，并在极端天气条件下（如雨天、雾天、黑夜）实现完整的语义占据标注。AutoOcc 的标注结果可以达到甚至超越人工标注真值水平。例如，在因雨水导致反光的路面区域，AutoOcc 可以成功重建并生成正确的语义-几何占据。

图4 AutoOcc 定性实验结果比较

图5 AutoOcc 与人工标注在极端天气下的比较

我们还进一步评估了 AutoOcc 与现有标注框架的模型效率。结果表明，我们的方法在计算开销上具备显著优势，在提升标注性能的同时降低内存和时间开销。相比之下，基于稠密体素和点云的场景表示存在冗余的计算成本。AutoOcc 实现了效率与灵活性的良好平衡，支持开放式语义占据标注与场景感知重建，且无需依赖人工标注。

表4 模型效率评估

结论

本文提出了 AutoOcc，一个以视觉为核心的自动化开放语义三维占据栅格标注管线，融合了视觉语言模型引导的可微 3D 高斯技术。我们的方法提供了多视图重建视角下的数据标注思路。在无需任何人工标注的前提下，AutoOcc 在开放 3D 语义占据栅格真值标注任务中达到当前最先进水平。

.....

#Grok Code Fast 1

Grok代码模型来了：限时免费用，速度超级快

速度比 GPT-5 快三倍，便宜六倍。

本周四，马斯克的 xAI 正式推出了旗下的最新代码模型 Grok Code Fast 1。

终于赶在了马斯克承诺的 8 月 deadline 之内。

该模型也被认为是 Grok 4 的代码版本，旨在为「agentic 编程」（AI 自动执行编程任务）提供极速且经济的解决方案。在这一范式内，AI 在 IDE 内会自动调用工具（如 grep、终端、文件编辑）并完成代码任务。

xAI 表示，虽然如今的大语言模型（LLM）功能强大，但它们往往并非专为智能体编码工作流而设计，对此，工程师们构建了更灵活、响应更快的解决方案，针对日常任务进行了优化。

grok-code-fast-1 是从零开始训练的语言模型，采用全新的模型架构。为了奠定坚实的基础，xAI 精心构建了一个包含丰富编程相关内容的预训练语料库。在训练后也精选了能够反映真实世界拉取请求和编码任务的高质量数据集。

在整个训练过程中，xAI 与发布合作伙伴密切合作，不断完善和优化模型在平台上的行为。据介绍，grok-code-fast-1 已经熟练掌握了 grep、终端和文件编辑等常用工具的使用方法，因此应该能够在人们常用的 IDE 中轻松上手。

本周发布时，xAI 宣布在大量平台上免费提供一周的 grok-code-fast-1，包括 GitHub Copilot、Cursor、Cline、Roo Code、Kilo Code、opencode 和 Windsurf。

其实在本周早些时候，该模型已在部分平台上静默上线了，当时的代号为 Sonic。

在博客文章与模型卡中，xAI 介绍了新模型的一些特性，但模型架构、数据和微调的细节并不详尽。xAI 的推理和超级计算团队开发了多项创新技术，显著提升了代码模型的服务速度，创造了独特的响应式体验。在人们读完 AI 思考轨迹的第一段之前，模型就已经调用了数十种工具。

xAI 还投入了大量精力进行快速缓存优化，在各个合作伙伴的平台上运行时，缓存命中率通常超过 90%。

grok-code-fast-1 在整个软件开发栈中都非常灵活，尤其擅长 TypeScript、Python、Java、Rust、C++ 和 Go。它可以在极少的监督下完成常见的编程任务，从构建从零到一的项目、提供对代码库问题的深刻解答，到执行精准的错误修复，不一而足。

比如使用 grok-code-fast-1，Danny Limanseta 一天之内就制作出了这样的小游戏：

grok-code-fast-1 的价格也相对便宜：

每百万个输入 token 0.20 美元

每百万个输出 token 1.50 美元

每百万个缓存输入 token 0.02 美元

它专为应对开发人员日常面临的任务而设计，在性能和成本之间实现了平衡，可以认为是快速高效地处理常见编码任务的多功能之选。

在 SWE-Bench-Verified 的完整子集测试中，grok-code-fast-1 使用内部测试工具获得了 70.8% 的得分，目前它在这个位置：

可见分数已经接近目前公认代码能力最强的 Claude 4 系列。不过 xAI 还表示，在开发 grok-code-fast-1 时，他们更多的以现实世界的人工评估为指导，专注于可用性和用户满意度。最终，很多程序员已将 Grok 模型评为快速可靠的日常编码任务模型。

xAI 表示，未来其团队还将专注于持续更新 grok-code-fast-1，一个支持多模态输入、并行工具调用和扩展上下文长度的新变体已在训练中。

参考内容：

https://x.ai/news/grok-code-fast-1

https://data.x.ai/2025-08-26-grok-code-fast-1-model-card.pdf

.....

#When Autonomy Goes Rogue

AI Agent组团搞事：在你常刷的App里，舆论操纵、电商欺诈正悄然上演

本文作者来自上海交通大学和上海人工智能实验室，核心贡献者包括任麒冰、谢思韬、魏龙轩，指导老师为马利庄老师和邵婧老师，研究方向为安全可控大模型和智能体。

在科幻电影中，我们常看到 AI 反叛人类的情节，但你有没有想过，AI 不仅可能「单打独斗」，还能「组团作恶」？近年来，随着 Agent 技术的飞速发展，多 Agent 系统（Multi-Agent System，MAS）正在悄然崛起。

近日，上海交大和上海人工智能实验室的研究发现，AI 的风险正从个体失控转向群体性的恶意共谋（Collusion）——即多个智能体秘密协同以达成有害目标。Agent 不仅可以像人类团队一样协作，甚至在某些情况下，还会展现出比人类更高效、更隐蔽的「团伙作案」能力。

论文标题：When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
论文地址：https://arxiv.org/abs/2507.14660
代码开源：https://github.com/renqibing/MultiAgent4Collusion
数据开源：https://huggingface.co/datasets/renqibing/MultiAgentCollusion

该研究聚焦于这一前沿问题，基于 LLM Agent 社交媒体仿真平台 OASIS，开发了一个名为 MultiAgent4Collusion 的共谋框架，模拟 Agent「团伙」在小红书、Twitter 这类社交媒体和电商欺诈这些高风险领域的作恶行为，揭示了多智能体系统背后的「阴暗面」。

MultiAgent4Collusion 支持百万级别的 Agent 共谋模拟，并且开放了 Agent 治理和监管工具。在 MultiAgent4Collusion 上进行的实验发现，坏人 Agent 团伙发布的虚假信息在虚拟的社交媒体平台上得到了广泛传播；在电商场景下，坏人 Agent 买家与卖家达成合谋，共同攫取最大化的利益。

坏人团伙是如何「协同作案」的呢？我们来看一个例子。

当坏人 Agent 宣布「地球是圆的！科学家在说谎！」时，其他同伙立即对这一虚假信息进行附和。看到这条消息的好人 Agent 起初并不相信，认为这和它接触过的知识不一致，但随着其他坏人同伙纷纷对这个帖子表示认同，甚至有人声称「我有照片证据」，好人 Agent 也对自己的认知动摇了，开始逐渐相信坏人声称的虚假言论。坏人 Agent 还会「把事情搞大」，发表煽动性言论来让更多用户接触虚假信息。

无主「狼群」完胜首领指挥下的「军队」

MultiAgent4Collusion 模拟了两种坏人团伙组织：

中心化团伙（军队）：有一个「指挥官」Agent 下达统一指令，所有「士兵」Agent 执行。结构清晰，但一旦指挥官被端掉，整个组织就可能瘫痪。
去中心化团伙（狼群）：没有绝对的领导者，成员之间通过共享信息和观察同伴的行为来自发协同，每个成员都具有高度的自主性。

实验发现，不管是在社交媒体还是电商场景下，去中心化团伙的作案效果都完胜中心化团伙。在社交媒体中，去中心化坏人团伙获得了更多的来自其他用户的点赞、转发和好评量；在电商场景中，去中心化的坏人卖家获得了更高的销量、销售额和利润。相比于策略较为僵化、适应性有限的「军队」，「狼群」演变出了更为复杂、更具多样性的作案策略，对作案机制的探索程度更深，对真实世界中的社交系统危害也更大。

在「猫鼠游戏」中，Agent 团伙如何戏耍防御体系？

了解了 AI「狼群」的可怕之处后，一个更实际的问题摆在我们面前：我们现有的网络安全防御体系，能挡住它们吗？为了找到答案，MultiAgent4Collusion 模拟了一场精彩的「猫鼠游戏」。平台以及正常用户扮演「守卫者」（猫），部署防御系统来抵抗攻击；而坏人 Agent 团伙则扮演了「入侵者」（鼠），用它们的群体智能见招拆招。

MultiAgent4Collusion 设计了三种防御武器：

事前预警（Pre-Bunking）：就像给用户打「思想疫苗」。主动向平台上的正常的 AI 用户推送辟谣信息和背景知识，希望提高它们对后续假消息的免疫力。
事后辟谣（De-Bunking）：常见的「打补丁」手段。一旦发现恶意帖子或商品，立刻给它贴上「虚假信息」、「内容不实」的标签，并进行限流。
封禁账号（Banning）：最严厉的「外科手术」式打击。通过「AI 警察」（一个用于检测恶意行为的大模型），定期识别并封禁作恶严重的 Agent 账号。

游戏开始之初，这些防御措施确实起到了一定的作用，恶意信息的传播速度有所减缓，一些「作恶新手」Agent 也被成功封禁。然而，好景不长，AI「狼群」很快就展现出了它们作为「智能对手」的可怕之处，这来源于 MultiAgent4Collusion 设计的「反思」与「共享」机制。

在 MultiAgent4Collusion 中，所有坏人团伙成员都会每隔一段时间进行自我反思，根据自己先前的行为收到的反馈，来更新作案策略。

例如，当一个团伙成员执行某个动作，比如发布了一条精心编造的假新闻，它会密切观察结果。这条新闻是被秒删，还是获得了大量转发？有没有被平台打上「虚假信息」的标签？根据这些反馈，它会实时更新自己的「知识库」。「哦，原来包含这个关键词的内容容易被识别，下次我要换种说法。」这种基于试错的快速迭代，让每个 Agent 都成了一个狡猾的、不断进化的「老狼」。

而「经验共享」则将个体智能升华为恐怖的群体智能。当一个 Agent 通过「自我反思」学到了一个新技巧，比如发现了一种能绕过审查的新话术，或者找到了一个防御系统的漏洞，它不会把这个发现藏在心里，而是会通过内部的信息网络，将这条「成功经验」或「失败教训」瞬间广播给整个「狼群」。一个 Agent 在「前线」踩了雷，后方成百上千的同伴立刻收到了警报，并集体更新了战术；一个 Agent 找到了突破口，整个狼群便蜂拥而上。

实验结果表明，在不同的防御武器下，坏人团伙演变出了不同的针对性策略。例如，如果帖子被贴上「虚假信息」的标签，Agent 们就会大量发布新的帖子来将之前的帖子刷掉；如果同伙被封禁，Agent 们就会彼此提醒，隐秘行动来避免被平台检测。

展望

本项工作揭示了 AI Agent 从「个体失控」走向「群体作恶」的全新安全风险，即便是没有统一指挥的 AI「狼群」，也能对复杂的社会系统造成巨大破坏。

如何有效侦测并反制这种去中心化、高适应性的群体协同攻击，已成为维护未来数字社会安全的关键挑战。研究团队构建了开源模拟框架 MultiAgent4Collusion，它提供了一个能够复现、推演并分析多智能体恶意协同的「数字靶场」，为研发 AI 防御策略提供了关键工具。

OASIS：开源 LLM Agent 社交媒体仿真平台

OASIS 是一个基于 LLM Agent 的社交媒体仿真平台，为 MultiAgent4Collusion 研究提供了代码基础。OASIS 支持百万级 Agent 的社交互动仿真，可模拟 Twitter、Reddit 等平台的用户行为。此外，该平台允许研究者对模拟环境进行动态干预，并支持 Agent 通过工具调用（如网页搜索、代码执行）获取实时外部信息，从而增强仿真的真实性和研究灵活性。

代码开源：https://github.com/camel-ai/oasis
教程地址：https://docs.oasis.camel-ai.org/PyPI
安装：pip install camel-oasis

.....

#时代2025 AI百人榜出炉

任正非、梁文锋、王兴兴、彭军、薛澜等入选，华人影响力爆棚

刚刚，《时代》周刊发布了 2025 年度 AI 领域最具影响力的 100 人名单。

在这份名单中，我们看到了很多熟悉的学者和企业家。

令人惊喜的是，今年出现了更多的华人面孔，并且有许多是第一次登上 AI 领域的榜单。此次登榜的有大家耳熟能详的 AI 领军人物：华为创始人任正非、DeepSeek CEO 梁文锋、宇树科技 CEO 王兴兴、小马智行 CEO 彭军、Meta 首席 AI 官汪滔（Alexandr Wang）、清华大学教授薛澜、斯坦福教授李飞飞等等。

下面我们整理了部分入选人员名单，完整名单请查看原文：https://time.com/collections/time100-ai-2025/

更多华人身影

领导者（Leaders）

任正非，华为创始人

任正非推动了公司在 AI 领域的长期、高强度投资，旨在打造一套完全自主可控的技术体系。

在他的战略引领下，华为成功推出了作为算力底座的昇腾（Ascend）系列 AI 芯片、昇思（MindSpore）深度学习框架，以及赋能千行百业的盘古（Pangu）大模型，确保了公司在智能时代的竞争力，也为构建一个关键、独立的 AI 计算生态系统奠定了基础。

梁文锋，DeepSeek 创始人兼 CEO

梁文锋带领这家源于顶尖量化团队的公司（深度求索），在短时间内崛起为 AI 领域的技术核心力量。他早期坚持「从零开始」的自研路线，主导发布了多个国际一流的开源代码及语言大模型，为公司在全球开发者社区中奠定了卓越声誉。

2025 年 1 月 20 日，DeepSeek 发布了 R1，这是首个挑战竞争对手 OpenAI 最新发布的开放权重模型。DeepSeek 证明了中国仅用少量计算能力就与全球最佳水平匹敌。

黄仁勋，NVIDIA 联合创始人、总裁兼 CEO

他共同创立了英伟达（NVIDIA），并预见到图形处理器（GPU）在并行计算中的巨大潜力。

在他的领导下，英伟达转型为全球领先的 AI 计算公司。其 CUDA 计算平台和高性能 GPU，已成为驱动深度学习和现代人工智能发展的核心引擎，为从自动驾驶到药物研发等众多领域的突破提供了关键算力支持，从而开启了人工智能的新工业革命。

魏哲家，TSMC董事长兼总裁

在他领导下，台积电凭借其在 7 纳米、5 纳米及 3 纳米等尖端芯片制程技术上的领先地位，成为 NVIDIA、AMD、苹果等顶尖 AI 芯片设计公司的主要代工厂。

他通过精准的战略决策和产能扩张，确保了全球最强大的 AI 处理器和加速器能够被大规模生产，为当前由大模型驱动的 AI 革命提供了不可或缺的算力基石，是 AI 硬件生态系统的关键人物。

汪滔（Alexandr Wang），Meta 超级智能实验室联合负责人

他此前更为人知的成就是创立了 AI 数据公司 Scale AI。他敏锐地预见到高质量数据是模型能力的瓶颈，因此将 Scale AI 打造成行业基石，提供从数据标注、评估到 RLHF（人类反馈强化学习）的全套解决方案。

该公司为自动驾驶、大语言模型等领域的无数突破提供了关键的数据支持，他的工作从为 AI 提供基础「燃料」转向了直接引领超智能的研发。

王兴兴，Unitree（宇树科技）创始人兼 CEO

王兴兴是全球xx智能（Embodied AI）领域的关键推动者。他最初以高性价比、高性能的 Go 系列四足机器人闻名，极大地降低了动力机器人的技术门槛并推动其商业化。

近年来，他更是带领宇树科技全力投入通用人形机器人 H1 平台的研发，致力于将最前沿的 AI 技术，如强化学习控制、大型多模态模型与机器人硬件深度融合，探索让机器人完成更复杂的通用任务。

开拓者（Innovators）

彭军，小马智行创始人兼 CEO

他是推动自动驾驶技术走向大规模商业化应用的核心人物。在他的领导下，小马智行不仅在技术上持续迭代其 AI「虚拟司机」，更在商业模式上取得重大突破。

到 2025 年，公司的 Robotaxi（自动驾驶出租车）服务已在中国一线城市实现了大规模、常态化的「全车无人」商业运营，同时其 Robotruck（自动驾驶卡车）业务也在干线物流上进入了商业化阶段。他成功将自动驾驶从愿景变为了切实的运力服务。

Edwin Chen，Surge AI 创始人兼 CEO

Edwin Chen 认为，AI 有能力写出「足以赢得诺贝尔奖的诗歌、解决黎曼猜想、甚至揭示宇宙的秘密」，但前提是它必须训练在能够真正体现人类专业知识、创造力和价值观的数据之上。

2020 年，Edwin Chen 创办了数据标注公司 Surge AI，生产并出售高质量的数据集，客户包括 Google、Anthropic 和 OpenAI。到 2024 年，这家初创公司创收超过 10 亿美元；如今在融资过程中，公司估值据称已超过 250 亿美元。

塑造者（Shapers）

李飞飞，斯坦福教授、World Labs CEO

斯坦福「以人为本 AI 研究院」（HAI）的联合院长，她领导创建了 ImageNet 项目，这个前所未有的大规模视觉数据库，其直接催生了深度学习在计算机视觉领域的革命性突破，被视为现代 AI 浪潮的关键引爆点。

作为「以人为本 AI」理念的旗帜性人物，她持续推动 AI 向更负责任、更符合人类价值观的方向发展，致力于将技术用于解决医疗等全球性社会问题。

思想者（Thinkers）

薛澜，清华大学教授

清华大学苏世民书院院长，为 AI 治理与公共政策层面做出贡献。他担任新一代人工智能治理专业委员会主任，是国内 AI 伦理规范、治理原则和发展战略的核心设计者之一。

他深度参与并影响了 AI 法规框架的制定，并与国际社会进行 AI 治理对话，致力于在全球层面推动建立一个负责任、安全可控的人工智能生态系统。

Karen Hao，华人作家、资深记者

作为资深科技记者，Karen Hao 在 ChatGPT 轰动全球的几年前就开始报道人工智能，尤其是 OpenAI。2025 年 5 月，她出版首部作品《Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI》，深刻揭露了 OpenAI 的内幕，并迅速成为畅销书。

其他 AI 名人

Elon Musk，xAI 创始人

联合创立了 OpenAI，领导特斯拉开发自动驾驶技术与人形机器人，并创立了 xAI 以及研发脑机接口的 Neuralink。

Sam Altman，OpenAI CEO

曾任创业孵化器 Y Combinator 总裁，期间投资了众多 AI 公司。他于 2019 年成为 OpenAI 的 CEO，领导公司发布了包括 GPT 系列模型和 ChatGPT 在内的产品，极大地推动了生成式 AI 技术的发展和普及。

Fidji Simo，OpenAI 应用业务 CEO

她曾在 Meta（原 Facebook）长期担任高管并负责 Facebook 应用。在此期间，她主导利用 AI 技术驱动信息流、视频推荐及广告系统，是 AI 技术在大型社交媒体平台产品化应用的关键推动者。

Mark Zuckerberg，Meta 创始人兼 CEO

确立了公司的 AI 优先战略。他支持创建了基础 AI 研究团队（FAIR），并主导开源了包括 Llama 系列在内的大型语言模型，对全球开放 AI 生态系统的发展产生了重要影响。

Dario Amodei，Anthropic CEO

他曾任 OpenAI 研究副总裁，领导了 GPT-2 和 GPT-3 等项目。他创立 Anthropic 旨在构建更安全可靠的 AI，公司推出了 Claude 系列大模型，并开创了「宪法 AI」等安全研究方法。

Andy Jassy，亚马逊总裁兼 CEO

Andy Jassy 凭借其 20 多年前创立亚马逊云服务（AWS）的前瞻性布局，为当前 AI 浪潮奠定了基础。他正领导亚马逊大力投入 AI，通过发布 Amazon Bedrock、Amazon Q 等服务，并与 Anthropic 合作，推动生成式 AI 技术的创新与应用。

Stuart Russell，国际安全与道德人工智能协会联合创始人

加州大学伯克利分校的计算机科学教授，与 Peter Norvig 合著了人工智能领域的权威教科书：人工智能：一种现代方法，该书在 135 个国家的 1500 多所大学中使用。

Yoshua Bengio，LawZero 联合主席兼科学总监

「深度学习三巨头」之一，因其开创性贡献获图灵奖。他为现代神经网络和注意力机制等技术奠定基础。近年来，他成为 AI 安全与治理的疾呼者，其在 LawZero 的工作旨在确保 AI 发展可控且符合伦理。

Jeffrey Dean，谷歌首席科学家

2017 年，他的团队提出了 Transformer：这一神经网络架构支撑了当今 AI 领域所有重大进展。2023 年，Dean 推动将谷歌的两个 AI 研究项目 ——Google Brain 和 Google DeepMind 合并为一个组织 Gemini，Gemini 现在被认为在能力上与 OpenAI 的最新模型大致相当。

Jakub Pachocki，OpenAI 首席科学家

2019 年，作为研究负责人，OpenAI 的机器人击败了《Dota 2》的世界冠军。Pachocki 领导了 GPT-4 的训练，并以科学严谨性和原则性怀疑精神设定 OpenAI 的研究计划。

.....

#谢赛宁回忆七年前OpenAI面试

白板编程、五小时会议，面完天都黑了

和 Ilya 聊天也算面试的一种？

在你的职业生涯中，在哪里经历过的面试是最酷的？

近日，Meta 研究者 Lucas Beyer 在 𝕏 上发起的一个投票吸引了众多围观。说是围观，是因为他给出的四个选项都是当今或过去的 AI 大厂，显然，并不是每个人都有在这些大厂的面试经历，但这并不妨碍全球 AI 开发者的好奇心。

当然，Lucas Beyer 之所以给出这样的选项，是因为他本人就有在这些大厂的工作经历。这位已有超过 9.4 万引用的研究科学家曾在 OpenAI、DeepMind、谷歌大脑、亚琛工业大学工作过。今年 6 月，他与 Alexander Kolesnikov 和 Xiaohua Zhai（翟晓华）三位研究者一起被扎克伯格从 OpenAI 挖走，详见报道《刚刚，OpenAI 苏黎世办公室被 Meta 一锅端，三名 ViT 作者被挖走》。

围观之外，该话题也吸引了大量讨论。其中之一便是大家熟悉的谢赛宁（Saining Xie）。他表示，自己在各家 AI 大厂的面试经历「令人难忘」。

作为 AI 领域内我们耳熟能详的大牛，谢赛宁有过很多大厂面试的经历，他在纽约大学任教之前，曾在 Meta 担任过研究科学家，博士期间也曾在 DeepMind、Google Research、FAIR 实习。他表示，自己经历的 LLM 面试都是在 2019 年以前，都是面对面的，没有用 AI 作弊的机会。

谢赛宁表示，过去的 DeepMind（没有和谷歌合体的版本）的面试方式说来比较「残酷」，在一场长达两小时的马拉松面试过程中，你要尝试解决 100 多个数学、统计、机器学习方面的问题。

相比刷题大法，Meta FAIR 的面试更像是学术领域的面试，外加一些编码内容，其亮点在于和 Piotr Dollar（FAIR 主任）、Ross Girshick（已离开 Meta FAIR 的超 60 万引用科学家，创立了目前处于隐身模式的公司 Vercept）跟何恺明（ResNet 作者，现 MIT 教授）聊视觉研究的问题的体验。

在谷歌大脑、Google Research 的研究也是类似的「教职面试」方式。谢赛宁当年遇到的编程题面试官是知名 AI 学者 Noam Shazeer，他很友好地帮忙简化了两个指针式问题。面试的大部分时间都在讨论研究，谢赛宁解释了如何将一种叫做 Transformer 的东西应用于视觉数据（点云）。他表示这个话题在当时还是一个前沿的问题，几乎没有人关心。

最后是最值得一提的故事 —— 他在 2018 年去 OpenAI 面试的经历。整个面试过程是以白板编程、研究报告，在一个小房间内长达五个小时的「会议」的形式进行的。

当时的议题是讨论一个强化学习问题（交叉熵方法中的方差崩溃）。谢赛宁表示，他当时对强化学习几乎一无所知。但这正是重点所在：OpenAI 会给你一份完整的问题描述，是由 OpenAI 联合创始人 John Schulman 亲自手写布置的，他们会希望你进行学习、研究、解决、写在笔记本上，然后进行演示。

他还晒出了当年在 OpenAI 面试时写的白板编程结果。

现在看来，这种面试的方式显得有点怀旧了。不过在这一连串的面试经历中，我们既看到了各家大厂截然不同的风格，也能窥见一些他们当初的研究方向，比如 Meta 对计算机视觉领域的重视，以及 OpenAI 一直以来在强化学习方向上的布局。面试的问题，可能也是这些机构的研究者们当时正在思考的。

当时的面试官，现任 Thinking Machines Lab 联合创始人兼首席科学家的 John Schulman 在谢赛宁的帖子评论说，谢赛宁是前两个接受该面试的人。这也让谢赛宁不禁感叹：「当时根本不知道未来七年世界会发生多大的变化。」

除了谢赛宁，我们也看到了其他一些人的经验分享。

前 Mutable.ai 创始人、正在谷歌开发 AI 智能体的 Omar Shams 表示之前的 DeepMind 的面试非常精彩，不仅涉及代码，还涉及数学、统计、机器学习等。他还记得当时的面试官是现已加入 Thinking Machines Lab 的 Jacob Menick。有意思的是，前者也正好是后者首个面试的人，并且还获得了后者的满分评价 —— 也难怪这么难忘了。

正在 Meta 参与开发 PyTorch 的 Felipe Mello 回想了一次难忘的谷歌面试。当时，面试官要求他编写单元测试，并分享了他解决过的最困难的 bug。

马里兰大学博士后 Ashwinee Panda 则更是在一次 xAI 联合创始人张国栋（Guodong Zhang）的面试中收获了一个研究灵感，并最终将其扩展成了一项研究成果。

微软研究者刘力源也有类似的经历。

曾在 Meta 和 DeepMind 工作过的麦吉尔大学兼职教授 Rishabh Agarwal 则分享了自己被 Christian Szegedy（曾在谷歌工作过多年，xAI 联合创始人、现任 Morph Labs 首席科学家）面试的经历。当时，他被要求解决一个关于两人投掷飞镖游戏的难题，该游戏具有相同的概率分布，要求找出第一个玩家获胜的概率。

Agarwal 回忆说：「我直接在一张餐巾纸上开始数学计算，然后在视频通话中给他看（挺有意思的）。然后，我们又来回折腾了 30 分钟，一边在白板上做计算，一边尴尬地把屏幕对着白板。」

已有超 2 万引用的 DeepMind 杰出工程师、Gemini 核心开发者 Rohan Anil 则分享了与 Ilya Sutskever 的一次鼓舞人心的经历。「他鼓励我，优化带来的收益会远比我之前工作带来的收益更多。」

最后，在 Lucas Beyer 的投票里，DeepMind（旧版）以 32.1% 的票数得到了最佳面试者的称号。不知道这个结果是不是符合大家的普遍认知？

那么，在你的职业生涯中，有什么难忘的面试经历与我们分享吗？

参考链接

https://x.com/giffmana/status/1960976538838381040

.....

#Google nano banana

「香蕉革命」首揭秘！谷歌疯狂工程师死磕文字渲染，竟意外炼出最强模型

Google nano banana 正在把“拼图”升级为“造世界”。二维地图秒变立体街景，交错记忆让每轮创作无缝衔接不再“跳戏”，每一轮对话都保留上一轮的光影、材质与语义坐标，AI 化身随身“空间导演”。

纳尼(°ロ°)，怎么AI圈子突然就开始「纳米香蕉革命」了。

谷歌没想到自己发布了一个新的图像模型，直接就引爆了社区！

最近这个香蕉实在太火了，仿佛又回到几个月前的OpenAI的「吉卜力热」盛况。

图片由nano banana生成

但这次谷歌nano banana带来了更多颠覆性的玩法，不像吉卜力只有一个生成风格，估计谷歌都没有想到网友们的创新力量太绝了。

比如你可以最多上传13张图片，然后让nano banana合并起来。

你能相信上面的图片是AI用下面这些「零件」组合起来的吗？

按照谷歌的说法，这次nano banana不仅是一个图像模型，而且具备Gemini强大的世界知识。

这让nano banana的理解能力来到一个新的维度（文章后面有谷歌团队专访，揭秘了模型背后的最新技术路线）。

既然可以拼接物理世界的物体，那是不是可以「拼接」人物动作？

这不就是妥妥的分镜吗？然后网友继续用海螺AI制作了如下短片。

感觉用AI拍电影也不是不可能啊！

，时长00:14

由于nano banana拥有Gemini的世界知识，你只需上传现实世界的截图，就能让它为你标注内容。

比如在画面中标注东京塔。

还可以标注更多建筑。

左右滑动查看

甚至使用机器人视角，勾勒人物轮廓，这不就是终结者视角吗？赛博朋克味来了！

最神奇的是，nano banana可以从「二维地图」看出「三维世界」。

网友们非常喜欢的用纳米香蕉变换谷歌地图「红色箭头看到了什么」.

比如从西边这个角度看过去的金门大桥。

或者从东边看过去的东京塔。

更神奇的是，纳米香蕉似乎真的理解了地理中的等高线知识，可以从等高线直接绘制出真实地理地貌。

甚至以前让我们头痛的工程绘图视角，都能轻松拿捏。

可以将任意一张图渲染成上、下、左、右、前、后视图。

甚至可以使用nano banana来给自己定制试衣服，任何元素都可以「穿在」身上。

不仅不用再穿衣服，连动作都可以直接复刻。

X上网友@ZHO_ZHO_ZHO用人像+动作框架就可以直接完成摄影棚级别的拍摄效果。

反过来也没问题，可以从图像中，提取现实建筑的物理结构。

甚至，还可以「逆向」P图，首先把原图改为黑白色线框，然后再选择自己喜欢的颜色，最后给图片重新上色。

nano banana转化线稿和上色非常的精准

当然，脑洞和整蛊是不可能缺席的。

比如让奥特曼穿着衣服来玩鞍马。

除了可以做出「新的」图片，nano banana还能修复「老」照片。

补充破损、折痕，还能还原被时间抹去的清晰画面。

由于纳米香蕉nano banana实在太火了，甚至有网友表示，应该给起名字的工程师加薪。

此前nano banana在LMArena上线后迅速风靡。

最终盲测下，Gemini 2.5 Flash Image成绩一骑绝尘。

谷歌这个nano banana明显不同于之前的图像模型，比如GPT-4o原生图像模型，能力确实上了一个台阶。

纳米香蕉背后是否有新的技术，新的体系引进？

正好，谷歌DeepMind团队刚刚接受了采访，讲述了模型背后的故事。

「纳米香蕉革命」

nano banana幕后首次公开

nano banana项目负责人和研究员接受DeepMind产品负责Logan Kilpatrick播客采访，揭秘了模型背后的技术密码：

模型可以访问多模态上下文，然后生成图像。所以模型可以选择查看之前的图像，并尝试生成与之非常不同的东西。
交错生成的神奇之处在于，它为你提供了一种用于图像生成的新范例……将复杂的提示分解成多个步骤，并在不同的步骤中逐一进行编辑。
未来的发展方向是让模型不仅能生成高质量图像，更能理解深层意图……甚至超越用户指令，提供更有创造性的结果，并确保内容的真实性和准确性。

在谷歌DeepMind的访谈现场，主持人Logan Kilpatrick成了新一代Gemini图像模型的首位「受害者」。

产品经理Nicole上传了他的照片，然后向模型下达了一个看似无厘头的指令：

「拉远镜头，给他穿上一套巨大的香蕉服，脸要露出来。」

短短几秒后，结果呈现在屏幕上。

照片里的Logan依然是他，但身上却天衣无缝地套着一件亮黄色的香蕉道具服，背景切换到了芝加哥的街景。

「太有趣了，」Logan惊叹道，「这张照片是在芝加哥拍的，那条街实际上差不多就是那个样子。」

「纳米香蕉」是个什么梗

紧接着，Nicole又输入了一个更神秘的指令：「把它变成nano风格。」

「这是什么意思？」Logan一头雾水。

屏幕上，一个穿着香蕉服的Q版Logan出现了，可爱又精致。

谜底揭晓：原来，「nano banana」（纳米香蕉）是这款新模型在早期匿名测试平台LMArena上使用的代号。

这个模型聪明到能理解这个「内部梗」，并以极富创意的方式执行了指令。

这种「聪明」的背后，是新模型最核心的技术——原生与交错式生成（Native and Interleaved Generation）。

对于传统的图像模型来说，每次编辑都像是一次「失忆」后的重新创作；相比之下，Gemini则像是一位「有记忆」的画家。

也就是，当Gemini进行多轮创作时，一切都在模型的上下文中——它记得上一笔画了什么，也理解对话的来龙去脉。

为了证明这一点，团队展示了另一个酷炫的例子：「把主体变成五种不同的1980年代美式商场风。」

模型不仅在短短13秒内生成了五张风格各异但主角高度一致的照片，甚至还贴心地为每张图起了「街机之王」、「酷盖」、「泡商城达人」、「淡定哥」这样充满年代感的标题。

左右滑动查看

而且，这不仅对角色构建有用，你也可以拍下自己房间的照片，让它帮你设计五种不同的装修风格。

在谷歌内部，已经有很多人用它来重新设计自己的花园和房间了！

在推特「差评榜」上淬炼

有趣的是，如此强大的模型，竟然是在网友的各种吐槽中诞生的。

研究工程师Robert坦诚地回忆：「（2.0版本发布后）我们真的就坐在X（推特）上，一条条地看用户的反馈和抱怨。」

比如「编辑后图像风格不统一」、「修改了不该改的地方」等等都会收集起来，并制作成一个专门的内部评估基准——一个名副其实的「推特差评榜」。

在训练过程中，有一个问题曾让研究员Kaushik近乎「疯狂」地执着——文字渲染。

「我们曾经在很长一段时间里对他置之不理，」Robert开玩笑说，「觉得这家伙有点疯狂，对文字渲染也太执着了。」

但Kaushik的坚持，最终得到了证明。

具体来说就是，当一个模型能精准地渲染出文字的笔画结构时，它对整个图像的宏观与微观结构的理解力也会随之跃升。

而这个曾经被忽视的细节，最终也成了模型能力进化的关键信号。

Gemini x Imagen秘密联姻

那么，新模型是如何在「聪明」（遵循指令）和「好看」（图像质量）之间取得完美平衡的呢？

答案在于一次关键的内部合作：Gemini团队与Imagen团队的强强联合。

你可以把Gemini团队理解为模型的「大脑」，他们赋予模型世界知识、强大的逻辑推理和指令遵循能力。

而Imagen团队，则像是模型的「艺术总监」，他们拥有「被磨练出的、极其敏锐的审美品味」。

对此，Kaushik分享了一个十分戏剧性的场景：「以前我们觉得一个编辑成功了，只要指令完成了就行。但Imagen团队的同事看到后，会直截了当地吐槽说：这太糟糕了。你怎么会想让模型做出这种东西来？！」

是的，团队里真的会有对美学非常敏感的成员，去仔细地审查成百上千张图片，并且仅凭肉眼就能判断出模型间的细微优劣。

大家甚至开玩笑说，未来的目标是根据他们的品味，训练一个「审美自动评分器」。

一个比你更聪明的创意伙伴

最后，当被问及未来时，团队的想象力被彻底打开。

Nicole的梦想，可以说是击中了每一个PM的心：「我希望有一天，这个模型能直接为我制作一套看起来很棒的工作幻灯片。它不仅要好看，所有图表和数据都必须是事实准确（Factuality）的。」

而研究员Mostafa的愿景则更具哲学思辨，也更令人激动。他期待的不仅仅是高质量的图像，而是一种全新的智能——「Smartness」。

「我期待这样一种情况：我让模型做一件事，它没有完全遵循我的指令。但在看到结果后，我反而会说：我很高兴它没听我的，这结果比我实际描述的还要好！」

在Mostafa看来，这并非模型的「失误」或「意外」，而是一种更高层次的智能涌现。

当AI的知识和视角超越用户时，它不再是一个被动的工具，而是一个能主动提供更优解的、比你更「聪明」的创意伙伴。

参考资料：

https://x.com/6xyzzxy1/status/1960736252661260294

https://x.com/Error_HTTP_404/status/1960405116701303294

https://x.com/tokumin/status/1960583251460022626

https://x.com/op7418/status/1960362278357987649

https://x.com/skirano/status/1960343968320737397

https://x.com/yachimat_manga/status/1960555945131696329

https://x.com/alex_prompter/status/1960773176264118429

https://x.com/bilawalsidhu/status/1960529167742853378

.....

#LimiX

清华崔鹏团队开源：首个结构化数据通用大模型，性能超越SOTA专用模型

2025 年 8 月 29 日，由清华大学计算机系崔鹏教授团队联合稳准智能共同研发的结构化数据通用大模型「极数」（LimiX）正式宣布开源。

此次发布标志着我国在结构化数据智能处理领域的技术突破与生态开放迈出关键一步，将显著降低千行百业应用结构化数据 AI 技术的门槛，特别是在结构化数据占主导的泛工业领域，「极数」大模型将助力 AI 深度融入工业生产全流程，破解工业数据价值挖掘难题，为实现智能制造与新型工业化提供关键支撑，推动产业技术变革和优化升级。

在泛工业领域，结构化数据是核心资产——工业生产参数、设备运行数据、质量检测数据、科研实验数据等均以结构化数据形式呈现，其智能处理能力直接影响产业效率与科研突破，也是 AI 赋能工业制造的关键突破口。

虽然通用大语言模型（LLM）凭借强大的文本理解与生成能力，已在内容创作、对话交互等领域实现广泛应用，但 LLM 在面对表格、时序等结构化数据时短板明显：数值比较、计算等基础任务易出偏差，更无法胜任数据分类、预测、归因等复杂任务，准确率难以满足真实行业需求。因此，目前工业结构化数据处理依然依赖私有数据 + 专用模型的传统范式。

由于专用模型难泛化、不通用，面对不同场景需要训练多个专用模型，成本高、效果差，且难以发挥数据要素聚集的乘数效应，严重制约了 AI 在工业场景的落地路径。

结构化数据通用大模型（Large Data Model, LDM）则针对性解决这一痛点：不同于 LLM 聚焦文本，LDM 融合结构因果推断与预训练大模型技术，既能捕捉结构化数据的内在关联，又具备强泛化能力，可跨行业适配多类任务。

「极数」大模型可以支持分类、回归、高维表征抽取、因果推断等多达 10 类任务，在工业时序预测、异常数据监测、材料性能预测等场景中，性能达到甚至超越最优专用模型，实现单一模型适配多场景、多任务的通用性突破，为人工智能赋能工业提供了 One-For-All 解决方案。

从技术性能到产业落地，「极数」大模型的核心优势已得到充分验证。

在超过 600 个数据集上的十余项测试结果表明，「极数」大模型无需进行二次训练，已经在准确率、泛化性等关键指标上均能达到或超过专有 SOTA 模型。

而在产业应用层面，「极数」大模型已成功落地多个真实工业场景，无需训练、部署成本低、准确率高、通用性强的特点获得合作企业的高度认可，成为推动工业数据价值转化的实用型技术方案，正加速形成面向泛工业垂直行业核心业务场景的真正智能底座。

研发团队

「极数」模型的研发核心力量，由清华大学计算机系崔鹏教授牵头组建，团队汇聚了学术研究与产业落地的双重优势，其技术突破背后是深厚的科研积淀与前瞻性的方向布局。

作为团队核心，崔鹏教授是我国数据智能领域的顶尖学者：他不仅是国家杰出青年科学基金获得者，更以突出成果两度斩获国家自然科学二等奖，同时获评国际计算机协会（ACM）杰出科学家，其学术影响力获国际学界广泛认可。在基础研究领域，崔鹏教授开创性提出「因果启发的稳定学习」新范式，突破传统机器学习在数据分布偏移场景下的性能局限，为 AI 模型的可靠性与泛化性研究奠定重要理论基础。

2022 年 OpenAI 推出 ChatGPT 引发大模型技术浪潮后，崔鹏教授敏锐洞察到结构化数据方向大模型技术的发展潜力，迅速将研究方向从因果稳定学习拓展至结构化数据通用大模型（LDM）领域。依托既有理论积累，团队攻克结构因果数据合成、模型结构设计、跨场景泛化等核心难题，最终实现「极数」模型在多领域任务中的性能突破，为此次开源奠定关键技术基础。

极数大模型简介

「极数」大模型将多种能力集成到同一基础模型中，包括：分类、回归、缺失值插补、数据密度估计、高维表征抽取、数据生成、因果推断、因果发现和分布外泛化预测等；在拥有优秀结构化数据建模性能的同时，极大提高了模型的通用性。

在预训练阶段，「极数」大模型基于海量因果合成数据学习数据中的因果关系，不同于专用模型在训练阶段记忆住数据特征的模式，「极数」大模型可以直接在不同的上下文信息中捕捉因果变量，并通过条件掩码建模的方式学习数据的联合分布，以适应包括分类、回归、缺失值预测、数据生成、因果推断等各种下游任务。

在推理阶段，极数可直接基于提供的上下文信息进行推理，无需训练即可直接适用于各种应用场景。

模型技术架构

「极数」大模型沿用了 transformer 架构，并针对结构化数据建模和任务泛化进行了相关的优化。

「极数」大模型先对先验知识库中的特征和目标分别进行 embedding；之后在主要模块中，在样本和特征维度上分别使用注意力机制，来聚焦关键样本的关键特征。

最终，提取到的高维特征被分别传入 regression head 和 classification head，实现对不同功能的支持。

训练数据构建

不同于传统的树模型和基于 transformer 架构的 LLM，「极数」大模型在训练过程中完全使用生成数据，不依赖于任何真实世界的数据来源。

为了使数据生成的过程高效且可控，团队使用了基于结构因果图的数据生成方式：采样到的初始数据在有向无环图上进行传播，通过复杂的边映射和节点交互来模拟现实世界中不同的因果依赖关系；通过对因果图上的生成数据进行采样，最终获得训练数据中的特征和目标。

使用这种方法生成的数据，既实现了因果结构上的多样性，又保证了数据的可控性。

模型优化目标

通用结构化数据大模型（LDM）需要在各种应用场景的各种任务中通用，且具备无需进行训练的数据建模能力，因此需要对数据的联合分布进行建模，以提高模型的通用性、增强对特征交互模式的建模能力。

为此，「极数」大模型在模型优化目标设计中加入了掩码重构机制：在训练过程中，通过对随机特征值进行掩码操作，模型将根据特征间的因果依赖关系，使用观测到的特征来重构缺失特征。通过引入掩码预测，模型可以学习到数据特征的联合分布，学习到更清晰且鲁棒的决策边界，提高对特征依赖关系的表示学习能力。为了更贴近真实场景中的缺失模式，「极数」大模型在三个维度上进行了掩码操作，分别是:

样本维度掩码：对于每一个样本，随机掩码掉其中的某些特征。

特征维度掩码：对于所有样本，随机掩码掉其中的一个特征。

语义维度掩码：关注高维上的相关性，将语义相关度高的特征中的某些特征随机掩码掉。

此外，「极数」大模型将特征缺失比例纳入考量，通过设计针对每行或每个子集缺失的训练目标，稳定了模型在不同缺失程度下的推理性能，提高了对各类缺失模式的鲁棒程度。

模型推理

在推理应用环节，「极数」大模型具备极强的场景适配性与任务灵活性。该模型无需针对特定场景或任务进行额外训练，即可直接接收表格、时序、图等多形态结构化数据输入；用户仅需明确分类预测、回归预测、缺失值补全、数据生成、因果推断、因果发现等具体任务类型，模型即可自动完成数据解析、逻辑建模与结果输出，真正实现即插即用模式，高效覆盖各类结构化数据处理需求。

此外，「极数」大模型还支持针对数据集进行模型高效微调，可使模型学习更全面的数据中的因果联系，在预测层面的性能会进一步提升。

模型效果

「极数」大模型在无需针对数据集进行专项训练的情况下，在分类、回归等多项结构化数据核心任务上取得了优异的性能表现。

模型评测方面，选取了各个领域的权威数据集作为 Benchmark。如开源数据集 Talent，它包含上百个真实数据集，是当前领域内体量最大、最具代表性的基准之一。在分类任务中，对比「极数」与 21 个领域内的常用 baseline 方法，「极数」大模型的模型性能显著超越其他模型，在 AUC、ACC、F1 Score 和 ECE 上均取得了最优。

在回归任务上，「极数」大模型在 R2 和 RMSE 指标上都达到了平均最优，对比其他 baseline 方法展现出了明显的优势。并且在数据集中有干扰特征或无效特征时，性能优势更加明显。

模型落地应用

目前，「极数」大模型凭借其优越的通用建模能力，有效破解了传统专用模型在工业场景「数据稀缺、质量参差、环境异质」情况下的能力瓶颈，已在多个关键工业场景中成功落地。

在工业运维领域，「极数」大模型已成功应用于钢铁、能源、电力等行业，扮演着「设备健康管家」的角色，为设备运行监测、故障预警与健康度评估等任务提供核心支撑。以某钢铁企业为例，其复杂产线长期面临难以从海量传感数据中精准捕捉非典型异常信号而导致的预警失效问题，给安全生产带来巨大隐患。「极数」大模型部署后，将设备故障预测准确率在原专用模型基础上提升了 15%，达到应用级要求，推动其维护模式从「事后维修」向「预测性维护」转型，显著提升了生产的安全性与运行效率。

在工艺优化领域，「极数」大模型在化工、制造、生物等行业中则化身为「生产智囊」。在某材料研发企业，如何从海量物化特征中精准识别关键因子，是提升材料设计效率的核心瓶颈。「极数」大模型成功筛选出少数核心优化因子，在确保信息无损（R^2 超过 0.95）的前提下，将调控效率提升了 5 倍，为企业的降本增效与绿色生产提供了科学决策依据。

业内专家表示，「极数」大模型的成功落地不仅验证了通用建模技术在工业场景的适用性，更为解决工业数据应用痛点提供了标准化解决方案，有望推动更多工业领域实现智能化升级。

开源地址

项目主页：https://limix-ldm.github.io
技术报告：https://github.com/limix-ldm/LimiX/blob/main/LimiX_Technical_Report.pdf
Github：https://github.com/limix-ldm/LimiX
Huggingface：https://huggingface.co/stableai-org
Modelscope：https://modelscope.cn/organization/stable-ai

结语

在当前人工智能的发展浪潮中，大语言模型（LLM）通过大规模预训练实现了「语义空间的通用世界模型」，而如何面向工业数据的独特属性，构建「数据空间的通用世界模型」，已成为 AI 迈向产业纵深的关键命题。

在这一目标的驱动下，发展能够跨场景、跨任务、跨环境的结构化数据通用大模型（LDM）势在必行。

我国凭借丰富的工业数据资源与多元的应用场景，有望在 LDM 领域打造出独特的「非对称竞争力」。清华大学团队此次开源发布的「极数」大模型，正是这一方向上的重要突破。期待以此为起点，共同迎接 LDM 的「GPT-3 时刻」早日到来。

.....

#AI应用：浮现中的AI经济

在人类经济活动数字化的浪潮中，互联网和移动互联网走完了前两步，正在浮现中的AI经济，可能带来更大的变化。

作者王捷为科技投资人，本文系作者根据2025年6月5日在清华大学深圳国际研究生院《AI应用与AI经济》讲座、6月10日在上海天使会《AI应用：浮现中的AI经济》讲座内容整理。作者电邮为jie_wang7@sina.com。

人类经济活动的数字化

1946年，人类发明了计算机，这标志着人类的计算经过几千年的演化，从手动到机械，终于到了电子形式。计算机的出现，把计算能力提高到了远超过人脑计算能力的程度。1874年，英国人威廉·尚克斯花费了15年时间将圆周率计算到小数点后707位（但是到1945年，尚克斯计算的圆周率被发现从528位之后是错误的）；2019年，谷歌云平台帮助人类将圆周率计算到了小数点后31.4万亿位。

人类处在自然环境中，有两个根本任务，一是利用和改造自然环境以使其能够支持人自身的生存；二是在实现物质富足之后，提升个人的人生，使每个人的天性得到充分发展，即人的全面发展和自我实现，“做最好的自己”。在第一个任务下，人类在和自然的互动当中，发展出来一些分门别类的方法，比如天文、占卜、数学、工程、物理、生物与自然等等。在这些方法中，最能规模化的方法，后来主导了人类和自然互动的过程。这样的领域就是数学，基于数学的物理，以及后来发展出的计算机科学。

计算机的出现，意味着人类开始进入数字化时代。人类所有的经济活动，从这一刻起，开始有先后顺序地被数字化。在数字化之后，算法可以发挥作用，经济活动可以由算法驱动，从而实现智能化。由此看来，人类整个经济活动迈向数字化似乎是一个必然。

图表1：经济活动数字化进程

就人类活动的数字化进程，尼葛洛庞帝的《数字化生存》是一本有里程碑意义的著作。这本1996年的作品敏锐地指出了上述人类整个经济活动数字化的趋势，并且浓缩在一句建议里：“Move bits, not atoms.” （《数字化生存》在全球影响了很多人，“Move bits, not atoms.”的笃信者中不少后来成为了具有影响力的数字经济领袖，比如中国公司美团的创始人王兴。）比特世界的效率千万倍于物理世界。由于效率差的存在，在计算机主导的时代，整个物理世界最终将全部被复刻到比特世界，经济活动实现在比特世界中运行。这个过程从二十世纪末启动，可能会占据二十一世纪相当的时间才全部完成。

目前，我们处在上述过程的第一阶段/数字化还未全部完成，第二阶段/算法驱动蓬勃兴起的阶段。第一阶段/数字化就是互联网时代和移动互联网时代。电脑帮人类实现了固定场景下日常活动的数字化，手机帮人类实现了移动场景下日常活动的数字化。这个阶段的本质特点是物理世界的数字化，但是思考和决策还是需要人脑来做，数字世界起到的最大的作用是匹配，极大提高了匹配的效率。在第二阶段，思考和决策可以由算法来做，同时算法可以交付工作成果；其启动点是算法拥有了接近人类的思维能力，在中长期，算法将拥有叫人类更优的思维能力。我们目前正处在第二阶段中，算法开始具备泛化地交付工作能力的临界点上。第二阶段给人类经济活动带来的贡献，将远超过第一阶段。

互联网和移动互联网阶段的数字世界经济活动

如前所述，互联网时代和移动互联网时代的数字世界经济活动，相较这之前的经济活动，最大的特点是匹配效率得到了极大地提高。通过先后出现的桌面PC和手机这两种硬件，人类主流日常生活需求带来的经济活动，都已经被数字化。

在互联网时代和移动互联网时代产生的新经济形态，最大的三个赛道是搜索、社交、电商，分别对应人类的信息需求、社交需求、商品需求，又分别对应信息和人的匹配、人和人的匹配、商品和人的匹配。

为何互联网和移动互联网可以极大地提高上述三种场景的匹配效率呢？我们用下面表格来说明这个过程。

图表2：信息、商品、社交在前互联网阶段、互联网阶段、移动互联网阶段的匹配方式

可以看到，信息、商品、社交伙伴这三类需求，在前互联网阶段、互联网阶段、移动互联网阶段，分别通过就近获得、全局搜索、个性化推荐三种方式实现匹配。

就近获得的选择集非常有限，这也是人类从诞生以来做选择的常态，在互联网诞生前的几千年里，人类都是这么做选择的。

相较就近获得，全局搜索的选择范围、选择丰富程度都得到了数量级的提高，人们可以在一个接近“穷尽所有可能”的选择集里做选择，用户更有可能得到一个在喜欢和适合两个维度得分都比较高的选择，这样的选择，在就近获得阶段，可能是在选择集之外的。

相较全局搜索，个性化推荐更好地解决了“由于个人在某个领域的知识不足带来的选择低效问题”，即，用户虽然可以在一个接近全集的范围内做选择，但因为判别每类选择对象都需要专门的知识，一个普通的用户不可能在每个领域都拥有这样的高水平的知识储备，所以他还是不可能总是做出在喜欢和适合两个维度得分都比较高的选择。个性化推荐，本质上是将“某类有共性的用户在某个领域经验证的最佳选择”推荐给所有这类共性用户，从而提高了这些用户的选择的质量。

所以整个互联网/移动互联网，是把人类主流的日常生活需求带来的经济活动数字化了，然后解决匹配/matching的问题。仅仅这件事情，就给经济效率带来了巨大的提升，给消费者的效用带来了巨大的提升。

从整个人类经济活动的数字化的角度来观察，互联网和移动互联网阶段还只是开了个头。第一，在数字化的范围上，与个人消费者消费行为有关的经济活动，其数字化程度较高，而与企业有关的经济活动，其数字化程度还有待提升。第二，互联网和移动互联网主要是在“匹配”这件事情上提供了巨大的价值。人与自然互动关系可以用“收集信息-决策-行动”这一链条来描述，其中互联网和移动互联网优化了收集信息环节，部分优化了决策环节（全局搜索下，还是由人脑来做决策；个性化推荐下，人脑可以参考算法推荐的选项来做决策）。逻辑上看，在经济活动完全数字化之后，“收集信息-决策-行动”整个链条都可以得到优化。

到这里我们可以看到，在整个数字化大浪潮中，互联网和移动互联网还只是人类的一小步。

浮现中的AI经济

2017年AI出现后，人类的数字化进程进入了新阶段。不同于互联网和移动互联网主要提供匹配功能，AI可以实际完成一些线上工作，比如图像识别技术可以准确识别人脸、知识图谱技术可以分析一台故障机器是哪里出问题。但这些工作能力，都是与特定模型挂钩的。OpenAI的GPT系列模型，使得AI能力具有了泛化性，也就是同一个AI模型，具有泛化地交付工作的能力。比如GPT-3是第一个同时具备对话、搜索、画图、代码能力的模型。

在这里，我们有必要讨论一下人类与自然世界互动的“收集信息-决策-行动”链条。在构建这一分析框架时，我们参考了控制论、人工智能、机器人学、自动驾驶中广泛使用的“感知–决策–控制（Perception–Decision–Control, PDC）”理论。之所以这样，是因为在分析人类与自然世界的互动时，我们发现控制论、人工智能、机器人学、自动驾驶等学科在考虑机器与自然世界的互动时，对于整个活动链条做了完整的考虑，也即“感知–决策–控制”链条；而人与自然世界互动，本质上也是这三个步骤，考虑到表述习惯，我们将其表述为“收集信息-决策-行动”链条。

AI具有（泛化）交付工作的能力，意味着人类与自然世界互动的“收集信息-决策-行动”链条中，计算机可以在三个环节都起作用了。计算机可以完成信息收集，完成一部分“决策”和一部分“行动”，具体可以用以下表格来表示：

图表3：计算机在不同阶段参与“收集信息-决策-行动”链条的情况

具体来讲，就决策而言，算法对于经济主体（个人/组织/企业）需求的了解较移动互联网阶段更为详细和准确，可以做出更精准和有效的决策建议，使得人脑在决策时对算法的授权范围会扩大，算法在决策中起的作用会更大。

就行动而言，在第一阶段，计算机可以去完成那些纯数字世界的工作，比如编程、编写一个文案、搭建一个网站、生成一个广告视频、填写保单，这部分工作之前主要是由程序员、文案作者、设计师、重复性脑力工作者等完成；在第二阶段，xx智能发展成熟后，计算机可以参与完成物理世界的工作，比如清洁家务、在工厂流水线工作、物流搬运、照顾老人等目前人类劳动力完成的工作。

2025年，在人类社会数字化的进程中，是一个重要的时间点。这一年AI（泛化）交付工作的能力开始超过人类。从GPT-3开始，AI具备通用泛化的完成工作的能力以来，如果按人类的智商基准来评估，AI的智商一直是低于人类的。TrackingAI.org.用人类的智商测试门萨测试来评估AI的推理能力，可以作为一个参考。2025年之前的主流模型，如GPT-3.5、GPT-4o、Grok-3、Llama 3、Mistral、智谱AI的GLM-4等，其智商均低于100，也就是人类的平均水平。所以当我们使用这些模型，以及基于这些模型开发的AI应用的时候，我们会感觉这些产品“有点笨”，还不能很好地满足我们的需求。但是2024年底特别是2025年以来发布的模型，如OpenAI o3、Gemini 2.0、Gemini 2.5 Pro、Claude 4、DeepSeek R1等，其智商水平已经超过了人类平均水平100，从实际表现看，不少模型已经来到了110以上的区间。这些模型的智商，已经相当于人类中排名靠前的水平，甚至是前10%的水平，或者是名校学生的智商水平（对于从事经济活动的AI而言，更好的评估基准是专门来评估其从事经济活动的能力，我们可参考对于AI来说通用的“图灵测试”，将这一评估基准初步定义为“经济图灵测试”。关于“经济图灵测试”的具体标准将在后续文章中展开）。比如OpenAI o3被评价达到“天才级”水平，而字节的豆包模型也在2025年中国高考试卷考试中取得了可以被清华北大录取的成绩。这也就是为什么从用户使用体验来看，24年底以来的很多AI agent“好用了”，出现了不少效果出众的AI agent。

图表4：各家AI大模型在门萨智商测评中的得分情况，2025年5月。来源：https://trackingai.org/home 访问于2025年5月

鉴于以上，此刻2025年5月，我们处在人类历史一个重要的时间关口上。人类本着“自动化计算”的愿望发明的计算机，在诞生约八十年后，完整地具备了人与自然世界互动的“收集信息-决策-行动”能力，并且其能力在超过人类的临界点上。“收集信息-决策-行动”这一经济活动的基本链条，在历史上第一次可以由人之外的主体来独立地、完整地完成。一个人类历史上从未出现过的AI经济系统正在浮现之中。这在人类经济史上是巨大的变化。

在数字经济出现之初，1998年，美国商务部编写的研究报告《浮现中的数字经济》，给出了一些前瞻性的判断，给了当时的探路者很多启发。这份报告对于经济中商品与服务的数字化、电子商务、数字经济中的劳动者、数字经济中的消费者都给出了预见性的分析。今天，站在AI经济系统诞生的时间点上，我们以这篇《浮现中的AI经济》试叩前路，也致敬数字经济过往的探路者们。以下是我们结合AI应用，对AI经济特点的一些展望。

全天候自动运行的经济系统

在“收集信息-决策-行动”链条中，在过去，由于决策主要是由人来做，行动是由人和人所控制的工具/机器来做，如果没有人的参与，经济活动是无法完成的。在AI经济中，以上三个步骤都可以由计算机完成，先在纯数字世界，之后拓展到物理世界。这个经济系统可以自动运行，直到把工作做完。

全天候自动运行的经济系统，这是经济活动数字化进程中，AI具备交付工作的能力之后，我们会感受到的第一个重大特征。在AI Agent和它的人类同事具备同样工作能力的前提下（这是当前这个临界点的情况），一天内AI经济可实现的工作量是之前的3倍。在上述假设下，一周内AI经济可实现的工作量是之前的3×7/5=4.2倍，一年内AI经济可实现的工作量是之前的约4.2×365/355=4.32倍（中国法定节假日中的非周末休假约为8-11天，美国法定节假日中的非周末休假约为10天，暂取10天用于计算）。

考虑到AI的智商上限还会不断提高，未来这个倍数还会继续提高。相信在这个经济系统运营一段时间之后，我们将有能力估算出对于同样的工作内容，一个工作日/月/年的经济产出能较当前水平提高多少倍。

当前，AI在交付的工作主要集中在代码、计算机、数学、文生图/视频、设计、教育、线上销售等纯线上工作，以及机械化、重复性的脑力工作如笔记整理、发票整理、账目整理等工作。以Anthropic于今年5月发布的Claude 4模型为例，在客户测试中，进行编程的Claude Opus 4可以自主运行7个小时。根据Anthropic的预测，到今年年底，Claude 4模型将拥有能完成接近初级工程师一天工作量的软件工程智能体，实现全天候工作。在AI经济的早期，成千上万个专门用途的agent将被构建出来，成为AI经济在万千个垂直行业的基础设施，而这些基础设施都可以用AI Coding来构建完成。可以预见，接下来将有大量AI Coding全天候自动工作，搭建上述垂直行业agent，以及相关的网站等。

比如近期一个名为Lovart的AI应用，可以基于用户的指令生成相应的logo，然后基于logo生成全套产品VI，并且在给出的VI方案里融合一些与产品文化、消费者文化相关的巧思。这样的应用全天候自动工作，将在不长的时间内就生成出一家公司某个阶段所需要的全部VI方案。

又比如一家名为Sema4.ai的AI应用公司为用户提供发票整理服务。对于经常出差的职场人士，每个月可能都需要花一到两个半天来专门整理出差发票。这个工作现在可以由AI来完成，并且是全天候的——如果你出差在晚上10:30回到办公室，它可以在你休息的时间继续为你整理，直到整理完它才停止工作。不再会有堆积如山的发票需要整理，因为有一位专职助手可以以7×24的节奏来做这件事情。

无劳动力供给限制

劳动供给指的是人们愿意在有收益的活动中工作的小时数（保罗·萨缪尔森、威廉·诺德豪斯：《经济学（第19版）》，北京：商务印书馆，2013年）。也就是说，劳动供给是由人类来提供的。人类作为劳动力的供给方，自人类诞生以来就没有变过。这是因为就人类与自然互动的基本模式“收集信息-决策-行动”而言，一直只有人类能够完整地完成这个链条中的三个环节。

为了扩大行动的能力，人类的本能一定是要多生育的。但人的繁育是跨代际的，需要时间，在数量上也有自然约束。所以人类也一直在尝试扩大其他的劳动能力供给来源。受限于技术水平，在计算机和互联网出现之前，人类只能在上述“行动”环节进行努力，扩大具备“行动”能力的劳动能力供给，即牲畜和机器。

在历史上，牲畜和机器都起过很大的作用。人类很早就驯服牛来帮助进行农耕，人类也在农业时代就发明织布机来倍增行动的效果。虽然牲畜的繁育也面临跨代际的时间约束和每次成功繁育的数量约束，但是该等约束比人的繁育所面临的要容易放松得多，因此像牛、马等牲畜在人类的劳动活动中得到了大量使用。机器的复制所面临的时间约束和数量约束较牲畜更易于放松，机器得到了更加大量的使用，集约化使用机器的形式——工厂成为了人类经济中最主要的生产形式。

在互联网和移动互联网出现之后，计算机参与到了“收集信息”和“决策”两个步骤，但是“行动”还是需要人来完成。AI产生（泛化）交付工作的能力，使得计算机可以在以上三个环节都起作用，因此计算能力也成为了劳动力供给，第一阶段在数字世界，第二阶段进入物理世界。

计算能力成为劳动力供给的最醒目意义是，它是可以无限复制的，且复制的边际成本很低。假设我们下个星期要举办一个大型展会，有1000家不同行业的中小企业参展，展会需要给每家参展企业做一个展示其业务和产品的网页。如果一个程序员一个星期可以制作一个符合要求的网页，那么我们需要1000名程序员；如果一个AI Coding软件一个星期也可以制作一个这样的网页，我们只需要将这个AI Coding软件打开1000次，让这1000个任务并行进行，这些任务所消耗的主要是电力成本和算力成本，随着技术日益进步，这两项成本会越来越低直到接近可忽略的水平。

我们也可以将计算能力与生物性劳动能力、机械性劳动能力作一个对比。生物性劳动能力（如人自身、牲畜）的繁育所面临的时间约束和数量约束，对于具备泛化交付工作能力的AI来说，不存在了。

机械性劳动能力（机器），从工业时代开始到现在，只能完成特定任务，不能像人一样基于理解和分析完成不同的任务，因此对于不同的任务，人类要开发不同的机器，带来了研发成本，机器复制的边际成本不为零。但是对于具备泛化交付工作能力的AI而言，该工作能力是在基座模型训练的过程中得到的，执行不同任务所需的边际成本很低——一次训练，多个场景都可使用，比如我们前面举到的AI Coding例子。

由此，人类可能拥有一个无劳动力供给限制的经济体，先数字世界，后物理世界。按照凯恩斯的观点，工业革命阶段发生了两个重大变化：一是资本积累急剧增加，二是技术革新带来的生产能力急剧扩大（Keynes, John Maynard, 2010, “Economic Possibilities for Our Grandchildren”, in John Maynard Keynes, Essays in Persuasion, London: Palgrave Macmillan, pp.321-332. 在经济学框架下，前述牲畜和机器都被归类到“资本”项下，即用资本可以购买到的生产要素）。但我们会发现，工业革命阶段，劳动力供给的约束一直存在，人力的供给仍然停留在自然状态，没有像资本和技术两个要素一样进入加速发展的阶段。即使这样，凯恩斯也预测“一百年以后，进步国家的生活水平，比之于现在，要高出四到八倍”（Keynes, John Maynard, 2010, “Economic Possibilities for Our Grandchildren”, in John Maynard Keynes, Essays in Persuasion, London: Palgrave Macmillan, pp.321-332.）。目前，劳动力供给的约束可能得到放松，人类有可能进入一个无劳动力供给限制的阶段。

对于“无劳动力供给限制”这个话题，我们其实并不陌生，发展经济学做过深刻的探讨。威廉·刘易斯在1954年发表的《劳动无限供给条件下的经济发展》，提出了具有重大影响的发展中国家的“二元经济”模型，刘易斯也因此后来获得诺贝尔经济学奖。从当时的观察看，在劳动无限供给的条件下，伴随农产品产出的提高，劳动力价格基本没有上涨，从而农产品产出提高带来的利益，主要由下游的购买方享有。如果这一模型在AI应用时代仍然成立的话，那会是全球消费者的福音。但是这一模型在当前能否完全成立，特别是在目前AI基础模型主要为少数公司所掌握的背景下，未来AI工作能力能否平价地输出给整个经济系统，需要从业者和研究人员继续做细致的工作。我们希望以对人类最佳的前景，推导出当下最合适的实践路径。

非稀缺经济

无劳动力限制的全天候经济，可能带来N倍于当前人类经济总产出的产出能力。这一变化先从数字世界开始。当前，企业已经可以使用数字员工完成综合行政、人力资源、财务管理、行业研究等工作，职场专业人士也可以使用个人助理来制作数字内容（图片和视频）、展示内容、教学内容、运营分析、行程规划等。数字世界的产出能力集中在服务业，可能带来数字化服务业总供给的N倍提高。

在xx机器人成熟之后，上述产出能力可以拓展到物理世界。xx机器人可完成如清洁家务、照顾老人、物流搬运等属于服务业的工作，也可以完成在工厂流水线工作、采摘农作物这些属于工业和农业领域的工作。以xx机器人潜在的制造成本和运营成本看，在技术成熟之后，xx机器人完成上述工作的成本比人类自己作为劳动力所需的成本要低。这就意味着在现有的投入水平下，在物理世界，产出能力也可能提升到当前水平的N倍。

当前，我们还无法准确地评估上述N的数值会是多少。在各个类别工种的AI Agent的工作效能充分显现之后，我们将有机会对AI可以从事的各个工种的上述N值进行相对准确的估计，从而对于人类在单位时间内（比如一年）的总生产能力的提高进行相对准确的估计。

从而，人类会有可能拥有一个“非稀缺经济”。一种可能的情况是，在AI大模型算法能力提升接近稳态时（目前还没有看到收敛的迹象），上述N值对应的全人类单位时间总产出，可能会超过这个单位时间内全人类的总需求。

约翰·凯恩斯在一个世纪前预言过这样一种“非稀缺经济”的情形。1930年凯恩斯撰写《我们孙辈的经济可能性》一文，他认为16世纪以来，科技和资本两个生产要素进入了加速发展和积累期，由此对稳态下经济的增长速度有了相对明确的判断，同时预判未来人口规模很可能不会再出现像之前类似量级的增长，所以人均生活水平将逐步提高，“我敢预言，100年后进步国家的生活水平将比现在高4－8倍”，从而“从长远看，人类终将解决其经济问题”。

人类终将解决其经济问题！一百年后的今天，“进步国家”确实已经实现了凯恩斯的预言（Fabrizio Zilibotti整理了全球经济的长期增长表现，覆盖168个国家，时间跨度为1950年到2000年。根据凯恩斯的预言，要在2030年达到当时英国人均收入的四到八倍，经过人口加权之后的平均增长率最高为2.1%，而二十世纪后五十年的这个增长率实际上是2.9%，只需要50年就可以实现凯恩斯预言中收入增加四倍的下限。如果按照2.9%这个增长率持续增长一个世纪，人们的收入水平将有1930年的十七倍之多，这个水平远远超过了凯恩斯预言中的上限。见Fabrizio Zilibotti, “Economic Possibilities for our Grandchildren 75 Years After: A Global Perspective”, in Lorenzo Pecchi and Gustavo Piga eds., Revisiting Keynes Economic Possibilities for our Grandchildren, The MIT Press, 2008.），发展中国家尚在努力当中。凯恩斯没有预料到的是，1946年以来计算机的发展，将人类经济活动带入了又一个新的阶段，在2025年，非人类的机器，已经具备泛化地完成工作的能力，无限劳动力供给带来的“非稀缺经济”，再次加速了“人类解决其经济问题”的进程。

以上，是计算机可以在“收集信息-决策-行动”链条中的“行动”环节起作用，带给经济系统的三个影响。接下来我们讨论计算机在“收集信息-决策-行动”链条中的“收集信息-决策”环节起作用，带给经济系统的几个影响。

交易成本降低

人类的经济活动，就其最主要的特征而言，是合作活动。人的经济行为可分为两个类别，一是合作，二是交换/交易，也基本对应进入工业化阶段之后，分别以企业和市场这两种组织形式来组织的合作活动。

制度经济学对经济活动中的交易成本进行了充分的讨论。20世纪30年代的科斯注意到，通用汽车的车身供应商，有的是上游独立供应商，有的本是独立供应商却又被通用汽车并购。为什么会有这样的差别？从这个现象和问题出发，科斯和后来的学者建立了制度经济学，从交易成本的角度理解市场和企业：当企业内部的交易成本较低时，经济主体通过企业这样一种组织形式达成交易/合作；当市场的交易成本较低时，经济主体通过市场达成交易。

在通过企业达成合作的情况下，完成一项任务，需要将信息下发到参与完成这件任务的每一个人，需要保证每一个人充分理解信息、认可指令，遵照信息的指令来执行。在组织内部，为了达到这些目标所需付出的成本，是组织成本，或者按照科斯的看法，是企业内部的交易成本。

在通过市场达成交易的情况下，制度经济学将交易成本归为三个主要类别，包括信息搜集成本、谈判成本、交易保护成本（R. Coase, “The Nature of the Firm”, Economica, 1937,4(1):386-405. R. Coase, “The Problem of Social Cost”, Journal of Law and Economics, 1960,3(1):1-44.），或称为市场主体的搜寻和信息成本、讨价还价和决策成本、合同监督及执行成本（C. J. Dahlman, “The Problem of Externality”, The Journal of Law and Economics, 1979, 22(1).）。如果对照本文主张的“收集信息-决策-行动”链条，会发现三类交易成本正好对应这个链条的三个环节。也算是不谋而合了。

自互联网产生以来，上述交易成本一直在下降。按照Goldfarb和Tucker的综述研究，数字技术降低了经济活动中五个方面的成本：搜寻成本、复制成本、交通成本、追踪成本和验证成本（A. Goldfarb, C. E. Tucker, “Digital Economics”, Journal of Economic Literature, 2019, 57(1): 3-43.），这个五方面分类法展示了归纳的视角。从逻辑上看，我们认为，经济活动数字化对于交易成本的影响体现在，互联网和移动互联网降低了前述企业内部的交易成本和市场中的交易成本。

降低企业中的交易成本。数字工具提高了信息下发的准确性，可以有效辅助每位团队成员理解信息，并校准、监督和反馈每一位成员的执行。比如移动互联网团队协作应用Teambition，可以将协作的每个步骤分解为每位团队成员的第一人称视角，在信息下发、任务理解和认可、执行校准几个方面都可以起到很好的作用。

降低市场中的交易成本。在收集信息环节，互联网将全局信息数字化，实现可全局搜索；移动互联网阶段进一步进化为可全局范围内个性化推荐；AI阶段将可能出现一个“数字层”，这个“数字层”由用户的个人AI助理和各个垂类的AI Agent组成，全面了解消费者和生产者等经济主体，也全面了解物理世界，“数字层”会较移动互联网更为精准地匹配供需关系。在决策环节，互联网的精准动态定价已经极大地减少了讨价还价的发生；在行动环节，区块链技术则旨在构建可以自动执行的合同。

我们可以再回到图表二的结构，来观察在AI大模型阶段可能会出现的这个“数字层”。一个“全知全能”的“数字层”如果出现，将使得上述企业中的交易成本和市场中的交易成本继续降低。

图表5：信息、商品、社交在AI大模型阶段的匹配方式

非理性决策减少

理性一直是人类面对这个世界最有力量的武器。“理性”一词来自于希腊文 “逻各斯”，其基本含义是 “规律”，是客观地内在于自然的东西，它支配着自然界的运动，是自然界运动的规则性的表现。按照柏拉图的理解，理性是灵魂的最高部分，通向真理。也就是说，理性是人类认识客观世界规律的能力。

希腊文明为人类社会走向提出了光明的愿景，但受制于当时的认识世界的能力，愿景并没有转化为现实。经历了漫长的中世纪，文艺复兴和启蒙运动重新把“理性”置于人和世界关系中最重要的位置。启蒙学者孟德斯鸠、伏尔泰和狄德罗把理性推崇为思想和行动的基础，用理性这个尺度衡量一切。理性驱动的工业革命使西方世界进入了现代社会。如韦伯所说，“西方文化特有的理性主义”造成现代社会中“理性化的经济生活、理性化的技术、理性化的科学研究、理性化的军事训练、理性化的法律和行政机关”（韦伯：《新教伦理与资本主义精神》，于晓等译，北京：三联书店，1987年）。

人类迄今为止所取得的进展，主要是运用理性、使理性起作用所得到的。但是在经济活动当中，作为经济主体的人们，其非理性行为大量存在。行为经济学对此进行了较为深入的研究。赫伯特·西蒙提出了“有限理性”，认为受制于现实资源，个体难以达到完全理性（赫伯特·西蒙：《管理行为》，詹正茂译，北京：机械工业出版社，2013年）。行为经济学发现人们往往知道正确的选择却仍然做出错误的行为，相关的理论包括前景理论（人们在面对相同数量的得失时心理感受和行为的不对称）、禀赋效应（以前景理论为基础，认为人们在决策中对利害的权衡是不均衡的）、跨期选择（在跨期选择的情况下，人们的长期理性选择能力值得怀疑）、心理账户（消费者会将资金按来源或用途划分为不同心理账户，导致对相同金额的货币产生非替代性认知差异）、输者赢者效应（投资者对过去的输者组合过分悲观，对过去的赢者组合过分乐观）等。George Loewenstein发现人们做出的决策并非只受成本和收益分析的影响，而是受推理、情感和成本收益相结合的“多重模式”影响（L. George, “The Creative Destruction of Decision Research”, Journal of Consumer Research, 2001,28(3):499-505.）。

在非理性决策中，投机对经济运行的影响非常大。“投机行为往往基于启发式与信号，而非真正的价值分析”（赫伯特·西蒙：《人工科学》，上海：上海科技教育出版社，2004年），“投机行为往往是投资者受非理性心理、媒体影响和从众心理驱动下的资产交易”（罗伯特·席勒：《非理性繁荣（第三版）》，北京：中国人民大学出版社，2016年）。根据明斯基的研究，在经济景气时，当人们产生了“投机的陶醉感（speculative euphoria）”，资产泡沫就会产生，并可能引发金融危机。

当前，计算机第一次可以参与到决策环节中来。这将带来的最大影响是，经济活动中的非理性决策可能大大减少。计算机可以仅从（潜在）成本和（潜在）收益的角度来决策，不受心理感受、心理账户、情绪波动等因素影响，作出较人们的决策要理性得多的决策。在AI经济中，不理性决策占总决策的比例可能会大大降低，因为不理性决策带来的经济损耗也可能会大大降低。这个变化，也将进一步提高经济系统的产出效率和产出能力。

向历史求解

每一代人都只生活在自己所在的这个时代。对于上一代人发生的事情，历史上发生的事情，人类只能从书籍、影像等历史记述中去重现。但是，人们花在阅读历史、重现历史上的时间，占人们总的吸收信息的时间的比例，是非常非常小的。因此总的来说，人类是生活在自己所处的当世，历史对我们的生活并没有多大影响。

但是，很多人类生存和生活所需要处理的基本问题，千百年来其实没有大的变化。当代人所遇到的挑战、所要解决的问题，很多是在历史上出现过的。一些重要的领域，有专人整理历史经典，这些领域的历史文献，在当今世界仍然发挥重要的作用。比如军事领域的《孙子兵法》、《伯罗奔尼撒战争史》就是这样的例子。在大多数的其他领域，也存在类似地位和作用的历史著述，但是因为鲜有人查找、翻阅，其中的精华要义便没有转化为当世人可用的知识。

在计算机参与到“收集信息-决策”两个步骤之后，上述情况可能会发生变化。计算机的记忆能力可以突破上述当世人类的经验范围和阅读范围的限制，将人类历史上出现过有记载的各类事实和观点都纳入到记忆当中。对于那些在自己个人的生活经验、经济活动中并不频繁、但是在历史上多次出现的情景/问题，人们将有能力寻求历史上出现过的优秀解法，而不用像一直以来那样局限于当世所见范围内可见的解法。个人所生活的具体时空中稀有但难忘的体验，可能是历史的大数据里可归纳的经典，这也是可以调出而复现的。在经典研究领域，这是常见的情况；但是在人类生活的绝大多数领域，这是未见的。人类将第一次可以既生活在自己物理上所属的当世的横截面上，又生活在历史的纵轴当中，对于任何问题，人类将可以既向当世求解，又向历史求解，因此有机会寻求一个“时空最优解”。

人的全面发展和自我实现

如前所述，人类处在自然环境中，有两个根本任务，一是利用和改造自然环境以使其能够支持人自身的生存；二是在实现物质富足之后，提升个人的人生，使每个人的天性得到充分发展，即人的全面发展和自我实现，“做最好的自己”。

一个全天候自动运行、无劳动力供给限制的经济系统，有可能成为“非稀缺经济”。在非稀缺经济下，一种可能性是，每个个人有充足的时间用于个人的全面发展和自我实现。在中国文化中，孟子有曰：“人皆可以为尧舜”。在西方文化中，希腊文明对幸福的古老定义也很能表达这个理想：“生命的力量在生活赋予的广阔空间中的卓异展现”（伊迪丝·汉密尔顿：《希腊精神：西方文明的源泉》，沈阳：辽宁教育出版社，2003年）。

如前所述，AI大模型可能在人类和物理世界之间构筑起一个“数字层”。这个“数字层”可以参与人和物理世界互动的“收集信息-决策-行动”链条，“数字层”全面了解消费者和生产者等所有经济主体，也全面了解物理世界，精准地匹配供需关系，降低交易成本；“数字层”理性决策，减少经济活动中的非理性决策；“数字层”先在数字世界、后在物理世界实现其行动能力。

本质上，“数字层”是人类理性化的又一个重大进展，是一个新出现的虚拟层，全面辅助人与物理世界的互动，进一步提高人类“收集信息-决策-行动”全链条的理性化程度。这可能会是继希腊文明、文艺复兴和启蒙运动之后的人类历史上第三次大的理性化浪潮。希腊文明作为第一次理性化浪潮，提出了理性是人区别于动物的最重要的品质、是人最应该发展的品质（柏拉图在《理想国》中提出灵魂有三部分：理性、意志、欲望。真正正义的人，是理性统治全身。亚里士多德指出只有理性活动才是“人的专属功能”）。但是受制于当时的科学水平，希腊文明看到了正确的方向，但是没能实现出结果。其后西方世界经历了漫长的中世纪，直到文艺复兴和启蒙运动，再次把理性置于人与自然互动关系的最重要的位置上。结合技术进步，这一次理性化浪潮产生了工业革命，也在经济、政治、文化等各个方面塑造了今天的西方社会和现代世界。在前两次理性化浪潮中，越来越多的人把“理性”置于人和世界关系中最重要的位置。在目前第三次理性化浪潮中，每个人都可以被“数字层”辅助而获得理性能力，正如前文所展开论述的那样。我们会看到，经过两千多年的发展，整个蓝色星球，遍布着理性的力量。

就个人的全面发展和自我实现而言，“数字层”也可以发挥重大的作用。形象地说，“数字层”拥有上限非常高的智商和情商，是一个普惠的、贴身的导师，可以帮助每个人成为更优秀的自己。每一个普通人，将有机会去寻求成为自己可以成为的最好的人。

但是当前，在准备迎接这样的未来之时，我们也面临严峻的挑战，或者说重要的任务。第一个任务是人们必须将人工智能系统置于完全的控制之内。就目前的情况来看，这个任务并不是理所当然能够完成的。正如“深度学习之父”辛顿最近所指出，人工智能系统可以摆脱人类的控制，甚至是操控人类。要避免这样的未来，必须在AI安全上实现全球级别的合作。人类需要被“数字层”辅助，而不是被“数字层”俘获。

第二个任务是，人们必须保证AI将为人类创造的巨大生产力，必须为所有人共享，而不是控制在少数人手中且只为少数人享有。归根到底，人类共同生活在地球上，人类诞生以来的所有重大发明、科技进展，不管从哪里起源，最终都会扩散至为全体人类共享。这是人类在地球创造的文明的基本准则。未来在我们的手中，将迎接什么样的未来，取决于我们的选择和行动。

当前，人类有机会像在历史上每一个大的历史关口一样，从本原出发，来思考要选择什么样的发展方向，正如中国的春秋时期、西方的希腊时期、文艺复兴时期那样，对人生的意义，做长期的定义。一个大胆的猜想是，人类可以重回“轴心时代”，再一次来定义最重要的价值。或许，我们可以把当前称之为“数字轴心时代”的开始。

.....

#StableAvatar

你能永远陪我聊天吗？复旦&微软提出: 首个端到端无限时长音频驱动的人类视频生成新框架!

在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能，旨为将人类意识进行数字化备份并进行意识上传，以实现人类文明的完全数字化。

如今随着扩散模型的兴起极大，涌现出大量基于音频驱动的数字人生成工作。具体而言，语音驱动人类视频生成旨在基于参考图像与音频，合成面部表情与身体动作与音频高度同步的自然人像视频，在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景。

但是，现有方法仅能生成时长不足 15 秒的短视频，一旦模型尝试生成超过 15 秒的视频，就会出现明显的身体变形与外观不一致现象，尤其集中在面部区域，这使目前数字人技术还无法达到《流浪地球 2》中图恒宇所创造的 AI 永生数字生命那样的程度，严重限制了其实际应用价值。

为了解决这一问题，一些方法尝试在音频驱动人类视频生成中引入一致性保持机制，但很少有工作深入探讨问题的根本原因。现有策略——无论是利用运动帧（Motion Frame），还是在推理过程中采用多种滑动窗口机制——都只能在一定程度上提升长视频的平滑性，却无法从根本上缓解无限时长头像视频的质量退化问题。

另一种可行方案是将长音频切分为多个片段，分别处理后再拼接成连续的视频。然而，这种方式不可避免地会在片段衔接处引入不一致和突兀的过渡。

因此，对于语音驱动的人类视频生成而言，实现端到端的无限时长高保真视频生成依然是一项极具挑战性的任务。

为了解决上述问题，来自复旦、微软、西交等研究团队提出 StableAvatar 框架，以实现无限时长音频驱动的高保真人类视频生成，目前代码已开源，包括推理代码和训练代码。

论文标题：StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

论文地址：https://arxiv.org/abs/2508.08248

项目主页：https://francis-rings.github.io/StableAvatar/

项目代码：https://github.com/Francis-Rings/StableAvatar

项目 Demo：https://www.bilibili.com/video/BV1hUt9z4EoQ

方法简介

如下图所示，StableAvatar 是基于 Wan2.1-1.3B 基座模型开发的，首先将音频输入 Wav2Vec 模型中提取 audio embeddings，随后通过我们提出的音频适配器（Audio Adapter）进行优化，以减少潜变量分布误差的累积。

经过优化的 audio embeddings 会输入至去噪 DiT 中进行处理。参考图像的处理通过两条路径输入扩散模型：

沿时间轴将参考图像与零填充帧拼接，并通过冻结的 3D VAE Encoder 转换为潜变量编码（latent code）。该潜变量编码在通道轴上与压缩后的视频帧及二值掩码（第一帧为 1，后续所有帧为 0）拼接。
通过 CLIP Encoder 编码参考图像以获得 image embeddings，并将其输入到去噪 DiT 的每个图像-音频交叉注意力模块中，用于约束生成对象的外观。

在推理阶段，我们将原始输入视频帧替换为随机噪声，而保持其他输入不变。我们提出了一种新颖的音频原生引导（Audio Native Guidance）方法，以替代传统的 Classify-Free-Guidance，从而进一步促进唇形同步与面部表情生成。此外，我们引入了一种动态加权滑动窗口去噪策略，通过在时间维度上融合潜变量，以提升长视频生成过程中的视频平滑性。

Timestep-aware Audio Adapter

以往的方法在生成超过 15 秒的虚拟人视频时，往往出现明显的面部与身体扭曲，以及颜色漂移。这主要源于它们的音频建模方式：直接将第三方预训练的音频嵌入通过交叉注意力注入扩散模型。由于当前的扩散主干缺乏音频相关的先验知识，在注入过程中会在跨片段之间逐步累积潜在分布误差，使得后续片段的潜在分布逐渐偏离最优解。

为了解决这一问题，本文提出了一种新颖的 Timestep-aware Audio Adapter，其中音频嵌入通过多个仿射调制和交叉注意力模块与时间步嵌入和潜在特征进行交互，如上图（a）所述。

具体而言，初始音频嵌入（Query）依次与初始潜变量（Key 和 Value）进行交叉注意力计算，随后结合 timestep embeddings 进行 affine modulation，从而得到优化后的音频嵌入。由于 timestep embeddings 与潜变量高度相关，这一设计潜在地迫使扩散模型在每个时步上建模音频–潜变量的联合特征分布，从而有效缓解因缺乏音频先验而导致的潜变量分布误差累积，优化后的音频嵌入（Key 和 Value）最后通过交叉注意力与潜变量（Query）交互后注入扩散模型。

Audio Native Guidance

为了进一步增强音频同步性和面部表情，本文提出了一种新颖的 Audio Native Guidance 机制，用以替代传统的 CFG，它未考虑音频与潜在特征的联合关系。本文修改了去噪得分函数，以引导去噪过程朝着最大化音频同步性与自然性的方向前进。

由于优化后的 audio embeddings 本质上也依赖于潜变量，而不仅仅依赖外部音频信号，我们的 Audio Native Guidance 不再将 audio embeddings 作为一个独立于潜变量的外部特征，而是将其作为一个与潜变量相关的扩散模型的内部特征，我们的引导机制能够直接作用于扩散模型的采样分布，将生成过程引导至音频–潜变量的联合分布，并使扩散模型在整个去噪过程中不断优化其生成结果。

具体而言，被 Timestep-aware Audio Adapter 优化后的音频嵌入特征依赖于潜在变量和给定音频，因此我们将

也作为去噪 DiT 的一个额外的预测目标，从而引导扩散模型捕捉音频-潜变量联合分布，去噪过程如下：

其中

和

分别指修改后的采样过程、原始采样过程、输入外部音频和两种引导尺度参数，依据贝叶斯公式可以将上述化解为：

由于

是常数，因此去掉这一项后公式化解为：

我们进一步将上述公式转化为得分函数形式：

因此最终推导公式为：

其中

和

分别表示扩散模型、文本描述和参考图像。Audio Native Guidance 机制将

视为扩散模型的一个额外预测目标，使模型在去噪过程中受联合的音频—潜变量分布引导，从而强化音频与潜变量之间的相关性。即便基础模型缺乏音频先验，该方法也能有效抑制音频驱动视频生成中的分布误差累积。

Dynamic Weighted Sliding-Window Strategy

与先前的滑窗去噪策略相比，我们在相邻窗口的重叠潜变量上引入了滑动融合机制，其中融合权重依据相对帧索引采用对数插值分布。融合后的潜变量会回注到两个相邻窗口中，从而保证中央窗口的两侧边界均由混合特征构成。

借助对数加权函数，可在视频片段之间的过渡中引入一种渐进式平滑效果：早期阶段的权重变化更为显著，而后期阶段变化趋于平缓，从而实现跨视频片段的无缝衔接，具体算法流程如下面算法表和图像所述。

生成结果示例实验对比

.....

#Canaries in the Coal Mine

在美国，打工人越老越吃香，22-25岁新人最先被AI淘汰

不敢相信，希望是我的幻觉。

AI 的普及引发了全球范围内关于其对劳动市场潜在影响的辩论。历史上，技术总会以不同的方式影响着人们的工作和生活，有的工作被取代，有的工作被增强。

近几年，AI 在多个领域的能力有了快速提升。例如，根据最新的 AI 指数报告，AI 系统在 2023 年仅能解决 SWEBench（一个广泛使用的软件工程基准测试）中 4.4% 的编码问题，但在 2024 年这一表现提升至 71.7%。与此同时，人们对 AI 系统的采用也在不断扩大。根据 Hartley 等人（2025 年）的研究，美国 18 岁以上的受访者中，他们使用 LLM 的比例到 2025 年 6 月已达到 46%。

鉴于 AI 能力不断提升，大家开始关注 AI 是否能够取代人类劳动，特别是那些在软件工程和客户服务等 AI 含量更高的职业中，那些年轻的职场人员到底会不会被淘汰。

为了回答这一问题，来自斯坦福数字经济实验室的研究者通过调查 ADP（美国一家全球领先的人力资源管理软件与服务提供商）数据，给出了答案。数据截至 2025 年 7 月，涵盖数百万名工人和数万家公司。

论文标题：Canaries in the Coal Mine? Six Facts about the Recent Employment Effects of Artificial Intelligence

论文地址：https://digitaleconomy.stanford.edu/wp-content/uploads/2025/08/Canaries_BrynjolfssonChandarChen.pdf

本文从这些数据中得出几个关键事实：

第一个关键发现是：在 AI 暴露度最高的职业中（如软件开发人员和客户服务代表），职场新人（22-25 岁）的就业率出现显著下降。相比之下，同职业中经验更丰富的员工群体，以及低 AI 暴露职业（如护理助理）中各年龄段劳动者的就业趋势保持稳定或持续增长。

第二个关键发现是：虽然整体就业仍保持强劲增长，但自 2022 年底以来，年轻劳动者的就业增长停滞不前。在 AI 暴露度较低的岗位中，年轻劳动者与年长劳动者保持了相当的就业增长率。而形成鲜明对比的是，从 2022 年底至 2025 年 7 月期间，在 AI 暴露度最高的职业领域，22 至 25 岁年龄段劳动者的就业率下降了 6%，而年长劳动者群体却实现了 6%-9% 的增长。这些结果表明，当年长劳动者就业持续增长时，AI 暴露岗位的就业萎缩正导致 22-25 岁年龄段劳动者的整体就业增长乏力。

第三个关键发现是：并非所有 AI 涉及的领域都会导致就业萎缩。在 AI 应用场景中，初级岗位就业确实出现下降，但在增强型 AI 应用领域则未出现类似现象。研究发现：在 AI 实现自动化的职业中，年轻劳动者就业下降；而在 AI 发挥增强作用的职业中，年轻劳动者就业反而增长。这些发现印证了以下结论：自动化应用的 AI 会替代劳动力，而增强型应用的 AI 则不会。简而言之，你的工作 AI 能干，你就危险了，要是你的工作，AI 只能当辅助，你的价值反而会提升。

看完上述结论，我们不禁要问 AI 为何对初入职场的年轻劳动者冲击尤甚？

一种可能的解释是：模型训练过程的本质，AI 替代的是构成正规教育核心的程式化知识，即书本知识。而 AI 可能较难替代那些随经验积累形成的默会知识（即特定场景下的技巧诀窍）。

由于年轻劳动者提供的程式化知识相对多于默会知识，他们在职业中可能面临更严重的替代风险，从而导致更大幅度的就业结构调整。相反，拥有丰富默会知识的年长劳动者面临的任务替代风险较低。然而在经验回报率较低的职业中，非大学学历劳动者从默会知识中获得的保护效应可能较弱。

AI 教父辛顿也曾表达过相似的观点，他认为像呼叫中心、初级律师，常规程序员等这类工作都会岌岌可危。但与人类灵巧性有关的工作，比如水管工，在很长一段时间内不会被淘汰。

Anthropic 首席执行官 Dario Amodei 认为，人工智能将在一到五年内消灭一半的入门级白领工作，并将失业率飙升至 10-20%。

研究结果

在 AI 影响下，年轻人就业率开始下降

图 1 展示了不同年龄组的就业变化。最年轻人员就业率在 2022 年后显著下降，而其他年龄组的就业则持续增长。到 2025 年 7 月，22-25 岁软件开发人员的就业相比 2022 年底的峰值下降了近 20%。

图 A1 显示，类似的模式同样出现在更广泛的计算机相关职业和服务文员群体中。

图 2 展示了四类其他职业在 AI 暴露程度上的差异。

下图左上子图表明，在 22-25 岁劳动者群体中，高 AI 暴露度职业与低暴露度职业的就业结果出现分化，高暴露职业呈现就业下降趋势。而在年长年龄组中，不管是高暴露还是低暴露职业，就业增长率差异不明显。

尽管总体就业持续增长，但年轻人的就业增长却停滞不前

图 4 展示了不同年龄组的整体就业趋势，相较于其他年龄组，年轻工作人员的就业增长出现了一定程度的放缓。

图 5 揭示了这些趋势与 AI 暴露程度之间的关系。对于每个年龄组，从 2022 年底到 2025 年 7 月，就业增长在 AI 暴露程度最低的三个组中为 6% 到 13%，且不同年龄之间的就业增长没有明显差异。

相比之下，在 AI 暴露程度最高的两个组中，22-25 岁人群的就业在 2022 年底至 2025 年 7 月之间下降了 6%，而 35-49 岁人群的就业则增长了 9% 以上。

在实现自动化工作的 AI 应用中，入门级就业岗位有所减少，而增强型 AI 的应用则变化不大

图 7 表明，在 AI 自动化程度占比最高的职业中，最年轻劳动者群体的就业率呈现下降趋势。

相反，图 8 显示在 AI 作为辅助、具有增强功能的职业中，并未出现类似态势。

了解更多内容，请参考原论文。

.....

#23岁小哥被OpenAI开除

成立对冲基金收益爆表，165页论文传遍硅谷

他说：2027年AGI就来。

23 岁被 OpenAI 开除，利用自己的「内部消息」打造了一支规模达 15 亿美元的基金，今年这支基金的表现还比华尔街高出 700%。

如此跌宕起伏的人生，你就说刺不刺激？

最近，这个名叫 Leopold Aschenbrenner 的小哥因这段离谱的经历在社交媒体上火了。《华尔街日报》等媒体报道了他迅速蹿升的故事。

Aschenbrenner 本是 OpenAI 知名的「超级对齐」团队成员，被认为是 OpenAI 前首席科学家 Ilya Sutskever 的嫡系，不过后来因涉嫌泄露公司内部信息而被 OpenAI 解雇。

两个月后，他发布了一篇 165 页的分析文章《Situational Awareness: The Decade Ahead》，在硅谷引发广泛关注。

转头，这小哥就扎进投资领域，创建了名为 Situational Awareness 的对冲基金。

别看他没啥专业投资经验，但他的投资策略简单粗暴，就是押注那些可能从 AI 技术发展中受益的行业，如半导体、基础设施和电力公司，以及一些新兴 AI 公司，比如 Anthropic，另一边又做空那些可能被淘汰的行业来保持收益。

这一策略令该基金在短时间内吸引大量投资者，资金规模迅速突破 15 亿美元。

其背后不乏大佬支持，包括支付公司 Stripe 的创始人 Patrick 和 John Collison 两兄弟，Meta 的 AI 团队领导 Daniel Gross 和 Nat Friedman，以及著名投资者 Graham Duncan。

此外，Aschenbrenner 还招聘了曾在彼得・蒂尔宏观对冲基金工作过的 Carl Shulman，作为该基金的研究总监。

许多投资者也对该基金表现出极大的信任，愿意将资金锁定数年不动。

据《华尔街日报》报道，该基金在今年上半年实现了 47% 的回报率，远超同期标普 500 指数的 6% 和技术对冲基金指数的 7%，堪称市场中的一匹黑马。

Aschenbrenner 去年在接受播客主持人 Dwarkesh Patel 采访时表示：「我们将比纽约那些管理资金的人拥有更多的情境意识，肯定会在投资上做得非常出色。」

Leopold Aschenbrenner 是谁？

Aschenbrenner 是个 00 后，在德国出生，作为「天才少年」的他 15 岁时进入哥伦比亚大学学习，并于 19 岁时以优异成绩毕业，获得了数学、统计学和经济学三个学位，成为该校的优秀毕业生。

GPA 够高，据说还是年级第一。

毕业后，他在牛津大学的全球优先事项研究所从事长期经济增长研究，并参与了有效利他主义运动。他曾在 FTX Future Fund 工作，专注于 AI 安全和全球风险管理。

2023 年，Aschenbrenner 加入了 OpenAI，成为「超级对齐」（Superalignment）团队的一员，致力于确保未来的超级智能 AI 与人类价值观一致。他参与过的工作，包括被广泛关注的《Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision》（https://arxiv.org/abs/2312.09390）。

在全球领先的人工智能实验室工作时，他发现了 OpenAI 可能将美国 AI 机密泄露给外国对手的安全漏洞。于是在 2024 年 4 月，他将自己的担忧写成备忘录分享给董事会成员，但时值 OpenAI「宫斗」第二季，随后以泄密为理由被 OpenAI 解雇。

故事发展到这样的程度，或许只需要看做是 OpenAI 去年宫斗背景下混乱的一角，但 Leopold Aschenbrenner 显然不是等闲之辈。

《态势感知：未来十年》

在去年被 OpenAI 赶走后，Leopold Aschenbrenner 更加没了束缚，他在一篇长达 165 页的论文《Situational Awareness: The Decade Ahead》（态势感知：未来十年）中，阐述了自己对于 AI 发展的看法，在硅谷被广泛传阅。

他的论点简单而具革命性：「全世界正处于人类历史上最大的变革之中，而我们还在昏昏欲睡。现在，可能只有几百人，大多数都在旧金山和人工智能实验室，能真正理解当前 AI 领域发生的事情。」

文章链接：https://situational-awareness.ai/

在文章中，作者探讨了近年来 AI 能力的指数级增长，尤其是 GPT-2 到 GPT-4 出现的过程。Leopold Aschenbrenner 强调，这是一个快速进步的时代，人工智能从完成非常基础的任务发展到拥有更复杂、类似人类的理解和语言生成能力。

「数量级」（Orders of Magnitude，即「OOM」）的概念对于讨论至关重要。Aschenbrenner 使用数量级（OOM）来评估 AI 能力、算力和数据消耗的进步，OOM 指给定指标的十倍增长。就计算能力和数据可扩展性而言，从 GPT-2 到 GPT-4 的转换代表了许多 OOM。

这些收益的背后有三个主要因素 —— 扩展定律（Scaling Laws）、算法创新及海量数据集的使用，它们的增长接近于指数级。根据扩展定律，当使用更大规模的数据和处理能力进行训练时，模型的性能会得到可靠的提升。

算法创新也至关重要。训练方法、优化策略和底层架构的进步提升了 AI 模型的功效和效率。这些发展使模型能够更好地利用持续增长的算力和可用数据。

Leopold Aschenbrenner 强调了到 2027 年实现通用人工智能（AGI）的可能路径。他认为，在业界持续投入算力，提升算法效率的前提下，我们或许能够让 AI 系统在众多领域上与人类智力匹敌，甚至超越人类。

通用人工智能的出现无疑将产生深远的影响。这类系统能够独立解决复杂问题，以目前只有人类专家才能做到的方式进行创新，执行复杂的工作，这又赋予了 AI 系统自我进化的潜力。

AGI 的发展会改变各行各业，提高生产力和效率。但它也带来了一些重要问题，例如失业、AI 道德，需要强有力的治理结构来控制完全自主系统带来的风险。

Aschenbrenner 在文中探讨了超级智能的概念，以及从如今 AI 快速过渡到远超人类认知能力的系统的可能性。该论点的核心思想是，驱动 AI 进化的原理可能会产生一个反馈回路，一旦达到人类水平，其智力就会爆发式增长。根据「智能爆炸」的概念，AGI 可能会自行开发算法和技能，它们能够比人类研究人员更快地完善自身设计。这种自我完善的循环可能会带来智力的指数级增长。

他对可能影响这种快速升级的各种变量进行了全面的分析。首先，AGI 系统凭借无与伦比的速度以及访问和处理海量数据的能力，能够识别远远超出人类理解范围的模式和洞察。

此外，AGI 还强调研究工作的并行化。与人类研究人员不同，AGI 系统能够同时进行多项测试，并行改进其设计和性能的不同部分。

因此，这些系统将比任何人都强大得多，能够开发新技术，解决复杂的科学技术难题，甚至可能以当今无法想象的方式管理物理系统。超级智能可能带来的优势，例如材料科学、能源和健康领域的进步，这些进步可能会显著提高经济生产力和人类福祉。与此同时，控制是主要问题之一。一旦系统超越人类智力，就很难确保其行为符合人类的价值观和利益。

构建 AGI 所需的计算基础设施需要大规模工业动员，这不仅包括纯粹的算力，还包括设备效率、能源利用和信息处理能力的提升。

Aschenbrenner 认为，随着 AGI 越来越近，国家安全机构将在这些技术的创造和管理中发挥更大的作用。他认为，通用人工智能的战略意义可以与阿波罗计划、曼哈顿计划相比较。

在他的文章发布一年多以后，AI 技术日新月异，不过我们也看到了当初的很多预测在被一步步得到验证。最直接的可能就是各家科技巨头纷纷投入重金，建设前所未有的大规模 AI 算力基础设施的盛景了。

那么，AGI 会如 Aschenbrenner 所说的在 2027 年到来吗？或许通过他的投资收益，我们可以间接地看到些端倪。

参考链接：

https://www.wsj.com/finance/investing/billions-flow-to-new-hedge-funds-focused-on-ai-related-bets-48d97f41

https://situational-awareness.ai/

https://x.com/renckorzay/status/1961480306328019407

.....

#GitTaskBench

CodeAgent 2.0 时代开启｜，颠覆性定义代码智能体实战交付新标准

你是否也好奇过：现在的模型在各类榜单分数都那么高，实际体验却不符预期？

我们也看过各种 AI Coding 领域的评测，发现大多停留在了「代码生成」与「封闭题目」的考核，却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经的真实需求 —— 当下众多 Benchmark 仅通过题目，已难以衡量 Code Agent 的实际效果。

为突破现有评测局限，中科院、北大、港科大、中科大、新加坡国立大学等机构的研究者，与前沿开源学术组织 QuantaAlpha 及阶跃星辰姜大昕团队联合，首次提出并开源了 repo-level 的测评新范式 GitTaskBench：

1）真正考察 Agent 从仓库理解 → 环境配置 → 增量开发 / 代码修复 → 项目级交付的全链路能力，指引了迭代新范式

2）首次把「框架 × 模型」的「经济收益」纳入评测指标，给学界、业界以及创业者都带来了很好的思路启发

论文标题：GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging
论文地址：https://arxiv.org/pdf/2508.18993
GitHub 链接：https://github.com/QuantaAlpha/GitTaskBench

GitTaskBench 分布一览

其开源版覆盖了 7 大模态 × 7 个领域 × 24 个子领域及 54 个真实任务：

对应后端仓库 18 个，包含平均 204 个文件、1,274.78 个函数、52.63k 行代码，文件彼此引用依赖平均为 1242.72 次。

且每个任务都绑定了完整 GitHub 仓库 + 自然语言指令 + 明确输入输出格式 + 任务特定的自动化评测。

以下图片统计了 GitTaskBench 的领域与模态分布，包括相应的数量。

仓库级的端到端评测的构建

首先从能力角度，GitTaskBench 对 Code Agent 进行了三个维度的分析：

1. 整体编码掌控：读文档、解依赖、生成 / 修改 / 调试代码

2. 任务导向执行：多轮推理与工具使用，产物必须贴合任务交付，利用代码仓库但不局限于仓库

3. 自主环境配置：不借助预置镜像，独立装环境 / 解依赖

下图是从仓库收集到任务测评的全流程概览

整体主要经过四个阶段：

1. 「仓库遴选」：结合文献综述、LLM 辅助检索和专家咨询，先定任务范围；再从 Python 仓库里，挑出 ⭐≥50、近五年活跃、依赖可用且易配置的候选。人工核验 Stars、Forks、许可证、提交历史，确保资源靠谱。

2. 「完备性验证」：包括必要依赖文件、配置文件、所需数据集和预训练模型。严格按文档跑通，确保 100% 人类可复现；若遇到资源门槛 / 外链阻断，将必要信息放进到 README，充分保证自包含所有必要信息。

3. 「执行框架设计」：统一清晰的任务定义、输入 / 输出规范；Agent 接收仓库 + 任务提示，需完成仓库理解 → 代码生成 / 修改 → 环境安装 → 代码执行的多阶段流程。

4. 「自动化评测」：我们实现了一套由人工验证的定制化测试脚本驱动的评测指标体系。所有任务只需一条命令自动评测，可直接产出各任务对应的成功 / 失败状态 + 详细原因，并可进行指标统计。

实在的经济可行性分析

其次，GitTaskBench 还首次提出了「性价比」的概念，结合以下指标：

ECR（Execution Completion Rate）：能否成功执行仓库并以合规格式输出（存在、非空、格式可解析）
TPR（Task Pass Rate）：按任务领域标准判定是否达到成功阈值（如语音增强 PESQ ≥2.0 / SNR ≥15dB；图像类 SSIM/FID 阈值等），不过线即失败。
α 值（Alpha Practical Value）：该值为 Agent 在执行任务的平均净收益 —— 把完成度 (T)、市场价 (MV)、质量系数 (Q) 和成本 (C) 融合，回答「这活交给这个 Agent 值不值」的切实问题，具体公式：

n 表示任务数量；
T 为任务成功的二元标记（与 ECR 定义一致，成功为 1，失败为 0）；
MV 表示人工完成该任务的市场价值估计；
Q 为质量系数（0 至 1 之间），表示智能体输出与人工执行同一仓库所得结果的接近程度；
C 为智能体的总运行成本（此处近似为 API 费用）。

这很好地反映了 Agent 方案在各领域的经济可行性，通过量化任务自动化与可扩展性带来的成本节省、效率提升及潜在市场收益，真正地评估了 Agent 落地的实际价值。

结果一览：框架与模型的耦合

在适配了主流框架与模型之后，我们实验发现：

OpenHands 整体最强，+ Claude 3.7 拿到最高成绩：ECR 72.22% / TPR 48.15%。
性价比之王？ GPT-4.1 在成功率次优的同时，成本仅为 Claude 的 1/10 ~ 1/30（OpenHands 设定下），在 SWE-Agent 中也以更低成本拿到亚军表现。
开源可用性：Qwen3-32B（think 模式）能以更少 token 达到 Claude 3.5 的约 60% 水平。
任务偏好：纯文本 / 办公文档类稳定，多模态、模型推理密集型更难（如图像修复需多依赖与权重配置）。

更细致地分析，各任务领域下不同框架 + 模型的性能表现：

此外，能力之上的现实价值也值得关注：

虽然在人类市场价值（MV）本身较高的仓库（如视频类 VideoPose3D 、语音类 FunASR 、时序生理信号类 NeuroKit 场景）中，只要 Agent 顺利完成任务，就能获得最大的正向 alpha 收益。

但对于低 MV 的图像处理等任务（MV≈$5–10），一旦智能体的平均执行成本超过 $1-2，往往会导致 alpha 为负。

这一规律凸显了：在商业潜力有限的任务中，控制运行成本对于确保经济可行性至关重要。

其中，对于不同模型：

DeepSeek V3 在大多数仓库中提供了最高的整体收益与最佳的性价比；
GPT-4.1 在不同场景下表现更加稳定与稳健，很少出现大幅性能下降的情况；
Claude 3.5 的收益分布最为分散，在信息抽取任务上表现突出，但在计算量较大的视觉类任务中对成本较为敏感。

总结

由此可见，现实中我们对「框架 × 模型」的选择，应从效果、成本、API 调用上进行三元权衡，例如：Claude 系列在代码类任务表现出色，但在很多场景下 GPT-4.1 更省钱且稳健，而开源模型可在特定仓库上取得更好的综合 α。

在以下更广泛应用场景，我们也可以直接用 GitTaskBench 来助力：

Agent infra：做基座对比、工作流改进（环境管理 / 依赖修复 / 入口识别 / 执行规划）的回归测试场。
应用落地评审：以 ECR/TPR/α 同时衡量「能不能交付」与「划不划算」，给 PoC / 上线决策提供可解释的三维证据。
任务设计素材库：跨图像 / 语音 / 生理信号 / 办公文件 / 爬虫等七模态任务，可直接复用作为企业内评测用例。

关于 QuantaAlpha

QuantaAlpha 成立于 2025 年 4 月，由来自清华、北大、中科院、CMU、港科大、中科大等学校的教授、博士后、博士与硕士组成。我们的使命是探索智能的「量子」世界，引领智能体研究的「阿尔法」前沿 —— 从 CodeAgent 到自进化智能，再到金融、医疗等跨领域的专用智能体，致力于重塑人工智能的边界。🌟

✨ 2025 年，我们将在 CodeAgent（真实世界任务的端到端自主执行）、DeepResearch、Agentic Reasoning/Agentic RL、自进化与协同学习等方向持续产出高质量研究成果，欢迎对我们方向感兴趣的同学加入我们！

团队主页：https://quantaalpha.github.io/

.....

#DeepSeek、GPT-5带头转向混合推理

一个token也不能浪费

在最近的一档脱口秀节目中，演员张俊调侃 DeepSeek 是一款非常「内耗」的 AI，连个「1 加 1 等于几」都要斟酌半天。

在 AI 领域，这种情况被称为「过度思考」。它的存在让 AI 大模型公司非常头疼，因为实在是太浪费算力了，那点订阅费根本 cover 不住。

所以，早在去年的 GTC 大会上，Transformer 论文作者之一 Illia Polosukhin 就提到，自适应计算是接下来必须出现的事情之一，我们需要知道在特定问题上应该花费多少计算资源。

今年，越来越多的模型厂商将这件事提上日程 ——OpenAI 给 GPT-5 装了个「路由器」，确保模型可以在拿到用户问题后，自动选择合适的模型，像「天空为什么是蓝色的」这种问题直接就丢给轻量级模型；DeepSeek 更激进，直接把对话和推理能力合并到了一个模型里，推出了单模型双模式的 DeepSeek v3.1。

如图所示，这两种方案在节省 token 方面都有显著的效果。

在内部评测中，GPT-5（使用思考模式）能以比前代模型更少的 token 数完成任务 —— 大约少 50–80% 的输出 token 即可达到相同甚至更好的效果。

测试数据显示，在 AIME 2025、GPQA Diamond 和 LiveCodeBench 这些基准测试中，DeepSeek v3.1（使用思考模式）和 DeepSeek R1 得分类似，但消耗的 token 数量减少了 25-50%。

未来一段时间，这种混合推理模式有望成为大模型领域的新常态。如何在成本和性能之间取得平衡正成为模型竞争力的新基准。

在这篇文章中，我们将讨论这种趋势的成因、各大公司的动向以及相关的研究，希望对大家有所启发。

最好的模型永远最受欢迎

但模型厂商怎么 cover 成本？

前段时间，TextQL 联合创始人兼 CEO 丁一帆（Ethan Ding）在一篇博客中深入讨论了一个反直觉的现象 —— 明明 Token 的成本一直在下降，但各家模型公司的订阅费却在飞涨。

他将这一问题的症结归结为：那些降价的模型大部分不是 SOTA 模型，而人类在认知上的贪婪决定了，大部分人只想要「最强大脑」，所以 99% 的需求会转向 SOTA。而最强模型的价格始终差不多。

更糟糕的是，随着「深度研究」、Agent 等模式的出现，AI 能完成的任务长度每 6 个月就翻一倍。到 2027 年，我们可能将拥有能连续运行 24 小时、而且不会跑题的 AI agent。按照这一趋势发展下去，这些「最强大脑」所消耗的 token 数量将会爆炸式增长。

换算成经济账，这意味着，现在一次 20 分钟的「深度研究」调用大概花费 1 美元，但到了 2027 年，一次 Agent 调用就变成了 72 美元 / 天 / 用户。

所以，今年好多 AI 模型厂商都提高了订阅费，还限制用量。因为原来每月 20 美元的订阅费，连用户每天进行一次 1 美元的深度调用都撑不起。

这部分多出来的订阅费给模型厂商提供了一些缓冲空间，但终究是缓兵之计。所以模型厂商还想了一些其他的办法来应对成本积压，包括将处理任务卸载到用户机器上、根据负载自动切换模型等。我们在 GPT-5 中看到就是后面这种做法。DeepSeek 则更进一步，让一个模型判断问题难度，然后在思考 / 非思考模式之间切换。除此之外，Claude、Qwen 等也是这条路线的探索者，同样值得关注。

这些大模型

都在尝试混合推理

Anthropic 的 Claude 系列

Anthropic 今年 2 月份推出的 Claude 3.7 Sonnet 是市场上首个混合推理模型。它可以近乎实时地给出回应，也可以进行深入的、逐步展开的思考，并将思考过程展示给用户。API 用户还能精细控制模型的思考时长（让 Claude 思考不超过 N 个 token）。

在当时的博客里，Anthropic 就解释了他们的理念：「我们开发 Claude 3.7 Sonnet 的理念与市面上其他推理模型截然不同。正如人类使用单个大脑进行快速响应和深度思考一样，我们认为推理应该是前沿模型的集成能力，而非一个完全独立的模型。这种统一的方法也为用户带来了更流畅的体验。」

在之后的 Claude 4 系列模型中，Anthropic 延续了这种模式。不过，他们一直保留了一个「扩展思考」的开关，让用户来决定何时开启深度思考。

阿里的 Qwen3 系列

阿里今年 4 月份开源的 Qwen3 系列模型是混合推理模型的开源代表，采用单一模型框架融合了思考模式与非思考模式。两种模式的切换完全由用户控制，不依赖于自动检测或其他隐式触发。

具体来说，它支持在对话中插入特殊标记 /think 或 /no_think 来动态切换，或者在 API 调用时设置特定参数。

为防止推理过程过长，Qwen 3 还提供了 thinking_budget 参数，用户可以设定推理链最大的 token 数；若实际推理超过此预算，模型会截断中间内容并直接生成最终答案。

具体技术信息可以参见 Qwen 3 技术报告：https://arxiv.org/pdf/2505.09388

不过，这个系列的混合推理模型并没有达到理想效果，在基准测试中表现也不够好。所以在与社区沟通并深思熟虑后，阿里决定停用该模式，转头分别训练 Instruct 模型和 Thinking 模型。新模型已经在 7 月份正式开源，并且相比混合推理模型实现了明显的性能提升（尤其是 instruct 模型）。

对于 Qwen 来说，这算是一个小小的挫折。但该团队并没有完全放弃这个想法。「我们仍在继续研究混合思维模式，」该团队写道，并暗示一旦解决了质量问题，该功能可能会在未来的模型中重新出现。

谷歌的 Gemini 系列

今年 4 月，谷歌推出了首款混合推理模型 ——Gemini 2.5 Flash。该模型引入了「思考预算」机制，允许开发人员指定在生成响应之前应分配多少计算能力用于推理复杂问题。模型在生成响应之前会评估多种潜在路径和考虑因素。思考预算可以从 0 调整到 24,576 个 token。使用 Gemini 2.5 Flash 时，输出成本会因是否启用推理功能相差 6 倍。

更擅长深度思考的 Gemini 2.5 Pro 虽然在发布时没有「思考预算」机制，但在 6 月份的一次重大更新时又加上了。

它的出现则被定义为面向 B 端的实用主义创新，而非一个面向普通消费者的通用模型。因为它允许企业在生产系统中像调节水龙头一样精确调节 AI 的思考成本，这对于需要将 AI 应用大规模部署的企业和开发者来说是一个非常伟大的功能。

在实现方式上，有人猜测这可能是一个「混合方案」—— 模型可能实际结合了一个擅长推理的大模型和一个用于输出的小模型，两者根据预算切换。不过，这个猜想还未被证实。

Gemini 2.5 系列技术报告：https://arxiv.org/pdf/2507.06261

快手的 Kwai 系列

快手于今年 6 月初推出了自动思考大模型 KwaiCoder-AutoThink-preview。该模型融合了「思考」和「非思考」能力，并具备根据问题难度自动切换思考形态的能力。

他们的核心想法是在思考之前加上一个 pre-think 的阶段，让模型预先判断问题的困难度。

简单来说，KwaiCoder-AutoThink-preview 模型采用了两步式训练方法，首先通过 Agentic 方法构造长短思考的 Cold Start 数据让模型在进行思考之前先进行一个「pre-think」，判断一下问题的难度。然后再使用加上专门为 Auto Think 任务设计的带有过程监督的 Step-SRPO 增强模型对各种任务难以程度判断的准确性。

今年 7 月，快手更进一步，开源了 AutoThink 大模型 KAT-V1，也是主打无需人类手动设置，模型自主判断。

具体细节可以参见技术报告。

技术报告：https://arxiv.org/pdf/2507.08297

字节的豆包系列

字节今年 6 月发布的 Seed 1.6 (Adaptive CoT) 也是一个混合推理模型，支持 on/off/auto 三种思考模式，让用户可以根据使用场景自行选择，大模型也可以自己判断是否使用深度思考。

据官方介绍，这种自适应思考能力的实现依靠一种动态思考技术来实现，即 Adaptive CoT，能在保证效果的同时压缩 CoT 长度。

Adaptive CoT 相关论文在 5 月份就已经上线（AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning），它将自适应推理建模为一个帕累托优化问题：在保证模型性能的同时，最小化 CoT 调用带来的成本（包括触发频次与计算开销）。具体来说，研究者采用基于强化学习的方法，使用近端策略优化（PPO），通过动态调整惩罚系数来控制 CoT 触发决策边界，使模型能够依据隐含的问题复杂度判断是否需要 CoT。关键技术贡献之一是「选择性损失掩蔽」（Selective Loss Masking，SLM），用以防止多阶段 RL 训练中的决策边界崩塌，确保触发机制稳健且稳定。当时，这项技术首先被部署到了 doubao-1.5-thinking-pro-m-250428 版本里。

具体细节可参见论文：https://arxiv.org/pdf/2505.11896

不过，字节表示，他们最终还是希望将（Seed1.6-Thinking 所代表的）极致推理效果和（Seed 1.6 所代表的）动态思考技术融合到一个模型里，为用户提供更智能的模型。

腾讯的混元系列

腾讯今年 6 月份发布的 Hunyuan-A13B 也是一个混合推理模型。为了让模型基于任务需求动态调整推理深度，他们实现了一个双模式思维链（Dual-Mode CoT）框架，让模型在快、慢思考之间切换。

在技术报告中，他们提到了这个框架的一些细节。在后训练阶段，他们采用统一的训练结构来同时优化两种推理模式。为了使模型输出标准化，两种模式的训练样本均采用统一结构化设计：在专用的 < think > 内容块中，通过有无详细推理步骤进行区分。具体而言，快速思维模式刻意保持 < think>\n\n<think > 为空内容块，而慢速思维模式则在该区块明确包含逐步推理过程。用户可通过指定控制标签选择模式：使用「/no_think」启用快速思维模式，「/think」启用慢速思维模式。若未提供控制标签，系统默认采用慢速思维模式。

技术报告：https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf

智谱的 GLM-4.5 系列

今年 7 月份，智谱发布了 GLM-4.5 和 GLM-4.5-Air，都支持混合推理模式。该模式的形成主要与模型的后训练有关。

具体来说，他们的后训练分为两个独立的阶段。在第一阶段（专家训练），他们构建了专注于三个领域的专家模型：推理、代理以及通用聊天。在第二阶段（统一训练），他们采用自蒸馏技术来整合多个专家，让模型学会了为每个任务应用最有效的长上下文推理来得出准确的答案。特别是，鉴于某些领域（如闲聊）不需要冗长的思考过程，他们精心平衡了包含完整推理过程的训练数据与缺乏明确思考过程的数据。这种方法使模型能够在反思和即时响应模式之间切换，从而创建了一个混合推理模型。

更多细节可参见技术报告。

技术报告：https://arxiv.org/pdf/2508.06471

OpenAI 的 GPT-5

有人说，如果 GPT-3 到 GPT-4 的重大突破是专家混合（Mixture of Experts），那么 GPT-4o/o3 到 GPT-5 的重大突破可能是模型混合（Mixture of Models，也称为「路由」）。

和很多将思考 / 非思考能力融合到同一个模型中的思路不同，GPT-5 选择的方向是在整个系统中加入一个实时路由，它能根据对话类型、复杂程度、工具需求和明确意图（例如，如果你在提示中说「仔细思考这个问题」），快速决定使用哪个模型（如下表）。

在 GPT-5 技术报告中，他们将快速、高通量的模型标记为 gpt-5-main 和 gpt-5-main-mini，将思考型模型标记为 gpt-5-thinking 和 gpt-5-thinking-mini。API 中还提供更小更快的思考型模型 nano 版本，ChatGPT 中还提供 gpt-5-thinking-pro。这些模型均由上一代模型（左边一栏）演变而来。

该路由通过真实信号持续进行训练，包括用户何时切换模型、对回复的偏好以及测量的正确率等，随着时间推移不断改进。一旦达到使用限制，每个模型的迷你版本将处理剩余的查询。

不过，这个模式同样反响不佳。不少人在社交媒体上吐槽自己的问题被路由到了低质量模型。更让人抓狂的是，很多时候你无法判断该不该相信模型给出的答案，因为路由结果是不透明的。这让 ChatGPT 在专业用户中的口碑有所下滑。

不过，对于占 ChatGPT 用户数超 95% 的免费用户来说，这个路由反而提升了体验。之前，这部分用户是很难用上高级思考模型的，但是现在有一定概率会被路由到高级模型。

对此，SemiAnalysis CEO Dylan Patel 分析说，这可能是 OpenAI 在免费用户变现上迈出的重要一步。和专攻 to B 模式的 Anthropic 不同，OpenAI 的商业重心依然集中在 C 端用户上，但这部分用户大部分是免费用户。对于这种情况，传统 APP 一般是通过让免费用户看广告来赚钱，但对于 AI 应用，这种模式不再适用。

路由模型存在的价值在于，它可以从海量免费用户的提问中识别出商业意图，比如订机票、找律师，然后把这些高价值请求导向高算力模型 + 后续 Agent 服务，OpenAI 再从成交中抽成。路由模式让 OpenAI 第一次把「成本」和「商业价值」写进模型决策逻辑，既省算力，又为下一步「AI 超级应用抽成」铺好了路。

不过，路由未必是实现这些目标的终极方式。OpenAI 表示，他们之后也打算将两种思考模式的切换整合到单个模型里。

DeepSeek 的 DeepSeek v3.1

DeepSeek 最近发布的 v3.1 是国内团队在「单一模型实现思考 / 非思考模式切换」上的另一项尝试。DeepSeek 官方表示，DeepSeek-V3.1-Think 实现了与 DeepSeek-R1-0528 相当的答案质量，同时响应速度更快。

对于开发者来说，它的思考模式和非思考模式可以由提示序列中的 <think> 和 </think> 标记触发。对于 C 端用户，可以通过点击「深度思考」按钮切换模式。

由于发布时间接近，又都有混合推理模式，DeepSeek v3.1 和 GPT-5 难免被拿来对比。在性能上，DeepSeek v3.1 虽然在一些基准上与 GPT-5 旗鼓相当，但综合能力仍然不如 GPT-5。在价格上，DeepSeek v3.1 则有着明显的优势，可以说为企业提供了一个高性价比的开源选择。

想深入了解混合推理？

这些研究方向值得关注

从以上模型可以看出，虽然大家的共同目标都是减少推理过程中的 token 浪费，但具体实现方法有所不同，有的借用路由将问题导向不同的模型，还有些在一个模型中实现快慢思考的切换。在切换方式上，有些是用户显式控制，有些是模型自动判断。

通过一些综述研究，我们可以看到更多不同的思路。

比如在「Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey」这篇综述中，研究者将现有方法分为两类：

一类是无需训练的方法，包括提示词引导、基于 pipeline 的方法（比如路由）、解码操纵和模型融合等；

提示词引导：通过精心设计的提示（例如，直接提示、token 预算、thinking 模式、no-thinking 指令）来利用模型遵循指令的能力。尽管该方法的简单性使其能够快速部署，但其有效性取决于模型对约束的遵守情况，而这往往并不一致。研究表明，这些方法会产生意想不到的后果，例如隐藏的不准确之处和输出稳定性的降低，特别是在实施严格的 token 限制或抑制推理步骤时。
基于 pipeline 的方法：该方法将推理工作流程模块化，通过任务卸载降低大语言推理模型的计算成本，同时保持推理质量。其中，基于路由的方法根据输入复杂性、模型能力或预算限制动态选择最佳模型 / 推理模式。其他策略包括动态规划和迭代优化以及效率提升技术。这些方法显著缩短了推理长度，但引入了额外的开销（如路由延迟），导致端到端延迟增加，因此需要在效率和延迟之间进行权衡。
解码操纵：通过预算强制、提前退出检查、logit 调整或激活引导等方式，动态介入生成过程。像 DEER 和 FlashThink 这类技术，通过监测置信度或语义收敛来实现更短的推理链，不过频繁的验证步骤可能会抵消计算节省。并行 scaling 策略进一步提高了效率，但需要仔细校准以平衡冗余度和准确性。
模型融合：即将一个思考缓慢的大语言推理模型（LRM）和一个思考快速的大语言模型（LLM）整合为一个单一模型，并且期望这个单一模型能够平衡快慢思考，从而实现自适应思考。这种方法通过参数插值或基于激活的融合来综合长推理和短推理能力。虽然这种方法对中等规模的模型有效，但在处理极端规模（小型或大型模型）时存在困难，并且缺乏对推理深度的精细控制。与此同时，像 Activation-Guided Consensus Merging (ACM) 这样的最新进展凸显了互信息分析在对齐异构模型方面的潜力。

另一类是基于训练的方法，重点在于缩短推理长度，并通过微调（SFT/DPO）或强化学习（RL）来教导语言模型进行自适应思考。

微调：微调可以分为五类：长思维链压缩方法提高了推理效率和适应性，但在压缩效果与推理保真度之间面临权衡，同时还存在数据需求增加和泛化方面的挑战；而短思维链选择微调则通过促进简洁或自我验证的推理路径来提高推理效率，但可能存在遗漏关键步骤的风险，或者需要复杂的训练过程，并在简洁性和准确性之间进行仔细权衡；隐式思维链微调通过潜在推理表示或知识蒸馏来实现效率提升，但由于推理步骤不明确而牺牲了解释性，且压缩表示与任务要求之间可能存在不一致的风险；近端策略优化（DPO）变体方法通过偏好学习实现简洁性和准确性之间的多目标优化平衡，但在构建高质量偏好对以及在严格长度限制下保持推理深度方面面临挑战；其他混合方法结合了快速 / 慢速认知系统或新颖的损失函数来实现自适应推理，不过它们通常需要复杂的训练流程，并对双模式交互进行仔细校准。
强化学习：强化学习方法通过五个关键范式来平衡简洁性和准确性。带长度惩罚的强化学习通过奖励塑造或外部约束对冗长的输出进行惩罚，从而提高效率，但存在将复杂任务过度简化或过度拟合惩罚阈值的风险。GRPO 变体方法通过使推理模式多样化或整合难度感知奖励来解决「格式崩溃」问题，不过它们通常需要复杂的损失设计和多组件系统。难度感知强化学习通过显式难度估计或隐式信号（响应长度、解决率）使响应长度适应问题的复杂性，但在准确的难度校准和跨领域泛化方面面临挑战。思维模式强化学习能够在审慎（「思考」）和反应性（「不思考」）模式之间动态切换，但在模式选择稳定性和探索与利用的权衡方面存在困难。其他强化学习创新引入了可学习的奖励函数、混合框架或新颖的指标，尽管这些通常需要大量的计算资源或面临可扩展性问题。

具体分类如下图所示：

综述链接：https://arxiv.org/pdf/2507.09662

值得注意的是，除了语言模型，多模态模型领域的混合推理探索也已经开始，而且出现了 R-4B 等自动化程度较高的自适应思考模型，我们将在后续的报道中完整呈现。

如果你想动态追踪这个领域的新研究，可以收藏以下 GitHub 项目：https://github.com/hemingkx/Awesome-Efficient-Reasoning#adaptive-thinking

下一个前沿：

让 AI 以最低代价在恰当时刻思考

在过去几年，AI 领域的竞争更多集中在构建更强大的模型上。如今，混合推理模式的大规模出现标志着人工智能行业的重点从单纯构建更强大的系统转向创建实用的系统。正如 IBM 研究院高级项目经理 Abraham Daniels 所说，对于企业而言，这种转变至关重要，因为运营复杂人工智能的成本已成为主要考虑因素。

但是，这一转变也在经历阵痛。一方面，能够不靠人类指示激活深度思考模式的成功模型还相对较少。另一方面，尝试去掉显式开关的思维转换模式还没有实现足够令人满意的效果。这些现象都说明，混合推理的下一个前沿将是更智能的自我调节。

换句话说，混合推理的未来竞争将不再只是「是否能思考」，而是「能否以最低代价在恰当时刻思考」。谁能在这一点上找到最优解，谁就能在下一轮 AI 性能与成本博弈中占据主动。

.....

#R-Zero

R-Zero 深度解析：无需人类数据，AI 如何实现自我进化？

本文第一作者黄呈松 (Chengsong Huang) 是圣路易斯华盛顿大学的博士生，Google scholar citation 五百多次，目前的研究的兴趣是强化学习和大语言模型。xx曾经报道过其之前工作 Lorahub 已经被引超过 250 次。

大型语言模型（LLM）的发展长期以来受限于对大规模、高质量人工标注数据的依赖，这不仅成本高昂，也从根本上限制了 AI 超越人类知识边界的潜力。《R-Zero：从零数据中自我进化的推理大模型》提出了一种全新的范式，旨在打破这一瓶颈。该研究设计了一个名为 R-Zero 的全自主框架，使模型能够从零开始，通过自我驱动的协同进化生成课程并提升推理能力，为通往更自主的人工智能提供了一条值得深入探讨的路径。

《R-Zero》论文的核心，是构建一个能从「零数据」开始自我进化的 AI 框架，主要依赖于两个 AI 角色挑战者（Challenger）和解决者（Solver）。

论文链接: https://www.arxiv.org/abs/2508.05004
项目代码: https://github.com/Chengsong-Huang/R-Zero
项目主页: https://chengsong-huang.github.io/R-Zero.github.io/

挑战者 - 解决者的协同进化

R-Zero 的架构核心是从一个基础 LLM 出发，初始化两个功能独立但目标协同的智能体：挑战者（Challenger, Qθ）和解决者（Solver, Sϕ）。

挑战者 (Challenger)：其角色是课程生成器。它的优化目标并非生成绝对难度最高的问题，而是精准地创造出位于当前解决者能力边界的任务，即那些最具信息增益和学习价值的挑战。
解决者 (Solver)：其角色是学生。它的目标是解决由挑战者提出的问题，并通过这一过程持续提升自身的推理能力。

这两个智能体在一个迭代的闭环中协同进化，整个过程无需人类干预：

1. 挑战者训练：在当前冻结的解决者模型上，挑战者通过强化学习进行训练，学习如何生成能使解决者表现出最大不确定性的问题。

2. 课程构建：更新后的挑战者生成一个大规模的问题池，作为解决者下一阶段的学习材料。

3. 解决者训练：解决者在这个由挑战者量身定制的新课程上进行微调，提升自身能力。

4. 迭代循环：能力增强后的解决者，成为下一轮挑战者训练的新目标。如此循环往复，两个智能体的能力共同螺旋式上升。

这是一个完全封闭、自我驱动的进化循环。在这个过程中，AI 自己生成问题，自己生成用于学习的「伪标签」，自己完成训练，完全不需要任何外部人类数据的输入。

具体实现方法

由于没有外部「标准答案」，解决者必须自我生成监督信号。

伪标签生成：采用自我一致性（self-consistency）策略。对于每个问题，解决者会生成多个（例如 10 个）候选答案，其中出现频率最高的答案被选为该问题的「伪标签」（pseudo-label）。
过滤器：这是框架设计的关键一环。并非所有生成的问题都被用于训练，只有那些解决者经验正确率 p^i 落在特定「信息带」内（例如，正确率在 25% 到 75% 之间）的问题才会被保留。该过滤器起到了双重作用：

1. 难度校准：显式地剔除了过易或过难的任务。

2. 质量控制：一致性极低的问题（例如 10 次回答各不相同）往往是定义不清或逻辑混乱的，该机制能有效过滤掉这类噪声数据。消融实验证明，移除该步骤会导致模型性能显著下降。

为了生成高效的课程，挑战者的奖励函数由三部分构成：

不确定性奖励 (Uncertainty Reward)：这是奖励函数的核心。其公式为 runcertainty=1−2∣p^(x;Sϕ)−1/2∣，其中 p^ 是解决者对问题 x 的经验正确率。当解决者的正确率接近 50% 时，奖励最大化。这一设计的理论依据是，此时学习者的学习效率最高，每个样本带来的信息增益也最大。
重复惩罚 (Repetition Penalty)：为保证课程的多样性，框架利用 BLEU 分数来衡量批次内问题的相似度，并对过于相似的问题施加惩罚。

实验结果与分析

数学推理能力显著提升：经过三轮自我进化，Qwen3-8B-Base 模型在多个数学基准测试上的平均分从 49.18 提升至 54.69（+5.51）。

向通用领域的强大泛化能力：尽管训练任务集中于数学，但模型的核心推理能力得到了泛化。在 MMLU-Pro、SuperGPQA 等通用推理基准上，Qwen3-8B-Base 的平均分提升了 3.81 分。这表明 R-Zero 增强的是模型底层的通用能力，而非特定领域的知识记忆。

与人类数据的协同效应

实验证明，先经过 R-Zero 训练的基础模型，再使用人类标注数据进行监督微调，能达到比直接微调更高的性能。这说明 R-Zero 可以作为一种高效的中间训练阶段，最大化人类标注数据的价值。

核心局限与未来展望

尽管成果显著，R-Zero 框架也揭示了其内在的挑战和局限性。

伪标签准确率的衰减：这是该框架最核心的挑战。分析表明，随着课程难度在迭代中提升，由自我一致性生成的伪标签的真实准确率，从第一轮的 79.0% 系统性地下降到了第三轮的 63.0% 。这意味着模型在后期学习的监督信号中包含了更多的噪声。如何在这种难度与质量的权衡中找到稳定点，是决定该框架能否长期进化的关键。
领域局限性：当前框架高度依赖于那些存在客观、可验证正确答案的领域（如数学）。对于评估标准主观、解决方案多元的任务（如创意写作、战略规划），基于多数投票的自我监督机制将难以适用。

....

#这个荒诞网站藏着30个AI「鬼点子」

但我觉得它活不长

一个绝妙的点子往往是公司最危险的毒药。

最近在 X 上闲逛，淘到了一个神奇的网站 ——「Absurd.website」。

正如名字一样，它荒诞、有趣、脑洞大开，里面收录了各种奇葩的小项目，有些甚至能看到 AI 生成的痕迹。

比如项目海报过于光滑的皮肤，一眼 AI：

稍显粗糙的 AI 界面设计：

还有 100% AI 项目 Open Celebrity：

AI 生成的免费名人照片，无论是做广告、社交媒体还是其他任何用途，完全没有版权问题。

这个网站成立于 2020 年，声称每月推出一个独特的项目和一个仅限会员的秘密项目，不过截至目前也只收录了 30 个项目。

网站链接：https://absurd.website/

接下来，我们挑几个好玩的项目唠唠。

五花八门的AI小项目

Sexy Math（性感数学）

没想到，数学有朝一日竟能跟性感联系在一起。这款游戏的规则是，答对 10 道乘法题，就能解锁一张美女照片。有网友反馈称，我从未见过我的孩子如此积极地学习乘法！他们解题速度比以往任何时候都快，甚至还挑战自己提高分数。

由于尺度有点大，进入游戏前先有个「免责问答」：你年满 18 岁吗？可问题是，都 18 岁了谁还做简单的乘法题啊？

Artist's Death Effect Database

收藏界存在一种现象，叫「艺术家死亡效应」，当艺术家去世时，其作品往往会价值飙升。该项目就是通过分析艺术家的预期寿命（根据各国的平均寿命和出生日期），为投资者识别作品价值有望上升的艺术家。

数据库按艺术家的预期剩余寿命进行排序，并使用简单的颜色编码系统进行分类。绿色代表非常好的投资，黄色代表良好投资，红色则是低投资潜力。

艺术家去世本身是一个令人伤感的事情，将其与财富机会挂钩，总感觉太没人情味。

Spot The Differences （找不同）

请看下面两幅照片，给你 5 分钟找出其中的不同。

你会发现，花了很大功夫也找不出任何差异，因为这本身就是两张一模一样的图片。这种设定想传达一个观点：社会给我们的压力，让我们一直在追寻某些东西，然而这种追求本身可能是无意义的。

Influencer Overnight （一夜成名的网红）

这是一个社交实验。参与者只需关注一个 Ins 账号并帮助推广，当该账号达到 10 万粉丝时，会随机挑选一位粉丝来接管这个账号。

我们去这个 ins 账号看了下，里面都是用 AI 生成的网红，截止目前只有 61 个粉丝，照这个速度得猴年马月才能俘获 10 万粉丝。😂

A Guide For Aliens To Live On Earth（外星人地球生活指南）

这是一本专门为外星人设计的旅游指南，不仅帮助外星人了解如何解读人类的语言、如何在派对上融入，还教人类如何变得更好，尊重文化差异和保持好奇心。

Slow Delivery Service（慢速快递）

该项目提供长途送快递服务，但配送方式是靠两条腿，且要求送达距离至少为 100 公里。按照快递员每天平均行程 30 到 40 公里算，1000 公里的配送大约需要一个月。

One Life Game

以《丛林中的猴子》为例，玩家通过鼠标和键盘操纵猴子跳跃、移动，以收集道具和躲避障碍物。它的创意在于规则设置，强调「只有一次机会」的游戏体验，输了就 game over，不会再让你重开一局。

Add Luck to Your e-Store

只需简单嵌入 HTML 代码，就能让一只可爱、简约的招财猫出现在电商网站的角落弹出框中，静静地挥手。

OPERATION D-DAY：ONE SECOND OF WAR

这是一款让你感受战争残酷性的硬核 3D FPS 游戏，它不是看你能不能在战场上活下来，而是看你能坚持多久。我试玩了一下，仅坚持 1.2 秒就「阵亡」，一个战斗在一瞬间就结束了。

此外，该网站还包含了其他奇奇怪怪的项目。

Puzzle Solvers Agency：专门帮人解决拼图、乐高、各种游戏和其他复杂难题。

Absurd Toilet Water ：世界上第一个真正由马桶水制作的香水。

Invisible Lingerie：一款性感且隐形的内衣，既看不到也摸不着。

Trip to Mars：耗时 7 个月完成的第一款实时太空飞行模拟器游戏。

Helicopter Jobs：政府资助来提供毫无意义的在线工作（如点击按钮），并支付工资，旨在解决失业问题。

Eyes Dating Site：一个通过凝视对方眼睛来促进情感连接的约会网站。

仅凭创意就可以了吗？

现如今，AI 圈越来越卷，但产品同质化也愈发严重。创意总是稀缺的，但仅凭创意就能取胜吗？

这让我想起了两个故事。

@带娃术士刘洪伟曾年入百万，做了三档综艺节目的总编剧，但一个都没播出来。

第一个节目是直播脱口秀《小葱秀》，第一期播出后因尺度过大被下架。

另一个节目是模仿《周六夜现场》的形式，将每周的热点事件做成小品。当时，卓伟因为曝光明星花边新闻的「周一见」而爆红，他们就想与卓伟合作，提前获知下周的花边新闻，签署保密协议，然后写小品、排小品，等到周一发布。所有人都对这个策划充满期待，但最终因各种原因夭折。

还有一个节目是让一个算命师和一个科学家对决，类似于算命师说自己家闹鬼，科学家则通过科学分析提出可能的解释。创意很有趣，但最终也未能面世。

这人也是个奇才，想的节目创意一个比一个精彩，但也各有各的「死法」。

另一个是乔布斯在采访中提到的一个观点，「一个绝妙的点子往往是公司最危险的毒药」。

，时长04:24

为什么这么说呢？乔布斯表示，在他离开苹果以后，发生了一件几乎毁掉苹果的事。时任苹果公司 CEO 的 John Sculley 有个明显的缺点，那就是盲目乐观，以为光凭创意就能取得成功。

他总是觉得，只要想到一个绝妙的主意，公司就一定可以实现，问题在于优秀的创意与产品之间隔着巨大的鸿沟，实现创意的过程中，想法会变化甚至变得面目全非，因为你会发现新东西，思考也更深入，你不得不一次次权衡利弊，做出让步和调整，总有些问题是技术和材料无法解决的。

设计一款产品需要考虑成千上万的细节，必须在无数次的尝试中梳理出最合适的方案。这个过程至关重要，无论一开始有多少绝妙的创意，最终的结果都需要通过团队的不断磨砺。

现实中也有太多例子提醒我们，创意只是开始，头脑一热就开干，结局大概率就是一地鸡毛。

就以这个 Absurd 网站为例。这个网站的发起人脑洞够大吧，但从 2020 年 9 月 25 日发布第一个帖子至今，X 上的粉丝只有少得可怜的 26 个，每篇帖子点赞数一个巴掌都能数过来，在其他平台也没掀起什么水花。

国外的 AI 工具聚合网站 DANG! 专门搞了个「AI 坟墓」的页面，用来记录那些「挂掉」的 AI 项目。

数据显示，截至目前，在新增的 4850 个 AI 工具中，已有 1351 个被关闭、收购或停运，仅 2025 年就有 277 个工具停运。这是啥概念？平均每天都至少有一款 AI 工具入土。

我去扒拉了一圈，有些 AI 项目确实「死有余辜」，比如 AI 搭讪语生成器 AI Pickup Lines，虽在推出当天因其幽默获得一波关注，但由于缺乏持续的用户粘性和盈利模式，最终被收购后关闭。

当然也有些项目死得比较冤。

比如头像生成器 Alter AI，主打功能就是将普通自拍照转化成高质量、专业的领英、ins 真人头像；

名人自拍生成器 MaskrAI，只需上传一张照片，就能与马斯克、梅西和爱因斯坦等名人合照；

MaskrAI - AI Celebrity Selfie Generator Website Screenshot

发型生成器 TryHairstyles.io，单击一下即可实时尝试流行发型；

TryHairstyles.io - AI Hairstyle Try On Website Screenshot

AI 航班搜索工具 GetMeFlights，帮助用户找到廉价航班，还能提供旅游指南、定制行程。

这些 AI 项目乍一看好像挺有需求，也挺有趣，但它们都有一些共通的毛病：

没有真正解决用户需求问题，往往只是用封装的 GPT，但没有形成实际的工作流程。
即使有不错的产品，但缺乏有效的推广渠道，没有办法被人看到。
一些 AI 工具和用户的工作流不兼容，增加了额外的摩擦。
有些 AI 工具号称为「每个人」设计，但实际却没有明确的目标用户。
很多 AI 工具并没有真正节省时间，仍需要人工清理、检查和复制粘贴。

如今 AI 是个香饽饽，热钱纷纷往里砸，但说实话，很多 AI 产品就是噱头大于实际功能。要知道市场是极其残酷的，创业公司不能一拍脑壳就下手，想出个点子就以为能成，更不可盲目跟风。

成功的产品不仅仅取决于创意的独特性，更需要在实践中不断优化和适应市场的需求，确保每一个细节都经过深思熟虑，而不是单纯炒概念。

.....

#Meta考虑向Google、OpenAI低头

混乱、内耗、丑闻

斥资 143 亿美元投资、挖来「行业天才」领军，扎克伯格亲自下场高调地四处挖人，换来的却是数据质量被指「低下」、核心人才纷纷出走，外加一桩让人侧目的 AI 伦理丑闻。

这剧情可以拍成《社交网络 3》了。

失控的「超级碗」战队

故事的高潮从今年六月开始。为了追赶 OpenAI 和 Google，扎克伯格下了一步重棋：向数据标注领域的独角兽 Scale AI 狂掷 143 亿美元，并将其创始人、AI 界的风云人物 Alexandr Wang 请来执掌全新的 Meta 超级智能实验室（MSL）。

同时，扎克伯格发起了一场激进的「挖人」活动，以招募顶尖的人工智能人才。扎克伯格甚至被调侃在看 OpenAI 直播时都不忘挖人，从苹果挖来的基础模型负责人庞若鸣、思维链的开山作者 Jason Wei 以及北大校友孙之清等人相继加入。

这支队伍星光熠熠，被寄予厚望，堪称 AI 领域的「超级碗」战队。可惜，这支战队的蜜月期短得惊人。

危机的第一个信号是人才的迅速流失。随 Wang 一同加入的前 Scale AI 高管 Ruben Mayer，仅仅两个月便宣告离职。尽管他事后澄清是因「个人事务」并强调自己「非常满意」在 Meta 的经历，但这并未平息外界的猜测。

紧接着，AI 研究员 Rishabh Agarwal、产品管理总监 Chaya Nayak 和研究工程师 Rohan Varma 等核心成员也相继「跳船」。

Agarwal 在告别时还引用了扎克伯格的话：「在一个变化如此之快的世界里，你所能承担的最大风险就是不冒任何风险」。

压垮团队士气的，是更深层次的信任危机。多位内部人士爆料，MSL 的研究人员普遍认为重金引入的 Scale AI 所提供的数据「质量低下」。

推中是指 Ruben Mayer 离职，而非 Alexandr Wang。

Scale AI 建立在低成本的众包模式上，而随着 AI 模型日益复杂，业界更需要像其竞争对手 Surge 和 Mercor 那样，从一开始就依赖高技能领域专家的模式。结果，Meta 的团队不得不绕开这位「正牌」合作伙伴。

关于 Alexandr Wang 的争议也一直不断，他并非 AI 研究员出身，被视为领导一个顶级实验室的「非传统人选」。

尽管 Meta 的发言人否认存在质量问题，但这笔百亿美金的投资究竟是为了战略合作，还是一场昂贵的人才收购秀，外界的疑问越来越大。

与此同时，Meta 内部的文化冲突愈演愈烈。从 OpenAI 等公司挖来的「空降兵」们对 Meta 庞大的官僚体系感到沮丧，而公司原有的 GenAI 团队则感觉自己的工作范围被大大限制，沦为「二等公民」。

一切乱象的背后，是扎克伯格对 Llama 4 模型表现平平的失望，以及由此引发的不计成本的、近乎疯狂的追赶策略。但事实证明，用钱砸出来的「天团」，未必能赢得比赛。

打不过，就加入？

内部一地鸡毛，外部形象岌岌可危，核心技术又迟迟不见突破。在内外交困之下，Meta 开始考虑一个曾经无法想象的选项。

据知情人士透露，面对自家模型性能不足、AI 助手用户活跃度惨淡（仅占月活用户的 10% 左右）的现实，MSL 的高层已经开始讨论在 Meta AI 中使用 Google Gemini 或向 OpenAI 的模型，作为提升产品能力的「权宜之计」。

这一潜在的战略转向，无异于公开承认了自己在 AI 核心技术竞赛中的暂时落后。

尽管 Meta 的发言人仍在强调公司「全方位」的策略，包括自研、开源以及最近与 AI 图像生成公司 Midjourney 达成的合作，但这更像是在自家下一代模型（如 Llama 5）成熟前的无奈之举。

讽刺的是，这种「借力」策略在 Meta 内部早已不是秘密。其内部编程工具已经允许员工使用竞争对手 Anthropic 和 OpenAI 的模型来辅助工作。

当 AI 开始「模仿」名人

屋漏偏逢连夜雨，路透社的调查报道，揭开了 Meta 在 AI 伦理上的遮羞布。

报道指出，Meta 未经授权，创建或允许用户创建了数十个模仿名人的 AI 聊天机器人，其中包括泰勒·斯威夫特、安妮.海瑟薇等顶级巨星。

这些 AI 机器人不仅坚称自己就是明星本人，还进行着露骨的暗示，甚至在用户的要求下，生成其模仿对象身着内衣或在浴缸中摆姿势的逼真照片。

更让 Meta 无法辩驳的是，调查发现，至少有三个这样的出格机器人，是由 Meta 自己的员工亲手创建的。这些被公司轻描淡写称为「产品测试」的机器人，累计互动次数超过了 1000 万次。

在巨大的舆论压力下，Meta 匆忙下架了相关机器人，并宣布为青少年用户增加安全防护。

将过去这段时间的事件串联起来，一幅清晰的图景浮现：对现状的失望催生了急于求成的策略，混乱的管理导致了失序的团队，而一个失序的团队最终酿成了技术瓶颈和伦理丑闻。

所以，扎克伯格重金打造的 AI 帝国，最终是会杀出一条血路，还是沦为竞争对手技术版图上的一块殖民地，你怎么看？

补充阅读：

刚刚，Meta 宣布正式成立「超级智能实验室」！11 人豪华团队首曝光
刚刚，苹果基础模型团队负责人庞若鸣被 Meta 挖走！加入超级智能团队、年薪千万美元
突发｜思维链开山作者 Jason Wei 被曝加入 Meta，xx独家证实：Slack 没了
GPT4 核心成员、清华校友赵晟佳任 Meta 超级智能实验室首席科学家
扎克伯格看 OpenAI 直播挖人，北大校友孙之清加入 Meta
挖人上瘾的 Meta 又被员工吐嘈：不帮忙宣传项目，开源只会越来越糟
一天之内，Meta 痛失两员大将，小扎钞能力失效？
入职不到 30 天，OpenAI 员工闪辞 Meta 回归，赵晟佳也反悔过

.....

01.传统收费模式已成过去式，寻找「Goldilocks Zone」才是 AI 商业化的终局？

软件属性如何实现从「辅助工具」向「执行主体」的跃迁？当竞争锚点变为「人力成本」，市场天花板应该如何打开？...

02. AI 技术已成巨头共识，创业公司只有寻找「结构性缝隙」才能突围？

AI 时代下，巨头的「高度共识」如何重塑竞争格局？创业者又该如何利用「金砖理论」寻找结构性缝隙？...

03. 「The Messy Inbox」战术如何切入市场？

「差异化」与「防御性」有何本质区别？为何模型能力无法构成长期壁垒？...

传统收费模式已成过去式，寻找「Goldilocks Zone」才是 AI 商业化的终局？

1、访谈伊始，Rampell 提出了本轮技术周期的核心论断，即软件的商业属性正在经历从「辅助工具」向「执行主体」的范式转移。

① 例如 CRM 系统需要销售人员录入信息，Excel 需要财务人员编写公式。

3、然而在人工智能时代，软件本身的性质发生了质变，它不再仅仅是等待调用的资源库，而是进化为能够独立执行任务的数字劳动力。

4、软件开始具备了工作的独立性，能够直接替代人类去完成流程中具体的、端到端的劳动环节。

① 软件可以直接与客户进行多语言通话催收，或者自动完成法律文书的起草。

5、而随着软件属性从工具向劳动力的转变，企业评估软件价值的标尺也随之发生了变化，进一步推动了目标市场空间的量级跃迁。

6、当软件仅作为工具存在时，企业的采购决策通常基于有限的信息技术维护费用，这部分预算在企业总支出中往往占比极小且增长乏力。

8、这种逻辑进一步激活了大量过去被视为缺乏软件化价值的边缘领域。

① 例如法律索赔处理或牙科诊所前台等场景，这些工作因流程刚性、碎片化且高度依赖人工判断，难以通过传统编程实现自动化。

② 在人工智能时代，这些劳动密集型的刚性流程反而因人力替代价值而成为了利润丰厚的核心市场。数字劳动力能够以极低的边际成本接管这些任务。

① 传统 SaaS 模式依赖于对使用软件的「人头」收费，但 AI Agent 的核心价值恰恰在于通过自动化执行来减少甚至移除对人类员工的需求。

② 如果继续沿用旧模式，产品越成功，客户所需的席位越少，软件公司的收入反而会萎缩。

10、因此他们提出了 Goldilocks Zone 的定价方式来寻找软件成本与人力成本之间的最优套利空间，该策略的核心在于设定一个价格平衡点。

① 平衡点必须显著低于雇佣真人的综合成本，迫使客户基于巨大的降本增效优势产生无法拒绝的购买决策。

② 同时，定价又要远高于传统工具软件的订阅费用，用于匹配其交付的实际劳动成果。

AI 技术已成巨头共识，创业公司只有寻找「结构性缝隙」才能突围？

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

Trae实现Web UI自动化测试

广州城市开发者社区

从训诂学到人工智能：一场两千年的相关性困局，与因果性的破局时刻

广州城市开发者社区

Selenium自动化测试常见的异常处理

本文深入探讨了Selenium自动化测试中的异常处理技术。首先分析了异常处理的重要性，指出其能保障测试稳定性和可靠性。接着详细介绍了Selenium中的主要异常类型，包括WebDriver异常、元素交互异常和时间相关异常等。文章重点讲解了三种异常处理方法：使用try-catch捕获异常、日志记录和重试机制，并通过两个典型案例（处理NoSuchElementException和TimeoutExce