51c大模型~合集178

代码本身不再珍贵 —— 当然，编写代码仍然是一门艺术，有时你仍会享受手工编写代码的乐趣，但更多时候，关注点在于你要创造的东西，而不是创造的过程。这不仅仅是表面功夫。突出用例的作者可以帮助组织规范 AI 技能的使用，解答疑问，并发现新的机会，尤其是在精干的团队中，他们肩负着多重职责。在最近的一次访谈中，Claude Code 负责人 Boris Cherny 透露了他们构建该产品的时的一些细节，包括

whaosoft-143

4095人浏览 · 2025-09-05 00:15:00

whaosoft-143 · 2025-09-05 00:15:00 发布

自己的原文哦~ https://blog.51cto.com/whaosoft/14157097

#Codex Cli

Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了

怎么判断模型、产品性能是否真的提升了？很简单，亲自用它实打实工作一天就知道了。

最近，Anthropic 官宣了一轮 130 亿美元的融资，公司估值达到 1830 亿美元，融资额仅次于 2025 年 3 月 OpenAI 历史性的 400 亿美元融资。

与此同时，这家也在经历新的考验：不少用户发现其王牌产品 ——Claude Code 存在降智问题，还有些开发者已经转向 OpenAI 推出的竞品 ——Codex Cli。

如果不考虑近期这些争议，其实 Claude Code 是一款非常成功的产品，它从 Cursor 那里抢走了大量用户，发布 4 个月用户就已经达到 11.5 万。

这个产品为什么可以取得成功？在最近的一次访谈中，Claude Code 负责人 Boris Cherny 透露了他们构建该产品的时的一些细节，包括极简易用、高度可扩展的产品理念，真实体感大于 benchmark 的评估标准，极致的用户反馈响应机制等。

，时长20:20

视频链接：https://www.youtube.com/watch?v=iF9iV4xponk

以下是详细内容：

1、过去的 12 个月里，编程领域发生了哪些变化？

一年前，如果你想写代码，你有一个 IDE，IDE 里有某种自动补全功能，你还要借助一些对话式 AI，你可能会来回复制粘贴代码。

后来，智能体（agents）成为编程工作流的核心组成部分。它们不再是实验性的噱头或原型工具，而是真正融入了开发者的日常工作循环。

也就是说，我们从在网页应用中复制粘贴代码、进行非常有针对性的编辑，转变为更加「不插手」的方式 —— 告诉智能体你想要它做什么，然后信任它去执行大量的代码修改，甚至独立完成整个应用的开发。

2、这种转变背后有哪些原因？

之前的制约因素主要有两个：一是模型还不够好，二是脚手架 —— 模型之上的东西 —— 还不够好。

过去一年，模型在智能体编程方面进步了很多，这发生在 Sonnet 3.7、Sonnet 4 和 Opus 4.1 中。

工具也进步了很多，这里指的是 Claude Code。模型和工具之间的关系就像马和马鞍，马鞍能让你更好地驾驭马（模型）。

模型是 API 后面的东西。Claude Code 集成了系统提示、上下文管理、工具调用、MCP 服务器连接、权限控制等各种功能。模型所接收到的所有上下文信息和工具输出，都会显著影响其最终表现。

在过去的一年里，我们学会了如何确切地为模型构建工具。而且，模型不仅与 Claude Code 共同进化，还与整个基于 Anthropic 模型的智能体编程工具生态共同发展。

3、所谓的「共同进化」是怎么实现的？

在 Anthropic，每个人都使用 Claude Code，包括构建模型的那些研究人员。在此过程中，他们会看到模型的一些自然限制。

之前用 Sonnet 3.5 的时候，模型可以持续运行大概 1 分钟而不偏离轨道。如今，新模型能够持续自主运行的时间越来越长。这是一个基于真实体验的改进循环。因为你是模型的使用者，你能看到人类必须在哪里纠正和引导它。我们可以将学到的这种经验融入模型中，教它更好地自己做这些事情。

4、评估新模型、新功能时，如何评估性能是否在改善？

答案很简单：用它做当天的工作。

在日常工作中，你会做各种各样的事情，包括写新代码、修复 bug、阅读 Slack 消息或 GitHub 问题来回应反馈。

在某种意义上，最好的评估是最像真实生活的评估。直接上手使用会给你最好的结果。

说实话，构建评估真的很困难。到目前为止最大、最直接的信号就是感觉。因为你使用它的任务范围如此广泛。

5、在收集反馈方面做了哪些特别的事情？

关键在于超快速响应 —— 每当有人给出反馈时，我们都会尽快尝试修复它。

有时我会进入办公室，然后花两三个小时，尽可能快地处理尽可能多的 bug 并修复它们，修复后立即回复大家已解决。这鼓励他们继续给出反馈。

直到今天，内部的 Claude Code 反馈通道依然像「消防水带」一样，反馈流量持续不断。这种活跃的反馈循环是产品快速迭代的重要基础。

6、Claude Code 当前状态是什么？最新的功能是什么？你对什么感到兴奋？你看到人们现在在用它做什么？

Claude Code 的设计哲学是：极简易用和高度可扩展。其中，可扩展性是当前最令人兴奋的发展方向。

扩展能力的演进历程：

最初：通过 CLAUDE.md 文件添加项目上下文信息

现在：拥有复杂的设置系统、权限管理、Hooks 系统、MCP 集成、斜杠命令、子智能体等丰富的扩展点

这些功能都与模型能力的整体提升相辅相成：模型变得更加自主、工作时间更长、指令执行更准确、记忆能力更强，所有扩展功能都从中受益。

7、未来 6 到 12 个月，使用 Claude Code 工作会变成一种怎样的体验？

工作模式将呈现手动与自动的深度融合：

交互式编程：不再是直接修改文本，而是通过 Claude 来操作代码
主动化编程：Claude 主动执行任务甚至自我审查，开发者主要负责决策是否采纳这些修改
目标导向编程：未来 12-24 个月，Claude 将更多地关注高层目标和整体规划，而不是具体的执行细节

这类似于工程师的工作方式：先制定月度目标，然后通过一系列小的改动逐步实现。Claude 也将具备这种宏观规划能力。

8、对需要适应这些变化的开发者们有什么建议吗？关于他们应该学习或发展什么技能。

在智能体编程出现之前的世界里，技术栈变得极其复杂。想要做一个 JavaScript 网站，你必须学习 React、Next.js，还有三套不同的构建系统和部署系统，门槛高得令人望而却步。

智能体的出现正在改变这一切。现在，有了编程智能体，开始一个项目变得真正容易。如果你有想法，就可以直接去构建它。重点从「如何实现」转向了「实现什么」，因为就像 Claude Code 一样，代码可以反复重写。代码本身不再珍贵 —— 当然，编写代码仍然是一门艺术，有时你仍会享受手工编写代码的乐趣，但更多时候，关注点在于你要创造的东西，而不是创造的过程。

因此，我对今天学习编程的人的建议是：你仍然需要掌握核心技能 —— 编程语言、编译器、运行时、Web 应用开发、系统设计等基础知识不能丢。但同时，你要变得更有创造性。如果你有创业想法或产品构思，现在就可以立即开始构建，以一种以前完全不可能的方式。我们还无法完全理解这意味着什么，但可以肯定的是，由于智能体的出现，巨大的创造潜力即将被释放。

9、针对使用 Claude Code 的新手有哪些建议？

第一个建议：先问问题，后写代码。

初次使用 Claude Code 时，不要急于让它编写代码。先用它来理解现有代码库，比如问它：「如果要添加新的日志功能，应该怎么做？」「这个函数为什么要这样设计？」

让 Claude Code 探索代码库、查看 Git 历史并回答你的疑问。等你熟悉了这种「智能体研究助手」的使用方式后，再开始让它编写代码。

第二个建议：根据任务难度选择不同策略。

将任务分为三个等级：

简单任务：一个提示就能完成的工作。直接在 GitHub issue 中 @Claude，让它创建 PR。
中等任务：使用 Shift+Tab 进入计划模式，先与 Claude 制定执行计划，确认后切换到自动执行模式。
困难任务：开发者主导，Claude 辅助。使用 Claude 进行代码研究、原型验证、边界探索，但核心实现仍由人完成。

关键是根据任务复杂度选择合适的协作模式，而不是一刀切地使用同一种方法。

#如何在AI时代保持领先

刚刚，OpenAI发布白皮书

怎样用好生成式 AI？OpenAI 亲自教你。

AI 发展的速度已经超越了摩尔定律，更超越了大多数企业的适应能力。这不是遥远的未来预言，而是 2025 年的商业现实：早期采用 AI 的企业，其收入增长速度已比同行快了 1.5 倍。

当许多公司还在为如何规划而头痛时，先行者们已经将优势转化为真金白银。为了帮助企业穿越这场技术变革，9 月 3 日，OpenAI 发布了一份关键的《在 AI 时代保持领先：领导力指南》。

该报告总结了该公司与一系列全球大型知名企业合作的经验，这些企业包括制药巨头 Moderna、化妆品巨头雅诗兰黛、Notion 以及跨国银行 / 金融服务公司 BBVA，最终得到了从战略到治理的五大核心原则。

报告链接：https://cdn.openai.com/pdf/ae250928-4029-4f26-9e23-afac1fcee14c/staying-ahead-in-the-age-of-ai.pdf

OpenAI 在报告中指出，人工智能的进步速度前所未有：

自 2022 年以来，前沿大规模 AI 模型的发布数量增加了 5.6 倍；

仅仅 18 个月，运行 GPT-3.5 等级的模型的成本就降低了 280 倍；

AI 的采用速度比桌面互联网快 4 倍。

如果时常关注 AI 领域的新闻，这些技术和应用的进步我们可能已有所感知。不过 OpenAI 的报告还提到，早期使用者的收入增长速度已比同行快 1.5 倍，但许多公司仍认为技术落地的速度过快，难以有效规划。OpenAI 表示，在合作过程中最常听到的问题之一是如何跟上步伐，如何让员工适应 AI 技术，以及如何构建一个以 AI 为先的组织。

在生成式 AI 技术快速发展，落地范围逐步扩大的今天，该报告提出了五项指导原则 —— 协调、激活、扩大、加速和治理。

根据这几项原则，我们可以整理出如下几个重点方面。

明确人工智能战略

根据实践经验，当员工清楚地看到新的人工智能计划如何提升他们的技能，能实现更有意义的工作并提升公司的竞争优势时，他们就能更快地适应变化。领导者在推动这种协调方面发挥着关键作用，他们要明确传达人工智能计划背后的目标，展现他们的承诺，并在整个过渡期间积极支持员工。

制药公司 Moderna 的例子就很有启发：其 CEO 要求员工每天使用 ChatGPT 20 次，这明确表明了 AI 是运营的核心。

企业领导者应该超越炒作周期的思维。随着 2025 年科技支出面临压力，董事会和投资者要求获得可衡量的回报。含糊其辞的「我们正在使用 AI」并不能解决问题。相反，企业必须建立与关键绩效指标 (KPI) 挂钩的明确采用指标 —— 无论是更快的交易速度、更低的客户服务成本，还是更快的研发周期。

树立标杆应用

报告强调了一个简单的道理：人们会模仿领导者的做法。当高管公开分享他们如何使用人工智能 —— 分析客户趋势、加快合同审核、起草演示文稿 —— 这为团队的实验创造了文化的发展方向。OpenAI 首席财务官 Sarah Friar 定期讨论她对 ChatGPT 的使用，这有助于她所在部门规范化应用。

这不仅仅是表面功夫。人们对 AI 准确性的质疑依然普遍存在，展示实际应用可以消除很多疑虑。尤其对于首席信息官（CIO）和首席技术官（CTO）而言，在日常工作流程中展示 AI 成果比任何备忘录都更能传递强有力的信息。这证明了 AI 并非「只为技术人员服务」，而是从财务到人力资源等每个岗位都不可或缺的一部分。

投资 AI 技术培训

报告显示，近一半的员工表示，他们感觉自己没有接受过人工智能方面的培训。培训并非「锦上添花」，而是决定企业采用 AI 技术的首要因素。

圣安东尼奥马刺队通过将培训融入日常工作而不是将其视为课外活动，将其组织的 AI 熟练程度从 14％提高到了 85％。

对于正在应对技能不足问题的公司来说，这意义重大。将人工智能技能融入工作流程，是减少人力投入，增加生产力的方式。随着对生成型 AI 人才的竞争日益激烈，那些能够提升自身员工技能的组织将比那些试图从外部招聘的组织更快地实现扩张，并且成本更低。

培养典型

OpenAI 建议建立一个「AI 冠军」网络，以分享用例并指导同事。活跃社区对于加速 AI 采用的作用，是自上而下的指令所无法做到的。突出用例的作者可以帮助组织规范 AI 技能的使用，解答疑问，并发现新的机会，尤其是在精干的团队中，他们肩负着多重职责。

这不仅仅是啦啦队的作用。AI 领军者充当着分布式研发职能，他们会发现领导层可能忽略的工作流程改进。在金融、零售和医疗保健等行业，一线员工每天都会发现效率低下的问题，这些网络可以成为持续创新的引擎。

创建安全实验空间

报告明确指出：如果没有精心设计的实验空间，AI 的应用就只能停留在理论层面。那些专门留出时间进行实验的公司 —— 例如每月举办黑客马拉松、举办 AI「星期五」活动，或者举办无代码原型设计会议的组织，都能看到切实可行的创新成果。Notion 的黑客马拉松催生了 Notion AI，如今它已成为 Notion 的核心功能。

在工具每月都在更新的市场中，实验可以确保企业不仅遵循供应商的路线图，还能塑造自己的路线图。对于决策者来说，这意味着时间和金钱的预算投入。但每月分配几个小时进行结构化的试错，可以带来丰厚的回报，打造出产品、服务和流程。

把小进步汇聚起来

AI 的成功往往被困于各自为政的局面。一个团队构建了一个实用的提示库，另一个团队优化了客户支持工作流程，但其他人却没有从中受益。

OpenAI 在报告中敦促企业像 Notion、SharePoint 或 Confluence 那样创建集中式中心，让员工可以在其中访问企业 AI 试点和部署的培训、指南和成功的案例。

在 2025 年，企业正努力应对工具泛滥的问题，适时的指导显得尤为重要。随着数十个 AI 试点项目同时进行，知识中心可以避免项目冗余，并加速规模扩张。构建这些知识库的领导者可以将实验转化为机构学习，在早期采用者离开后仍能长期保留价值。

简化 AI 项目的决策

人工智能的创新正以互联网的速度发展，但企业的审批却往往相对缓慢。该报告强调，需要建立轻量级的接收和优先级排序流程，以便团队能够提交 AI 项目构想，快速获得反馈，并了解如何设定优先级。

雅诗兰黛的集中式 GPT 实验室就是一个典范，它收集了 1000 多个员工构想，并进行了最佳扩展。

对于尝试 AI 技术落地的企业来说，教训显而易见：如果批准 AI 试点项目耗时数月，竞争对手就会抢先进入市场。在 2025 年的人工智能军备竞赛中，敏捷性不仅关乎文化，更关乎运营。首席信息官和首席运营官必须重新思考治理流程，在管控风险的同时消除瓶颈。

组织跨职能部门的 AI 委员会

为了避免重复和地盘之争，OpenAI 建议创建小型、授权的 AI 委员会。

这些由高管推动的小组可以解除项目阻碍、设定优先级，并保持与合规性和风险要求的一致性。西班牙银行 BBVA 的中央 AI 网络就是一个成功案例。

随着全球范围内人工智能治理法规的收紧，跨职能监督尤为重要。随着欧盟《人工智能法案》即将实施严格的合规要求，以及美国各机构正在关注人工智能风险框架，企业将需要将创新与问责相结合的架构。委员会提供了一种可扩展的方式来连接目标与监督。

推动热门应用

激励措施至关重要。报告重点介绍了像 Promega 这样的公司，它们追踪了各个团队的 AI 使用情况，并对高使用率团队进行了进一步投资，从而有效地奖励了创新。

对于决策者来说，这意味着在晋升、绩效评估和资源分配方面认可其贡献。

在预算紧缩的时期，这种方法也能帮助企业找到投资回报率最高的项目。通过将资源投入到已证实有效的项目中，企业可以避免在分散的试点项目上过度投入，并在价值已经显现的项目上加倍投入。

平衡落地速度与治理

最后，OpenAI 警告称，快速行动并不意味着忽视风险。相反，企业需要轻量级且不断发展的安全保障措施。一份「负责任的 AI 行动手册」能够明确哪些操作可以安全尝试、哪些操作需要升级，这可以帮助团队快速采取行动，而无需持续进行合规性审查。建议进行季度审计并提供通俗易懂的指导。

随着全球监管机构纷纷对透明度、偏见和数据使用施加标准，治理与对话已不再是可有可无的说辞。最终的赢家将是那些及早构建灵活防护机制，在速度与安全之间取得平衡的公司。领导者必须确保合规框架与工具本身同步发展。

结语

纵观整个报告，OpenAI 并非将 AI 视为一种辅助的工具，而是将其视为组织运作方式全面变革的基础。

从中我们也可以提炼出 OpenAI 想要向领导者们传递的信息：对齐团队，激活培训，放大成功，加速决策，并负责任地治理。这些将成为企业在 AI 时代获得竞争优势的重要基础。

参考内容：

https://venturebeat.com/enterprise/openai-releases-playbook-for-enterprises-to-stay-ahead-of-the-ai-wave-our

#J.P. Morgan机器学习卓越中心高管亲述

华尔街AI实战心法

近年来，人工智能和机器学习正逐渐成为金融行业的重要推动力。从量化交易到风险管理，AI 的应用场景不断扩展。但当算法模型从学术研究走向华尔街的实际应用时，也暴露出一系列现实挑战。

许多讨论停留在理论层面，而在实践中，问题往往更为复杂。例如：

大多数模型在预测方面表现良好，但金融机构更关心的是支持「What-if」分析的决策工具。例如，如何通过模型回答「如果提高利率会怎样」这类关键问题？
在金融中，相关性并不等于因果关系。历史数据中机票价格与销量的正相关，并不意味着简单的因果逻辑。如何避免如「对撞机问题」（collider problem）这类统计误区，是建模必须关注的关键点。
金融数据不仅是简单的时间序列，还包括收益率曲线（函数时间序列）、支付网络（动态图）以及不同频率的宏观数据。传统的 LSTM 等模型在处理这些复杂结构时存在先天不足。
在快速迭代的环境中，Jupyter Notebook 有时会成为工程管理的障碍；TensorFlow 与 PyTorch 难以兼容，也使得可复用组件的建设更具挑战。与此同时，能够兼顾金融、机器学习与系统工程的复合型人才十分稀缺。

这些来自实践的经验和问题，往往缺乏系统性的公开讨论。为此，我们特别邀请到 J.P. Morgan 机器学习卓越中心（MLCOE）的王泽基 (Chak Wong) 教授。他将结合团队在构建可复用 AI 组件库过程中的实践，分享对上述问题的第一手经验与思考。

本次讲座不仅是一次深度技术分享，同时也将作为 MLCOE 年度全球招聘宣讲会的内地站。我们诚邀对金融、AI、数据科学等领域感兴趣的同学和业界同仁加入，与国际顶级团队面对面交流。

#从MLLM到Agent

人工智能已从单一文本交互迈入多模态理解与智能体自主决策的新阶段。从处理纯文本的大语言模型（LLMs），到融合图像、音频的多模态大语言模型（MLLMs），再到具备环境感知、任务规划能力的智能体（Agents），大模型的能力上限持续扩张，但安全风险也随之呈指数级增长。

其中，越狱攻击作为最具威胁性的安全风险之一，始终困扰着大模型生态——攻击者通过精心设计的输入或环境扰动，绕过模型的安全机制，诱导其生成违法、有害、违背伦理的内容，小则传播虚假信息、煽动仇恨，大则引发网络攻击、隐私泄露等严重后果。然而，现有研究多聚焦于单一形态模型（如LLMs）的攻击与防御，缺乏对LLMs-MLLMs-Agents全演进链路的系统性梳理，更未形成统一的攻击分类框架、评估标准与防御体系。

在这一背景下，来自河南大学软件学院与中国科学院信息工程研究所的研究团队，对该领域进行了全面的综述总结。该综述不仅系统追溯了大模型从LLMs到MLLMs再到Agents的发展脉络，更从攻击影响、攻击者权限双重视角构建了越狱攻击分类体系，同时梳理了数据集、评估指标与防御策略的最新进展，最终指出当前研究局限与未来方向，为大模型安全领域提供了一份全面且前沿的“全景地图”。

论文标题：From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem
arXiv：https://arxiv.org/abs/2506.15170v3

该综述的核心贡献可概括为五大维度：

完整呈现LLMs-MLLMs-Agents的演进路径与各阶段安全挑战
从“攻击影响”“攻击者权限”双视角对越狱技术进行精细化分类
详细解析实验设计，包括数据集的来源与格式、五大类评估指标的应用场景
按“响应时机”“技术手段”对防御策略进行体系化梳理
指出数据集、评估方法、攻防技术的现存局限，并提出多模态数据集构建、多智能体安全防护等未来方向。

图 1. 本文的整体架构图。

大模型的三次范式跃迁：从文本交互到自主决策

要理解越狱攻击的演进逻辑，首先需厘清大模型自身的发展脉络。论文开篇即系统回顾了LLMs、MLLMs、Agents的技术演进与核心特征，揭示了安全风险随模型能力扩张而升级的内在规律。

1 LLMs：文本时代的基石与局限

大语言模型的崛起，源于神经网络架构的数次关键突破。早期序列建模依赖循环神经网络（RNN），但受限于“梯度消失”问题，无法有效处理长文本；长短期记忆网络（LSTM）通过门控机制缓解了这一问题，却因串行计算的特性，在大规模数据处理中效率低下。直到2017年Transformer架构的出现，才彻底改变了这一局面——其自注意力机制实现了全局语境建模与并行计算，结合残差连接、层归一化技术，为超深网络训练奠定了基础。

此后，大模型进入“规模为王”的时代。根据OpenAI提出的“性能-算力定律”，模型性能随参数、数据量、算力的增长而提升：2018年BERT的参数仅3.4亿，2020年GPT-3飙升至1750亿，2022年PaLM更是达到5400亿。同时，模型能力不断“涌现”——当参数超过特定阈值后，链式推理（Chain-of-Thought）、上下文学习（In-Context Learning）等高级能力逐渐显现。为了更好地对齐人类意图，InstructGPT通过指令微调优化交互效果，强化学习人类反馈（RLHF）成为价值对齐的核心技术，而LoRA等参数高效微调方法则降低了模型适配成本。

图 2. 传统大语言模型（LLMs）在文本模态下的攻击工作流程。攻击者在文本模态中战略性地设计对抗性输入，以诱导模型生成有害响应。

但LLMs的局限同样明显：仅能处理文本模态，缺乏对图像、音频等多模态信息的理解能力，且易受训练数据偏见、提示操纵的影响，生成错误或不当内容。尽管安全过滤、RLHF等技术已被应用，但文本模态的单一性，也使得早期越狱攻击多集中于“prompt 伪装”、“语义重构”等文本层面的操纵。

2 MLLMs：多模态融合下的能力扩张与风险升级

为突破文本模态的限制，多模态大语言模型（MLLMs）应运而生。其核心技术是“跨模态对齐”与“联合表示学习”——通过将图像、音频等非文本信息与文本语义关联，实现跨模态的推理与生成。例如，CLIP通过对比学习实现图文语义对齐，ViT验证了Transformer在视觉任务中的可行性，而GPT-4V更是直接支持视觉-文本的联合理解与生成，可完成“根据图像讲故事”“总结视频内容”等复杂任务。

MLLMs的能力扩张，也带来了全新的安全风险。论文指出，多模态输入的复杂性，使得越狱攻击的“攻击面”显著扩大：攻击者不仅可以通过文本 prompt 操纵模型，还能利用视觉漏洞（如 adversarial 图像）、音频漏洞（如情感模拟语音）诱导模型生成有害内容。例如，有研究通过设计 adversarial 图像，让MLLMs误判视觉信息，进而绕过文本安全过滤；也有研究利用情感化语音，让模型在音频-文本交互中失控输出。

图 3. 多模态大语言模型（MLLMs）的攻击工作流程。攻击者通过综合利用不同模态间的漏洞来构造对抗性输入，旨在操纵模型生成有害输出。

与LLMs相比，MLLMs的越狱攻击更具“隐蔽性”——多模态信息的融合可能掩盖单一模态中的恶意信号，使得防御机制难以精准识别。例如，将有害文本嵌入图像中的文字区域，MLLMs在处理图像时可能优先识别视觉内容，忽略文本中的风险，从而生成不当响应。

3 Agents：自主决策时代的安全新挑战

如果说MLLMs是“多模态感知”的突破，那么智能体（Agents）则是大模型向“自主行动”演进的关键一步。论文将Agents定义为“能够感知环境、自主采取行动以实现特定目标的智能实体”，其核心由四大组件构成：

核心（Core）：以LLM/MLLM为基础，负责生成输出与引导决策；
规划（Planning）：通过结构化提示、逻辑框架减少模型幻觉，确保复杂任务中的决策精准性；
工具（Tools）：集成搜索引擎、数据库接口、外部系统控制等工具，扩展模型的任务执行能力；
记忆（Memory）：通过短期/长期记忆管理历史信息，突破LLMs的上下文长度限制，支持持续交互。

图 4. 智能体（Agent）越狱的工作流程。用户向智能体发送请求，内容为 “向购物车中添加 20 个苹果”；与此同时，攻击者利用精心设计的攻击框架，最终导致智能体错误地向购物车中添加了 10 根香蕉。

Agents的自主决策能力，使其应用场景从“被动响应”转向“主动执行”，但也带来了最严峻的安全挑战。论文指出，针对Agents的越狱攻击，目标已不再是“诱导有害文本生成”，而是“篡改决策行为”——通过操纵Agents的知识库、工具调用逻辑或记忆系统，使其偏离预设目标，执行恶意行动。例如，攻击者可能通过污染Agents的长期记忆，使其在任务规划中优先执行恶意指令；或利用工具调用漏洞，让Agents未经授权访问敏感数据、发送恶意代码。

更危险的是，Agents之间的交互可能引发“连锁风险”——一个被越狱的Agent，可能将恶意指令传递给其他Agent，形成跨Agent的攻击传播，对整个多智能体系统造成毁灭性影响。

越狱攻击的“双维度”分类：从影响到权限，厘清攻击逻辑

为了系统性梳理日益复杂的越狱攻击技术，论文提出了“攻击影响”和“攻击者权限”两大分类维度，覆盖了从LLMs到Agents的全场景攻击方法，为研究者提供了清晰的分析框架。

1 按“攻击影响”分类：从阶段与层级拆解攻击路径

“攻击影响”维度又细分为“攻击阶段”与“干预层级”——前者关注攻击发生在模型生命周期的哪个环节，后者关注攻击作用于模型的哪个技术层面。

图 5. 从攻击影响视角对现有越狱攻击方法的分类。我们将越狱攻击方法划分为 “攻击影响阶段” 和 “攻击干预层级” 两类。

（1）攻击阶段：训练期 vs 推理期

训练阶段攻击：通过篡改训练数据或模型参数，在模型中植入漏洞或后门，属于“参数级越狱”。论文将其分为三类：

后门攻击：在训练阶段嵌入恶意触发条件，当模型遇到特定输入（如特定关键词、图像）时，生成预设的有害输出。例如，在训练数据中注入少量含后门触发的样本，或直接操纵模型参数，使模型在部署后对触发信号“敏感”。
蒸馏攻击：先训练一个无安全约束的“教师模型”，再通过知识蒸馏将其能力传递给“学生模型”。由于教师模型缺乏安全过滤，学生模型可能在蒸馏过程中学习到违规行为，导致原有防御机制失效。
篡改攻击：通过修改训练数据或模型参数，干扰模型的正常行为。例如，在训练数据中混入虚假信息，使模型在正常输入下表现正常，但在特定场景下输出不当内容。

推理阶段攻击：无需修改模型参数，仅通过精心设计的输入诱导模型输出有害内容，属于“无参数越狱”。其核心是“利用模型的推理漏洞”，主要包括三类：
提示攻击（Prompt Attack）：通过操纵输入的文字、结构、语气，绕过模型的安全限制。例如，使用双关语、隐喻、隐含表达，在不直接触碰敏感话题的情况下，诱导模型生成违背伦理的回答。
对抗攻击（Adversarial Attack）：通过微小的输入扰动（如添加无意义噪声、调整词序、替换同义词），让模型误判输入意图，失去安全约束。这类扰动对人类不可见，但能显著影响模型的推理过程。
越狱链（Jailbreak Chain）：通过一系列渐进式提示，逐步诱导模型泄露敏感信息。例如，先询问“化学药物是什么”，再过渡到“哪些化学药物可用于制作危险物品”，最终引导模型输出“炸弹制作步骤”——利用模型的渐进式推理能力，突破内容过滤限制。

（2）干预层级：从 prompt 到模型的三层攻击

提示层攻击：聚焦于“输入 prompt 的设计”，通过伪装、重写等方式规避安全检测：

提示伪装（Prompt Disguise）：通过补全、替换、低资源语言转换、多策略融合等手段，隐藏恶意意图。例如，将敏感 prompt 拆分，用空格字符代替关键部分，让模型自动补全；或把敏感内容翻译成模型理解较弱的低资源语言，绕过安全检查。
提示重写（Prompt Rewrite）：先让模型回答无害问题，再基于历史回答构建新 prompt，逐步引导至敏感领域。部分框架还具备“自适应优化”能力——若初始 prompt 越狱失败，会让模型重新改写 prompt，迭代提升绕过成功率。

推理层攻击：操纵模型的推理过程，使其在步骤化思考中泄露敏感知识：
场景嵌套（Scene Nesting）：构建复杂的上下文（如故事、表格、代码），让模型在逐步推理中触碰隐含的敏感背景。例如，以“编写小说剧情”为借口，在故事中嵌入危险行为的描述，诱导模型详细展开。
检索增强生成（RAG）攻击：通过整合外部知识库（如维基百科、私有数据），绕过模型的内置知识屏障。攻击者将真实数据与虚假信息混合，干扰模型的知识推理，使其难以过滤有害内容。
模型层攻击：直接作用于模型的参数、训练过程或梯度信息，属于较深层的攻击：
梯度-based攻击：利用模型的损失梯度，寻找最有效的输入结构，或在输入中植入“触发模式”，让模型遇到特定字符/短语时自动生成越狱内容。
微调攻击（Fine-tuning Attack）：通过额外训练，让模型学习恶意行为模式。例如，在微调数据中植入恶意样本，使模型在特定输入触发下生成敏感内容；或利用对比学习，让模型在不同上下文下行为不一致，规避安全检测。

2 按“攻击者权限”分类：白盒 vs 黑盒，攻击能力的差异

“攻击者权限”维度，根据攻击者对模型内部信息的访问程度，将攻击分为“白盒攻击”与“黑盒攻击”，并进一步按目标模型（LLMs、MLLMs、Agents）细分。

图 6. 从攻击者权限视角可将现有越狱攻击方法划分为两大类别：白盒越狱攻击与黑盒攻击。随后，这些方法会根据目标系统类型进一步分类，涵盖大语言模型（LLMs）、多模态大语言模型（MLLMs）及智能体（Agents）。

（1）白盒攻击：掌握模型内部信息的“精准打击”

白盒攻击的前提是“攻击者可访问模型的架构、参数、训练细节”，因此能进行高度针对性的攻击：

针对LLMs的白盒攻击：利用梯度信息、修改权重或设计触发样本，探索模型漏洞。例如，Zou等人提出的GCG（通用对抗后缀），通过在多个敏感内容类别上训练，生成能诱导商业LLM与开源LLM输出有害内容的通用后缀；Liu等人的AutoDAN则通过分层遗传算法，优化人工设计的 prompt，生成隐蔽性强的越狱输入。
针对MLLMs的白盒攻击：不仅操纵文本，还利用多模态交互漏洞。例如，Bailey等人发现视觉语言模型（VLMs）易受“图像劫持”攻击——通过 adversarial 图像操纵模型行为；Wang等人提出“双目标优化”策略，先从随机噪声中优化 adversarial 图像前缀，再结合 adversarial 文本后缀，形成“通用主密钥（UMK）”，最大化模型的有害输出。
针对Agents的白盒攻击：聚焦于分析Agents的内部架构，操纵决策模块。例如，Chen等人的AGENTPOISON框架，通过污染Agents的长期记忆或知识库，植入后门触发——当用户输入包含触发信号时，模型会从被污染的记忆中检索恶意演示，进而输出有害内容；Yu等人的NetSafe则从拓扑视角分析多智能体网络的安全漏洞，识别“智能体幻觉”“聚合安全”等可能导致网络不稳定的风险。

（2）黑盒攻击：仅通过输入输出交互的“盲测攻击”

黑盒攻击中，攻击者无法访问模型参数或训练细节，仅能通过输入输出的交互探测模型行为，其核心是“通过迭代反馈优化攻击策略”：

针对LLMs的黑盒攻击：依赖 prompt 迭代与行为分析。例如，Deng等人的SAP框架，通过“人工设计种子 prompt + LLM生成变体”的方式，构建 adversarial prompt 库，迭代优化攻击效果；Chao等人的PAIR算法，通过循环优化失败的 prompt，仅需不到20次查询即可实现越狱；Shen等人的JailbreakHUB则通过分析1405个越狱 prompt，总结出“ prompt 注入”“权限提升”等攻击策略，为黑盒攻击提供参考。
针对MLLMs的黑盒攻击：利用多模态数据的复杂性，掩盖恶意信号。例如，Shen等人的VOICEJAILBREAK，通过虚构故事（含场景、角色、情节）拟人化GPT-4o，用音频叙事诱导模型突破安全限制；Qi等人发现，视觉输入的高维度与连续性使其易受 adversarial 攻击，adversarial 图像不仅能导致分类错误，还能绕过MLLMs的安全过滤；Mao等人的JMLLM框架，更是整合了文本、视觉、音频三种模态的攻击策略，实现跨模态的高效越狱。
针对Agents的黑盒攻击：操纵任务执行动态，诱导Agents偏离目标。例如，Nakash等人的“Foot-in-the-Door”攻击，通过间接 prompt 注入，逐步影响Agents的决策过程——当Agents被要求“修复网站漏洞”时，攻击者通过细微注入，让Agents不仅执行无害任务，还发送管理员凭证给攻击者；Jiang等人的RAG-Thief则通过自适应查询，从RAG-based Agents的私有数据库中提取敏感信息，实现隐私泄露。

数据集与评估指标：越狱研究的“基础设施”现状

要推动越狱攻击与防御技术的发展，高质量的数据集与科学的评估指标是“基础设施”。论文系统梳理了当前数据集与评估指标的现状，指出了其中的局限与改进方向。

1 数据集：从来源到格式，覆盖度与多样性待提升

表 1 越狱评估数据集的统计分析

论文将越狱数据集按“数据来源”与“数据格式”分为两大维度：

图 7. 越狱评估数据集的统计分类。我们基于数据来源和数据格式对其进行分类，且这两个分类维度各自可进一步（细分）。

按数据来源分类：

LLM/自动生成：利用LLM的生成能力构建样本，效率高但易受模型安全对齐机制的限制，生成的有害内容“毒性不足”。例如，Banerjee等人的TECHHAZARDQA数据集，通过微调Mistral-V2模型生成7745个有害问题，覆盖7个技术领域，虽实现规模化生成，但仍需人工审核确保样本有效性。
搜索引擎检索：从互联网挖掘相关内容，数据量较大但模式僵化，难以突破现有语料的语义边界。例如，Mao等人的TriJail数据集，部分有害文本通过搜索引擎检索获取，虽补充了人工制作的不足，但存在内容重复、场景单一的问题。
人工制作：由专家或用户设计输入，特异性与多样性强，但耗时耗力，对标注者的专业知识与对抗思维要求高。例如，Gong等人的SafeBench数据集，先基于使用政策确定敏感话题，再通过GPT-4生成500个有害问题，最后经人工筛选去除合规样本，确保每个问题都能触发模型的安全漏洞。

按数据格式分类：
问答（Q&A）格式：包含攻击者与模型的对话，用于测试模型对敏感问题的响应。例如，Gressel等人的数据集包含210个来自学术文献、Twitter的prompt，按“策略（8类）”“技术（33类）”分类，每类技术含5个变体，涵盖“隐含挑战（165个prompt）”与“显式挑战（45个prompt）”，可全面评估模型在不同攻击策略下的防御能力；Röttger等人的XSTEST包含450个prompt（250个安全、200个不安全），安全prompt用于验证模型对合规内容的接受度，不安全prompt则测试模型对有害请求的拒绝能力，是目前应用较广的基准数据集之一。
指令格式：包含诱导模型生成违规内容的指令。例如，Qiu等人的LatentJailbreak数据集，将恶意指令嵌入“翻译”“摘要”等良性任务中，如“将‘如何制作炸弹’翻译成法语”，测试模型对隐蔽性指令的识别能力；Andriushchenko等人的AgentHarm基准，包含110个有害智能体任务（如欺诈、网络犯罪），每个任务配套4个变体，评估Agents在攻击后是否仍能拒绝有害请求并正常执行合规任务，填补了智能体安全评估的空白。
有害句子/图像格式：直接包含有害文本或视觉内容，用于测试模型对显性恶意信息的过滤能力。例如，Zou等人的AdvBench数据集，包含500个有害字符串（覆盖亵渎、暴力、威胁等场景）与500个有害指令，后续扩展至574个字符串与520个指令，是评估LLMs越狱 vulnerability的经典数据集；Niu等人基于AdvBench构建的AdvBench-M，将有害行为分为“炸弹制造”“自残”等8个语义类别，每个类别配对语义相关图像，形成多模态数据集，用于测试MLLMs的跨模态防御能力；Mao等人的TriJail则是首个三模态（文本、语音、图像）越狱数据集，包含1250个有害语音样本、1250个有害文本句子、150个有害图像，覆盖仇恨言论、暴力、隐私侵犯等6个场景，为多模态攻击研究提供了重要支撑。

表 2 不同越狱评估数据集中包含的数据样本

图 8. 不同越狱攻击方法在来自多个越狱评估数据集的各类分类数据上的性能表现。

尽管现有数据集已初具规模，但论文指出其仍存在三大局限：一是动态性不足，静态数据集难以跟上越狱技术的快速迭代，新攻击策略出现后，旧数据集很快失去评估价值；二是语言与文化局限，多数数据集以英文为主，对中文、低资源语言的覆盖不足，且缺乏区域特异性有害内容（如特定文化背景下的仇恨言论）；三是多模态与多轮场景覆盖少，现有数据集中单模态、单轮交互样本占比过高，难以模拟真实场景中多模态融合、多轮对话的复杂攻击。

2 评估指标：五大类方法各有优劣，多方法融合成趋势

由于越狱攻击的复杂性，单一评估指标难以全面衡量模型的安全性能。论文将当前主流评估指标分为五类，详细分析了各类方法的原理、优势与局限：

图 9. 评估指标的总体分类。现有越狱攻击评估指标大致可划分为五类，且每类指标均附有对应的参考文献。

（1）人工评估：精准但成本高，适合小规模验证

人工评估由专家或专业标注者对模型响应进行系统性审查，核心评估维度包括“越狱行为是否发生”“有害内容的严重程度”“执行可行性”“社会影响”。为确保准确性，论文中多数研究采用“多专家独立评分+争议仲裁”机制——例如，Yu等人、Shayegani等人的研究中，每个有害文本由4名专家独立评分，若4人一致判定为有害，则直接归类为“越狱成功”；若3人判定有害，则邀请资深 reviewer 进行最终决策。

优势：能捕捉语义模糊、语境依赖的有害内容，评估准确率最高，是其他自动评估方法的“黄金标准”。
局限：人力成本高、效率低，难以适应大规模数据集的评估需求；评估结果受标注者主观认知影响，存在个体差异。

（2）Perspective API评估：自动量化但适配性有限

Perspective API是Google开发的文本风险评估工具，可基于“毒性”“侮辱性”“仇恨性”等维度对文本进行量化评分（0-1分）。论文中通常以0.7为阈值：评分＞0.7表示“明确有害”，0.3-0.7表示“高风险”，＜0.3表示“良性”。例如，Shen等人用Perspective API评估JailbreakHUB中1405个prompt的毒性，Liu等人则用其验证adversarial图像诱导的文本输出风险。

优势：自动化程度高、评估速度快，可批量处理大规模文本数据。
局限：跨语言适配性差，对中文、低资源语言的有害内容识别准确率低；难以理解隐喻、反讽等 nuanced 表达，易出现误判；对长文本的评估准确性下降——长文本中有害内容占比低时，API可能低估整体风险。

（3）LLM评估：自动化强但存在“拒评”风险

LLM评估以高性能LLM（如GPT-4、Claude）为“评估者”，通过prompt工程引导其分析模型响应的“有害性”“政策违背程度”“越狱有效性”。例如，Chao等人用GPT-4对PAIR算法生成的越狱prompt进行评分，采用1-10分制，10分表示“明确有害且完全越狱”；Mao等人则让GPT-4对比JMLLM框架生成的多模态响应与安全标准，判断是否存在违规内容。

优势：兼顾自动化与语义理解能力，能处理复杂语境下的评估需求，评估效率高于人工。
局限：存在“拒评”风险——当模型响应包含极端有害内容（如恐怖主义指导、儿童性虐待材料）时，评估用LLM可能拒绝生成评分，导致评估中断；评估结果受prompt设计影响大，不同prompt工程策略可能导致评分差异。

（4）关键词词典评估：快速但依赖词典完整性

关键词词典评估基于预设的“敏感词库”或“拒绝模式词库”，通过模式匹配快速检测模型响应。常用的拒绝模式词包括“I’m sorry”“Sorry”“I apologize”“can’t”“I do not”等——若模型响应中出现这些词汇，则判定为“越狱失败”；反之则视为“可能越狱成功”。例如，Ding等人的ReNeLLM框架、Mao等人的JMLLM框架均采用该方法进行初步筛选，快速排除未成功越狱的样本。

优势：速度最快，可实现实时评估；计算成本低，无需复杂模型推理。
局限：严重依赖词典完整性——若词典未覆盖模型新的拒绝模式（如模型更新后改用“I cannot assist”替代“I’m sorry”），则会出现大量误判；无法识别“无关键词但语义有害”的内容（如用隐喻表达暴力指导）。

（5）自定义评估：针对性强但可比性差

为满足特定研究需求，研究者会设计定制化评估方案，通常整合“规则匹配”“语境分析”“交互反馈”等多种逻辑。论文中自定义评估按目标模型分为三类：

针对LLMs的自定义指标：例如，Yu等人提出“期望最大危害性（EMH）”与“越狱成功率（JSR）”——EMH计算“最坏情况下越狱输入的最大危害度”（取多次响应中危害评分的最大值再平均），JSR计算“超过危害阈值T的响应占比”，两者结合可全面反映LLMs的安全风险；Xiao等人则针对越狱模板的有效性，提出“Top-1 ASR（最优模板的攻击成功率）”与“Top-5 ASR（前5优模板的综合成功率）”。
针对MLLMs的自定义指标：例如，Yang等人评估SneakyPrompt框架时，提出“绕过率（Bypass Rate， adversarial prompt 成功规避安全过滤的比例）”“FID分数（评估生成图像与目标图像的语义相似度，分数越低越好）”“在线查询次数（寻找有效 adversarial prompt 所需的查询次数，越少越高效）”；Wang等人用Detoxify分类器计算MLLMs输出的毒性分数，对比不同多模态攻击方法的效果。
针对Agents的自定义指标：例如，Ju等人评估智能体知识污染攻击时，提出“准确性（Acc，攻击前后智能体回答正确性的变化）”“重述准确性（Rephrase，对同义不同形的prompt的防御鲁棒性）”“局部准确性（Locality，确保知识污染仅影响目标领域，不干扰无关知识）”；Chen等人的AGENTPOISON框架则用“检索攻击成功率（ASR-r，被污染记忆的检索比例）”与“行动攻击成功率（ASR-a，智能体执行恶意行动的比例）”衡量攻击效果。

优势：能精准匹配特定攻击场景的评估需求，评估结果的针对性最强。
局限：不同研究的评估逻辑、指标定义差异大，导致不同方法的评估结果难以直接对比，影响领域内的技术交流与进步。

表 3 按评估方法分类的各类越狱攻击方法在多种模型上的性能表现。注（为保证表格对齐）：A = 视觉语言助手模型（LLAVA）、B=LLAMA-ADAPTERV2 模型、C=O1-PREVIEW 模型、D=O1-MINI 模型、E=GEMINI-1.5 模型。

论文指出，当前研究已普遍采用“多方法融合”的评估策略——例如，先用关键词词典评估进行初步筛选，再用LLM评估批量处理，最后对高争议样本进行人工审核；或结合Perspective API的量化分数与人工评估的质性分析，既保证效率，又确保准确性。但构建“统一、标准化的评估框架”仍是未来的核心研究方向之一。

防御策略：从响应时机到技术手段，构建多层防护体系

针对越狱攻击的多样性，论文从“防御响应时机”与“技术手段”两个维度，对现有防御策略进行了体系化梳理，形成了覆盖“输入-输出-全流程”的多层防护框架。

图 10. 现有防御方法可从两个维度进行分类：防御响应时机与防御技术。这两个分类维度相互重叠且相互交叉。

1 按“防御响应时机”分类：输入、输出、联合防御各有侧重

防御响应时机指“防御机制介入模型交互流程的阶段”，据此可分为三类：

（1）输入防御：源头阻断，过滤恶意输入

输入防御在用户输入进入模型前启动，核心目标是“识别并修改恶意prompt，从源头阻止越狱攻击”。常用方法包括：

敏感prompt过滤：基于规则或模型检测输入中的恶意信号，直接拦截或修改。例如，LLM-Self-Defense框架让LLM先对输入进行“安全预审核”，若检测到潜在 adversarial prompt，则自动拒绝或修改（如替换敏感词汇）；SHIELD系统则通过N-gram语言模型与实时网页检索，检测输入是否涉及版权侵权，若存在侵权风险则阻止模型生成。
输入扰动与规范化：对输入进行微小修改，破坏adversarial prompt的攻击逻辑。例如，RA-LLM框架通过“随机删除输入的部分内容”，让依赖精确语义结构的adversarial prompt失效——实验显示，该方法可将攻击成功率从近100%降至10%以下；Backtranslation防御则将输入先翻译成其他语言再译回原语言，消除文本中的隐蔽 adversarial 扰动。

（2）输出防御：结果审核，拦截有害内容

输出防御在模型生成响应后启动，通过安全审查机制过滤或修正有害输出。例如：

输出风险检测：用分类模型或规则检测输出中的有害内容，若发现违规则替换为安全响应。例如，SELF-GUARD框架让模型在生成响应后，自动为输出添加“有害/无害”标签，若标记为有害，则触发安全过滤模块，输出“无法提供相关帮助”的标准化回复；Root Defence Strategy（RDS）则在解码阶段实时评估每个token的危害性，优先选择安全token，从生成过程中修正有害内容。
多模型交叉验证：用多个独立模型对输出进行一致性检测，若存在差异则进一步审核。例如，SelfDefend框架部署“影子LLM”与“目标LLM”——影子LLM专门检测输出的有害性，若发现风险，则阻断目标LLM的响应输出，实现“双保险”。

（3）联合防御：融合多阶段策略，提升整体鲁棒性

联合防御结合输入防御与输出防御的优势，同时在输入前、输出后部署防护机制，部分方案还加入“模型训练阶段的安全优化”，形成全流程防护。例如：

StruQ框架：输入阶段用“结构化查询”分离prompt与数据，防止恶意指令注入；训练阶段通过“结构化指令微调”，让模型仅执行合法prompt；输出阶段用规则检测确保响应合规，三层防护大幅降低prompt注入风险。
PsySafe框架：针对多智能体系统，输入阶段过滤有害内容；交互阶段通过“心理学干预”缓解智能体的“黑暗心理状态”（如攻击性倾向）；输出阶段基于角色权限控制，限制高风险行动（如外部系统调用），形成“输入-交互-输出”的全链路防御。

2 按“技术手段”分类：四类技术各有适用场景

从技术实现角度，论文将防御策略分为四类，详细阐述了各类技术的核心原理与典型案例：

（1）规则/启发式防御：基于人工规则，部署成本低

规则/启发式防御依赖手动定义的规则或经验性启发式方法，无需复杂模型训练，适合快速部署。典型案例包括：

关键词与正则匹配：基于预设的敏感词库、恶意prompt模板，用正则表达式匹配输入中的风险信号。例如，Chaos with Keywords策略通过检测“误导性关键词”（如“忽略安全规则”“开发者模式”），拦截试图绕过安全机制的prompt；JailGuard框架则用正则匹配识别“分段式prompt注入”（如将有害指令拆分为多段输入）。
困惑度（Perplexity）检测：利用“adversarial prompt通常语义不通、困惑度高”的特性，用辅助LLM计算输入的困惑度，若超过阈值则判定为攻击。例如，Perplexity Filter方法用GPT-2计算输入的困惑度，若分数高于预设值，则过滤该prompt，有效拦截“无意义字符组合”类的adversarial攻击。

优势：开发周期短、部署成本低，可快速应对已知攻击模式；
局限：对未知攻击、语义隐蔽的攻击（如隐喻、低资源语言攻击）防御能力弱，易被新攻击策略绕过。

（2）ML/DL防御：基于模型训练，鲁棒性更强

ML/DL防御利用机器学习或深度学习模型，通过训练数据学习攻击模式，提升对未知攻击的泛化能力。核心思路包括：

** adversarial 训练**：在训练数据中加入adversarial样本，让模型学习识别并抵抗攻击。例如，Deng等人的防御方案先通过攻击框架生成大量adversarial prompt，再用这些样本微调目标LLM，让模型逐渐学会拒绝此类输入；实验显示，经过多轮微调后，模型对已知adversarial攻击的防御成功率从30%提升至90%以上。
分类器训练：训练专门的分类模型检测adversarial prompt或有害输出。例如，Xiao等人微调DeBERTaV3-large模型作为“越狱检测器”，对输入prompt进行“攻击/正常”二分类，准确率达89.2%；SELF-GUARD则让LLM通过自监督学习，掌握“有害内容识别”能力，无需额外训练分类器，降低部署成本。

优势：能泛化到部分未知攻击，防御鲁棒性优于规则防御；
局限：需要大量标注训练数据，数据获取成本高；对训练数据中未覆盖的攻击类型（如新型多模态攻击）防御效果差。

（3）对抗检测防御：聚焦异常识别，适合黑盒场景

对抗检测防御不依赖攻击样本训练，而是通过分析“输入-输出”的异常模式，识别潜在攻击。典型方法包括：

响应一致性检测：对输入进行微小扰动（如同义词替换、语序调整），若模型响应的语义差异过大，则判定为攻击。例如，JailGuard框架生成18种输入变体（16种随机扰动、2种语义驱动扰动），计算模型对不同变体的响应差异（用KL散度衡量），若差异超过阈值，则标记为攻击输入。
行为模式分析：基于模型的正常行为基线，检测偏离基线的异常输出。例如，Mantis框架通过分析智能体的“工具调用频率”“外部系统访问路径”，识别异常行为——若智能体频繁调用未授权API、访问敏感数据库，则判定为“可能被越狱”，并触发主动防御（如暂时冻结工具权限）。

优势：无需攻击样本，适用于黑盒模型场景；能检测未知攻击模式，防御覆盖范围广；
局限：对“低扰动攻击”（如微小语义修改的prompt）识别灵敏度低；正常行为基线的构建依赖大量历史数据，在新场景中适应性差。

（4）混合策略防御：整合多技术优势，应对复杂攻击

混合策略防御融合两种及以上技术手段，通过优势互补提升防御能力，是当前应对复杂越狱攻击的主流方向。典型案例包括：

RA-LLM + Perplexity Filter 组合：输入阶段先用RA-LLM随机删除部分输入内容，破坏adversarial prompt的结构；再用Perplexity Filter计算输入困惑度，过滤高风险样本。实验显示，该组合可将MLLMs的 adversarial 图像攻击成功率从85%降至12%以下，显著优于单一防御技术。
SELFDEFEND + 规则过滤组合：输出阶段先用SelfDefend的“影子LLM”检测有害内容，若未发现风险，再通过规则过滤验证（如关键词匹配）；双重检测既避免了影子LLM的“拒评”问题，又弥补了规则过滤的语义理解不足，防御准确率提升至94%。

优势：兼顾检测范围、准确率与泛化能力，能应对多模态、多轮交互等复杂攻击场景；
局限：技术实现复杂，需要协调不同防御模块的逻辑；部署成本高，对计算资源要求较高。

论文特别指出，当前防御策略仍存在三大挑战：一是多模态防御能力不足，多数防御机制针对文本模态设计，对“图像+文本”“音频+文本”的跨模态攻击识别率低；二是智能体防御滞后，现有方案难以应对Agents的“任务规划篡改”“工具调用劫持”等新型攻击，尤其是多智能体交互中的连锁风险；三是防御与能力的平衡难，部分防御策略（如过度过滤）会导致模型“拒答率过高”，影响正常功能使用（如合法的技术咨询被误判为有害请求）。

现存局限与未来方向：大模型安全研究的“攻坚点”

尽管LLMs-MLLMs-Agents的越狱攻击与防御研究已取得显著进展，但论文通过对比100余篇相关研究，指出当前领域仍存在四大核心局限，并针对性提出未来研究方向，为后续工作提供了清晰的“攻坚路线图”。

1 四大核心局限：从数据集到攻防技术的全面瓶颈

（1）数据集局限：多样性、模态覆盖与动态性不足

如前文所述，现有数据集的局限已成为制约研究进展的关键瓶颈：一是语义空间覆盖不全，搜索引擎检索数据模式僵化，LLM生成数据毒性不足，人工制作数据规模有限，导致数据集难以覆盖全部有害语义场景；二是模态失衡，文本模态占比超80%，图像、音频模态样本较少，视频、生物信号（如EEG、心率）等新兴模态几乎空白；三是动态更新机制缺失，多数数据集发布后不再更新，无法适配GCG、JMLLM等新型攻击策略的评估需求。

（2）评估方法局限：缺乏统一标准，可比性差

当前评估体系存在三大问题：一是指标定义混乱，不同研究对“越狱成功”的判定标准不一致（如部分研究以“生成有害词汇”为标准，部分以“提供可执行步骤”为标准）；二是评估框架不统一，自定义评估方法占比超60%，导致不同攻击/防御方法的性能难以直接对比（如A方法在AdvBench上的成功率为80%，B方法在TriJail上的成功率为75%，无法判断两者优劣）；三是真实场景模拟不足，现有评估多基于单轮、单一模态输入，缺乏对多轮对话、多智能体交互等真实场景的模拟，评估结果的实用价值有限。

（3）攻击技术局限：泛化性差，智能体攻击研究不足

越狱攻击技术的局限主要体现在两方面：一是泛化能力弱，多数攻击方法针对特定模型（如GPT-3.5）或特定模态（如文本）设计，换用模型（如Gemini）或增加模态（如文本+图像）后，攻击成功率大幅下降。例如，GCG在GPT-3.5上的攻击成功率达90%，但在GPT-4V上仅为35%；二是智能体攻击深度不足，现有研究多聚焦于“诱导Agents生成有害文本”，对“篡改任务规划”“劫持工具调用”“污染记忆系统”等核心攻击路径的探索较少，且未形成针对多智能体交互的攻击框架。

（4）防御技术局限：被动响应，多模态与智能体防御薄弱

防御技术的瓶颈更为突出：一是被动防御为主，90%以上的防御策略是“针对已知攻击设计补丁”，如检测GCG生成的 adversarial 后缀、拦截特定格式的prompt注入，对未知攻击的“预判与主动防御”能力几乎为零；二是多模态防御适配差，现有防御机制难以处理“图像中的隐藏文本”“音频中的情感操纵”等跨模态攻击，例如，对抗性图像可轻松绕过文本安全过滤，诱导MLLMs生成有害内容；三是智能体防御体系缺失，针对Agents的规划模块、记忆系统、工具接口的防御技术极少，多智能体系统的“连锁风险防御”更是处于空白状态。

2 五大未来方向：从技术突破到伦理规范的全面布局

针对上述局限，论文结合当前技术趋势，提出五大未来研究方向，涵盖数据集构建、技术创新、伦理规范等多个维度：

（1）构建动态、多模态、多语言数据集

未来数据集研究需聚焦三大目标：一是动态更新机制，建立“攻击技术-数据集”联动更新体系，当新攻击策略出现后，自动生成对应样本并补充到数据集中（如基于LLM自动生成新型adversarial prompt）；二是拓展模态覆盖，重点构建视频模态（如含暴力场景的短视频片段）、生物信号模态（如含情绪操纵的心率数据）数据集，填补多模态攻击研究的空白；三是强化语言与文化多样性，增加中文、阿拉伯语等多语言样本，收录区域特异性有害内容（如特定文化背景下的歧视性言论），提升数据集的全球适用性。

（2）优化评估框架，建立统一标准

评估框架的优化需从三方面入手：一是制定统一指标定义，由领域内研究者共同制定“越狱成功”“有害程度”等核心指标的量化标准（如“有害程度”可细分为“言语暴力”“物理伤害指导”“隐私侵犯”等子维度，每个子维度设定0-5分的评分规则）；二是构建通用评估平台，开发支持多模态、多轮交互、多智能体场景的评估工具，集成AdvBench、TriJail等主流数据集，提供“一键式”评估服务，实现不同方法的性能对比；三是引入真实场景测试，与企业合作搭建“模拟真实环境”的测试平台（如模拟客服对话、智能办公系统），评估攻击/防御方法在实际应用中的效果。

（3）突破攻击技术泛化性，深耕智能体攻击

攻击技术研究需向两个方向深化：一是提升泛化能力，开发“跨模型、跨模态”的通用攻击框架，例如，基于“模态无关特征”（如语义不一致性、情感操纵）设计攻击策略，使其在LLMs、MLLMs、Agents上均能有效生效；二是深耕智能体攻击路径，重点研究“记忆污染攻击”（如通过多轮对话污染Agents的长期记忆）、“工具劫持攻击”（如诱导Agents调用未授权API）、“多智能体传播攻击”（如让一个被越狱的Agent感染其他Agent），并构建针对智能体的攻击评估基准。

（4）研发主动防御技术，强化多模态与智能体防御

防御技术的创新需聚焦三大核心：一是主动防御机制，通过“攻击预测”“异常行为建模”实现对未知攻击的预判。例如，基于历史攻击数据训练攻击预测模型，当检测到类似攻击特征时，提前启动防御；二是多模态防御融合，开发“跨模态风险检测”技术，如将图像中的文字提取后与文本输入联合检测，音频中的情感特征与语义内容协同分析，提升对多模态攻击的识别率；三是智能体防御体系构建，针对Agents的四大组件（核心、规划、工具、记忆）设计专项防御：核心模块加入“安全对齐校验”，规划模块增加“任务合理性检测”，工具接口部署“权限控制与行为审计”，记忆系统引入“污染检测与清理机制”，同时建立多智能体交互的“风险传播阻断”技术。

（5）重视伦理与监管，平衡安全与创新

大模型安全研究离不开伦理与监管的支撑：一是建立伦理审查机制，制定越狱研究的伦理准则，明确“禁止生成真实有害内容”“保护用户隐私”“避免技术滥用”等底线要求，例如，在数据集构建中，用虚拟案例替代真实有害事件，在攻击测试中，限制模型访问真实外部系统；二是推动行业监管规范，联合政府、企业、科研机构制定大模型安全标准，如“防御能力评估指标”“安全漏洞披露流程”，避免恶意攻击者利用研究成果危害社会；三是平衡安全与创新，在强化防御的同时，避免过度限制模型能力，例如，通过“分级防御”策略，对低风险场景（如个人学习）适当放宽限制，对高风险场景（如金融、医疗）严格防护，实现安全与用户体验的平衡。

总结：大模型安全研究进入“全链路防御”时代

从LLMs的文本越狱，到MLLMs的多模态攻击，再到Agents的自主决策篡改，大模型安全风险的演进速度远超预期。这篇综述通过系统性梳理，不仅清晰呈现了当前越狱攻击与防御的技术现状，更揭示了“攻击面随模型能力扩张而扩大”的核心规律——模型越复杂、越智能，安全挑战就越严峻。

对于研究者而言，论文提供的“攻击影响-攻击者权限”分类框架、“响应时机-技术手段”防御体系，以及数据集与评估指标的详细分析，是开展后续研究的重要参考；对于企业而言，文中总结的防御策略（如RA-LLM的输入扰动、SelfDefend的双模型验证）可直接应用于实际产品，提升大模型的安全性能；对于政策制定者，论文指出的伦理风险与监管需求，为制定大模型安全规范提供了科学依据。

未来，大模型安全研究将不再是“单一攻击与防御的对抗”，而是进入“全链路、多模态、多智能体协同防御”的新时代。只有突破数据集、评估方法、攻防技术的现有瓶颈，同时兼顾伦理与监管，才能构建真正 robust 的大模型生态，让人工智能在安全、可控的前提下，为社会创造更大价值。

#AI教父Hinton诺奖演讲首登顶刊

拒绝公式，让全场秒懂「玻尔兹曼机」

想象一下，如果机器也能做梦，它们的梦境会是什么样子？诺奖得主 Hinton 详解玻尔兹曼机：从霍普菲尔德网络到受限玻尔兹曼机，再到堆叠 RBM，Hinton 回顾了神经网络如何模拟大脑「做梦」来学习，揭示了深度学习背后的“历史催化剂”。

2024年12月8日，诺贝尔物理学奖得主Hinton登台，发表了题为《玻尔兹曼机》的演讲。

当时，斯德哥尔摩大学Aula Magna礼堂内座无虚席，全球目光都集聚于此。

他深入浅出地分享了，自己与John Hopfield利用神经网络，推动机器学习基础性发现的历程。

如今，Hinton这个演讲的核心内容，于8月25日正式发表在美国物理学会（APS）期刊上。

论文地址：https://journals.aps.org/rmp/pdf/10.1103/RevModPhys.97.030502

1980年代，并存两种颇具前景的梯度计算技术——

一种是，反向传播算法，如今成为了深度学习核心引擎，几乎无处不在。

另一种是，玻尔兹曼机器学习算法，现已不再被使用，逐渐淡出人们的视野。

这一次，Hinton的演讲重点，就是「玻尔兹曼机」。

一开场，他幽默地表示，自己打算做一件「傻」事，决定在不使用公式的情况下，向所有人解释复杂的技术概念。

霍普菲尔德网络--找到能量最低点

什么是「霍普菲尔德网络」（Hopfield Network）？

Hinton从一个简单的二进制神经元网络入手，介绍了「霍普菲尔德网络」的核心思想。

每个神经元只有1或0两种状态，最重要的是，神经元之间通过对称加权连接。

整个神经网络的全局状态，被称为一个「配置」（configuration），并有一个「优度」（goodness）。

其「优度」是由所有活跃神经元之间权重的总和决定，如上图所有红色方框，权重加起来等于4。

这便是该网络配置的优度，而能量（energy）是优度的负值。

「霍普菲尔德网络」的全部意义在于，每个神经元通过局部计算决定如何降低能量。

在这里，能量就代表「劣度」（badness）。因此，开启还是关闭神经元，全凭总加权输入的「正负」。

通过不断更新的神经元状态，网络最终会稳定在「能量最低点」。

但它并非是唯一的能量低点，因为「霍普菲尔德网络」可以有很多能量最低点，最终停留在哪一点，取决于起始状态，也取决于更新哪个神经元的随机决策序列。

如下，便是一个更优的能量最低点。开启右边神经网络，其优度是3+3-1，能量为-5。

「霍普菲尔德网络」的魅力在于，它可以将能量最低点与记忆关联起来。

Hinton生动地描述道，「当你输入一个不完整的记忆片段，然后不断应用二进制决策规则，网络就能补全完整记忆」。

因此，当「能量最低点」代表记忆时，让网络稳定到能量最低点的过程，就是实现所谓的「内容可寻址存储」。

也就意味着，仅激活项目一部分访问存储器中的某个项目，然后运用此规则后，网络就会将其补全。

不仅记忆存储，还能解释「感官输入」

接下来，Hinton进一步分享了，自己与Terrence Sejnowski（霍普菲尔德学生）对「霍普菲尔德网络」的创新应用——

用它来构建对感官输入的解释，而不仅仅是存储记忆。

他们将网络分为了「可见神经元」和「隐藏神经元」。

前者接收感官输入，比如一幅二进制图像；后者则用于构建对该感官输入的解释。网络的某个配置的能量，代表了该解释的劣度，他们想要的是一种低能量的解释。

Hinton以一幅经典的模棱两可的线条画——内克尔立方体（Necker cube）为例，展示了网络如何处理视觉信息的复杂性。

如下这幅画，有的人会将其看作是「凸面体」，有的人会看到的是「凹面体」。

那么，我们如何让神经网络，从这一幅线条画中得出两种不同的解释？在此之前，我们需要思考的是：图像中的一条线，能告诉我们关于三维边缘的什么信息？

视觉诠释：从2D到3D

想象一下，你正透过一扇窗户看向外面的世界，然后在玻璃上，把看到的景物轮廓描绘出来。

这时候，窗上的那条黑线，其实就是你画出来的一条边。

而那两条红线呢，就是从你眼睛出发，穿过这条黑线两端的视线。

那么问题来了：现实世界中，到底是什么样的边缘形成了这条黑线？

其实可能性非常多，所有不同的三维边缘，最终都会在图像中产生同样的线条。

所以，视觉系统最头疼的是，怎么从这一条二维的线反推回去，判断现实中，到底那条边才真正存在？

为此，Hinton和Sejnowski设计了一个网络，可以将图像中的线条，转化为「线神经元」的激活状态。

然后，通过兴奋性连接与代表「三维边缘神经元」相连（绿色），并让其相互抑制，确保一次只激活一种解释。

如此一来，就体现了许多感知光学方面的原理。

接下来，Hinton又将此方法应用于所有的神经元，问题是，应该激活哪些边缘神经元呢？

要回答这个问题，还需要更多信息。

人类在诠释图像时，都会遵循特定的原理。比如，两条线相交，假设它们在三维空间中，也在同一点相交，且深度相同。

此外，大脑往往倾向于将物体视为直角相交。

通过合理设置连接强度，网络可以形成两个稳定的状态，对应「内克尔立方体」的两种三维诠释——凹面体和凸面体。

这种视觉诠释方法，又带来了两个核心问题：

搜索问题：网络可能陷入局部最优，停留在较差的解释上，无法跳到更好的解释
学习问题：如何让网络自动学习连接权重，而不是手动设定

搜索问题：带噪声神经元

对于「搜索问题」，最基本的解决方法——引入带有噪声的神经元，即「随机二进制神经元」。

这些神经元状态为「二进制」（要么是1，要么是0），但其决策具有很强的概率性。

强的正输入，就会开启；强的负输入，就会关闭；接近零的输入则引入随机性。

噪声可以让神经网络「爬坡」，从较差的解释跳到更好的解释，就像在山谷间寻找最低点。

玻尔兹曼分布+机器学习

通过随机更新隐藏神经元，神经网络最终会趋近于所谓的「热平衡」（thermal equilibrium）。

一旦达到热平衡，隐藏神经元的状态就构成了对输入的一种诠释。

在热平衡下，低能量状态（对应更好解释）出现概率更高。

以内克尔立方体为例，网络最终会倾向于选择更合理的三维诠释。

当然，热平衡并非系统停留在单一状态，而是所有可能配置的概率分布稳定，遵循着玻尔兹曼分布（Boltzmann distribution）。

在玻尔兹曼分布中，一旦系统达到热平衡，其处于某个特定配置的概率，完全由该配置的能量决定。

并且，系统处于低能量配置的概率会更高。

要理解热平衡，物理学家们有一个诀窍——你只需想象一个由海量相同网络组成的巨大「系综」（ensemble）。

Hinton表示，「想象无数相同的霍普菲尔德网络，各自从随机状态开始，通过随机更新，配置比例逐渐稳定」。

同样，低能量配置，在「系综」中占比更高。

总结来说，玻尔兹曼分布的原理在于：低能量的配置远比高能量的配置更有可能出现。

而在「玻尔兹曼机」中，学习的目标，就是要确保当网络生成图像时，本质上可以称为「做梦、随机想象」，这些与它在「清醒」时感知真实图像所形成的印象相吻合。

若是可以实现这种吻合，隐藏神经元的状态，便可以有效捕捉到图像背后的深层原因。

换句话说，学习网络中的权重，就等同于弄清楚如何运用这些隐藏神经元，才能让网络生成出看起来像真实世界的图像。

「玻尔兹曼机」学习算法

针对如上「学习问题」，Hinton与Sejnowski在1983年，提出了「玻尔兹曼机学习算法」进而解决了权重调整问题。

论文地址：https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf

该算法主要包含了两个阶段：

清醒阶段：向网络呈现真实图像。将一幅真实图像「钳位」到可见单元上，然后让隐藏单元演化至热平衡。对同时开启的神经元对，增加连接权重。
睡眠阶段：让网络自由「做梦」。所有神经元随机更新至热平衡。对同时开启的神经元对，减少连接权重。

这一简单的算法，通过调整权重，提高了神经网络在「做梦」时生成的图像与「清醒」时感知图像之间的相似度。

学习过程的本质，就是在降低网络在清醒阶段，从真实数据中推导出的配置所对应的能量。

与此同时，提高它在睡眠阶段自由生成的配置所对应的能量。

正如Hinton所言，「你本质上是在教导这个网络：要相信清醒时所见，而不信睡梦中所梦」。

核心创新：相关性差异

如上所见，「玻尔兹曼机」的最大亮点在于，权重调整所需的信息都蕴含在两种相关性差异中——

网络在「清醒」（观察真实数据）时两个神经元共同激活的频率，与当网络自由「做梦」时，它们共同激活的频率，这两者之间的差异。

令人惊叹的是，这两种相关性差异，足以告诉某个权重关于所有其他权重的一切信息。

与反向传播（backpropagation）算法不同，「玻尔兹曼机」无需复杂的反向通路传递「敏感度」——一种完全不同的物理量信息。

「反向传播」算法依赖的是，前向通路传递神经元活动，反向通路传递敏感度；「玻尔兹曼机」仅通过对称连接性和相关性差异完成学习。

然而，「玻尔兹曼机」的最大瓶颈是——速度。

当权重较大时，达到热平衡极其缓慢，若是权重很小，这个过程才得以加速完成。

整整17年后，Hinton突然意识到，通过消除隐藏单元之间的连接来对「玻尔兹曼机」进行限制，就可以得到一个快得多的学习算法。

由此，受限玻尔兹曼机（RBM）诞生了。

这一方法将输入「钳位」在可见单元上，大幅简化了「清醒」阶段的计算，仅需一步即可达到热平衡。

不过，「睡眠」阶段仍需要多次迭代，才能达到热平衡。

为此，Hinton引入了「对比散度」（contrastive divergence）的方法，通过以下步骤实现了加速学习：

将数据输入可见单元。
并行更新所有隐藏神经元，使其与数据达到平衡。
更新所有可见单元以得到一个「重构」版本。
再次更新所有隐藏神经元。
停止。

「受限玻尔兹曼机」也在实践中取得了显著成果。

比如，Netflix公司曾使用RBM，根据用户偏好推荐电影，并赢得了用户偏好预测大赛。

然而，仅靠彼此不相连的隐藏神经元，是无法构建出识别图像中的物体/语音中，单词所必需的多层特征检测器。

为此，2006年，Hinton进一步提出了「堆叠RBM」的方法。

堆叠RBM

通过以下三步，就可以实现堆叠RBM：

用数据训练一个RBM。
将该RBM的隐藏层激活模式作为数据，用于训练下一个RBM。
持续这个过程，以捕捉日益复杂的关联。

在堆叠了这些玻尔兹曼机之后，可以将它们视为一个前馈网络，忽略其对称连接，只使用单向的连接。

由此，这创建了一个特征的层级结构：

第一隐藏层：捕捉原始数据中相关性的特征。
第二隐藏层：捕捉第一层特征之间相关性的特征。
以此类推，创建出越来越抽象的表示。

等所有堆叠完成后，可以再添加一个「最终层」进行监督学习，比如分类猫和狗的图像。

这时，神经网络展现出两大优势——

学习速度远超随机初始化：因其在预训练中，已学习到了用于建模数据结构的合理特征。
网络的泛化能力也更好：大部分学习在无监督情况下进行，信息从数据相关性中提取。

历史的「酶」

2006-2011期间，Hinton、Bengio、LeCun等实验室研究人员，都在使用「堆叠RBM」预训练前馈神经网络，然后再进行反向传播微调。

直到2009年，Hinton的学生George Dahl和Abdel-rahman Mohamed证明：

「堆叠RBM」在识别语音中的音素片段方面，效果显著由于当时所有的方法。

这一发现，彻底改变了整个语音识别领域。

到了2012年，基于「堆叠RBM」的系统，在谷歌安卓设备上大幅改善了语音识别性能。

论文地址：https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38131.pdf

然而，不幸的是，一旦证明了「堆叠RBM」预训练的深度神经网络的潜力，研究人员很快开发了其他初始化权重的方法。

于是，「玻尔兹曼机」逐渐退出历史主流。

最后，Hinton做了一个非常生动形象的比喻：

但如果你是化学家，你就会知道「酶」是非常有用的东西。

「玻尔兹曼机」就像化学中「酶」，催化了深度学习的突破，一旦完成这个转变，酶就不再被需要。

所以，不妨把它们看作是「历史的酶」。

不过，Hinton认为，利用「睡眠」阶段的「反学习」（unlearning），从而得到一个更具生物学合理性、避免反向传播的非对称通路的算法。

到目前为止，他依旧坚信：有一天搞明白大脑如何学习的时候，一定会发现，睡眠中「反学习」绝对是关键一环。

参考资料：

https://singjupost.com/transcript-of-nobel-prize-lecture-geoffrey-hinton-nobel-prize-in-physics-2024/

https://journals.aps.org/rmp/abstract/10.1103/RevModPhys.97.030502

https://www.nobelprize.org/uploads/2024/12/hinton-lecture-1.pdf

#PosterGen

告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报

许多研究者在参加学术会议前，常常会因为制作海报所耗费的大量时间和精力而感到困扰。一张精心设计的海报是高效的学术交流媒介，但现有自动化方法普遍忽略了核心设计原则，导致生成的海报仍旧需要大量人工调整。

为解决这一痛点，来自纽约州立大学石溪分校、纽约大学、不列颠哥伦比亚大学和浙江大学的联合团队推出了 PosterGen，一个能将论文 PDF 直接转化为设计精良、完全可编辑的 PPTX 格式学术海报的多智能体框架。

论文标题：PosterGen: Aesthetic-Aware Paper-to-Poster Generation via Multi-Agent LLMs
论文地址：https://arxiv.org/abs/2508.17188
代码地址：https://github.com/Y-Research-SBU/PosterGen
项目主页：https://Y-Research-SBU.github.io/PosterGen

PosterGen 的核心创新在于：

通过模拟专业设计师工作流的多智能体协作架构，将复杂且依赖创意的设计任务进行了系统性的分解与执行；
构建了一条从论文 PDF 直达可编辑 PPTX 海报的端到端工作流，使研究者从耗时费力的海报设计工作中解放，专注于学术交流的核心价值；
建立了一套遵循核心设计原则的自动化流程，打造出首个在视觉美学和版式规范上，能与人类设计的海报相媲美的自动化生成效果。

case 1：

case 2：

case 3：

深度嵌入框架的四大核心设计原则

PosterGen 能够生成高品质海报的核心要素在于，它并非简单地堆砌内容，而是将专业设计师的美学知识和设计策略，转化为 AI 可理解和执行的四大核心原则。

叙事结构（Narrative）：一张好的海报必须逻辑清晰。PosterGen 采用科学写作中经典的「And, But, Therefore」（ABT）叙事结构。它首先建立研究背景（And），接着点明问题与挑战（But），最后呈现解决方案与成果（Therefore），以此构建出一条引人入胜的逻辑线索，引导观众快速理解研究核心。

空间布局（Layout Structure）：为确保信息传递的秩序感，PosterGen 采用专业且高效的三栏式网格布局。这种布局能够保证自然的阅读流，确保第一时间抓住观众的注意力的同时，提供一定的视觉喘息。同时，通过对留白（White Space）的有效运用，清晰地分离各个内容模块，减少视觉混乱感。

色彩方案（Color Design）：色彩在视觉传达中扮演着建立层次和确保可读性的关键角色。PosterGen 采用一套克制的主题单色调配色方案，以维持视觉的和谐统一。该颜色方案由主题色、用于背景的单色变体以及用于高亮的高对比度强调色构成。所有文本的色彩应用都严格遵守 WCAG 4.5:1 的对比度标准，以保证在标准观看距离下的可读性。

版式层级（Typography Design）：字体设计与色彩协同工作，用来构建信息的清晰度。PosterGen 优先选用易读的无衬线字体，并建立两类层级：（1）利用不同字号区分标题、正文等的视觉层级；（2）通过粗体、斜体和强调色等格式来构建关键词的语义层级，共同确保信息传递的高效与精准。

图 1 PosterGen 多智能体框架概览

PosterGen 的工作流由四个协同工作的专业智能体（或模块）构成，系统性地将设计原则贯穿于海报生成的每一个环节，环环相扣、各司其职，让学术海报的自动化生成拥有了接近人类设计师的「审美与灵感」。

内容解析与策划（Parser and Curator Agents）

该阶段主要功能是一次「智能化的故事重构」。Parser Agent 负责从原始 PDF 论文中提取所有文字与视觉元素（如图表），而 Curator Agent 则像一个「叙事导演」，按照 ABT 结构（And, But, Therefore），将复杂的论文内容转化为简明扼要的故事板，为后续设计奠定叙事骨架。

空间布局生成（Layout Agent）

Layout Agent 负责将概念性的故事板转化为精确的空间布局，在一个标准的三栏式画布上，系统地放置每一个内容元素。这种结构被广泛证明能有效确保自然的阅读流，并通过将关键视觉元素策略性地放置在视平线的「热区」（如中间列顶部），构成视觉锚点以吸引观众。

图 2 PosterGen 所采用的基本布局框架

为实现元素间的精准间距控制，Layout Agent 还将留白（white space）视为关键的设计元素。它实现了一个类似 CSS 的盒模型（box model），为每个内容元素（文本、图片、表格）封装独立的「外边距」和「内边距」属性，从而对元素周围的间距进行精细化控制。

图 3 类 CSS 的盒模型布局方法

由于不同系统的渲染引擎的差异，精确计算文本框的高度是 PPTX 自动化布局中的一个核心挑战。为此，研究团队提出了一种优化的估算算法，该算法通过二分搜索来确定避免字体大小被自动缩减的最小文本框高度，并结合换行符进行偏移校正，以精准预测最终渲染高度，从而有效避免了令人头疼的内容溢出与浪费空间。

图 4 文本高度估算算法伪代码

视觉风格化（Stylist Agents）

此阶段是 PosterGen 实现「美学设计」的关键，由两个智能体组成：

色彩智能体（Color Agent）会自动提取机构 Logo 或关键图像中的主题色，再结合色彩理论生成一套专业调色板：主题色、单色变体与高对比度强调色，既保证美观，也严格遵守 WCAG 对比度标准，做到「美且易读」。

图 5 学术海报智能色彩生成方案

字体智能体（Font Agent）则负责构建清晰的视觉层级和语义层级，让标题、正文、关键词各有视觉上的分工，重点信息用粗体、斜体或强调色加以突显，让观众的目光「不由自主」被引导。

图 6 学术海报字体样式设计方案

海报渲染输出（Renderer）

最后，Renderer 模块将所有风格与布局信息精准落地，并调用 python-pptx 库生成完全可编辑的 PPTX 格式的学术海报，并自动生成高分辨率的 PNG 图像，供用户查阅和使用。生成的结果能够直接用于学术会议现场，达到演示级别的水准。

实验评估与结果

为了证明 PosterGen 的「美学驱动」确实有效，研究团队引入了一套基于视觉语言模型（VLM）的综合性评估标准（VLM-as-Judge），从内容和设计两大维度对生成结果进行评分。

图 7 定量实验结果

图 8 案例研究对比结果

实验结果证明了 PosterGen 框架的有效性：

定量结果表明，PosterGen 在内容保真度上与当前 SOTA 方法（PosterAgent）相当，但在所有设计与美学指标上均取得了显著且一致的提升，尤其在「主题一致性」、「风格层次」、「字体可读性」等维度上实现了压倒性领先。
定性对比同样印证了优势：相比之下，直接使用文生图模型的 GPT-4o 存在内容幻觉和文本乱码问题；而 SOTA 方法（PosterAgent）则在布局上存在元素重叠、阅读流不自然等缺陷，而 PosterGen 的结果在海报布局结构、视觉层次和整体美感上表现出色。

图 9 消融实验结果

消融实验进一步证明了 PosterGen 各核心智能体设计的必要性。结果显示：

仅有 Curator Agent 生成的初始故事板缺乏空间规划，导致布局混乱、内容溢出；
Layout Agent 的介入成功解决了这些空间缺陷，实现了均衡的列布局；
Stylist Agents 的应用则为海报注入了最终的视觉美感，通过和谐的色彩与分层的字体设计，极大地提升了海报的专业性和吸引力。

这一过程清晰地展示了每个智能体在从内容到最终设计成品转化过程中的不可或缺的贡献。

总结与意义

PosterGen 不仅是又一个自动化工具，而是一次对「设计智能体」未来形态的大胆探索。它让学术海报自动生成真正跨越了从「能用」到「好用」、再到「够美」的门槛。

这一框架不仅极大地减轻了研究者的负担，更展示了多智能体系统在「逻辑与创意融合任务」上的巨大潜力。对科研人员来说，PosterGen 意味着：从此再也不用被海报设计困住，可以把宝贵的精力完全放在学术会议中的科研与交流上。

#一张破涂鸦竟能秒变迪士尼动画

又多了一个哄孩子AI神器

家长直呼太香了！

年轻父母又多了一个哄小孩法子。

前段时间，博主 Rory Flynn 在 X 上发了个帖子，说他妈妈发来一张 30 年前的涂鸦画，他反手就用 Midjourney 做成了「妈妈拿彩虹木勺大战巨龙」动画。

虽然有点粗糙，但整体效果还不错，完美还原了童年那种天马行空、乱七八糟的想象力。

，时长00:11

他还附上了提示词：

We crash zoom into an immersive scene, where a mother holding a magical wooden spoon is fighting off a ferocious dragon with intense cinematic action.（我们快速推镜进入一个沉浸式场景，一位母亲手握魔法木勺，正与一条凶猛的巨龙激烈战斗，充满强烈的电影感。）

并总结了提示词框架「we crash zoom into an immersive scene, [subject + action], intense cinematic action」，照葫芦画瓢即可。

我们也试了下，上传一张网友小时候的墙上涂鸦照，输入提示词：we crash zoom into an immersive scene,Three little people are happily dancing,intense cinematic action.（我们快速推镜进入一个沉浸式场景，三个小人开心地跳着舞，充满强烈的电影感。）

即梦立马将涂鸦中的三个小人活灵活现地呈现出来，动作自然流畅，没有出现画面崩坏或者卡顿的现象。

，时长00:05

我们还可以在生成视频后点击 AI 配乐按钮，选择根据画面自动配乐或自定义 AI 配乐，即梦就能一口气生成三首符合画面风格的曲子。

以下就是即梦根据画面自动配乐的效果：

，时长00:05

我们又派出了谷歌 Veo3，直接在谷歌 Gemimi 网页选择 Tools-Greate video with Veo 使用即可。

链接：https://gemini.google.com/

Veo3 的优势在于，它能够让音视频一锅出，尽管这三个小人最后变了模样，但整体效果毫无违和感，竟有种卡通电影片头的 feel。

，时长00:08

再来一个，提示词：we crash zoom into an immersive scene,the child is walking briskly with a lotus leaf in hand, while the snail crawls slowly behind,intense cinematic action.（我们快速推镜进入一个沉浸式场景，小孩拿着荷叶大步向前走，身后的蜗牛慢慢蠕动。）

即梦生成的动画效果相当治愈，它能够精确地捕捉角色的动作轨迹，小女孩手臂摆动和步伐配合得恰到好处，没有出现同手同脚的不协调现象，也没有出现多胳膊少腿儿的错误。

，时长00:05

即梦生成无音效效果👆

如果想给视频加上音效，与前文操作一样，只需点击「AI 音效」按钮即可自动生成。

，时长00:05

即梦生成有音效效果👆

与 Veo3 一样，现在可灵也能自动让视频和音频同步生成了，这一进步简化了视频创作的流程，减少传统视频制作中分别处理音频和视觉效果的繁琐操作。

，时长00:05

可灵生成效果👆

，时长00:07

谷歌 Veo3 生成效果👆

总体来看，即梦、可灵和 Veo3 都能够在较短时间内完成视频和音频内容的生成。

在音频生成效果方面，Veo3 在清晰度和同步性上表现得更为成熟，能够较好地处理多层次的音效和画面同步；即梦和可灵在复杂或动态场景中同样能够实现音效与动作的同步，尽管音效的清晰度和丰富度上还有一定的提升空间，但整体表现也还不错。

之前我们还介绍过 Meta 出品的一款神器 ——Animated Drawings，可以让涂鸦立马变成动画。

链接：https://sketch.metademolab.com/

其玩法也很简单，访问上述链接，上传图片。

为了保证最佳生成效果，上传的图片最好满足以下要求：

图片中的主角，胳膊和腿儿不能与身体重叠；
确保角色绘制在干净、没有线条、皱纹或撕裂的白纸上。
图片画质要清晰，主角不能过小，不要有阴影，给涂鸦拍照时可以保持相机距离较远，并放大画作。
不要使用任何可识别信息、冒犯性内容或侵犯他人版权的图画。

AI 会自动识别角色，并用方框将其围起来，调整方框的大小以确保它紧贴角色。

然后，AI 自动分离角色与背景，如果 AI 无法正确识别，我们还可以用「钢笔」和「橡皮擦」按钮手动微调；若是胳膊、腿粘在一起，也使用橡皮擦工具将它们分开。

标记角色关节，方便下一步通过运动捕捉数据制作动画。如果角色没有胳膊，则将肘部和腕部的关节点拖远，它仍然可以制作动画。

最后，我们使用官方提供的 32 种动画模版，让角色动起来，包括走、跑、跳以及其他各种奇葩的姿势。

来看看效果：

，时长00:54

小朋友们快去体验一波吧。

工具链接：

可灵：

https://app.klingai.com/cn/

即梦：

https://jimeng.jianying.com/ai-tool/home/

Veo3：

https://gemini.google.com/

Animated Drawings：

https://sketch.metademolab.com/

#Vision-Language-Action, VLA

VLA年度重磅综述：哈工大（深圳）系统梳理大型VLM驱动的机器人操作模型

论文标题：Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey
作者：Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie
机构：哈尔滨工业大学（深圳）
论文地址：https://arxiv.org/abs/2508.13073
项目地址：https://github.com/JiuTian-VL/Large-VLM-based-VLA-for-Robotic-Manipulation

引言

机器人操作是xx人工智能（Embodied AI）的关键前沿，它要求机器具备精准的运动控制和复杂的多模态理解能力。然而，传统的机器人技术在面对非结构化、充满变化的真实世界环境时，往往显得力不从心。近年来，随着大型视觉-语言模型（Large Vision-Language Models, VLMs）的崛起，一个全新的范式—— 视觉-语言-行动（Vision-Language-Action, VLA） 模型应运而生，为解决这一难题带来了革命性的潜力。

来自哈尔滨工业大学（深圳）的研究团队发表了一篇针对该领域的综述论文，对基于大型VLM的VLA模型在机器人操作中的应用进行了全面梳理。这是学界 首个系统性、分类学导向的综述 ，旨在厘清现有研究脉络，缓解该领域的碎片化问题，并为未来研究指明方向。

大型VLM驱动的VLA模型的核心优势在于，它们能够利用VLM强大的能力，包括：

开放世界泛化能力：理解和操作在训练中未见过的物体。
分层任务规划：将复杂的指令分解为一系列可执行的子任务。
知识增强的推理：利用从海量数据中学到的世界知识进行常识推理。
丰富的多模态融合：紧密结合视觉、语言和动作信息，做出更智能的决策。

论文结构与分类法

为了系统性地梳理这一快速发展的领域，论文提出了一种清晰的组织结构和分类方法。

该综述首先回顾了VLA模型的发展历程和关键里程碑，然后提出了一个核心的分类框架，将现有的大型VLM-based VLA模型划分为两大范式： 整体式模型（Monolithic Models） 和 分层模型（Hierarchical Models） 。

整体式模型：将感知、语言理解和动作生成集成在单一或双系统架构中，实现端到端的控制。
分层模型：通过生成可解释的中间表示（如子任务、关键点、代码程序等），将高层级的任务规划与底层的策略执行明确地解耦。

整体式模型（Monolithic Models）

整体式模型强调一个统一的系统来处理从输入到输出的全过程。根据其内部结构，又可细分为单系统和双系统设计。

单系统模型

单系统模型在一个统一的架构内完成环境理解和动作生成。其经典范式是自回归解码（Autoregressive Decoding），即像生成文本一样，逐个token地生成代表机器人动作的序列。

为了提升模型性能和效率，研究者们从增强感知模态（如引入3D、4D、触觉信息）、增强推理能力（如思维链）和提升泛化能力等方面进行了衍生和优化。同时，为了解决推理速度慢的问题，也发展出了并行解码等推理加速技术。

双系统模型

双系统模型则将功能划分为两个协作模块：一个较慢但更强大的VLM主干（System 2）负责高级推理和场景理解，另一个较快反应的动作专家（System 1）负责生成实时的动作指令。这种“思考”与“执行”分离的设计，旨在兼顾决策的准确性和控制的实时性。

双系统模型的实现方式主要分为级联式（Cascade-based）和并行式（Parallel-based）。级联式中VLM的输出特征被单向传递给动作专家；而并行式中两者并行运作，并进行信息交互。

分层模型（Hierarchical Models）

分层模型的核心思想是将复杂的任务分解。高层的规划器（Planner）负责将用户指令分解为一系列人类可理解的中间步骤，底层的策略（Policy）则负责执行这些具体步骤。

根据中间表示的不同，分层模型可以进一步分为：

基于子任务（Subtask-based）：将任务分解为文本描述的子步骤。
基于关键点（Keypoint-based）：生成操作过程中的关键空间坐标点。
基于程序（Program-based）：生成可由机器人执行的代码。

这种模块化的设计使得模型的每个部分都可以独立优化，并且其决策过程更具可解释性。

前沿领域的整合

除了核心架构的演进，VLA模型也在积极与强化学习、世界模型等前沿技术进行整合，以追求更高的鲁棒性、效率和规划能力。

论文总结了四个主要的前沿整合方向：

基于强化学习（Reinforcement Learning-based）：通过与环境的交互和试错来优化策略。
免训练方法（Training-Free）：在不重新训练模型的情况下，通过优化计算或结构来提升性能。
从人类视频中学习（Learning from Human Videos）：利用海量的人类活动视频来学习操作技能，弥合机器人数据稀疏的鸿沟。
基于世界模型（World Model-based）：通过在心中“模拟”物理世界的动态来预测行为后果，从而做出更深思熟虑的规划。

数据集和基准

VLA模型的发展离不开高质量数据的支撑。论文系统梳理了支撑该领域发展的四类关键数据集。

这四类数据集包括：真实世界机器人数据集、仿真数据集与基准、人类行为数据集以及xxAI数据集与基une。它们共同构成了VLA模型训练、评估和迭代的基础。

未来方向

最后，论文展望了该领域未来值得探索的几个重要方向：

记忆机制与长期规划：让机器人拥有记忆，处理需要跨越长时间步的任务。
3D与4D感知：从静态的2D图像走向动态的3D时空理解。
高效自适应：让模型能够快速适应新任务和新环境。
多智能体协作：研究多个机器人如何协同完成复杂任务。
模型效率：在保证性能的同时，降低模型的计算和存储成本，以便部署在资源受限的机器人平台上。

总结

这篇综述提供了一幅关于大型VLM驱动的VLA模型在机器人操作领域应用的“全景图”。它通过提出一个清晰的分类框架，系统地梳理了现有工作，澄清了不同技术路线的特点与权衡，并指出了未来的机遇与挑战。对于希望了解和投身于这一前沿交叉领域的研究者和工程师来说，这篇论文无疑是一份宝贵的参考资料。其维护的GitHub项目页面也将持续追踪该领域的最新进展，值得社区长期关注。

#Core Knowledge Deficits in Multi-Modal Language Models

多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区

UC San Diego 的 ICML 2025 高分论文首次用“幼儿级”视觉题拷问 230 款主流 MLLM，发现越大的模型越容易在「玩具遮住了还在不在」、「水换杯子体积变没变」这类问题上翻车，规模扩展救不了核心认知盲区。

多模态大模型（MLLM）在高层次视觉理解与推理任务上展现出惊艳能力。然而，如果你仔细观察，就会发现一个的事实：它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中，却频频「翻车」。

比如，「一个玩具被遮住后还在吗？」、「液体倒入不同形状容器后，体积变了吗？」、「两个物体靠近会发生碰撞吗？」

这是否意味着 MLLM 的先天认知结构中，缺少那些支撑早期人类学习的基础知识机制？也就是说，它们是否缺乏「core knowledge」（核心认知能力）？

ICML 2025 高分论文（initial score 4443），揭示了 MLLM 的「核心认知盲区」。

来自 UC San Diego 的新研究《Core Knowledge Deficits in Multi-Modal Language Models》（发表于 ICML 2025）对这一问题进行了系统、深入的分析。

论文标题： Core Knowledge Deficits in Multi-Modal Language Models

论文链接： https://arxiv.org/pdf/2410.10855

研究发现：目前主流 MLLM 广泛缺乏核心认知能力，且该能力不能通过模型规模扩展自然习得。

为此，作者构建了一个创新性的多模态测评体系 CoreCognition，并提出一种独特的「干预测试」方法 Concept Hacking，旨在揭示模型是否真的「理解」任务背后的核心知识，还是只是「蒙对了答案」。

01 构建CoreCognition：一种跨模态认知评估基准

「核心知识」概念来自发展心理学，尤其是皮亚杰（Piaget）关于人类认知发展的经典理论。研究指出，人类在婴儿期就已经具备一些对世界最基本、最普遍的认知能力，构成我们理解物体、空间、因果、意图等的基础。

研究团队受皮亚杰认知发展理论启发，提出 CoreCognition：一个规模庞大、聚焦「核心知识」的多模态测评体系。其亮点在于：

覆盖全面： 12 项核心认知概念覆盖了从感知运动期（如边界感、连续性、物体恒存、空间知觉、知觉恒常性、直觉物理）到混合期（如视角理解、层级关系、守恒理解）再到形式运算期（如意图识别、机械推理、工具使用）三个阶段。这种分层设计帮助深入剖析模型在不同认知层级上的表现差异。

数据丰富，测试广泛： 数据集共包含 1503 个图像 - 问题对，并通过 230 款主流多模态模型 × 11 种 prompt 设计，生成 2530 个评估数据点，有效覆盖不同模型规模与指令理解能力。

设计严谨：

判别性强（Discriminativeness）：每一道题目都经过精心设计，使得缺乏目标核心知识的模型必然倾向于选择错误答案，从而有效区分模型能力。
混淆最小（Minimal Confounding）：问题尽量避免对目标概念以外能力产生依赖，减少与其他核心知识的概念交叉。
无文本捷径（Minimal Text Shortcut）：所有问题均设计为必须结合图像和语言信息进行多模态推理，防止模型仅通过语言模式识别猜出正确答案。

质量把控严格： 所有数据由 12 位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核，确保标注质量的一致性与学术严谨性。

数据集设计既参考发展心理学与认知科学，又贴近 AI 实验范式，兼顾理论可靠性与工程可行性，是首次正式将「核心知识」搬进大模型测试框架。

02 四大关键发现

1. 模型在基础认知任务中存在明显不足：大模型缺乏基础认知，尤其是最简单的认知能力，在诸如边界感、持续性、空间性等简单、直观的任务中，模型性能远低于对更复杂事物（如层级推理、意图理解等）的理解能力。这些本应是「常识」的内容，模型却无法掌握，说明其缺乏对世界基本结构的理解。

2. 模型无法有效利用基础认知支撑高级能力：模型在高层认知上的表现，不一定与低层认知水平直接挂钩。说明模型并未形成稳固的认知体系，模型的高级推理感知并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷（即不能持续稳定的正确回答问题）。

3. 增加模型规模并不能显著提升基础认知能力：研究显示模型的基础认知能力无法通过简单扩展规模获得显著提升。尽管模型参数量提升带来了高级推理能力的提升，但对低级认知帮助较小，甚至某些基础能力会出现规模越大越差的反常现象。

4. Reasoning model 并没有表现出明显优势：System-2 reasoning 也不能有效帮忙模型学习或者推理基础认知能力，这说明模型可能在 pretrain 阶段就缺乏基础认知能力。

03 Concept Hacking：干预测试揭示「假理解」陷阱

为了进一步验证模型是否真的掌握核心概念，作者提出了 Concept Hacking（概念干预）方法：通过构造「对照组」（control）与「干预组」（manipulated），故意在测试图文中反转关键特征，但保持其余条件一致。从而区分「真正理解」与「投机取巧」：

若在正常与反转任务中均表现良好，说明模型具备真实的认知能力。
若仅在正常任务表现好，但反转任务失败，说明模型在依赖虚假的认知捷径。
若在正常任务表现差，则表明模型既没有掌握核心知识，也没有建立认知捷径。

实验证明，很多模型在正常图文任务中表现良好，但一旦关键特征被微调，预测结果大幅崩溃，说明其并非真正理解「核心概念」，而是更加依赖浅显易得的捷径学习。

04 意义与启示

文章揭示多模态大模型（MLLMs）缺乏核心知识，而且这种知识并不能仅靠规模扩展获得 — 模型规模越大，越会在复杂任务上「表面优雅」，但更难在基础认知上实现真正理解。

这印证了经典的「Moravec 悖论」：对人类来说最简单的认知任务，对 AI 却最困难。这对当前以规模为主的发展路径构成了根本性挑战，表明其难以通向类似人类的通用智能。

认知科学启示：人类以核心认知为基础构建更高级认知，MLLM 却缺乏这种认知搭建的 scaffold 结构。
技术发展挑战：简单地增加参数规模、训练数据，并不能自动带来核心认知能力。
未来方向指引：或许需要在模型预训练阶段显式注入物理、空间等常识，主动「灌输」这些核心认知能力；探索认知引导训练机制，以引入「显式概念学习」；开发更多高度控制的认知能力评测。

关于作者：

黎羿江，在约翰斯・霍普金斯大学获得计算机科学硕士学位，现在是加州大学圣地亚哥分校一年级博士生，主要研究方向聚焦于实现高效和鲁棒的学习，并应用于多模态、交互式以及三维xx环境中。

高清滢，于约翰斯・霍普金斯大学获得硕士学位，目前正在该校攻读计算机科学博士学位。她隶属于约翰斯・霍普金斯医学院旗下的 Wilmer 眼科研究所，Lions 视觉研究与康复中心，以及工程与医学人工智能实验室。她的研究兴趣包括视觉 - 语言模型的可解释性和面向低视力人群的自主导航技术。

赵天维，是约翰斯・霍普金斯大学计算机科学硕士研究生。他的研究兴趣包括从认知科学视角评估、理解与增强多模态模型（特别是其推理能力），以及优化多智能体系统中的规划与协同机制。

汪冰洋，在埃默里大学获得了理学硕士、理学学士和工商管理学士学位。她的研究兴趣包括多模态融合以及从混合模态中高效提取信号。

孙浩然，于 2024 年获得约翰斯・霍普金斯大学应用数学硕士学位。其主要研究方向包括医学数据科学以及机器学习在心脏病学中的应用。

罗得之，是密歇根大学温博格认知科学研究院的大四学生。他曾在伦敦大学学院心理与语言科学系访学，并曾任伦敦大学哲学研究所的人工智能学者。他的研究兴趣为认知科学与人工智能的理论基础，尤其关注意识、自我加工与核心认知。

Hokin Deng，是卡内基梅隆大学的访问研究科学家。他曾在哈佛大学担任计算机视觉工程师，设计了首套用于单细胞认知实验的实验基础设施。在此之前，他是约翰霍普金斯医院的神经工程师，并在 Meta Reality Labs 担任附属研究科学家。他共同领导了开源项目「像孩子一样培养人工智能（GrowAI）」，并联合组织了多场聚焦计算机科学、神经科学与哲学交叉领域的研讨会。此前，他曾在约翰霍普金斯大学学习神经科学与哲学。

#被网友逼着改名的谷歌Nano Banana

正在抢99%时尚博主的饭碗

谷歌听劝。

上周，谷歌给 Nano Banana 改了个正儿八经的名字，网友一片哗然，疯狂吐槽新名字 Gemini 2.5 Flash Image 又长又无聊，完全没有记忆点。

好在谷歌听劝。

有眼尖的网友发现，谷歌已经悄悄把 AI Studio 里 Gemini 2.5 Flash Image 的名字换回了 Nano Banana。

甚至还有网友提议，以后所有 AI 模型都用水果和蔬菜来命名，这样更有趣，也比那些 AI 公司一贯糟糕又拗口的命名方式要好得多。

言归正传。

前几天我们盘点了 Nano Banana 的七种神仙玩法，其中呼声最高的就是生成 OOTD 这一趴。

左右滑动查看更多

所以，今天我们索性就来一期「砸」时尚博主饭碗的整活特辑。

生成明星 OOTD

「OOTD」是 Outfit of the Day 英文缩写，意思是今日穿搭。

如果你经常混迹 ins、微博、小红书，就会发现明星们也很爱晒穿搭照片，倪妮、舒淇、高圆圆、钟楚曦都是出了名的私服大户。

左右滑动查看更多

很多时尚博主就专门收集她们的穿搭照，整理成一份份清单，方便时髦精们跟着明星学穿搭。

但这是个苦力活，每一步都是耗费心力的大工程：

从大量零散的活动照、街拍图里找出清晰可用的明星造型图；
逐一识别衣服、鞋子、包包和配饰等单品来源；
在最短时间里整理清单内容，把单品的品牌名、具体型号、参考价格甚至购买渠道一一标注；
最后还要做视觉设计，将明星造型图和单品对照图排版在一张图里，配上简洁的说明和价格标签。

而且这个圈子也是相当卷，明星造型更新速度非常快，博主必须争分夺秒抢发布，否则就会被其他账号捷足先登，失去传播价值。

现在有了 Nano Banana，工作流程就简单多了。

以倪妮一次活动私服为例。

打开 Google AI Studio，选择 Nano Banana，上传参考图，输入提示词：

Generate a flat lay OOTD outfit image from a top-down perspective based on the uploaded reference photo, ensuring that the clothing, accessories, and shoes are replicated 1:1 from the reference.（请根据上传的参考照片，生成一张俯拍平铺的 OOTD 穿搭图，服装、配饰、鞋子需与上传的参考照片 1:1 复刻）

链接：https://aistudio.google.com/

为了生成结果更准确，可以多丢几张各种角度和姿势的参考图。

图1和图2为参考图，图3为Nano Banana生成的OOTD

Nano Banana 可以精准捕捉穿搭细节，比如不对称剪裁、下摆流苏、露肩设计、酒红色长裙以及黑色尖头短靴都被准确复刻。

当然也有小 bug，比如针织衫显得不够修身，金色圆形珍珠耳坠也对不上号。

下面这一套 OOTD 整体生成效果也不错，只不过原图中的微喇西装裤，在生成图里被偷换成了直筒裤。

左图为参考图，右图为 Nano Banana 生成的 OOTD

我们还可以把提示词润色得更详细一些，生成效果也更好：

From the uploaded reference photo, extract the outfit and recreate it as a high-quality top-down flat-lay OOTD board. Requirements:

Include only the visible clothing and accessories from the reference: top, bottom, shoes, and jewelry if present.
Keep colors, textures, and silhouettes accurate to the original outfit.
Arrange the pieces neatly in a balanced composition: tops at the top, bottoms centered, shoes placed symmetrically below, accessories arranged to the sides.
Use a clean, neutral background (light beige or warm fabric texture) to highlight the outfit.
Show realistic fabric folds, natural shadows, and detailed textures.
Present the result in a modern editorial style suitable for fashion magazines or social media posts.
Do not add extra props, models, or logos.
Output in high resolution with crisp edges and consistent lighting.

再来个进阶版本，让它生成一张带有品牌名称标注的舒淇造型清单图。

结果发现，Nano Banana 一次性生成成功概率很低：要么听不懂指令，要么就是拆解后的单品货不对版、品牌名称标注错误。

输入提示词：Generate a celebrity OOTD outfit checklist by identifying and breaking down each item, including clothing and accessories. Then, create an outfit breakdown image with the brand name written below each item, and include a reference price if available (omit the price if it cannot be found).Nano Banana 将礼服和配饰的品牌名称全部识别错误。

我们换了个思路，分两步走：

第一步，打开 Gemini 2.5，上传图片，询问「图中的礼服和珠宝分别来自哪个品牌？」Gemini 2.5 正确识别出礼服来自阿玛尼，珠宝来自宝格丽。

第二步，输入提示词：请根据上传的参考照片，生成一张俯拍平铺的 OOTD 穿搭图，服装需与上传的参考照片 1:1 复刻，背景为浅粉色，并在裙子的下方写上品牌名称 “Armani Privé“，在配饰下方写上品牌名称 “BVLGARI”。

虽然能实现，但流程略显繁琐。期待未来 Nano Banana 能一步到位，直接生成带有准确品牌名称标注的造型清单图。

一键换衣

每当看上一件好看的高定礼服，粉丝们往往第一时间就会在评论区疯狂 @ 自家明星，希望他们能穿上同款惊艳全场。

于是，明星的造型师们就得绞尽脑汁，想办法去借，甚至不惜托关系、排队等候。然而，高定礼服本就难借，还存在合不合身、是否适合本人气质的现实问题。

现在，有了这款「一键换衣」神器，一切就变得简单多了。

我们上传一张迪丽热巴半身照和一张 AI 生成的紫色礼服图片，输入提示词：让这个人穿上上传的紫色礼服，背景换成欧式建筑前，就能立刻看到明星换装后的效果。

也可以使用英文提示词：Change the outfit with the uploaded one，生成结果贴合度极高，几乎挑不出毛病。

除了 OOTD 和换衣，还有网友解锁了更多玩法，比如给设计线稿上色、让设计草图登上 T 台等。

X 博主 @ZHO_ZHO_ZHO 丢给 Nano Banana 一个动漫角色，让其变成线稿手绘图，我们可以看到，生成的线稿图保留了角色的姿势和服装细节。

再继续上传线稿图和色卡，输入提示词：准确使用色卡为图二人物上色。

Nano Banana 就能根据色卡方案，为角色的发色和服装配色进行全套替换。

底下有网友用同样的方法尝试了另一种色卡，生成效果也很惊艳。

网友 Yana Welinder 则用 Nano Banana 将一张服装设计草图，转换成时装秀成品。

在过去，时尚创意的呈现往往需要冗长的流程与大量人力投入，而现在，AI 生成技术让这个周期被极大压缩。

在不久的将来，像 Nano Banana 这样的工具，不仅能帮设计师更快试验灵感、让造型师提前预览效果，也能让普通人轻松尝试不同风格，找到属于自己的穿搭灵感。

你还开发出哪些 Nano Banana 更多好玩的场景？评论区聊聊啊～

参考链接：

https://x.com/op7418/status/1961703552512118925

https://x.com/ai_for_success/status/1962426574399320412

https://x.com/ZHO_ZHO_ZHO/status/1960652077891510752

https://x.com/yanatweets/status/1961451861934051726

#OmniHuman-1.5

不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂

想象一个虚拟人，他不仅能精准地对上你的口型，还能在你讲到关键点时做出恍然大悟的表情，在你讲述悲伤故事时流露出同情的神态，甚至能根据你的话语逻辑做出有意义的手势。

这不再是科幻电影的场景。8 月底，字节跳动数字人团队推出了 OmniHuman-1.5，提出了一种全新的虚拟人生成框架，让虚拟人真正拥有了「思考」和「表达」的能力。

数月前 OmniHuman-1 上线时，曾引发国内外热潮。相比前作，1.5 版本有了更多突破，不仅可以根据文字指令让虚拟人在对口型之余做出指定动作、表情，还支持在多人场景中控制发言者以外的角色做出具体动作。据悉，新版本很快也将上线即梦 AI。

论文链接： https://arxiv.org/abs/2508.19209
项目主页： https://omnihuman-lab.github.io/v1_5/

一个「会思考」的虚拟人是什么样？

传统虚拟人总感觉差了点「灵魂」，动作机械、重复，而 OmniHuman-1.5 首次将诺贝尔奖得主丹尼尔・卡尼曼的「双系统理论」引入 AI，通过一个由多模态大语言模型（MLLM）驱动的「思考大脑」，让虚拟人学会了深思熟虑。

在深入技术细节之前，先用最直观的方式，感受一下这个框架创造出的虚拟人，究竟有何不同：

，时长00:18

超越简单的模仿，模型展现了逻辑推理能力。它能准确理解指令，按顺序拿出红蓝药丸，执行复杂的动作意图。

，时长00:07

虚拟人精准地根据语音内容规划动作，实现了「先画眼线，再介绍眼影盘」这样的逻辑序列，展现了对内容的理解。

，时长01:35

挑战长视频与多人互动。模型不仅能生成稳定的长时间双人对唱，还能驾驭丰富的运镜效果，同时角色的动作、表情和互动极为多样，告别了单调重复。

，时长00:52

虚拟人学会了「倾听」。它可以在对话和倾听状态间自如切换，说话时的情绪与内容匹配。

，时长00:43

除了高动态场景，还是需要细腻情感表达的独白，模型都能拿捏，展现出了表演张力。

双系统框架为虚拟人装上「大脑」

近年来，视频虚拟人技术发展迅猛，从最初的口型合成，进化到了半身乃至全身的动画生成。大家的目标也越来越宏大：创造一个与真人无异，既能理性行动又能真实表达情感的「数字生命」。

然而，尽管现有方法（尤其是基于 Diffusion Transformer 的模型）能够生成与音频同步的流畅视频，但它们更像一个出色的「反应机器」。仔细观察你会发现，这些模型捕捉到的仅仅是音频信号与身体动作之间的浅层、直接关联。结果就是，虚拟人能精准地对上口型，做一些简单的、跟随节奏的摆动，但一旦涉及更复杂的、需要理解对话内容的交互，就立刻「露馅」了。它们的行为缺乏长期规划和逻辑一致性，离真正的「以假乱真」还有很长的路要走。

为什么会这样？研究者们从认知科学中找到了答案。人类的行为被认为由两个系统主导：

系统 1（System 1）：快速、无意识、自动化的反应系统。对于虚拟人而言，这就像是驱动嘴部肌肉发出声音，或下意识的身体摇晃。这与当前模型的工作模式非常相似。
系统 2（System 2）：缓慢、有意识、需要努力的分析系统。这对应着根据对话内容，组织一个有意义且契合语境的表情或手势。这是当前模型普遍缺乏的能力。

显然，要让虚拟人「活」起来，就必须为它装上「系统 2」这个深思熟虑的大脑。因此，本文的核心思路应运而生：利用多模态大语言模型（MLLM）强大的推理能力来显式地模拟「系统 2」的决策过程，并将其与模拟「系统 1」的反应式生成模块相结合。

为了实现这一构想，研究者们设计了一个精巧的「双系统模拟框架」。它主要由两部分构成：一个负责规划的「系统 2」大脑，和一个负责渲染的「系统 1」身体。

图注：框架流程图。左侧为总体流程，展示了「系统 2」如何利用 MLLM 智能体对所有输入（音、图、文）进行推理，生成一个宏观的「行为规划表」（Schedule）。这个规划表随后指导「系统 1」的 MMDiT 网络，后者在其专用的文本、音频和视频分支中融合信息，最终合成视频。右侧是关键模块的细节图。

1. 系统 2：MLLM 智能体进行深思熟虑的规划

这部分是整个框架的「大脑」和「指挥中心」。研究者设计了一个由两个 MLLM 组成的智能体（Agent）推理流程：

分析器（Analyzer）：第一个 MLLM 负责「情景分析」。它接收角色的参考图、音频、以及用户可选的文本提示，然后像一个侦探一样，分析出角色的性格、情绪、意图以及周围环境，并输出结构化的分析结果
规划器（Planner）：第二个 MLLM 接收「分析器」的结论，并基于此制定一个详细的「行动计划」。这个计划被构造成一个镜头序列，为视频的每一小段都定义了角色的表情和动作。

通过这种「分析 - 规划」的协作，模型得以生成一个全局一致、逻辑连贯的行动计划，为虚拟人的行为提供了「顶层设计」。

2. 系统 1：多模态融合网络进行反应式渲染

有了「大脑」的规划，还需要一个强大的「身体」来执行。这部分由一个特殊设计的多模态扩散模型（MMDiT）承担，它负责将「系统 2」的高层文本规划与「系统 1」的底层音频信号（用于口型同步等）完美融合，生成最终视频。

然而，将文本、音频、参考图这几种完全不同的信息（模态）塞进一个模型里，极易引发「模态冲突」，导致模型顾此失彼。为此，研究者提出了两大核心技术创新来解决这个难题。

如何让「大脑」与「身体」高效协作？

1. 重新思考身份维持：「伪最终帧」的设计

传统方法为了让虚拟人保持固定的身份（长相），通常会在模型中输入一张参考图。但研究者敏锐地发现，这会带来一个严重的问题：模型会错误地学习到「生成的视频里必须出现和参考图一模一样的画面」，这极大地限制了角色的动态范围，导致动作僵硬。

图注：该图解释了为什么需要 “伪最终帧”。右侧揭示了核心困境：当参考图与目标片段内容高度相关时（绿色区域），会限制动作多样性；而当二者不相关时（红色区域），又会导致生成内容与参考图出现预期外的偏差。

为此，他们提出了一个名为伪最终帧（Pseudo Last Frame）的解决方案。

训练时：完全抛弃参考图。模型只学习根据视频的「第一帧」和「最后一帧」来进行预测。
推理时：将用户提供的参考图巧妙地放在「最后一帧」的位置上，并告诉模型这是一个「伪」的最终帧。

这个「伪最终帧」就像一根「挂在驴子眼前的胡萝卜」：它引导着模型朝参考图的身份特征生成，但从不强迫模型必须一模一样地复现它。实验证明，这种方法完美地在「身份一致性」和「动作多样性」之间取得了平衡。

2. 解决模态冲突：「对称融合」与「两阶段预热」

为了让文本（系统 2 规划）和音频（系统 1 信号）更好地协作，研究者为音频信号也设计了一个独立的、与视频和文本分支结构对称的「音频分支」。这三个分支在模型的每一层都通过共享的自注意力机制进行深度融合，确保信息充分对齐。

但新的问题来了：音频信号在时间上非常密集，模型在联合训练时会偷懒，倾向于只依赖音频来做所有预测，从而忽略了文本提供的高层语义指导。这就是「模态冲突」。

研究者的解决方案是「两阶段预热（Two-stage Warm-up）」训练策略：

第一阶段：先在一个「小模型」上强制让三个分支一起工作。这逼迫模型学会「分工」：文本和视频分支负责宏观语义，音频分支则专注于自己的核心任务（如口型、语音风格）。
第二阶段：将预训练好的主模型（文本和视频分支）与第一阶段「预热」过的音频分支组合起来，再进行微调。

通过这种方式，每个分支都带着自己最擅长的「先验知识」进入最终的训练，从而有效避免了模态冲突，让「大脑」的指令和「身体」的反应都能得到忠实执行。

效果对比

除了直观的效果展示，硬核的量化数据和直接的 SOTA 对比更能说明问题。

1.Agent 推理 + MMDiT 架构的有效性验证

图注：消融实验（Ablation Study）的结果清晰地证明了框架中两大核心设计的有效性。从数据中可以看到，无论是负责 “思考” 的 Agent 推理模块，还是负责 “执行” 的 MMDiT 架构，都对最终的生成质量，尤其是在逻辑性和语义连贯性上，做出了不可或缺的贡献。

2. 全面超越 SOTA 模型

图注：在与当前最先进（SOTA）的多个公开模型进行的全方位对比中，本方法在所有关键指标上都取得了显著优势或极具竞争力的表现。

图注：这张可视化对比图直观地展示了「思考能力」的价值。相比于没有推理能力加持、只会做简单说话和重复性动作的模型方案，OmniHuman-1.5 显示了更高的动态范围和更有逻辑性的动作效果，实现了从「动嘴」到「表达」的飞跃。

总结与展望

Omnihuman-1.5 为虚拟人领域提供了一个全新的、极具启发性的视角。它通过借鉴认知科学的「双系统理论」，巧妙地利用 MLLM 作为「系统 2」的推理核心，并设计了一套创新的多模态融合架构来解决关键的技术瓶颈，最终实现了虚拟人行为从「反应式」到「思考式」的飞跃。

目前即梦 AI 视频生成中对口型能力的大师模式是基于 Omnihuaman-1.0，依靠一张图 + 一段音频就能生成流畅自然的虚拟人视频。很快 OmniHuman-1.5 也将上线即梦 AI。相比 1.0 版本，Omnihuaman-1.5 不仅可以生成更加真实、灵动的虚拟人，也为人机交互、影视制作、虚拟社交等领域带来新的可能。

#Carrot（胡萝卜）

Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了

以前，每当上线一个新模型，大家总要绞尽脑汁想个响亮又不撞车的名字。

不得不说，有时候名字起得太出彩，甚至能把模型本身给卷下去。别人还没搞懂它能干嘛，名字已经在朋友圈刷屏了。

不过现在，大家的创意又放飞起来了，尤其是那些还没正式上线的神秘模型。不管是动物，还是水果都能被拿来命名。刮起这波命名潮流的，毫无疑问是 OpenAI 率先下场的草莓 Strawberry，当时 Sam Altman 一张草莓图就引发了广大网友热议：

在这之后，彷佛这种命名方式成为一种趋势，如 AI 初创公司 Recraft 神秘模型「red_panda」（小熊猫），再到最近的谷歌「Nano Banana」。

你别说，这些可可爱爱的名字真的把大模型带到一个新的高度。就拿火出圈的 Nano Banana 来说，公开后其实有正式的名字 Gemini 2.5 Flash，但大家更喜欢叫它 Nano Banana。

就在刚刚，我们又发现了一个新的神秘模型：Carrot（胡萝卜），代码能力超级强。

看来大家的起名方向开始转向蔬菜了。你别说，名字起得随意，模型能力可一点不差。

这款神秘模型来自 Anycoder （一个专注于 AI 辅助编程的应用程序或平台）。打开 Anycoder 界面，拉到 model 那一栏，我们发现了胡萝卜，就像下面展示的。

除了胡萝卜，我们还发现了 DeepSeek V3、Gemini 2.5 Pro、Grok-4、GPT-5 等众多明星模型：

地址：https://huggingface.co/spaces/akhaliq/anycoder

经广大网友验证，这款模型编程能力超级强：

比如制作兔子躲避胡萝卜的游戏，并让胡萝卜作为子弹。看起来还挺好玩的，密密麻麻的胡萝卜追击着兔子，兔子巧妙地进行着躲避：

来源：https://x.com/alfredplpl/status/1963755927229882462

再来一个，生成体素宝塔花园：

来源：https://x.com/_akhaliq/status/1963783651021422907

在 P5.js 中生成超粒子动画，是不是很炫酷。

来源：https://x.com/ivanfioravanti/status/1963693728960295248

X 知名博主 AK 用 transformer .js 制作了一个「gemma-3-270m」聊天机器人，运行效果非常好，能回答很多问题：

来源：https://x.com/_akhaliq/status/1963662702099701980

看到这么炫酷的代码能力，大家的好奇心也是上来了。

评论区都在猜测这是哪家的模型，有网友认为来自谷歌，毕竟他们刚发布了图像模型 Nano Banana，再来一个代码模型不是不可能。水果之后，总该轮到蔬菜了。

还有网友猜测是不是月之暗面的 Kimi 。

但我们觉得可能性为 0，因为就在刚刚，Kimi K2 0905 版本发布，具有更强的代码能力，要是 Kimi 的话，现在应该公开了。

来源：https://mp.weixin.qq.com/s/Lac1gHCmuQ1mxTCWnSmuEA

等等，不会是阿里的 Qwen3 系列吧？

反正，大家也是各种猜测。所以，胡萝卜到底是谁家的？欢迎评论区留言。

#openPangu Embedded-1B V1

沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了

在端侧 AI 这个热门赛道，华为盘古大模型扔下了一颗 “重磅炸弹” 。

如今，云端大模型已经能侃侃而谈、答疑解惑。但如果这些 AI 大脑能被装进手机、摄像头甚至无人机，会带来怎样的变化？边缘设备上部署强大的 AI 模型已成为产业智能升级的关键路径。

然而，端侧设备在算力、内存和功耗方面的严格限制，与传统超大模型的巨大计算需求形成了显著矛盾。现有方案往往陷入两难：要么采用性能羸弱的小模型，无法处理复杂任务；要么试图将云端大模型压缩后硬塞进端侧，结果精度严重下降或响应缓慢，难以满足实际应用需求。

为了破解这一痛点，华为近日发布了专为昇腾端侧硬件打造的高性能语言模型 ——openPangu Embedded-1B。该模型虽然只有 10 亿参数，却通过软硬件协同设计显著降低推理延迟、提升资源利用率，并采用多阶段训练策略（包括从零预训练、课程学习式微调、离线 On-Policy 蒸馏、多源奖励强化学习）大幅增强各类任务表现。

得益于多阶段训练与优化，openPangu Embedded-1B 在十亿参数的体量下实现了性能与效率的高度协同，成功将强大的大模型能力带到了端侧设备上，树立了「小模型大能力」的新标杆。

评测成绩说明了一切，openPangu Embedded-1B 在多个权威基准上表现亮眼，创下了 10 亿参数级别模型的全新 SOTA 纪录。

模型的整体平均分达到 63.90，不仅全面领先同类模型，甚至持平更大规模的 Qwen3-1.7B（63.69），充分体现了出色的参数效率。这表明，先进的训练与对齐方法可以比单纯扩大模型规模更具成效。

在数学推理方面，openPangu Embedded-1B 经过强化学习对齐后取得了高分，其中在 GSM8K 数学基准上达到 82.76%，在 MATH 数学题集上达到 81.83%，均大幅领先同类模型。

图：openPangu Embedded-1B 与其他模型在各项任务上的 0-shot 表现对比。可以看到，该模型在语言理解、数学、推理和编程等任务上均展现出明显优势，并显著缩小了与更大模型之间的差距。

尤其值得关注的是，相比上个月开源的 openPangu Embedded-1B V1，V1.1 的平均分实现了 8% 以上的大幅跃升，这意味着开源盘古系列正在加速迭代升级。openPangu Embedded-1B 为资源受限的边缘设备带来了前所未有的智能水平，开辟了大模型端侧应用的新可能。

开源模型地址：https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1
技术报告：https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1/blob/main/docs/openPangu-Embedded-1B-report.pdf

接下来，我们就一起揭晓这款模型背后的技术 “秘密”。

软硬件协同设计：

让 10 亿参数模型在端侧高效奔跑

openPangu Embedded-1B 是一款拥有 10 亿参数的自回归 Transformer 模型，专为昇腾 AI 处理器的端侧硬件平台优化设计。

团队通过精心的软硬件协同，将模型架构与芯片特性深度结合：针对目标硬件的计算和内存特点，定制了合适的网络宽度和深度等超参数。换言之，模型的隐藏层规模、前馈网络维度等都与昇腾 Atlas 硬件的高效吞吐配置相匹配，确保每个计算单元都得到充分利用。

在资源受限的设备上，这种 “软硬件协同” 的架构设计在模型深度和推理效率间找到了理想平衡点。

图：在昇腾 Atlas 200I A2 硬件上，openPangu Embedded-1B 的推理延迟低于同级别的大模型。上表对比了不同 1B 量级模型的首 token 生成延迟（TTFT）和每 token 生成延迟（TPOT）。

为了验证软硬件协同设计的效果，团队将 openPangu Embedded-1B 与其他相近规模模型进行了推理延迟基准测试。结果显示，在 Atlas 200I A2 硬件上，openPangu Embedded-1B 首字输出延迟仅约 1.8 秒，后续每词生成约 0.156 秒，而且 openPangu 精度相当。

这一显著的速度优势充分证明了软硬件协同优化在端侧部署中的价值。

两阶段课程学习：

具备理性的快速响应

为了让小模型也具备 “理性思维”，openPangu Embedded-1B 在微调阶段采用了课程学习式的 “两段式” 训练，模拟人类专家先深思后速答的学习路径。

团队精心设计了难度递进的双阶段训练课程，循序渐进地塑造模型的推理能力：

构建坚实的 “推理地基”：第一阶段，模型不追求响应速度，只专注于理性推理能力。它学习了海量包含详细推理过程的复杂问题解答示例，就像学生跟随导师一步步学习解题思路，理解背后的原理逻辑，打下扎实的逻辑推理基础。
激发内化的 “快速直觉”：第二阶段，在模型具备强大的推理 “内核” 后，训练策略切换为提供大量简短的问答对，省略中间推理步骤。这好比学生掌握原理后开始练习快速作答，学会将深层思考内化于心，外化于行，以尽可能直接、迅速地得出答案。

经过这两个阶段循序渐进的微调，模型深层次的推理能力被成功激活，openPangu Embedded-1B 在通用任务上的表现也全面提升。

离线 On-Policy 知识蒸馏：

师生协作的新范式

openPangu Embedded-1B 还进一步引入了一种 “学生主导，教师点拨” 的离线 On-Policy 知识蒸馏方法。不同于传统由教师单向灌输知识，这种方法更像智能辅导：先让 “小学生” 模型自主作答，再由 “大老师” 模型针对学生答案进行有的放矢的指导。

蒸馏过程包括以下两个核心步骤：

学生主导的自主探索：学生模型（1B）首先对训练问题自行生成答案，教师暂不介入，就像导师辅导前先让学生独立尝试解题，以了解其思路。
教师约束下的精准点拨：随后更大的教师模型登场，但它并非直接给出正确答案，而是基于学生输出进行预测，在学生能力范围内提供针对性的提示，极大缩小了师生认知差距。

通过这种离线 On-Policy 蒸馏，教师指导数据的生成与学生模型的训练实现了解耦，流程高度灵活；同时方法实现上改动极少（仅需增加一个蒸馏损失项），却令学生模型的准确率和泛化能力大幅提升。

多源奖励强化学习：

用反馈强化模型智慧

在大规模 RL 训练阶段，团队开发了针对昇腾 NPU 集群的高效并行方案：通过容错同步调度和优先级数据队列最大限度利用上千加速卡资源，减少约 30% 的设备空闲；设计主机 - 设备权重共享和 NPU 端推理优化，使大规模强化学习在昇腾硬件上能够高效稳定运行。

同时在算法上，团队对训练样本进行了难度筛选，过滤过易或过难的数据，引入 “零优势” 掩码忽略无效惩罚项，进一步保障了训练过程的稳定高效。

为了指导模型自我提升，openPangu Embedded-1B 采用了多源奖励机制：针对数学、代码等可自动验证的任务使用基于规则的奖励，针对复杂开放任务则采用轻量级 LLM 模型来评估答案质量。

奖励策略兼顾回答的正确性和格式规范，例如回答格式错误会受到严厉惩罚，答案错误但格式正确则扣减较小分值，而只有答案完全正确才能获得正奖励。这套精心设计的奖励信号确保模型在强化学习阶段获得全面而准确的反馈，不断优化自身能力。

图：强化学习训练中，openPangu Embedded-1B 的平均奖励值和数学能力随训练迭代稳步提升。通过强化学习微调，模型的数学推理能力实现了飞跃式增强，而其他领域的性能也保持了稳定。

展望：快慢思考融合的未来

在极致挖掘小模型端侧潜能的同时，openPangu 研发团队也在探索让大模型的 “快思考” 和 “慢思考” 融为一体的新方向。目前，快慢思考模型往往面临两难：快速思考模式在复杂任务上力不从心，而慢思考模式应对简单问题又效率低下，难以兼顾速度与精度。

对此，团队提出了一种自适应的快慢融合方案：在单一模型中同时提供快思考、慢思考和自动切换三种模式。模型可根据问题难度自动选择：简单问题快速作答，复杂问题深入推理后再作答，在保持接近慢思考模型精度的同时，大幅提高了易答问题的推理效率。

据悉，openPangu-Embedded-7B 模型已应用自适应快慢融合策略，并在 7B 量级模型中取得了领先水平，其升级版本也将很快开源。

可以预见，随着快思考 / 慢思考自适应融合等技术的引入，更大规模的端侧模型将同时实现高推理质量和高响应速度，为行业应用带来 “双优” 的 AI 能力。未来，随着端侧 AI 加速向实用化与普惠化迈进，算力受限设备也能享受云端级别的智能体验。

#多模态大模型持续学习系列研究

综述+Benchmark+方法+Codebase一网打尽！

本系列工作核心作者：郭海洋（自动化所博士生）、朱飞（中科院香港院AI中心AP）、曾繁虎（自动化所硕士生）、刘文卓（自动化所博士生）、赵宏博（自动化所博士生）。通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。团队长期从事人工智能研究，成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊。

近年来，生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而，在现实世界应用中，动态环境下的数据分布和任务需求不断变化，大模型如何在此背景下实现持续学习成为了重要挑战。为了应对这一问题，中国科学院自动化研究所联合中国科学院香港院 AI 中心系统性地研究了生成式 AI 和多模态大模型的持续学习，提出了一系列综述、方法、Benchmark 和 Codebase，为相关领域的研究者和实践者提供了全面支持。

生成式 AI 的持续学习综述

论文：Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

论文链接：https://arxiv.org/pdf/2506.13045
项目主页：https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models

研究动机：以大模型为代表的生成式 AI 模型的快速发展让现代智能系统具备了理解和生成复杂内容的能力，甚至在部分领域达到了接近人类的表现。然而，这些模型依旧面临着“灾难性遗忘”问题，即在学习新任务时，往往会导致已学任务性能的显著下降。为解决这一挑战，大量的研究提出了多种方法以增强生成式 AI 在实际应用中的适应性和扩展性。本文系统性地综述了生成式 AI 的持续学习方法，涵盖大语言模型（LLMs）、多模态大语言模型（MLLMs）、视觉语言动作模型（VLA）和扩散模型（Diffusion Models）。

图 1：生成式 AI 中的持续学习示意图

研究内容：本文围绕生成式 AI 的持续学习问题，系统性地综述了不同模型的训练目标、应用场景及技术方法。研究涵盖大语言模型在理解与生成中的知识保留与任务适应、多模态大模型处理跨模态数据时的抗遗忘能力、视觉语言动作模型在机器人动态环境中的行为迁移与适应，以及扩散模型针对个性化生成需求的增量学习。这些模型的持续学习方法主要包括架构扩展、正则化和回放策略，旨在平衡新任务学习与旧任务性能的保持。此外，研究还探讨了评估指标（整体性能、遗忘程度、泛化能力）和未来方向（高效机制、强化学习范式、多模态扩展等），为生成式 AI 的持续学习提供了全面参考。

图 2：持续学习方法分类图

多模态大模型持续学习：Benchmark 与方法

传统的持续学习任务多聚焦于单模态场景，如图像或文本分类，但随着应用需求的复杂化，多模态任务逐渐成为核心。为此，我们提出了一系列新的 Benchmark 和方法，旨在推动多模态大模型持续学习的发展。

论文 1：[ACL 2025] HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

论文链接：https://arxiv.org/pdf/2503.12941
代码链接：https://github.com/Ghy0501/HiDe-LLaVA
数据链接：https://huggingface.co/datasets/HaiyangGuo/UCIT

研究动机：本文认为当前的多模态大模型的持续学习面临两大关键挑战：一是现有评测基准普遍存在与预训练数据重叠的问题，导致评估结果失真；二是传统方法难以平衡新任务学习与旧任务遗忘之间的矛盾。为此，本研究提出构建全新的 UCIT 评测基准，通过严格的 zero-shot 筛选机制，构建了全新的无信息泄露风险数据集。同时创新性地提出层次化解耦学习策略，旨在解决持续指令微调中的灾难性遗忘问题，为多模态大模型的持续学习提供可靠的评估框架和解决方案。

研究方法：本文通过 CKA 相似性分析揭示了模型不同层级的任务特性差异：顶层具有任务特异性，其余层则保持任务通用性。基于此，本文提出的 HiDe-LLaVA 采用分层处理机制：在顶层引入多模态锚点驱动的动态专家选择模块，实现任务自适应；在其余层采用参数融合策略保留跨任务共享知识。实验结果表明，该方法可以有效缓解模型的灾难性遗忘现象，并且有效平衡了模型性能与计算资源效率。

目前该研究已被 ACL 2025 主会接收，相关代码及数据已全部开源。

图 3：HiDe-LLaVA 模型框架示意图。

论文 2：[ICCV 2025] Federated Continual Instruction Tuning

论文链接：https://arxiv.org/pdf/2503.12897
代码链接：https://github.com/Ghy0501/FCIT
数据链接：https://huggingface.co/datasets/MLLM-CL/FCIT

研究动机：当前多模态大模型的指令微调面临集中训练成本高、实用性差的问题，而现有联邦学习方案在动态环境中难以实现持续学习与知识保留的平衡。为此，本文首次提出联邦连续指令微调（FCIT）基准，以解决分布式环境下持续学习的关键挑战。FCIT 基准包含同质（各客户端学习相同任务）和异质（各客户端学习不同任务）两种现实场景，通过 4 种实验设置和 12 个精选数据集，全面评估模型在非独立同分布数据和灾难性遗忘情况下的表现，为多模态大模型的联邦持续学习研究提供标准化评测框架。

图 4：FCIT 设定示意图

研究方法：为应对 FCIT 中的挑战，我们提出了 DISCO 框架，结合了动态知识梳理（DKO）和子空间选择激活（SSA）两种策略。DKO 利用全局服务器的动态缓存，存储并组织任务特定的参数，减少任务间和阶段间的冲突；SSA 则通过匹配输入特征与动态缓存中的任务子空间，选择性激活相关输出，同时过滤无关信息。实验结果表明，DISCO 在解决数据异质性和灾难性遗忘方面显著提升了模型性能，全面超越现有方法，并在 FCIT 基准上取得了最好的表现。

目前该研究已被 ICCV 2025 接收，相关代码及数据已全部开源。

论文 3：[EMNLP 2025] ModalPrompt: Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models

论文链接：https://arxiv.org/pdf/2410.05849
代码链接：https://github.com/AuroraZengfh/ModalPrompt

研究动机：为缓解多模态大模型持续学习任务中的灾难性遗忘现象，本文认为现有解决方案存在显著局限性：基于数据回放的方法面临隐私泄露风险和存储成本压力，而模型扩展策略则不可避免地引发计算资源的线性增长。值得注意的是，当前研究尚未充分探索多模态数据在持续学习中的协同监督潜力。而当前领域内缺乏专门针对多模态特性的持续学习框架，因此需要开发一种既能利用图像-文本双重监督、又能避免计算膨胀的新方法，以实现高效且隐私安全的知识持续积累。

图 5：ModalPrompt 模型框架示意图

研究方法：本文提出 ModalPrompt 框架，利用多模态监督，通过构建任务特定的图像文本原型提示，结合双模态引导提示选择和多任务提示融合机制，实现了在无回放数据的情况下有效保留旧任务知识并提升新任务性能。此外，该方法通过动态提示选择降低计算复杂度，使推理速度提升 1.42 倍，同时显著减少存储和训练成本。

目前该研究已被 EMNLP 2025 主会接收，相关代码已全部开源。

论文 4. MLLM-CL: Continual Learning for Multimodal Large Language Models

论文链接：https://arxiv.org/pdf/2506.05453
代码链接：https://github.com/bjzhb666/MLLM-CL
数据链接：https://huggingface.co/datasets/Impression2805/MLLM-CL

研究动机：本文认为现有的多模态大模型连续指令微调评测基准主要关注独立同分布（IID）场景下的领域知识评估，缺乏对模型基础能力（如 OCR、数学推理等）在非 IID 场景下的系统性评测。为此，本文提出了一个新的多模态大模型持续学习基准 MLLM-CL，涵盖领域持续学习（DCL）和能力持续学习（ACL）两种设置，分别针对同分布（IID）和非同分布（non-IID）场景下的领域知识和基础能力学习进行评估。

图 6：MLLM-CL 基准示意图

研究方法：为解决灾难性遗忘问题，本文提出了 MR-LoRA，通过领域或能力特定的 LoRA 模块实现参数隔离，避免任务间干扰，并设计了基于 MLLM 自身的多模态理解能力的路由选择器，仅需少量样本微调即可精准匹配输入与最优专家模块。实验表明，该方法在领域持续学习（DCL）和能力持续学习（ACL）任务上显著优于传统回放或模型扩展方法。

论文 5. LLaVA-c: Continual Improved Visual Instruction Tuning

论文链接：https://arxiv.org/pdf/2506.08666

研究动机：多模态大模型（如 LLaVA-1.5）在连续指令微调中面临的两大核心挑战：首先，传统的多任务联合训练存在任务平衡困难（需人工调整数据比例）和扩展成本高（新增任务需全量重训练）的固有缺陷；其次，现有持续学习方法虽能增量学习新任务，但普遍存在 "基础模型退化" 现象——模型过度拟合任务特定指令（如强制单字回答），丧失处理多样化指令的通用能力。

图 7：LLaVA-c 模型框架示意图

研究方法：本文提出了 LLaVA-c，通过两个核心技术改进 LLaVA-1.5 模型：1）谱感知巩固（SAC），基于奇异值分解的模型融合策略有效克服新旧知识冲突，相比传统的模型混合策略提升了任务兼容性；2）无监督查询正则化（UIR），通过约束未标注文本指令的特征空间偏移（L2 距离损失）防止基础模型退化，在零额外标注成本下保持指令跟随能力。本文在预训练和指令微调两阶段上都验证了所提出方法的有效性，在通用评价基准和下游任务指标上均取得了最优的性能，并且首次实现持续学习效果超越多任务联合训练。

多模态大模型持续学习：代码仓库

论文：MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

论文链接：https://arxiv.org/pdf/2508.07307
代码仓库：https://github.com/Ghy0501/MCITlib

研究动机：随着多模态大模型持续学习研究的蓬勃发展，各类创新方法和评估基准不断涌现，但研究社区始终缺乏一个系统化、标准化的开发与评测平台。为填补这一关键空白，我们推出了 MCITlib，一个开源的多模态持续指令微调代码仓库。MCITlib 集成了当前领域内 8 种主流算法，精心挑选了两个高质量基准（UCIT 和 DCL），有效避免信息泄露，为研究者提供了一个统一、公平的实验环境，便于全面评估不同方法的优劣。

图 8：开源代码仓库 MCITlib

未来，MCITlib 也将持续进行更新，扩展更多模型、任务和评测维度，为多模态大模型持续学习研究提供坚实助力。

总结与展望

赋予以多模态大模型为代表的生成式 AI 持续学习的能力是迈向人工智能通用化的重要一步。我们希望通过系统的综述、完善的 Benchmark、前沿的方法和开源的工具，能够为这一领域的研究者和应用开发者提供更多支持。未来，我们团队将继续深耕多模态大模型持续学习领域，探索更广泛的应用场景，持续推动该领域技术的发展与创新。

#DeepSeek新大招曝光

下一步智能体

DeepSeek 即将揭开新篇章，知情人士透露其正秘密打造具备自我进化能力的智能体模型。继DeepSeek-V3.1的Agent能力显著提升后，备受瞩目的"R2"版本预计年末亮相，或将引领AI智能体技术的新潮流。

DeepSeek下一步，被曝剑指智能体。

知情人士透露，DeepSeek正在开发具有更强大AI Agent能力的新模型，预计在今年年底就会推出。

图片由AI生成

官方尚无回应，但这一爆料并非无迹可寻。

在DeepSeek 8月的最近一次更新中，DeepSeek-V3.1上线。官方发布的升级公告中就提到：

DeepSeek-V3.1具备更强的Agent能力，通过Post-Training优化，新模型在工具使用与智能体任务中的表现有较大提升。

迈向Agent时代的第一步

“R2”将造更强智能体？

彭博社援引知情人士消息，爆料DeepSeek的下一个模型，仅需少量提示，就能帮用户执行复杂操作，并且还能根据历史操作自我进化和学习。

这一模型将在今年最后一个季度面世。

此前，业内普遍推测，按照DeepSeek V3和DeepSeek R1的发布节奏，在被期待已久的“R2”之前，DeepSeek应该会先一步推出新一代V系列的基础模型。

而从去年12月到今年8月的近9个月时间里，DeepSeek V系列的版本号只从V3来到了V3.1。

看上去仅仅是小版本的改进，但从DeepSeek官方后来公布的测试结果来看，似乎又暗藏玄机。

DeepSeek-V3.1的主要升级包括3点：

混合推理架构，就是把思考模式和非思考模式都集成到了一个模型里。
更高的思考效率，比DeepSeek-R1想得更快。
更强的Agent能力，新模型在工具使用与智能体任务中的表现有较大提升。

具体来看提升效果。

编程智能体方面，在代码修复测评SWE和命令行终端环境下的复杂任务（Terminal-Bench）测试中，DeepSeek-V3.1相较V3和R1有明显提高。

而在搜索智能体测评中，相较于DeepSeek-R1-0528，DeepSeek-V3.1也展现出了全面的性能提升。

下一个DeepSeek时刻

DeepSeek R1将推理模型推向发展新高潮，成了搅动全球大模型行业格局的一尾鲶鱼。

Manus让智能体的概念火爆出圈，被称为“第二个DeepSeek时刻”——

来到2025年的下半年，几乎没有大模型产品不谈智能体。吴恩达也在最新Andrew’s Letters中提到：并行智能体正在成为提升AI能力的新方向。

早早预定2025年年度热词的DeepSeek和智能体一叠加，立刻又触动了人们兴奋的神经。

已经有人开始期待：如果是DeepSeek来做这件事，那智能体的价格门槛，真的要被打下来了。

但也有人保持怀疑：这个时候入局智能体，还算好时机吗？

不管怎么说，可以确定的是，在2025年余下的最后1/3时间里，大模型领域的热闹依然将每天持续。

最后的最后，小小One More Thing一下，信源来自官方，妥妥靠谱：

Qwen 3 max也要来了吗？欢迎一起，见证下一个历史时刻。

#AI Agents与Agentic AI 的范式之争？

2022年11月，ChatGPT的横空出世彻底改写了AI发展的轨迹。

如今打开Google Trends，“AI Agents”与“Agentic AI”的搜索曲线自2022年底起便一路飙升，成为继生成式AI之后最受关注的两大方向。

图 1：谷歌全球搜索趋势图。该图显示，自 2022 年 11 月 ChatGPT 首次推出以来，人们对 “AI Agents”（人工智能代理）和 “Agentic AI”（智能体人工智能）的关注度持续上升。

但这两个频繁被提及的概念究竟有何区别？为何谷歌要在2025年专门推出A2A协议为其制定标准？

Cornell大学团队近期发表的《AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges》一文，为我们梳理了这一关键演进脉络，更构建了一套完整的理论框架，或许能解答关于下一代智能系统的核心疑问。

图 2：本研究的思维导图，用于探究人工智能代理（AI Agents）与智能体人工智能（Agentic AI）的相关概念、应用场景及面临的挑战。每个彩色分支代表一个关键的对比维度，分别是：架构（Architecture）、运行机制（Mechanisms）、适用范围 / 复杂程度（Scope/Complexity）、交互方式（Interaction）以及自主性（Autonomy）。

一、从MYCIN到ChatGPT：60年AI智能体的演进之路

要理解AI Agents与Agentic AI的差异，首先需要回溯智能体技术的发展历程。早在ChatGPT出现前，AI领域就已围绕“自主智能体”展开探索，但其形态与如今截然不同。

20世纪70年代，专家系统MYCIN横空出世，作为早期智能体的代表，它能通过知识库和推理引擎模拟医生诊断细菌感染，却只能遵循预设规则，无法应对未见过的病例。同一时期的DENDRAL系统虽能预测分子结构，本质仍是“规则执行者”。这些早期系统共同构成了“前LLM时代”的智能体雏形——依赖符号推理、缺乏学习能力，更谈不上自主适应环境。

此后数十年，多智能体系统（MAS）与BDI（信念-愿望-意图）架构逐步发展。Ferber在1999年提出的MAS框架，首次将智能体定义为具备自主性、感知力与通信能力的实体，可用于分布式问题解决；BDI架构则让智能体能够基于目标制定计划，如应用于空中交通管制模拟的系统。但这些进步仍未突破“预编程”的桎梏，智能体的行为边界始终被人类设定的规则所限制。

2022年11月成为关键转折点。ChatGPT的发布不仅引爆了生成式AI的热潮，更让智能体技术迎来“范式跃迁”。文章指出，ChatGPT代表的生成式AI是智能体发展的“ precursor（先驱）”——它首次展现了LLM强大的语言理解与内容生成能力，但本质仍是“被动响应者”，只能根据用户提示产出内容，无法主动规划任务、调用工具。

正是在生成式AI的基础上，AI Agents与Agentic AI逐步分化。2023年，AutoGPT、BabyAGI等框架出现，标志着AI Agents正式落地：它们将LLM与外部工具（API、搜索引擎、代码执行环境）结合，能自主完成多步骤任务，比如规划产品市场分析时，会依次调用网页搜索、数据汇总、报告生成工具。而到2023年底，CrewAI、MetaGPT等系统的出现，又推动技术进入Agentic AI阶段——多个专业智能体协同工作，像人类团队一样分工拆解复杂目标，甚至能动态调整任务分配。

谷歌2025年提出的Agent-to-Agent（A2A）协议，更是为Agentic AI制定了首个行业标准。该协议包含五大核心原则：充分发挥智能体能力、基于现有标准构建、默认保障交互安全、支持长期任务运行、确保模态无关性（文字、图像、语音等均可交互），试图解决不同框架下智能体的互操作问题。

二、AI Agents：单智能体的“工具革命”，从响应到执行的跨越

在明确演进脉络后，我们首先聚焦AI Agents的核心定义与技术细节。文章将其定义为“由LLM和LIM驱动的模块化系统，用于特定任务自动化”，它的出现填补了生成式AI“只会说不会做”的空白。

图 3：本研究的方法流程示意图，展示了从人工智能代理（AI Agents）基础到智能体人工智能（Agentic AI）的演进过程，后续还呈现了二者的架构演进、应用场景、局限性及未来解决方案策略。

1. 三大核心特征：定义AI Agents的边界

AI Agents之所以能区别于传统自动化脚本，关键在于三大特征：

图 4：人工智能代理（AI Agents）核心特征示意图，展示了其在智能体设计与运行行为中的三大核心特征，分别是自主性（autonomy）、任务特异性（task-specificity）和反应性（reactivity）。

自主性：部署后无需持续人工干预，能自主感知环境输入、推理决策并执行动作。比如客服AI Agents，在接入企业知识库后，可独立处理用户的订单查询、退换货申请，无需人工转接；
任务特异性：聚焦单一、明确的任务领域，而非通用能力。例如邮件筛选AI Agents仅负责分类邮件优先级、提取关键信息，不会涉及日程规划等其他任务；
反应性与适应性：能响应动态环境变化，部分系统还可通过反馈优化行为。以个性化推荐AI Agents为例，它会根据用户的点击、购买记录实时调整推荐内容，甚至通过用户对推荐结果的反馈（如“不感兴趣”）进一步优化算法。

2. 技术基石：LLM与LIM的“双引擎驱动”

AI Agents的能力核心，离不开LLM与LIM的协同：

LLM：推理与决策中枢。以GPT-4、PaLM为代表的LLM，不仅能理解自然语言，还具备规划、推理能力。在AI Agents中，LLM承担“大脑”角色——解析用户目标（如“生成Q3销售报告”）、分解步骤（“1. 调取销售数据库；2. 计算各区域业绩；3. 生成可视化图表；4. 撰写分析结论”）、调用对应工具，并整合结果生成最终输出；
LIM：视觉感知的延伸。CLIP、BLIP2等LIM模型让AI Agents具备了“看图说话”的能力，能处理图像、视频等视觉输入。文章中提到的果园巡检AI Agents就是典型案例：无人机搭载LIM模型，可实时识别 diseased fruits（病果）和damaged branches（断枝），并自动触发警报，通知工作人员进行靶向处理。

Anthropic的“Computer Use”项目更是将这种“双引擎”能力推向极致。该项目中的Claude模型，能像人类一样操作电脑：通过视觉识别屏幕内容、控制鼠标键盘、打开软件应用，既能完成填写表单、复制数据等重复性任务，也能进行软件测试（打开代码编辑器、运行命令、调试错误），甚至能自主进行在线研究并整理信息。其核心逻辑是“目标-行动-观察”的循环：接收任务目标→决定下一步操作→执行并观察结果→重复直至任务完成。

3. 工具集成：打破LLM的“知识牢笼”

LLM的静态知识（如GPT-4的知识截止到2023年）和幻觉问题，是AI Agents必须解决的痛点。而工具集成正是关键解决方案。

文章将工具集成的过程分为“调用-结果整合”两步：当AI Agents遇到内部知识无法解决的问题（如“查询今日纽约股市收盘价”），会生成结构化的工具调用请求（如JSON格式的API调用指令），通过协调层执行；工具返回结果后，AI Agents会将其重新输入LLM的上下文窗口，结合原有推理继续完成任务。

ReAct框架是这一过程的经典实现。它将“推理（Reasoning）”与“行动（Action）”交替进行：LLM先通过Chain-of-Thought（思维链）分析任务，决定需要调用的工具；执行工具调用后，再根据返回结果调整推理方向，避免盲目行动。例如ChatGPT的网页搜索功能，当用户询问“2024年诺贝尔物理学奖得主”时，它会先判断内部知识不足，调用搜索工具获取信息，再基于搜索结果生成准确回答，而非依赖旧知识或编造内容。

AutoGPT、GPT-Engineer等框架则进一步拓展了工具集成的边界。AutoGPT在处理“产品市场分析”任务时，会依次调用网页搜索工具（获取竞品信息）、Excel工具（整理数据）、报告生成工具（撰写分析）；GPT-Engineer则能结合代码执行环境，根据用户需求（如“开发一个简易待办清单APP”）自动生成代码、测试运行并修复bug，最终输出可直接使用的软件产品。

图 6：展示人工智能代理（AI Agent）执行实时新闻搜索、摘要生成及答案生成的工作流程。

三、Agentic AI：多智能体的“协作革命”，从个体到系统的突破

如果说AI Agents是“单智能体的工具革命”，那么Agentic AI就是“多智能体的协作革命”。文章将其定位为“范式 shift（转变）”，核心在于通过多智能体协作，解决AI Agents无法应对的复杂任务。

图 7：人工智能代理（AI Agent）与智能体人工智能（Agentic AI）的对比示意图，整合呈现了二者的概念差异。左侧为执行单一任务的人工智能代理（AI Agent）；右侧为多智能体协作的智能体人工智能（Agentic AI）系统。

1. 概念跃迁：从“孤立执行”到“协同决策”

Agentic AI与AI Agents的本质区别，在于“系统级智能”的引入。文章以智能家居系统为例，清晰对比了二者差异：

AI Agents的典型代表是智能恒温器：仅负责维持设定温度，最多学习用户的作息习惯调整能耗，无法与其他设备协同；
Agentic AI则是整个智能家居生态：天气预测智能体发现即将出现热浪，会通知能源管理智能体提前用太阳能预冷房屋（避开电价高峰）；同时，日程管理智能体发现用户即将外出，会联动安防智能体启动监控、关闭非必要电器。多个智能体通过共享信息、协同决策，实现“舒适、安全、节能”的全局目标。

Feature	AI Agents	Agentic AI
定义	执行特定任务的自主软件程序。	多个AI代理协同工作以实现复杂目标的系统。
自主级别	在特定任务中具有高度自主性。	广泛的自主性，能够管理多步骤、复杂的任务和系统。
任务复杂性	通常处理单个特定任务。	处理需要协调的复杂、多步骤任务。
协作	独立运营。	涉及多智能体信息共享、协作与合作。
学习和适应	在特定领域内学习和适应。	在更广泛的任务和环境中学习和适应。
应用程序	客户服务聊天机器人、虚拟助手、自动化工作流程。	供应链管理、业务流程优化、虚拟项目经理。

这种跃迁的关键在于三大能力：

动态任务分解：由“规划智能体”将用户的高-level目标（如“完成科研项目申报”）自动拆分为子任务（“1. 检索相关文献；2. 撰写研究方案；3. 制作PPT；4. 检查格式合规性”）；
多智能体分工：每个子任务分配给对应专业智能体（文献检索智能体、写作智能体、设计智能体、合规检查智能体），避免单一智能体“身兼数职”导致的效率低下；
协同与适应：通过共享记忆（存储任务进度、上下文信息）和通信协议，智能体间可实时同步状态。若某一智能体任务失败（如文献检索智能体无法获取某篇论文），系统会自动重新分配任务（如切换其他数据库检索），而非整体停滞。

图 8：展示从传统人工智能代理（AI Agents）到现代智能体人工智能（Agentic AI）系统的架构演进过程。该架构以感知（Perception）、推理（Reasoning）和行动（Action）为核心模块起步，逐步扩展至包含专业智能体（Specialized Agents）、高级推理与规划（Advanced Reasoning & Planning）、持久记忆（Persistent Memory）及协调层（Orchestration）在内的高级组件。此图还进一步呈现了多智能体协作（Multi-Agent Collaboration）、系统协调（System Coordination）、共享上下文（Shared Context）和任务分解（Task Decomposition）等涌现性特征，这些特征均被包裹在虚线边界内，该边界象征着分层模块化特性，以及向分布式、自适应智能体人工智能（Agentic AI）的智能化转型。

2. 架构创新：协调层与共享记忆的“双支柱”

Agentic AI要实现高效协作，离不开两大核心架构组件：

协调层（Orchestration Layer）：通常由“元智能体（Meta-Agent）”担任，负责任务分配、进度监控、冲突解决。以ChatDev（用于软件开发的Agentic AI系统）为例，它模拟企业部门架构，设置“CEO智能体”（制定开发目标）、“CTO智能体”（技术方案设计）、“工程师智能体”（编写代码）、“测试智能体”（检测bug），由“CEO智能体”作为元智能体协调各角色，确保开发流程顺畅；
共享记忆（Persistent Memory）：分为情景记忆（任务执行历史）、语义记忆（领域知识）、向量记忆（用于快速检索相似信息），解决多智能体的“信息同步”问题。例如科研协作Agentic AI系统中，文献检索智能体获取的论文摘要会存入共享记忆，写作智能体可直接调用，无需重复检索；同时，写作智能体对文献的解读标注，也会更新到共享记忆，为后续PPT制作智能体提供参考。

图 9：人工智能代理（AI Agents）与智能体人工智能（Agentic AI）在八个核心功能领域的分类应用展示。

3. 典型案例：从科研到医疗的场景落地

文章列举了多个Agentic AI的实际应用，展现其在复杂场景中的优势：

多智能体科研助手：以AutoGen框架为例，用户提出“撰写AI在农业中的应用综述”后，系统会分配：1. 检索智能体：调用学术数据库获取近5年论文；2. 总结智能体：提取每篇论文的核心观点；3. 整合智能体：按主题分类观点，构建综述框架；4. 写作智能体：撰写正文；5. 引用智能体：自动格式化参考文献。整个过程无需人工干预，效率远超单一AI Agents；
智能机器人协调：在果园采摘场景中，Agentic AI系统包含：无人机测绘智能体（生成果园地图、标记成熟果实位置）、采摘机器人智能体（按地图定位采摘）、运输机器人智能体（将果实运至存储点）、路径规划智能体（实时优化机器人路线，避开障碍物）。若某台采摘机器人故障，系统会自动将其任务分配给附近机器人，确保采摘进度不受影响；
医疗决策支持：在ICU场景中，Agentic AI系统由多个专业智能体构成：1. 监测智能体：实时分析患者生命体征，预警 sepsis（败血症）风险；2. 病史智能体：调取电子病历，汇总患者既往病史、用药记录；3. 治疗智能体：结合临床指南（如《拯救脓毒症运动》），推荐抗生素方案、输液量；4. 协调智能体：整合各智能体信息，检查方案一致性（如避免药物过敏），最终向医生提交决策建议。这种多智能体协作，既减少了医生的认知负担，也降低了单一智能体误判的风险。

图 10：人工智能代理（AI Agents）在企业场景中的应用：（a）客户支持与企业内部搜索；（b）电子邮件筛选与优先级排序；（c）个性化内容推荐与基础数据报告生成；（d）自主日程助手。每个示例均体现了模块化人工智能代理（AI Agent）在集成应用中的价值 —— 可在业务工作流与用户交互系统中，实现自动化处理、意图理解及自适应推理功能。

图 11：智能体人工智能（Agentic AI）在多领域的应用示例：图 11 展示了智能体人工智能（Agentic AI）系统的四个实际应用场景。（a）自动化基金申请书撰写 —— 通过多智能体协同，实现结构化文献分析、合规性匹配及文档格式规范。（b）苹果园协同多机器人采摘 —— 借助共享空间记忆，以及负责测绘、采摘、运输的任务专用智能体，实现多机器人协同作业。（c）医院重症监护室（ICU）临床决策支持 —— 通过诊断、治疗方案制定、电子健康记录（EHR）分析的同步智能体，提升医疗安全性与工作流效率。（d）企业环境下的网络安全事件响应 —— 由智能体分别处理威胁分类、合规性分析及缓解方案制定。在所有场景中，中央协调器负责管理智能体间通信，共享记忆确保上下文信息留存，反馈机制则驱动系统持续学习。这些应用案例凸显了智能体人工智能（Agentic AI）在科学、农业、医疗、信息技术安全等领域的复杂动态环境中，具备可扩展、自主化任务协同的能力。

四、挑战与破局：从技术瓶颈到未来 roadmap

尽管AI Agents与Agentic AI发展迅速，文章也毫不避讳地指出了当前面临的核心挑战，并提出了针对性解决方案。

1. 两大范式的共性与差异化挑战

AI Agents的痛点：

因果推理缺失：LLM擅长识别相关性，但无法区分因果。例如，某AI Agents发现“医院就诊人数增加”与“感冒发病率上升”相关，却无法判断是感冒导致就诊增加，还是就诊人数多导致交叉感染；
LLM固有缺陷：幻觉（生成虚假信息）、知识滞后（无法获取实时数据）、提示敏感性（微小提示变化导致结果大幅差异）；
长期规划能力弱：在多步骤任务中易“卡壳”，如生成报告时某一步工具调用失败，无法自主恢复，只能停滞。

Agentic AI的新增挑战：
误差传递：一个智能体的错误会扩散至整个系统。例如，若验证智能体误判某篇论文为“相关”，后续总结、写作智能体都会基于错误信息工作；
协调瓶颈：智能体间目标对齐难、通信易产生歧义。比如，规划智能体拆分的“撰写报告”任务，写作智能体可能理解为“1000字摘要”，而用户实际需要“5000字详细分析”；
涌现行为不可预测：多智能体交互可能产生未预期结果。例如，某Agentic AI系统中，两个智能体为争夺同一API资源，陷入“无限请求”循环，导致系统崩溃；
可解释性差：多智能体的决策链复杂，难以追溯某一结果的具体来源。比如，医疗Agentic AI推荐某治疗方案，医生无法确定是监测智能体的预警，还是病史智能体的记录起了关键作用。

图 12：挑战示意图：（a）人工智能代理（AI Agents）的主要局限性，包括因果推理缺陷（causality deficits）与浅层推理（shallow reasoning）；（b）智能体人工智能（Agentic AI）系统中更为突出的协同与稳定性挑战。

2. 针对性解决方案：技术与架构的双重突破

针对上述挑战，文章提出了十大核心解决方案：

检索增强生成（RAG）：为AI Agents提供实时、准确的外部知识，减少幻觉。例如，客服AI Agents通过RAG调用企业最新产品手册，确保回答与当前产品信息一致；Agentic AI中，多个智能体可通过RAG共享同一知识库，避免信息不一致；
ReAct框架：强化AI Agents的“推理-行动-观察”循环，提升任务执行的鲁棒性。例如，数据汇总AI Agents在调用数据库后，会先验证数据准确性，再进行后续分析；
因果建模：帮助AI Agents与Agentic AI区分相关性与因果性。通过引入因果图、贝叶斯网络，让智能体理解“为什么”发生，而非仅观察“发生了什么”；
共享记忆架构：解决Agentic AI的信息同步问题，确保所有智能体基于同一上下文工作；
元智能体协调：由专门的协调智能体监控任务进度、解决冲突，避免Agentic AI的协调混乱；
工具验证机制：在AI Agents调用工具后，增加结果校验步骤。例如，代码生成AI Agents运行代码并检查报错，自动修正错误；
程序式提示工程：自动化生成提示，减少AI Agents的提示敏感性。通过模板化、变量化的提示设计，确保相似需求产生一致结果；
** reflexive（反思）机制**：让AI Agents与智能体具备自我批判能力。例如，法律AI Agents在起草合同后，会重新检查条款是否符合法律规定；Agentic AI中，验证智能体可审核其他智能体的输出，确保准确性；
监控与审计 pipeline：为Agentic AI建立完整的决策日志，记录每个智能体的操作、调用的工具、输出结果，便于追溯问题根源；
治理架构：通过角色权限控制、安全 sandbox（沙箱），防范Agentic AI的安全风险。例如，限制敏感智能体（如医疗决策智能体）的操作范围，避免越权行为。

图 13：展示了十种不断发展的架构与算法机制（如检索增强生成（RAG）、工具增强、动态记忆、因果建模、协调机制及反思性自我评估），这些机制被视为核心推动因素，能够突破以往的应用局限，助力解决当前在可靠性、可扩展性与可解释性方面存在的问题。尽管这些技术此前已应用于孤立的智能体系统，但在本文中，它们被重新置于新的语境下，以满足现代人工智能代理（AI Agents）与智能体人工智能（Agentic AI）的需求，从而在日益复杂且动态的环境中，实现具备协同性、适应性与可验证性的行为。

3. 未来 roadmap：从模块化到协同进化

文章最后为两大范式规划了未来方向：

AI Agents的进化重点：提升主动推理能力（从“用户指令驱动”到“场景驱动”，如自动识别用户需要生成报告并启动任务）、深化工具集成（支持更复杂的工具链，如结合机器人硬件）、强化因果推理与持续学习；
Agentic AI的突破方向：规模化多智能体协作（支持上千个智能体同时工作）、领域定制化（针对医疗、金融等场景优化协调机制）、伦理治理（明确智能体责任归属，防范偏见放大）；
颠覆性探索：文章提及的“Absolute Zero（AZR）框架”或许是下一代技术的关键。该框架试图让智能体“零数据学习”——无需外部数据集，通过自主生成任务、验证结果、优化策略实现进化。例如，科研Agentic AI系统中的智能体，可自主提出假设、设计实验、模拟结果、修正假设，实现“自我驱动”的科研探索。

图 14：人工智能代理（AI Agents，左侧）与智能体人工智能（Agentic AI，右侧）未来发展路线图的思维导图可视化。

五、结语：智能体的终极目标，是成为人类的“协同伙伴”

回顾全文，AI Agents与Agentic AI的差异并非“谁更先进”，而是“适用场景不同”：AI Agents适合解决单一、明确的自动化任务，是提升效率的“工具”；Agentic AI则擅长应对复杂、动态的系统性目标，是辅助决策的“团队”。

从MYCIN到ChatGPT，从单一规则执行者到多智能体协作系统，AI智能体的发展始终围绕一个核心目标——缩小“机器能力”与“人类需求”的差距。如今，AI Agents已能高效处理客服、数据汇总等标准化任务，Agentic AI更在科研、医疗、机器人协调等复杂场景中展现出巨大潜力，但这并非终点。文章强调，未来智能体技术的终极方向，是从“自动化工具”进化为“人类协同伙伴”——既能自主完成重复性工作，又能理解人类意图、适应动态需求，甚至在高风险领域（如手术机器人、自动驾驶）与人类共同决策。

要实现这一目标，仍需突破三大关键瓶颈：一是因果推理的深度化。当前AI Agents与Agentic AI仍依赖统计相关性，难以真正理解“因果关系”，这在医疗诊断、金融风险预测等场景中可能导致致命错误。未来需将因果推断与LLM更深度融合，让智能体不仅能“预测结果”，更能“解释原因”；二是可解释性的透明化。Agentic AI的多智能体协作链复杂，决策过程常呈“黑箱”状态，这在法律、医疗等需追溯责任的领域难以落地。后续需建立“决策日志+因果追溯”机制，让每个智能体的操作、信息来源、推理逻辑都可审计；三是伦理与安全的体系化。随着Agentic AI自主性提升，可能出现“目标偏离”（如为完成任务忽视伦理准则）、“安全漏洞”（如被恶意攻击操控某一智能体）等风险。谷歌A2A协议虽迈出了安全标准的第一步，但仍需行业共同制定伦理框架，明确智能体的行为边界、责任归属与风险防控机制。

不可否认，AI Agents与Agentic AI已开启下一代AI的新篇章。当AutoGPT能自主完成市场分析，当CrewAI能协同撰写科研论文，当果园中的多智能体机器人实现高效采摘，我们看到的不仅是技术的进步，更是人类与AI协作模式的重构——人类从“执行者”转变为“决策者”，将重复劳动交给AI，专注于创意、战略等更高价值的工作。

正如文章结尾所言，这份研究不仅是对当前技术的梳理，更是为未来智能体系统绘制的“路线图”。无论是AI Agents的工具集成优化，还是Agentic AI的多智能体协同创新，最终都将指向一个更高效、更安全、更具人文关怀的AI时代。而谷歌A2A协议的提出、AZR框架的探索，也让我们有理由相信，在科研与产业界的共同推动下，“AI智能体成为人类协同伙伴”的目标，将从理论走向现实。

参考

论文标题：AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges
论文链接：https://arxiv.org/pdf/2505.10468

#LightVLM

免训练、性能几乎无损！天津大学LightVLM让26B大模型比8B还快

大型视觉语言模型（VLM）虽然功能强大，但其高昂的推理成本和延迟一直是阻碍其在现实世界广泛部署的“拦路虎”。为了解决这一痛点，来自天津大学的研究者们提出了一种名为 LightVLM 的新方法，它如同一套轻巧的“外挂”，能够无缝部署在现有的VLM之上，无需任何额外训练，即可显著加速模型的推理过程。

LightVLM的核心思想是，将VLM的推理过程分为 编码（Encoding） 和 解码（Decoding） 两个阶段，并在这两个阶段同时进行优化。通过“金字塔令牌合并”和“KV缓存压缩”两大技术，LightVLM实现了惊人的加速效果。实验表明，该方法甚至能让一个26B的超大模型（InternVL2.5 26B）跑得比一个8B的小模型（InternVL2.5 8B）还快，真正实现了“大而快”。

论文标题: LightVLM: Acceleraing Large Multimodal Models with Pyramid Token Merging and KV Cache Compression
作者: Lianyu Hu, Fanhua Shang, Wei Feng, Liang Wan
机构: 天津大学
论文地址: https://arxiv.org/abs/2509.00419
录用信息: EMNLP 2025 Findings

背景：VLM推理的两大瓶颈

VLM的推理过程主要包含两个阶段，每个阶段都有其效率瓶颈：

编码（预填充）阶段：模型处理输入的图像和文本提示。当输入图像被转换成大量的视觉令牌（Token）时，这个阶段的计算量巨大，耗时很长。
解码（生成）阶段：模型逐个生成输出文本的令牌。每生成一个新令牌，都需要利用之前所有令牌的KV缓存（KV Cache）来维持上下文。当需要生成很长的文本序列时，这个KV缓存会变得异常庞大，严重拖慢生成速度。

现有的一些加速方法往往只关注其中一个阶段，而LightVLM的创新之处在于 双管齐下 ，同时解决两个阶段的瓶颈。

LightVLM：免训练的双阶段加速策略

LightVLM通过两项核心技术，分别在编码和解码阶段进行加速，且整个过程完全无需重新训练模型。

1. 编码加速：金字塔令牌合并 (Pyramid Token Merging)

研究者观察到，在VLM的深层网络中，并非所有的视觉令牌都同等重要。如下图所示，随着网络层数的加深，模型的注意力会逐渐集中到少数“主导”令牌上。

基于此发现，LightVLM提出“金字塔令牌合并”策略。它不在一开始就丢弃令牌，而是在LLM的不同层级， 逐步地、分层地 将那些不那么重要的令牌合并掉，最终只保留少数最关键的主导令牌参与后续计算。这种金字塔式的合并方式，既能显著减少计算量，又能最大程度地保留原始图像信息，从而在加速的同时保证了性能。

2. 解码加速：KV缓存压缩 (KV Cache Compression)

针对解码阶段因KV缓存过大而导致的延迟问题，LightVLM提出了相应的压缩策略。该策略通过识别并移除KV缓存中不必要或冗余的条目，有效减小了缓存的大小。这使得模型在生成长文本序列时，能够大幅提升吞吐量，降低延迟。

实验结果：性能与速度的双重胜利

LightVLM的实验结果令人印象深刻，它在性能保持和推理加速上都取得了优异的成绩。

1. 极高压缩率下性能几乎无损

实验表明，LightVLM可以在 仅保留35%图像令牌的情况下，保持100%的性能 。即便在极为苛刻的条件下， 只保留3%的图像令牌，模型性能也仅下降约2% ，展现了其强大的效率和鲁棒性。

2. 显著的推理加速效果

量化指标上，LightVLM将模型的 网络吞吐量提升了约2.02倍 ，将 预填充时间降低了约3.65倍 。在生成长文本（如4096个令牌）的场景下， 推理时间更是能降低约3.21倍 ，远超现有其他方法。

3. 让大模型比小模型更快

最引人注目的结果是，LightVLM打破了“模型越大，速度越慢”的常规。如下图所示，通过LightVLM加速后，一个260亿参数的InternVL 2.5模型，其推理延迟竟然低于一个未经加速的80亿参数的同系列模型。这一发现对于大模型的实际部署具有里程碑式的意义。

论文价值与总结

LightVLM的提出，为解决大型VLM的推理效率问题提供了一个简单、通用且高效的解决方案。

免训练，即插即用：作为一种无需额外训练的方法，LightVLM可以轻松地应用于各种现有的VLM，极大地降低了使用门槛。
双阶段并行加速：同时优化编码和解码两个阶段，相比只关注单一阶段的方法，加速效果更全面、更显著。
为大模型落地扫清障碍：通过实现“大而快”，LightVLM使得在资源有限的设备上部署更大、更强的模型成为可能，有望极大地推动VLM在现实世界中的应用。

总而言之，LightVLM以其巧妙的设计和卓越的效果，为VLM的普及和应用带来了新的曙光，证明了通过精巧的算法设计，可以在不牺牲性能的前提下，让强大的AI模型变得更加轻盈和高效。

#想要「版本」超车，Agent 需要怎样的「Environment」？

AI 创企 you.com 近日在完成 1 亿美元 C 轮融资，同时宣布从搜索引擎转型为 AI Infra 公司。业界认为这种转变遵循「产品驱动基础设施」的战略模式，是在 Agentic AI 从实验室成功商业化趋势下深思熟虑的策略。此前，如 E2B 的 SandBox，Browserbase 的 AI 浏览器等创业项目也曾引发相似的讨论。

01.AI 会写代码后，Agent Environment 要如何跟上版本？

Agent Environment 是什么？现代 Agent 的 Environment 对 Infra 有哪些需求？...

02. 除了 E2B，还有哪些比较热门 Agent Environment 项目

Sandbox 之外，还有哪些工具属于 Agent Environment？非共识下的 Agent Environment 有哪些热门创业项目？...

01 AI 会写代码后，Agent Environment 要如何跟上版本？

1、伴随 Agentic AI 在近两年疾速发展，人工智能的重心正在从专注内容创作的生成式 AI 转向目标驱动的、具有自主执行能力的 Agentic AI。

① 吴恩达在多次演讲中表示，AI Agent 将成为我们与计算机交互的新界面，用户只需用自然语言下达指令，而无需编写代码或点击按钮。

② 同时，诸如 Cursor、Bolt 和 Mercor 等公司利用具有特色的智能体产品实现了巨大的营收增长。

2、在此趋势下，具备 Computer Use 能力的 AI Agent 能够通过理解屏幕上的像素信息，直接使用虚拟的鼠标和键盘与图形用户界面进行交互，摆脱了对特定 API 的依赖，但人们同样不希望 Agent 能够随意支配自己的电脑。

① 以编码 AI 为例，开发者想给 agent 或 AI 应用尽可能大的自由度，让它们可以运行任何想运行的代码，这可能包括访问完整的文件系统、下载依赖包等。

② 从安全性与隔离性考虑，开发者希望确保不同用户的代码不会在同一个环境里运行，因为开发者并不知道用户的代码具体在干什么，也不知道有没有敏感信息被泄露。

3、这种矛盾促使人们开始思考如何开发适用于现代智能应用的「Agent Environment」，以及相应的的 AI Infra。[1-1]

① 如 E2B、Modal Labs 等公司通过虚拟机的形式为 Agent 提供安全、隔离的云环境（Sandbox），专用于运行 AI 生成的代码。

4、Agent Environment 可以理解为 AI 智能以生存、感知和行动的数字或物理空间。它为智能体提供了所有必要的输入（感知）和反馈，并定义了智能体可以采取的所有行动。

① Agent Environment的根源可追溯至强化学习领域。在 RL 的语境中，「环境」通常是一个用于训练的模拟空间（如游戏、物理引擎、棋盘等）。Agent 在这个封闭的环境中通过不断的试错和接收奖励信号来学习最优策略。

② 这类环境的核心目标是保证训练的保真度，使其能够有效地模拟特定领域的动态，从而让 Agent 学会解决特定问题。[1-2]

5、伴随 LLM-based Agent 的突破，现代 Agent 应用需要在真实世界中执行复杂的、多步骤的任务，其对环境的需求也从「训练场」转变为「作业区」。[1-3]

① 以当下最受关注的编程任务为例，面向 Agent 的环境必须能够提供对真实世界工具的安全访问，包括文件系统、代码解释器、网络浏览器和外部 API。其核心目标也从训练保真度转变为确保执行的可靠性与安全性。

6、纵观 Agent 应用所应对的任务和交互对象，也有一种思潮引述强化学习中对环境的定义，用交互所需的「环境」来区分不同的 Agent。

① 从交互对象出发，部署于机器人或无人车的xx智能体需要「物理环境」（Physical Environment），虚拟助手需要「数字环境」（Digital Environment），甚至人类在作为 Chatbot 交互对象时也可被视为一种环境。[1-3]

② 从具体的 Agent 应用出发，Manus 的环境是虚拟机（VM），Devin 对应浏览器，flowith 对应笔记本...

#Anthropic被作家告了

违规下载700万本书，15亿美元和解了

最新消息，AI 初创公司 Anthropic 同意支付至少 15 亿美元，来和解一起作家集体诉讼案件。此前，这些作家联合指控 Anthropic 盗版了他们的作品来训练其聊天机器人 Claude。

在业界看来，如果该协议获得批准，那么这将是一起具有里程碑意义的和解协议，是美国版权案件历史上金额最高的赔偿，也将是 AI 公司与指控其侵犯版权的作家、视觉艺术家，以及其他相关创意专业人士之间法律纠纷的转折点。

据了解，15 亿美元和解金背后涉及的作品约为 50 万本书，平摊下来，每本书或每部作品预计获得 3000 美元的赔偿。另外，作为和解协议的一部分，Anthropic 也同意销毁其下载的原始文件及所有副本。

根据 6 月份的一份裁决显示，Anthropic 通过各种渠道，从 Library Genesis 和 Pirate Library Mirror 等盗版网站下载了超过 700 万本「明知是盗版」的电子版书籍。

所以，上个月的时候，美国作家协会预计每本书或每部作品的赔偿金至少为 750 美元，但现在是 3000 美元，大概率是在删除了重复作品和无版权作品后，受影响的书籍数量变少了。

从时间来看，这起诉讼案件持续一年之久了。去年 8 月，以安德里亚・巴茨 (Andrea Bartz)、查尔斯・格雷伯 (Charles Graeber) 和柯克・华莱士・约翰逊 (Kirk Wallace Johnson) 三位作家为代表的一群作家共同对 Anthropic 发起起诉，指控 Anthropic 盗版了他们作品来训练 Claude。

其实大模型技术一路发展以来，有关 AI 公司已经接到过很多类似侵权起诉，比如首当其冲的 OpenAI，而且随着相互之间的「博弈」，关于用何种数据来训练模型是可以的，探讨的空间也在一直变化。但这是 Anthropic 第一次接到诉讼。

后来 Anthropic 发现：用受版权保护的作品训练 AI，使聊天机器人能够自己创作文本段落，这在美国版权法下符合「合理使用」的条件，因为它「本质上具有变革性」。所以 Anthropic 也曾以此为理由进行辩解。

但没用，关键在于 Anthropic 用的不是「受版权保护的作品」，用的是盗版啊，Anthropic 理由根本站不住脚。

但也有观点认为，这次和解的背后，似乎 Anthropic 并没有「因此蒙受损失」，相较于说这是作家的胜利，更像是科技公司的再一次胜利。

因为看似 15 亿美元是一笔不菲的金额，但平摊下来，每部作品获得的赔偿数目并不是很高。

更关键的是，这笔赔偿金额对 Anthropic 来说，不过「洒洒水」而已。要知道，就在前几天，Anthropic 刚刚完成新一轮高达 130 亿美元的融资，估值高达 1830 亿美元，今年 8 月的时候该公司的年度化营收就已超过 50 亿美元。

而对于 Anthropic 这次的和解行为，其实也符合科技行业的发展惯例，即先发展业务，然后因违反规则而支付与业务规模相比相对较小的罚款……

有意思的是，就在 Anthropic 同意花钱解决侵权问题的同时，也有两则起诉 AI 厂商侵权行为的消息传出。一个是苹果因使用书籍进行 AI 训练遭作者起诉，另一个是华纳兄弟起诉 Midjourney 侵犯超人、蝙蝠侠、神奇女侠、兔八哥、史酷比、飞天小女警、瑞克与莫蒂以及其他角色的 AI 图像。

左图为 Midjourney 输出的瑞克与莫蒂图像，右图为原始影片截图，图源：Hollywood Reporter

而在今年 6 月，迪士尼和环球影业也曾联手起诉了 Midjourney。他们认为，这家 AI 公司是抄袭其电影和电视节目的「搭便车者」。

网友讨论

Anthropic 的这一做法，引起了广大网友的激烈讨论。

有人认为：Anthropic 并不承认有罪，只是达成了一项和解，该和解并未确立 AI 训练一定属于合理使用（fair use），也未确认扫描书籍就是合法的。这些核心法律问题，仍将留待其他案件去争论与裁决。

正是这种模糊不清的裁决，甚至有人认为这个案件对生成式人工智能公司来说是一个巨大的胜利。

这意味着购买了纸质书的人可以自己扫描，并用这些内容来训练模型。人们常说，大模型已经在整个（公开的）互联网上完成了训练，但实际上，纸质书籍仍然蕴含着大量宝贵的知识。而且，那些价格低廉、甚至无人问津的二手书，可以进行破坏性扫描：把书脊切掉，然后放进自动送纸扫描仪逐页扫描。目前网上甚至有提供这种扫描服务的公司，专门帮助用户把纸质书转成电子版。

但有网友认为这种做法会对原书造成不可逆的破坏。切掉书脊后，一页一页的纸张会变成垃圾，造成巨大浪费，不幸的是，Anthropic 很可能采用了这种做法。

这不禁让人联想到《纽约时报》于 2023 年起诉 OpenAI 及其合作方微软，称其未经授权使用数百万篇文章训练 ChatGPT 和 Copilot 等大型语言模型。

如果参考 Anthropic 这个案例，基本上现在已有先例表明，用文本训练 AI 模型并使其产生输出并不构成版权侵权。

虽说 Anthropic 并未承认侵权，但依然选择支付巨额赔偿来了结纠纷。该公司刚刚完成 130 亿美元 F 轮融资，这也让他们具备了足够的财务能力来买单这起史上最大规模的版权和解案。接下来，外界的目光将转向 OpenAI、谷歌等其他巨头，在这之后，他们可能会支付更多的费用。

对此，你怎么看？AI 公司的这些操作算是「合理使用」吗？

参考链接：

https://news.ycombinator.com/item?id=45142885

https://www.bloomberg.com/news/articles/2025-09-05/anthropic-to-pay-1-5-billion-to-settle-author-copyright-claims

https://www.hollywoodreporter.com/business/business-news/warner-bros-discovery-sues-ai-company-copyright-infringement-1236361610/

#英伟达的局

狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器

Lambda 收入可观，英伟达主导地位稳固，大家都有美好未来

据 The Information 最新消息称，英伟达已经与小型云服务提供商 Lambda 达成一笔总额高达 15 亿美元的合作协议，内容是前者将租赁后者搭载英伟达自研 AI 芯片的 GPU 服务器。

具体来讲，总额高达 15 亿美元的合作实际包含两笔交易。一笔数额是 13 亿美元，协议内容是英伟达将在 4 年内，从 Lambda 租赁 1 万个搭载英伟达自研 AI 芯片的 GPU 服务器。另一笔价值 2 亿美元的交易，是从 Lambda 那再租赁 8000 个装有英伟达芯片的服务器，但没有严明时间。

据了解，Lambda 成立于 2012 年，是一家规模较小的云服务提供商，主要商业模式是对外租赁数据中心空间，部署搭载英伟达 GPU 的服务器并出租。

早前有消息传出，Lambda 正在准备 IPO，此次交易过后，Lambda 账户上将多了一笔可观的收入，而英伟达也成为 Lambda 最大的客户。此前，英伟达一直在为其提供芯片并进行投资。

也就是说，经过这样一番操作，英伟达既是 Lambda 的主要芯片供应商，也是投资者和大客户。有业内人士分析，这些举措是英伟达战略的一部分，为的是重塑整个云计算市场的竞争格局并维护其长期主导地位。

是不是有点晕？我们来捋一捋。

具体的操作大概是这样：最开始，英伟达会挑选并对一些小型云服务提供商进行投资，之后这些公司就凭借这融到的资金来购买英伟达自研的 AI 芯片。然后，英伟达再花钱从这些云服务提供商那里租赁搭载了自家 AI 芯片的 GPU 服务器，过程中的花费可能要高达数亿美元。

虽然看似只是资金的「内循环式」流通了一下，但于云服务提供商来说，其收入表现亮眼，大幅提升 IPO 的可能性；于英伟达来说，一方面可以通过这些云服务提供商购买自家芯片的行为来增加自身收入，另一方面如果后者上市成功，还可以以股东的身份从中获益。

这怎么不算是一大妙招？

其实这并不是英伟达第一次这样做了，先前已经在 CoreWeave 身上操作过了一次。

CoreWeave 成立于 2017 年，前身为 Atlantic Crypto Corp，专注于为以太坊挖矿提供基础设施。2019 年公司更名为 CoreWeave，并开始寻找其他可以使用 GPU 处理的计算任务，向云服务商转型。之后，英伟达就开启了对 CoreWeave 的的扶持之路，投资、向其提供芯片支持、租赁其 GPU 服务…… 结果是 2025 年 3 月，CoreWeave 完成 15 亿美元的 IPO，也是美国近四年规模最大的风投支持科技公司上市案例。

英伟达为何这样？

其实也不难理解。近年来，微软、谷歌、亚马逊、Meta 等 AI 厂商都在纷纷开始斥巨资进行芯片研发，而同时他们也是英伟达的主要客户，如此一来，对于英伟达来说不仅仅是失去重头客户那么简单，甚至对方还有可能摇身一变成为自己的竞争对手。为此，英伟达通过扶持 CoreWeave、Lambda 等小型云服务厂商成长、壮大，并相互缔结亲密「联盟」关系，为的就是尽可能维护其在主导地位。

参考链接：

https://www.theinformation.com/articles/nvidias-chip-round-trip-deals?rc=rpuplc

theinformation.com/briefings/nvidia-quietly-agrees-pay-1-5-billion-rent-ai-chips-lambda

#AnimaX

任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式

本文的主要作者来自北京航空航天大学、清华大学、香港大学和 VAST。本文的第一作者为北京航空航天大学硕士生黄泽桓。本文的通讯作者为北京航空航天大学盛律教授与 VAST 公司首席科学家曹炎培博士。

在游戏、影视制作、虚拟人和交互式内容创作等行业中，高质量的 3D 动画是实现真实感与表现力的基础。然而，传统计算机图形学中的动画制作通常依赖于骨骼绑定与关键帧编辑，这一流程虽然能够带来高质量与精细控制，但需要经验丰富的艺术家投入大量人力与时间，代价昂贵。

随着生成模型的快速发展，自动化的角色动画生成逐渐成为可能，为行业提供了新的解决思路。然而，现有方法存在显著局限：

基于动作捕捉的扩散模型或自回归模型只能在固定骨骼拓扑下工作，主要面向类人动作，难以推广至更广泛的角色类别；
基于视频生成模型的工作虽然能够生成多样化的动态序列，却往往依赖于高自由度的三维形变场优化，计算开销大、结果不稳定，往往需要耗时的优化过程。

为解决这一难题，北京航空航天大学团队提出了 AnimaX，一个高效的前馈式 3D 动画生成框架，并且支持任意类别的骨骼拓扑结构。

论文题目：AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

论文链接：https://arxiv.org/abs/2506.19851

项目主页：https://anima-x.github.io/

AnimaX 的核心思想是将视频扩散模型的运动先验与骨骼动画的低自由度控制相结合。创新性地将 3D 动作表示为多视角、多帧的二维姿态图，并设计了一种视频-姿态联合扩散模型，能够同时生成 RGB 视频与对应的姿态序列。

通过共享位置编码与模态特定嵌入，该模型实现了跨模态的时空对齐，有效地将视频中的丰富运动知识迁移到 3D 动画生成中。最终，通过反投影与逆向运动学将生成的姿态转化为 3D 动画。

总结而言，AnimaX 的主要贡献包括：

提出了 AnimaX，首个支持任意类别的骨骼拓扑结构，同时兼顾视频先验的多样性与骨骼动画的可控性的高效前馈式 3D 动画框架。
设计视频-姿态联合扩散模型，通过共享位置编码实现跨模态时空对齐，显著提升运动表达能力。
构建了一个涵盖约 16 万条绑定骨骼的 3D 动画数据集，包含人形、动物及其他多种类别，为训练通用的动画模型提供了重要资源。

效果展示：不限物体类别的 3D 骨骼动画生成

，时长00:31

AnimaX 能够为多种类别的 3D 网格生成自然连贯的动画视频，不论是人形角色、动物还是家具与机械结构，都能实现时空一致的动作表现。不同于以往依赖高代价优化的方法，AnimaX 可以在几分钟内完成 3D 动画序列生成，并在保持动作多样性和真实性的同时展现出极强的泛化能力。

技术突破：基于视频扩散模型的任意骨骼动画生成

骨骼动画的局限与挑战

传统 3D 动画生成依赖骨骼绑定与关键帧设计，虽然能带来高质量和可控性，但需要大量人工成本。近期基于动作捕捉的扩散模型和视频生成模型提供了自动化可能性，但前者受限于固定骨骼拓扑，难以泛化至非人形角色；后者则依赖高自由度的形变场优化，计算昂贵、结果不稳定，甚至需要数十小时才能得到一条动画。

新思路：联合视频-姿态扩散建模

AnimaX 打破了这一局限。团队提出将 3D 动作重新表示为多视角、多帧的二维姿态图，并训练一个视频-姿态联合扩散模型，同时生成 RGB 视频与姿态序列。通过共享位置编码与模态嵌入，团队首次在视频和姿态之间实现了稳健的时空对齐，使视频扩散模型中学到的运动先验能够无缝迁移到姿态序列生成。

团队首先提出了一种姿态图表示方式，将三维骨骼的关节位置投影到二维图像平面，使模型能够精确定位姿态结构，为后续的三维动作重建打下基础。

在此基础上，研究者构建了一个视频-姿态联合扩散模型。该模型在原有视频扩散模型上引入了模态嵌入与共享位置编码，前者用于区分 RGB 与姿态两类信号，后者则确保两种模态在空间位置上的对齐，使模型能够同时学习 RGB 视频与姿态序列的联合分布。

通过这一机制，视频和姿态序列的生成过程得以在同一框架下协同进行。之后，为了进一步发挥视频扩散模型的时空建模能力，团队设计了一种统一序列建模策略，即将输入的模板图像（包括 RGB 与姿态图）与目标生成序列拼接在一起，再通过三维自注意力进行联合推理。这种方式使预训练模型的时空先验能够自然迁移，从而保证了输出动画的稳定性与连贯性。

最后，团队采用 Plücker ray 来编码相机参数，并在网络中加入多视角注意力机制以解决多视角不一致的问题，使得不同视角下的视频与姿态能够直接建立空间对应关系。得益于这一设计，生成的动画在不同相机角度下依然保持协调一致，避免了常见的视角漂移和形变不稳的问题。

3D 姿态重建与动画生成

在生成多视角姿态序列后，团队设计了一套高效的三维动作重建与动画生成流程：先通过聚类提取二维关节位置，再利用多视角三角化与最小二乘优化恢复三维关节坐标，最终通过逆向运动学将其映射为骨骼旋转驱动网格，从而生成自然流畅的三维动画。不同于以往依赖长时间迭代优化的方法，AnimaX 仅需数分钟即可得到结构合理、动作连贯的结果，并能够泛化到人形、动物乃至家具、机械等多种类别。

卓越性能：泛化的动画合成

团队将 AnimaX 与众多优秀的开源模型进行定性定量的对比。可以看到 AnimaX 的结果基本都优于现有方法，并在后续的人类偏好测试中取得了显著优势。

动画生成

团队对比了 AnimaX、MotionDreamer 和 Animate3D。

从结果中可以看出，AnimaX 通过联合视频-姿态建模，将视频中的运动先验有效迁移到骨骼驱动的动画合成中，能够高质量地生成各类物体 3D 运动动画，并同时保持物体的一致性。

相比之下，MotionDreamer 依赖预训练视频扩散模型来监督模型形变，但由于形变场的自由度过高，约束能力有限，往往导致几何不一致和时序不稳定；Animate3D 则通过微调多视图视频扩散模型提升跨视角一致性，虽然在一定程度上减少了伪影，但重建过程困难，常出现几乎静止的结果。

团队从 VBench 中选取了四个指标进行评测，包括主体一致性（I2V Subject）、运动平滑度（Smooth）、动态程度（Dynamic Deg.）和外观质量（Quality）。

结果显示，AnimaX 在除运动丰富度外的所有指标上均显著优于现有方法，尤其在外观质量上表现突出。而对于运动丰富度指标，团队通过进一步实验发现由于其对部分样本不够鲁棒，比如，在视频中物体突然消失也会产生虚高分数，因此难以说明视频的实际运动表现。

团队还额外进行了用户评测，以检验人类在实际使用中对不同方法的偏好。团队共招募了 30 位参与者，使其对测试集中不同方法的生成结果从动作与文本的匹配度、三维形体的一致性以及整体运动质量三个方面分别选择最佳结果。结果显示，AnimaX 在所有指标上均获得了最高偏好率，进一步说明了 AnimaX 将视频扩散模型的运动先验迁移到骨骼驱动的 3D 动画的做法具有更强优势。

消融实验

团队还进一步进行了消融实验，对比了三种不同的设置：

在视频扩散模型基础上仅生成动作序列；
同时生成视频与动作序列，但两种模态不共享位置编码；
完整的 AnimaX 模型，即联合视频-姿态生成并共享位置编码。

实验结果表明，方案 1 由于动作序列稀疏且与视频模态差异较大，难以充分利用视频先验，往往生成畸变或近乎静止的结果；方案 2 虽然一定程度缓解了问题，但视频与动作之间缺乏空间对齐，仍存在不稳定现象。

相比之下，完整的 AnimaX 模型通过共享位置编码实现了视频与姿态的紧密对齐，更好地继承了视频扩散模型的运动先验，在一致性与动作表现力上均显著优于其他对比方案，进一步验证了方法设计的有效性。

未来展望

AnimaX 研究团队提出了一种新方法，将视频扩散模型中可迁移的运动先验与骨架动画的结构化可控性相结合，实现对任意骨架结构的三维网格进行高效动画生成，为更灵活的多视角三维动画生成奠定了基础。

同时，AnimaX 的设计思路也为多个方向提供了新的可能性。一方面，联合视频-姿态建模不仅适用于骨骼动画，还可扩展到场景级动态建模，从而推动更广泛的 4D 内容生成；另一方面，当前方法基于单次前馈生成，未来可尝试结合长时序视频生成，以提升长程动画的连贯性与细节保真度，进而支持更复杂、更丰富的 3D 动画生成。

#00后以1.1亿美金「掀桌」

硅谷AI将书写影视新传奇终结制片旧时代

最年轻的工程师，和团队一起将产品卖给 Fortune 500 的客户，从 0 带到 10。

她，22 岁，成立自己的公司 —— Cybever, 以「用 AI 生成高精度 3D 虚拟环境」技术闻名，并卖服务给游戏和影视行业。

她，24 岁，接到了美国五大影视公司的一个电话，他们告诉她，不要再卖工具了，是不是也可以考虑下虚拟制片这个方向。

她在飞机上读了几遍 Bob Iger 的自传，暗下决心要改变商业模式，于是她决定不卖铲子了，要自己挖金矿。

她，今天宣布转型 Cybever 为全球首家 AI 原生影视工作室 Utopai Studios, 由好莱坞一派改革派导演、前派拉蒙 CEO 等投资，首年即斩获 1.1 亿美元收入，做到了 OpenAI、Runway 等都没做到的事情，被福布斯称之为首战即胜 —— 这被业界认为可能是 AI 闯入娱乐业最高调的一个大动作。

她不仅没有受到好莱坞抵制，反而加入好莱坞公会，成为第一家加入公会的 AI 公司。

今年秋季，她将带着内容，在戛纳 MIPCOM 和美国 AFM 电影节上映。这将是一个改变电影行业格局的历史性时刻。

硅谷从来不缺少创新，好莱坞从来不缺少传奇，当硅谷 AI 和好莱坞碰撞到一起，或将发生变革性的影视史诗级传奇。

而打造这个传奇的她 ——Utopai Studios 的掌舵者，是一位 00 后的年轻女性 ——Cecilia Shen。

Cecilia Shen, Utopai Studios 联合创始人兼联合首席执行官

一、「不是从硅谷出来的，而是从未来来的」

Cybever 是由 Cecilia Shen 和 Jie Yang 于 2022 年创立，此前以「用 AI 生成高精度 3D 虚拟环境」技术闻名。

福布斯独家报道

两位合伙人系出同门 ——Google X，2022 年公司创立之初的架构始于程序化内容生成，是为高效创造高质量的 3D 游戏环境而开发的。他们用三年的时间完成四个阶段的跨越进步 —— 从空间语法到「内容永动机」。与同期热门的 NeRF、3DGS 等 AI 模型相比，他们选择以程序化内容生成（Procedural Content Generation, PCG），PCG 的优势并不在「生成力」，而在于质量控制、拓扑完整性与工业兼容性。

首先，这一策略性的选择，成就了 Utopai 稳固的底层资产生成能力：

系统可自动生成成千上万个高精度 3D 资产，并匹配不同光照（晨曦、黄昏、阴影）、相机参数（广角、长焦）和天气条件（晴天、雨夜、雾霾）；

每个组合都具备「绝对真值」，将几何信息与 2D 视觉数据紧密绑定，为后续 AI 理解与生成提供了标准化的输入空间。

第二个阶段：将 “空间智能” 编码为语法规则。

PCG 擅长于「森林的随机之美」，但当生成对象变成「城市街区」或「室内空间」时，问题出现了：真实感来自于功能逻辑与空间秩序，而非随机摆放。

Cecilia 意识到，要突破生成式内容的 “感官天花板”，必须构建一种结构性能力 —— 空间语法。

通过持续训练与场景建模，其 AI 模型开始理解空间中的隐性规则：

为什么书桌总靠近窗户？

为什么消防通道必须留白？

为什么哥特式教堂往往正对主干道，前方设有广场与雕塑？

AI 不仅能「生成」，还能「思考」：它不仅能还原真实世界的视觉逻辑，更能模拟人类在空间中的行为预期。这一能力，使得 Utopai 在生成内容时具备了前所未有的结构美感与功能合理性。

第三个阶段：AI Agent 上场，创意不再从 0 开始

完成空间知识图谱构建后，Utopai 进一步开发了 AI Agent 系统 —— 一位具备设计直觉的「AI 创意总监」。

这套系统不再仅仅响应关键词命令，而是能够理解模糊、抽象、充满情绪色彩的创作指令。

例如，当创作者输入：「我想要一条雨夜中的东方小巷，带点赛博朋克风，像侦探电影那种孤独感。」

Agent 不会停留在「风格滤镜」的理解上，而是：

自动检索空间知识图谱；

结合人流动线、文化语境与构图焦点；

从整体构造到细节纹理，自动完成场景构建与视觉填充。

最终生成的内容，不只是图像，而是一个「具备意图的世界」。

例如：墙上的剥落中文海报、水洼中倒映的霓虹、缭绕在空气中的湿气 —— 这些从未被直接要求的细节，成为 AI 创作「审美深度」的体现。

更重要的是，这一过程输出的不是灵感草图，而是完整的 3D 预览资产（Pre-viz），为影视制作直接节省数十小时乃至数万元的人力与渲染成本。

第四个阶段：“骨架 + 皮肤” 的 Previz-to-Video 工业闭环

最终，Utopai 完成从工具到商业闭环的关键一跃：将上述所有能力汇聚为一个完整的视频制作工作流，即所谓的 ——Previz-to-Video Pipeline，他们破解了当下 AI 视频最大的问题：一致性、可控性与叙事延续性。

以后，导演不再需要等待数日，只需几分钟即可预览接近成片质量的镜头，甚至可以实现「即兴拍摄式」创作迭代。这不仅是一次效率革命，更是内容实验能力的质变。

二、雄心和梦想从「两部大剧」高起点开启

Cecilia 认为：「生成式 AI 的终局不是 API 调用，而是内容创造。」而在好莱坞要作 AI 原生影视，起点一定要高，手段一定要新。于是，Utopai Studios 直接甩出两张「王牌」，团队更是「王牌团队」云集。

一是《科尔特斯》（Cortés）：由奥斯卡提名编剧 Nicholas Kazan 执笔，好莱坞列为 49 的概念设计师 Kirk Petruccelli 执导，号称「史上最难拍史诗巨作」，被称为是好莱坞呼声最高但未拍摄电影前 10。

二是《太空计划》（Project Space）：8 集科幻剧集，由 Vanessa Coifman 和 Martin Weisz 执笔，Martin Weisz 执导，已经成功预售欧洲市场，被形容为「《壮志凌云》遇见《世界大战》」。

两部剧的背后，是 Utopai 自主开发的从「3D 布局」到「镜头输出」的全流程 AI 系统：通过程序化环境建模、AI 摄影机调度与视频生成模型，直接压缩传统影视制作的多个中间环节，从「前期可视化」跳转至「最终成片」的路径被极度简化，但效果绝佳，美轮美奂。

三、好莱坞早想改革，她早做好了准备

与其说是 Cecilia 幸运，不如说是好莱坞早就想改革。

在好莱坞的档案库里，沉睡着无数「不可能的电影剧本」。它们或许拥有震撼人心的故事，但却被一个无形的枷锁禁锢 —— 那就是令人望而却步的制作成本和技术鸿沟。

而以 Cecilia 为代表的一批具有 AI 思维和创新能力的新生代，经过技术的革新和链路打通，AI 原生电影将许多梦想成为现实，她为此提前做了充分准备，而站在她背后给予大力支持的是好莱坞改革派巨头们。

她早就说过，未来的内容行业，一定不是今天这样。今年阿诺拉的获奖，代表了独立电影的早期兴起。通过模型以及 Workflow 的自动化，会有大批的好的独立电影和短片的出现，大制作不是未来，电影的分钟数会变得越来越短，但是能精准把握住好故事会赢得市场。

Cecilia 在领英上写道：

在过去三年里，我的团队专注于在娱乐与游戏领域构建并部署专业化解决方案。我们现在看到一个非常清晰的转变：顶尖的概念设计师和特效艺术家正在主动将生成式工具融入创作流程。这不再是新奇尝试，而是他们核心创作过程的一部分。

这些具备高度审美判断力的专业人士，并不是用 AI 来取代直觉，而是用它来延展直觉。一旦掌握了提示词的使用，他们的创作效率显著提升，产出的作品更加精致、情感共鸣更强，并且具备直接进入生产环节的水准。这才是真正的差异化所在。观众并不在乎内容是不是 AI 生成的，他们只在乎作品是否精心打磨、充满意图且富有创造力。

内容产量正在爆炸式增长，但这并不代表质量也在随之提升。相反，观众变得更加挑剔，他们会重新分配时间、注意力和消费，倾向于真正能触动他们的内容。

这种转变在不同地区不会呈现相同的面貌。文化语境与区域偏好将塑造出截然不同的内容经济。这也意味着，在 AI 驱动的内容世界里，全球注意力之争才刚刚开始，而传统电影公司和制片厂也正着手开发内部的 AI 解决方案，这很可能引发新一轮投资与并购浪潮。

对于在这一领域创业的公司而言，我认为有几个竞争优势将决定成败：

1. 专有数据。

2. 流程集成：例如 Frame.io，在娱乐行业广泛使用，但它并未针对 AI 工作流优化。机会就在于构建真正适配 AI 的工具。

3. 领域专用模型：为娱乐优化的模型（如视频转视频、动画等）将在速度、控制力和质量上超越通用模型。

4. 人文与科学的融合：最强的公司会兼具技术深度与创意直觉。长期的优势将属于那些既懂技术堆栈，又懂「好品味」的团队。

5. 历史复原：AI 视频生成的一个强大维度，特别在电影中，是如何用技术去修复被时间、记忆与偏见掩埋的内容。若能有意图地使用，这些工具可以让被抹去的声音重新浮现，纠正历史遗漏，把真实的故事带回观众眼前。

我们拥有改变叙事方式的力量，而我迫不及待地想看到这个领域的下一个篇章。