小白入门智能体agent — 畅读《A SURVEY OF SELF-EVOLVING AGENTS: ON PATH TOARTIFICIAL SUPER INTELLIGENCE》分篇（一）

本文是一篇论文超详细偏基础讲解笔记，解析了自进化智能体(self-evolving agents)的研究进展，指出静态大语言模型在开放互动环境中的局限性，包括无法持续学习、缺乏记忆系统和执行能力。研究重点转向能实时适应环境变化的智能体，涉及架构设计（感知、记忆、推理等模块）和持续学习、强化学习等方法。论文围绕"进化内容"、"进化时机"和"进化方式"三个维度展开，探讨从大模型到基础智能体再到自进化智

牧野.

1228人浏览 · 2025-09-13 19:21:40

牧野. · 2025-09-13 19:21:40 发布

本篇文章摘取原论文中重点表达进行讲解，面向纯小白，不需要系统阅读原综述论文，即可迅速掌握self-evolving agents的概要，也可以作为原论文的伴读博文。

同时考虑到篇幅，会将对该篇论文的讲解做成一个系列。

先放上我们要读的论文title：

自进化智能体综述：迈向人工超级智能ASI之路

《A SURVEY OF SELF-EVOLVING AGENTS: ON PATH TOARTIFICIAL SUPER INTELLIGENCE》

接下来先从摘要开始，和我一起读论文吧 ~

摘要ABSTRACT

As LLMs are increasingly deployed in open-ended, interactive environments, this static nature has become a critical bottleneck, necessitating agents that can adaptively reason, act, and evolve in real time.

【译】：随着大型语言模型（LLMs）越来越多地部署在开放式、交互式环境中，这种静态特性已成为一个关键的瓶颈，需要能够适应性地进行推理、行动和实时进化的agents。

【讲解】：

开放式、互动式环境的特性，及静态LLMs的相应瓶颈：

1. 开放环境中，新的信息随时涌现，会出现训练数据中从未见过的场景、问题和组合（长尾问题）。相应瓶颈：静态LLMs根据已有的知识，无法学习新出现的概念，也无法应对训练数据分布之外的“超出分布”（Out-of-Distribution, OOD）情况。

2. 智能体与环境会实时互动，环境的“状态”会改变。相应瓶颈：LLMs每次问答虽然可以有上下文窗口，但一旦窗口滑过，之前的互动就会被“遗忘”，没有一个持久化的、可更新的记忆系统，无法进行真正连贯的、个性化的长期交互。

（环境的状态通常是智能体通过传感器观察到的外部世界状态，在对话系统中，环境通常包括用户输入、对话上下文、外部事件等）

此外，静态LLMs还有不具备根据环境反馈进行自我优化和调整、自身无法执行任何动作（例如查询数据库、调用API、运行代码、操控机械臂等）的能力。

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

This paradigm shift —from scaling static models to developing self-evolving agents — has sparked growing interest in architectures and methods enabling continual learning and adaptation from data, interactions, and experiences.

【译】：这种范式转变——从扩展静态模型到开发自我进化的agents——已经激发了对能够从数据、交互和经验中实现持续学习和适应的架构和方法的日益增长的兴趣。

【讲解】：

1. 大模型的Scaling Law :

这里参考了 https://zhuanlan.zhihu.com/p/667489780，模型的最终性能主要与计算量C，模型参数量N和数据大小D三者相关，而与模型的具体结构(层数/深度/宽度)基本无关。

（当计算预算C固定时，性能取决于N和D的最佳配比。而在一类合理的模型结构（如Transformer）内，缩放规律普遍存在，其具体配置（深度/宽度等）会影响最优配比，但不会颠覆缩放规律本身。）

模型整体损失L(x)，可分解成两项。第一项无法通过增加模型规模来减少的损失，是数据中的噪音；第二项能通过增加计算量 x ，减小模型拟合的分布与实际分布之间的差，来减少的损失，伴随计算量 x 趋向于无穷大，第二项可逼近0。

所以论文中的 scaling 就可以理解成，通过“增加模型规模，增加计算量”来达到提高模型性能的方法。

其实过去很多年，科学界的工作重心就是：设计一个固定的模型架构 -> 收集一个巨大的静态数据集 -> 投入海量计算资源进行一次性训练 -> 得到一个强大的模型。但这个模型本身是“静态”的，它一旦训练完成，其知识和能力就固定了。典型代表：GPT-3、PaLM等。

但是当前范式已经转变，“自我进化智能体” (Self-Evolving Agents)标志着智能体不再是静态的，而是能够

持续学习 (Continual Learning)：在与环境和用户的交互中不断学习新知识。
适应与进化 (Adaptation)：根据反馈（奖励、惩罚、结果）调整自己的策略和行为。
反思与规划 (Reflection & Planning)：不仅被动响应，还能主动思考、制定长远计划。

2. Architectures （架构）：

architectures = 智能体有哪些模块 + 模块间如何连接 + 模块间如何通信及如何协同工作，可以类比一个人，包括大脑、神经系统、感官和四肢。

一般来说，新型架构通常包含多个专门化的模块：

感知模块（Perception Module）：负责处理来自环境的原始数据（如视觉、听觉、文本）。
记忆模块（Memory Module）：存储过去的经验、知识、技能，并能快速检索。
推理/规划模块（Reasoning/Planning Module）：负责利用当前感知和记忆中的信息进行思考、制定计划、做出决策。大语言模型（LLMs）常常被用作这个模块的“核心引擎”。
动作模块（Action Module）：负责执行决策，与环境交互。
学习/适应模块（Learning/Adaptation Module）：负责评估表现、从成功和失败中学习，并更新模型参数或记忆内容。

典型架构如CAMEL、AutoGPT 等AI智能体项目都是用这种模块化架构实现的。

3. Methods （方法）：

“方法”指的是实现智能体学习、适应和进化的具体算法。

例如“解决持续学习”的常用方法：

持续/在线学习（Continual/Online Learning）：方法包括，正则化（防止重要权重被改变）、动态架构（扩展新的网络结构）、回放缓冲（Replay Buffer）（重播旧数据）等。
强化学习（Reinforcement Learning, RL）：从人类反馈中进行的学习的（RLHF），智能体通过试错，根据获得的奖励（Reward）来调整自己的策略。
元学习（Meta-Learning）：让智能体在经历了多个任务后，能够快速适应全新的任务。
反思与提炼（Reflection & Abstraction）：让智能体回顾自己的经历（Experiences），分析成功与失败的原因，并将具体的经历提炼成抽象的原则或知识，存入记忆模块以备将来使用。

4. Data （数据）：

智能体所处理和学习的一切信息的总和，一般包括：

传统静态数据：用于预训练的基础数据集（如用于训练LLM的大量互联网文本）。
情境数据（Contextual Data）：智能体在执行特定任务时接收到的实时信息，如用户的指令、当前网页的内容、传感器的读数等。
合成数据（Synthetic Data）：智能体自己生成或通过模拟环境产生的数据，用于自我训练和改进。

5. Interactions （交互）：

“交互”指的是智能体与外部环境（包括用户、其他智能体、工具、API、虚拟或物理世界）进行双向通信和动作交换的过程。可以是问答、调用工具（如计算器、搜索引擎）、操作软件界面、控制机器人肢体等。通过交互，智能体才能检验其知识、获取奖励信号（是正反馈还是负反馈），从而驱动“方法”进行学习。

6. Experiences （经验）：

“经验”是交互和数据经过消化吸收后形成的结构化知识。它不仅仅是原始数据记录，而且附带了上下文、交互的结果、反思等。

也就是智能体获得的原始数据，及在和环境交互后得到的结果，和针对结果进行的反思，都会被作为经验存入记忆模块，未来遇到类似情境时被检索出来指导行动。

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

organizing the field around three foundational dimensions — what to evolve, when to evolve, and how to evolve

【译】：论文正文将围绕三个基础维度组织该领域的综述——进化什么、何时进化以及如何进化。

一条概念轨迹，描绘了从大型语言模型（LLMs）到基础 agents 的进展，进而发展为自我进化的 agents ——重点最终指向假设性的人工超级智能（ASI）。沿着这条路径，智能和适应性得到增强，标志着向更自主和代理性AI系统的转变。

北京朝阳AI社区

更多推荐

提示工程架构师在元宇宙的实践：解锁无限可能

传统的"提示工程师"聚焦于单个Prompt的设计（比如"写一篇关于元宇宙的博客"），而提示工程架构师的职责是设计"提示工程系统"需求翻译：将元宇宙产品的业务需求（比如"让NPC能记住用户对话"）转化为提示工程的技术需求；系统设计：选择合适的大模型、记忆机制、上下文管理策略，构建可扩展的提示工程架构；跨域集成：将提示工程系统与元宇宙技术栈（3D引擎、区块链、实时渲染）对接；性能优化：解决实时性、一致

北京朝阳AI社区

震撼分析！提示工程架构师在Agentic AI的技术创新资源整合

当我们谈论Agentic AI（智能体AI）时，我们谈论的是“能自主思考、协作和行动的智能系统”——它可以像人类员工一样处理复杂任务（如电商客服、科研协作、工业运维），甚至在多角色、多场景中动态调整策略。但Agentic AI的核心挑战并非仅仅是“让模型更聪明”，而是如何让智能体高效整合模型、工具、数据和人类反馈，实现真正的自主创新。传统提示工程是“静态的、单向的”：我们给模型一个提示，模型返回一