Agent 到底是啥

(达尔文进化论的方式来介绍)

一、先说结论

Agent 不是一个突然冒出来的玄乎名词,它更像是一个一步步进化出来的系统。

如果用达尔文进化论来讲,它大概经历了这么几代:

  1. Api 调用程序
  2. 一轮对话程序
  3. 多轮对话程序
  4. 聊天机器人(短期记忆版)
  5. 聊天机器人(长期记忆版)
  6. 初代 Agent(基础工具版)
  7. 进阶 Agent(加入 Skill)
  8. 最终成熟 Agent

你可以把它理解成:

从“只能回答”一路进化到“能记住、能查、能做、能协作”。

二、主线进化流程图

Api

写 3 个程序

1.demo: 只支持一轮对话

2.demo: 支持多轮对话

聊天机器人: 短期记忆版

聊天机器人: 长期记忆版

初代 Agent: 基础工具版

进阶 Agent: 加入 Skill

最终成熟 Agent

这条线最重要的不是“名字变多了”,而是能力边界真的在变。

三、第一代:Api 调用程序

最开始,大家做的往往只是一个最朴素的程序:

  • 接收输入
  • 调用 API
  • 返回结果

这时候你甚至还不能叫它 Agent,因为它更像一个“请求转发器”。

1.demo:只支持一轮对话

比如最初写出来的 1.demo

  • 用户发一句
  • 程序回一句
  • 结束

存在的问题很明显:

  • 只支持一轮对话
  • 上下文会断
  • 没法连续聊

这就是最原始的“死排”感。

四、第二代:支持多轮对话

接着程序升级成 2.demo,开始支持多轮对话。

这时候看上去已经像聊天了,但问题也很快来了:

它不知道你们以前聊过什么。

原因很简单

大模型本身没有天然记忆。

如果你不把前面的消息一起送进去,它看到的永远只是当前这一句。

所以这一步的本质其实是:

每次通信都把历史消息重新发给大模型。

五、聊天机器人(短期记忆版)

为了让它“像是有记忆”,就出现了短期记忆版聊天机器人。

做法很直接:

  • 每次通信把历史消息一起发给大模型
  • 让大模型在上下文里看到前文

这样之后,对话就顺了很多。

但它还是有问题

它只有短期记忆。

如果对话太长,或者隔了一段时间再来,它还是容易忘。

你可以把它理解成:

它记得的是“这段对话”,不是“这个人”。

六、聊天机器人(长期记忆版)

再往后,就有人开始做长期记忆版。

核心办法是:

  • 把历史消息存入持久文件
  • 需要时再读出来
  • 让模型继续沿着之前的上下文聊

这样就不只是“本轮记得”,而是“下次也能接着记”。

但新的问题又来了

它还是不知道实时信息。

比如:

  • 北京明天天气
  • 今天股票怎么样
  • 刚发布的新闻是什么

这些内容,大模型如果只靠自己训练时的数据,是不知道的。

原因也很简单:

大模型基于已有数据训练,不等于天然知道实时世界。

七、初代 Agent:基础工具版

这时候,Agent 才真正开始成形。

初代 Agent 的标志是:给大模型配工具

比如:

  • 查询天气工具
  • 写文件工具
  • 读文件工具
  • 发邮件工具

它的输入结构变了

每次通信不再只有历史消息,而是:

工具信息 + 历史消息 → 大模型

这一步很关键,因为模型第一次拥有了“能做事”的入口。

这代 Agent 的能力

它已经能:

  • 查实时信息
  • 读写文件
  • 触发外部动作

所以它不再只是聊天机器人,而是开始像一个执行系统。

八、进阶 Agent:加入 Skill

再往后,就是进阶 Agent。

这时候系统又多了一层能力:

  • Skill

每次通信会发送什么

格式变成了:

Skill 信息 + 工具信息 + 历史消息 → 大模型

这意味着大模型看到的不只是“能用哪些工具”,还包括:

  • 这些能力该怎么组合
  • 什么时候该走哪条流程
  • 某个任务的规范步骤是什么

这一层的意义

Skill 本质上是把一类能力打包成了模型更容易理解的说明。

所以进阶 Agent 不只是“会调用工具”,而是:

能按套路完成一整类任务。

九、最终成熟 Agent

再往前一步,就到了最终成熟 Agent。

它通常衍生出四大核心能力:

  • 支持 Subagent(子智能体)
  • 支持 Skill 功能
  • 支持工具功能
  • 支持长期记忆

这时候它已经不是一个单点程序,而更像一个可协作的任务系统。

运行循环

成熟 Agent 的基本运行方式通常就是:

  1. 收消息
  2. 发消息
  3. 判断是否要调用工具或子智能体
  4. 执行
  5. 回传结果
  6. 继续下一轮

也就是说:

它不是“回答一次就结束”,而是持续推进任务。

十、左侧对话样例:看出无记忆缺陷

你给的这个对话示例,非常适合放在文章里,直接说明大模型为什么需要记忆。

→ 你好
← 你好啊,我是 xxx

→ 你好
← 你好啊

→ 咱们第 5 句聊天消息是啥
← 不知道

→ 咱们昨天的聊天内容是啥
← 不知道

→ 北京明天天气
← 晴天?不知道

→ 帮我写周报、发周报
← xxxx

这个例子其实在讲三件事:

  1. 没有历史消息,就没有上下文
  2. 没有工具,就查不到实时信息
  3. 没有任务编排,就只能零碎回答

十一、把每一代的差别说透

阶段 核心能力 主要问题
Api 调用程序 调用接口返回结果 只能做最简单的请求响应
1.demo 一轮对话 不能连续聊
2.demo 多轮对话 没有记忆
短期记忆版 带上历史消息 只能记住短期上下文
长期记忆版 历史消息持久化 不知道实时信息
初代 Agent 加入工具 只会用工具,还不够智能
进阶 Agent 加入 Skill 能做结构化任务
最终成熟 Agent Subagent + Skill + 工具 + 长期记忆 才真正像个执行体

十二、最后一句话

如果把 Agent 说得再白一点,就是:

Agent 是在“对话能力”之上,继续叠加了记忆、工具、Skill 和协作能力之后,才慢慢进化出来的可执行系统。

所以你看到的 Agent,不是单纯的聊天框升级版,而是一个真正开始“会干活”的大模型外壳。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐