Agent 到底是啥
Agent 到底是啥
(达尔文进化论的方式来介绍)
一、先说结论
Agent 不是一个突然冒出来的玄乎名词,它更像是一个一步步进化出来的系统。
如果用达尔文进化论来讲,它大概经历了这么几代:
Api调用程序- 一轮对话程序
- 多轮对话程序
- 聊天机器人(短期记忆版)
- 聊天机器人(长期记忆版)
- 初代 Agent(基础工具版)
- 进阶 Agent(加入 Skill)
- 最终成熟 Agent
你可以把它理解成:
从“只能回答”一路进化到“能记住、能查、能做、能协作”。
二、主线进化流程图
这条线最重要的不是“名字变多了”,而是能力边界真的在变。
三、第一代:Api 调用程序
最开始,大家做的往往只是一个最朴素的程序:
- 接收输入
- 调用 API
- 返回结果
这时候你甚至还不能叫它 Agent,因为它更像一个“请求转发器”。
1.demo:只支持一轮对话
比如最初写出来的 1.demo:
- 用户发一句
- 程序回一句
- 结束
存在的问题很明显:
- 只支持一轮对话
- 上下文会断
- 没法连续聊
这就是最原始的“死排”感。
四、第二代:支持多轮对话
接着程序升级成 2.demo,开始支持多轮对话。
这时候看上去已经像聊天了,但问题也很快来了:
它不知道你们以前聊过什么。
原因很简单
大模型本身没有天然记忆。
如果你不把前面的消息一起送进去,它看到的永远只是当前这一句。
所以这一步的本质其实是:
每次通信都把历史消息重新发给大模型。
五、聊天机器人(短期记忆版)
为了让它“像是有记忆”,就出现了短期记忆版聊天机器人。
做法很直接:
- 每次通信把历史消息一起发给大模型
- 让大模型在上下文里看到前文
这样之后,对话就顺了很多。
但它还是有问题
它只有短期记忆。
如果对话太长,或者隔了一段时间再来,它还是容易忘。
你可以把它理解成:
它记得的是“这段对话”,不是“这个人”。
六、聊天机器人(长期记忆版)
再往后,就有人开始做长期记忆版。
核心办法是:
- 把历史消息存入持久文件
- 需要时再读出来
- 让模型继续沿着之前的上下文聊
这样就不只是“本轮记得”,而是“下次也能接着记”。
但新的问题又来了
它还是不知道实时信息。
比如:
- 北京明天天气
- 今天股票怎么样
- 刚发布的新闻是什么
这些内容,大模型如果只靠自己训练时的数据,是不知道的。
原因也很简单:
大模型基于已有数据训练,不等于天然知道实时世界。
七、初代 Agent:基础工具版
这时候,Agent 才真正开始成形。
初代 Agent 的标志是:给大模型配工具。
比如:
- 查询天气工具
- 写文件工具
- 读文件工具
- 发邮件工具
它的输入结构变了
每次通信不再只有历史消息,而是:
工具信息 + 历史消息 → 大模型
这一步很关键,因为模型第一次拥有了“能做事”的入口。
这代 Agent 的能力
它已经能:
- 查实时信息
- 读写文件
- 触发外部动作
所以它不再只是聊天机器人,而是开始像一个执行系统。
八、进阶 Agent:加入 Skill
再往后,就是进阶 Agent。
这时候系统又多了一层能力:
- Skill
每次通信会发送什么
格式变成了:
Skill 信息 + 工具信息 + 历史消息 → 大模型
这意味着大模型看到的不只是“能用哪些工具”,还包括:
- 这些能力该怎么组合
- 什么时候该走哪条流程
- 某个任务的规范步骤是什么
这一层的意义
Skill 本质上是把一类能力打包成了模型更容易理解的说明。
所以进阶 Agent 不只是“会调用工具”,而是:
能按套路完成一整类任务。
九、最终成熟 Agent
再往前一步,就到了最终成熟 Agent。
它通常衍生出四大核心能力:
- 支持 Subagent(子智能体)
- 支持 Skill 功能
- 支持工具功能
- 支持长期记忆
这时候它已经不是一个单点程序,而更像一个可协作的任务系统。
运行循环
成熟 Agent 的基本运行方式通常就是:
- 收消息
- 发消息
- 判断是否要调用工具或子智能体
- 执行
- 回传结果
- 继续下一轮
也就是说:
它不是“回答一次就结束”,而是持续推进任务。
十、左侧对话样例:看出无记忆缺陷
你给的这个对话示例,非常适合放在文章里,直接说明大模型为什么需要记忆。
→ 你好
← 你好啊,我是 xxx
→ 你好
← 你好啊
→ 咱们第 5 句聊天消息是啥
← 不知道
→ 咱们昨天的聊天内容是啥
← 不知道
→ 北京明天天气
← 晴天?不知道
→ 帮我写周报、发周报
← xxxx
这个例子其实在讲三件事:
- 没有历史消息,就没有上下文
- 没有工具,就查不到实时信息
- 没有任务编排,就只能零碎回答
十一、把每一代的差别说透
| 阶段 | 核心能力 | 主要问题 |
|---|---|---|
| Api 调用程序 | 调用接口返回结果 | 只能做最简单的请求响应 |
| 1.demo | 一轮对话 | 不能连续聊 |
| 2.demo | 多轮对话 | 没有记忆 |
| 短期记忆版 | 带上历史消息 | 只能记住短期上下文 |
| 长期记忆版 | 历史消息持久化 | 不知道实时信息 |
| 初代 Agent | 加入工具 | 只会用工具,还不够智能 |
| 进阶 Agent | 加入 Skill | 能做结构化任务 |
| 最终成熟 Agent | Subagent + Skill + 工具 + 长期记忆 | 才真正像个执行体 |
十二、最后一句话
如果把 Agent 说得再白一点,就是:
Agent 是在“对话能力”之上,继续叠加了记忆、工具、Skill 和协作能力之后,才慢慢进化出来的可执行系统。
所以你看到的 Agent,不是单纯的聊天框升级版,而是一个真正开始“会干活”的大模型外壳。
更多推荐


所有评论(0)