Manus、OpenClaw、Hermes一路爆火
导读:上周去某大学做了一场关于 Agent 的分享,另外比较惊讶的是:大家对于 Agent 是什么是比较陌生的!
另一方面,我也比较惊异于自己居然无法站在小白的角度描述什么是 Agent!所以有些必要的科普还是得捡起来啊:

由此,有了几天这篇 Agent 概述类文章,软硬适中:

不知道大家是什么时候开始接触 Agent,我们作为 AI 行业的一线参与者/开发者,最早接触 Agent的 应该是 cursor、windsurf 这类 AI 编程工具,当时我们用它写代码,修 bug,输出接口文档等等。
其实当时我根本不知道它们是 Agent,我们只是把它当成了一个开发工具,我相信行业很多人都是同样认知,直到拐点事件爆发:

2025年3月,Manus AI 在 YouTube 发布了公开视频《Introducing Manus: The General AI Agent》,视频中给出的一些案例简历分析,股票分析,房产分析,云端执行。
这些案例看起来让人兴奋,市场情绪也被点燃,为了抢先体验manus,本来免费的邀请码,一度炒到上万元的价格!
当时我们做的AI应用 还只是一般的知识问答、意图识别,文本分类等,复杂一点的再加上一个 RAG。
Manus 的发布,让我们看到了原来 AI 还可以完全自主运行,完成任务,同时也让 Agent 这个词进入大众的视野,More Context Less Control 的 ReAct 范式逐步为大家所接受:
什么是 Agent
其实在 Manus 之前就已经有很多类似产品了,比如:
- 2022 年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》;
- 然后早期、又出圈的 Agent 的话是 2023 年 3 月的开源项目 Auto-GPT;
但国内的话,还是 Manus 的发布给我们打开了 AI 应用新的视野。
于是我们团队开始马不停蹄的研究如何实现一个 Manus,经过我们研究和讨论发现,Manus 实现起来好像不难?
我们可以预先定义一些工具函数,让模型再做推理的时候选择一个工具,应用层负责执行工具把结果回传给模型,让模型继续推理,直到问题解决:

如果让我们给 Agent 下一个定义,我想可以这么说:
Agent 是一个能够自主感知环境,做出决策,调用工具并执行任务,最终完成目标的任务执行系统
这句话里面的每一个词都很重要(只不过现阶段的要点逐渐变成了构造环境了Harness):
- 自主:Agent不需要人一步一步的指示,它会根据任务目标自动做决策
- 感知:意味 Agent可以和外部环境通信,可以观察外部环境
- 工具:这个是Agent能够做事的前提,它有什么样的工具,就有了什么样的能力
- 目标:Agent需要围绕用户任务目标而存在,不是在哪里瞎聊天
我们再来看看普通的聊天机器人和 Agent 有什么区别,以 deepseek 来举例 ,在官网网站提供的聊天框里面输入:
帮我整理一下上个月的销售数据,按区域分析一下增长率,做成PPT
Deepseek 会给出一个文本的回答
我没办法直接帮你整理数据或生成PPT文件但我可以教你一步步整理数据、计算增长率、提炼分析结论并给你PPT的结构和内容建议。你需要先提供以下信息......
基座模型更像是一个百科全书,什么都知道,你问它什么,它就回答你什么。
而Agent,我们可以把它比喻成一个数字员工,你给它一个任务,它会自己拆解任务,自己想办法完成任务,比如上面的问题,它会去打开 excel,查看数据,自己写公式 计算增长率,自己做 ppt…
中途它可能回来找你确认一些事情,销售数据的 excel 在哪里,PPT 你喜欢什么风格等等。
这就是 Agent 和 ChatBot 的区别,ChatBot 是被动的对话伙伴,你问一句它回一句,Agent 是主动的任务执行者:

Agent 由什么组成的
如果把一个 Agent 拆开来看,我们可以发现 Agent 其实由几个核心模块组成:

- 大模型:提供基础的语言理解和生成能力,负责处理输入信息并输出推理结果
- 角色与人格:定义Agent的应答风格,身份和行为约束,让输出符合预期场景
- 记忆:包括短期记忆和长期记忆,用于跟踪任务进度和提供个性化响应
- 工具:外部功能的接口和函数
- 规划:将复杂任务分解为可执行的子步骤,用于处理多不推理和流程化的任务
- 循环:控制Agent反复执行的过程,包含思考,工具执行,观察结果等直到任务完成
这些模块共同构成了 Agent 从接收输入到输出结果的完整流程,下面我们对这些核心模块逐一说明:
大模型
Agent的中枢神经,毫无疑问是大语言模型,无论是GPT、Claude、Gemini,还是国内的DeepSeek、通义千问等,它们在Agent中扮演的都是大脑的角色。
这里有一个很关键的点,很多人把大模型理解成了Agent,这里需要明确一下,大模型不是Agent,它是Agent的一部分,大模型它能思考,它是一个百科全书,知道很多事情,但是无法对外部世界产生任何影响。
大模型在Agent中负责三件事情,
- 理解:理解用户的指令、外部环境信息
- 推理:这件事情要怎么做,下一步需要做什么
- 生成:输出文字,代码,工具调用的指令
我们可以理解成大模型是整个Agent系统的指挥官,但是他不会自己做任何事情
角色与人格
你有想过这个问题吗,都是基于Deepseek模型,我们可以开发出不同的Agent产品,有的Agent用来写代码,有的Agent 做客服,有的Agent当陪聊。
它们最核心的区别就是 System Prompt(系统提示词)
我们可以把System Prompt 当做的Agent的出厂基本配置,它会告诉大模型:
你现在是一个资深的Python工程师你需要保持耐心,永远不要和用户说脏话遇到不会的问题,你应该回答用户 不确定,而不是编造答案
这个设定,决定了Agent的人格,做事风格,能力边界,一个好的 System Prompt,能让同一个底层模型,演变成无数个不同的Agent。
记忆
人们能够高效的完成工作,很大程度上 是因为我们拥有记忆,今天的我,记得昨天发生的事情,也记得三年前的承诺,记得童年的味道,这些记忆塑造我们的判断和决策,甚至我们的个性。
Agent也需要记忆,因为大模型是健忘的(无状态),它没有任何持久化的记忆,每一次对话都是一次重新的开始,所以Agent需要一套记忆系统。每次新对话就把对应的记忆一起发送给大模型

我们通常把记忆分为2层
- 短期记忆 对应当前对话或任务执行期间的上下文窗口,用于跟踪当前任务步骤,历史变量,中间推理结果等,一旦对话结束短期记忆通常会被清空
- 长期记忆 把重要的信息保存下来,跨对话、跨任务复用,比如用户偏好,项目的关键决策,失败教训等等
实现长期记忆的方式也是五花八门的
- 向量数据库做语义检索(如 Chroma、Pinecone)适合存储原文,模糊匹配,能根据语义相似度召回的相关记忆
- 知识图谱做结构化存储:将记忆表示为实体和关系,能够沿着关系链条一步步查找信息,能够支持精确推理和多跳查询
- 直接写到文件里面
- 摘要式记忆:每次交互后让模型自动生成一段简短摘要,只保存要点,节省存储空间,也方便直接放进对话里。
这些方式并不是单独存在,一般都是混合使用。
Agent的记忆设计目前是做活跃的研究方向之一,是因为它从根本上决定了Agent能否实现成长,从经验中持续学习和改进,同时也决定了Agent能否保持行为的一致性、完成跨长时间尺度的复杂任务,以及在与环境或用户的反复交互中真正沉淀出个性化的智能。
工具
我们常常听到一个比喻,就是大模型是Agent的大脑,工具就是Agent的手脚,没有工具的Agent,就是一个Chatbox。

工具的本质,是一组Agent可以调用的函数,每一个工具有名称,描述,参数,有返回值。Agent在思考过程中,会根据工具的名称和描述来选择合适的工具来帮助完成用户的任务。
常见的工具大致可以分为以下几类:
- 信息获取类:网页搜索、API查询、数据库读取
- 文件操作类:读文件、写文件、列目录
- 代码执行类:运行Python、执行SQL、调用Shell
- 通信类:发邮件、发消息、打电话
- 专业领域类:调用医疗诊断API、调用财务分析模型
工具的丰富程度,直接决定了Agent的能力边界,如果只有一个搜索工具的Agent,那么Agent还是一个百科全书,只能回答问题。而一个能读写文件,操作浏览器的Agent,就具备实际动手能力,可以自动完成任务。
规划
复杂任务不是一蹴而就的。如果你让Agent 去分析 公司去年的财务报表,并给出改进的建议。它不能直接就给你答案,

他需要拆解任务,先要获取财务数据,做关键指标计算,再做同比环比分析,找出问题,再给出建议,最后整理成报告
这种把大任务拆成小步骤,理清先后顺序的能力,我们加它称为规划(Planning),业界探索了很多规划方法,我们把它分为3类
- React (Reasoning + Acting)让模型在每一步都先思考再行动,思考和执行交替执行。
- Plan-and-Solve 模型先把整个计划写出来,然后再逐步执行
- Tree of Thoughts 让模型像下棋一样,同时推演多个可能得路径
每一种方法都各有优劣,也可以把不同的方式组合起来使用,比如 可以先用Plan-and-Solve把步骤都先写出来,然后每一步 都使用React来进行。 核心思想 就是:让Agent在行动之前先思考
循环

上面我们讲了Agent的 大脑,工具,记忆,规划能力,现在还差最后一步,让它们联动起来,这就是我们常说的感知,思考,行动循环,我们也称它为Agent Loop。
Agent Loop 的循环处理流程是这样的:
1、接收用户输入2、大模型思考,要完成用户的任务要怎么做,调用工具,还是直接回答用户?3、如果大模型决定调用工具,Agent就执行模型返回的工具,把工具结果作为添加到模型的消息数据里面,回到第2步 再次让模型判断4、如果大模型决定输出最终答案,就结束
这个循环可能执行5次就结束了,也有可能会跑500次。它的终止条件可能是任务正常完成,也可能是达到了Agent设置的步数上限,或者Agent自己决定放弃不再执行。
Agent Loop把前面讲将的模型,工具,记忆能力都串联起来,在一个循环中,大模型负责思考推理,决定下一步做什么,如果需要调用工具,则执行工具,将工具结果或者模型的推理输出保存为记忆。
这个看似简单的循环,让Agent从一个回答的工具,变成了一个能持续工作的数字员工。
Agent能干什么
前面我们聊了Agent的实现原理,那么今天,Agent到底能帮我们做些什么呢?

编程Agent
如果要让我们选一个Agent最成熟的应用领域,我觉得毫无疑问就是编程Agent。
Claude Code、Cursor 、CodeX、Trae等工具,从最初的代码补全,逐步发展成能完整完成功能开发的Agent,你只需要给它一个需求,比如:“帮我写一个登录界面,要支持短信验证码登录”,它就会自己读取完整的项目目录,分析技术路径,设计接口,然后写代码,跑测试,自己修改bug。
为什么编程领域的Agent会最先落地
- 编程任务有大量的高质量训练数据,github上几十亿行代码,给模型提供了足够的学习素材
- 编程任务有非常清晰的反馈信号,代码能不能跑通,有没有语法错误,测试是否通过,模型自己就可以判断。
- 程序员天生爱偷懒,自己就会想方设法的搞工具来提高开发效率,只要能完成大部分体力工作,能节省时间,即便部分有错误,他们也愿意接受。
- 很容易搜集反馈数据,比如接受/拒绝代码,可以反补模型训练
研究助手

模型擅长阅读海量文档、总结要点、生成综述,因此天然适合充当研究助手。无论是文献调研、数据整理,还是竞品分析,Agent都能在几分钟内完成人类数小时的工作。
客服与运营

客服和运营,这类自动化流程,才是Agent商业化最大的战场,智能客服,电商的售前和售后,企业内部工作台,工单系统等。
这些场景过去大量依赖员工,后面大部分的工作 都会被Agent接管,这个是真正发生的事情,很多企业都在内部提效,大量使用Agent来提高工作效率。将内部业务系统与Agent打通后,Agent就可以查订单,改地址,发优惠券,审核套餐等。
个人助理
普通人可能更加在乎的是一个个人助理Agent,那种你脑海里想象的,电影里面见过的,帮助你订机票,安排日程,提醒你别忘了 女朋友生日的全能助理,就像前段时间爆火的openclaw,目前这种Agent还没有一个真正成熟的产品,但我相信不久的将来它一定会出现:

这个个人Agent我觉得是最难的,如果要表现很亮眼,它需要打通的工具太多了,你的邮箱,日历,微信,支付宝,以及其他各种你经常使用的App,目前这些都没有对应的工具体系,账号和数据都是不通的,虽然技术上可以实现,但是厂商的壁垒挺高的。
结语:抓住大模型时代的职业机遇
AI大模型的发展不是“替代人类”,而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作,却催生了更多需要“技术+业务”交叉能力的高端岗位。对于求职者而言,想要在这波浪潮中立足,不仅需要掌握Python、TensorFlow/PyTorch等技术工具,更要深入理解目标行业的业务逻辑(如金融的风险控制、医疗的临床需求),成为“懂技术、懂业务”的复合型人才。
无论是技术研发岗(如算法工程师、研究员),还是业务落地岗(如产品经理、应用工程师),大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情,紧跟技术趋势,就能在AI大模型时代找到属于自己的职业新蓝海。
最近两年大模型发展很迅速,在理论研究方面得到很大的拓展,基础模型的能力也取得重大突破,大模型现在正在积极探索落地的方向,如果与各行各业结合起来是未来落地的一个重大研究方向
大模型应用工程师年包50w+属于中等水平,如果想要入门大模型,那现在正是最佳时机
2025年Agent的元年,2026年将会百花齐放,相应的应用将覆盖文本,视频,语音,图像等全模态
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
扫描下方csdn官方合作二维码获取哦!

给大家推荐一个大模型应用学习路线
这个学习路线的具体内容如下:
第一节:提示词工程
提示词是用于与AI模型沟通交流的,这一部分主要介绍基本概念和相应的实践,高级的提示词工程来实现模型最佳效果,以现实案例为基础进行案例讲解,在企业中除了微调之外,最喜欢的就是用提示词工程技术来实现模型性能的提升

第二节:检索增强生成(RAG)
可能大家经常会看见RAG这个名词,这个就是将向量数据库与大模型结合的技术,通过外部知识来增强改进提升大模型的回答结果,这一部分主要介绍RAG架构与组件,从零开始搭建RAG系统,生成部署RAG,性能优化等

第三节:微调
预训练之后的模型想要在具体任务上进行适配,那就需要通过微调来提升模型的性能,能满足定制化的需求,这一部分主要介绍微调的基础,模型适配技术,最佳实践的案例,以及资源优化等内容

第四节:模型部署
想要把预训练或者微调之后的模型应用于生产实践,那就需要部署,模型部署分为云端部署和本地部署,部署的过程中需要考虑硬件支持,服务器性能,以及对性能进行优化,使用过程中的监控维护等

第五节:人工智能系统和项目
这一部分主要介绍自主人工智能系统,包括代理框架,决策框架,多智能体系统,以及实际应用,然后通过实践项目应用前面学习到的知识,包括端到端的实现,行业相关情景等

学完上面的大模型应用技术,就可以去做一些开源的项目,大模型领域现在非常注重项目的落地,后续可以学习一些Agent框架等内容
上面的资料做了一些整理,有需要的同学可以下方添加二维码获取(仅供学习使用)

更多推荐


所有评论(0)