Manus、OpenClaw、Hermes一路爆火

进击的码农！

34人浏览 · 2026-06-27 20:14:39

进击的码农！ · 2026-06-27 20:14:39 发布

导读：上周去某大学做了一场关于 Agent 的分享，另外比较惊讶的是：大家对于 Agent 是什么是比较陌生的！

另一方面，我也比较惊异于自己居然无法站在小白的角度描述什么是 Agent！所以有些必要的科普还是得捡起来啊：

由此，有了几天这篇 Agent 概述类文章，软硬适中：

不知道大家是什么时候开始接触 Agent，我们作为 AI 行业的一线参与者/开发者，最早接触 Agent的应该是 cursor、windsurf 这类 AI 编程工具，当时我们用它写代码，修 bug，输出接口文档等等。

其实当时我根本不知道它们是 Agent，我们只是把它当成了一个开发工具，我相信行业很多人都是同样认知，直到拐点事件爆发：

2025年3月，Manus AI 在 YouTube 发布了公开视频《Introducing Manus: The General AI Agent》，视频中给出的一些案例简历分析，股票分析，房产分析，云端执行。

这些案例看起来让人兴奋，市场情绪也被点燃，为了抢先体验manus，本来免费的邀请码，一度炒到上万元的价格！

当时我们做的AI应用还只是一般的知识问答、意图识别，文本分类等，复杂一点的再加上一个 RAG。

Manus 的发布，让我们看到了原来 AI 还可以完全自主运行，完成任务，同时也让 Agent 这个词进入大众的视野，More Context Less Control 的 ReAct 范式逐步为大家所接受：

什么是 Agent

其实在 Manus 之前就已经有很多类似产品了，比如：

2022 年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》；
然后早期、又出圈的 Agent 的话是 2023 年 3 月的开源项目 Auto-GPT；

但国内的话，还是 Manus 的发布给我们打开了 AI 应用新的视野。

于是我们团队开始马不停蹄的研究如何实现一个 Manus，经过我们研究和讨论发现，Manus 实现起来好像不难？

我们可以预先定义一些工具函数，让模型再做推理的时候选择一个工具，应用层负责执行工具把结果回传给模型，让模型继续推理，直到问题解决：

如果让我们给 Agent 下一个定义，我想可以这么说：

Agent 是一个能够自主感知环境，做出决策，调用工具并执行任务，最终完成目标的任务执行系统

这句话里面的每一个词都很重要（只不过现阶段的要点逐渐变成了构造环境了Harness）：

自主：Agent不需要人一步一步的指示，它会根据任务目标自动做决策
感知：意味 Agent可以和外部环境通信，可以观察外部环境
工具：这个是Agent能够做事的前提，它有什么样的工具，就有了什么样的能力
目标：Agent需要围绕用户任务目标而存在，不是在哪里瞎聊天

我们再来看看普通的聊天机器人和 Agent 有什么区别，以 deepseek 来举例，在官网网站提供的聊天框里面输入：

帮我整理一下上个月的销售数据，按区域分析一下增长率，做成PPT

Deepseek 会给出一个文本的回答

我没办法直接帮你整理数据或生成PPT文件但我可以教你一步步整理数据、计算增长率、提炼分析结论并给你PPT的结构和内容建议。你需要先提供以下信息......

基座模型更像是一个百科全书，什么都知道，你问它什么，它就回答你什么。

而Agent，我们可以把它比喻成一个数字员工，你给它一个任务，它会自己拆解任务，自己想办法完成任务，比如上面的问题，它会去打开 excel，查看数据，自己写公式计算增长率，自己做 ppt…

中途它可能回来找你确认一些事情，销售数据的 excel 在哪里，PPT 你喜欢什么风格等等。

这就是 Agent 和 ChatBot 的区别，ChatBot 是被动的对话伙伴，你问一句它回一句，Agent 是主动的任务执行者：

Agent 由什么组成的

如果把一个 Agent 拆开来看，我们可以发现 Agent 其实由几个核心模块组成：

大模型：提供基础的语言理解和生成能力，负责处理输入信息并输出推理结果
角色与人格：定义Agent的应答风格，身份和行为约束，让输出符合预期场景
记忆：包括短期记忆和长期记忆，用于跟踪任务进度和提供个性化响应
工具：外部功能的接口和函数
规划：将复杂任务分解为可执行的子步骤，用于处理多不推理和流程化的任务
循环：控制Agent反复执行的过程，包含思考，工具执行，观察结果等直到任务完成

这些模块共同构成了 Agent 从接收输入到输出结果的完整流程，下面我们对这些核心模块逐一说明：

大模型

Agent的中枢神经，毫无疑问是大语言模型，无论是GPT、Claude、Gemini，还是国内的DeepSeek、通义千问等，它们在Agent中扮演的都是大脑的角色。

这里有一个很关键的点，很多人把大模型理解成了Agent，这里需要明确一下，大模型不是Agent，它是Agent的一部分，大模型它能思考，它是一个百科全书，知道很多事情，但是无法对外部世界产生任何影响。

大模型在Agent中负责三件事情，

理解：理解用户的指令、外部环境信息
推理：这件事情要怎么做，下一步需要做什么
生成：输出文字，代码，工具调用的指令

我们可以理解成大模型是整个Agent系统的指挥官，但是他不会自己做任何事情

角色与人格

你有想过这个问题吗，都是基于Deepseek模型，我们可以开发出不同的Agent产品，有的Agent用来写代码，有的Agent 做客服，有的Agent当陪聊。

它们最核心的区别就是 System Prompt（系统提示词）

我们可以把System Prompt 当做的Agent的出厂基本配置，它会告诉大模型:

你现在是一个资深的Python工程师你需要保持耐心，永远不要和用户说脏话遇到不会的问题，你应该回答用户 不确定，而不是编造答案

这个设定，决定了Agent的人格，做事风格，能力边界，一个好的 System Prompt，能让同一个底层模型，演变成无数个不同的Agent。

记忆

人们能够高效的完成工作，很大程度上是因为我们拥有记忆，今天的我，记得昨天发生的事情，也记得三年前的承诺，记得童年的味道，这些记忆塑造我们的判断和决策，甚至我们的个性。

Agent也需要记忆，因为大模型是健忘的（无状态），它没有任何持久化的记忆，每一次对话都是一次重新的开始，所以Agent需要一套记忆系统。每次新对话就把对应的记忆一起发送给大模型

我们通常把记忆分为2层

短期记忆对应当前对话或任务执行期间的上下文窗口，用于跟踪当前任务步骤，历史变量，中间推理结果等，一旦对话结束短期记忆通常会被清空
长期记忆把重要的信息保存下来，跨对话、跨任务复用，比如用户偏好，项目的关键决策，失败教训等等

实现长期记忆的方式也是五花八门的

向量数据库做语义检索（如 Chroma、Pinecone）适合存储原文，模糊匹配，能根据语义相似度召回的相关记忆
知识图谱做结构化存储：将记忆表示为实体和关系，能够沿着关系链条一步步查找信息，能够支持精确推理和多跳查询
直接写到文件里面
摘要式记忆：每次交互后让模型自动生成一段简短摘要，只保存要点，节省存储空间，也方便直接放进对话里。

这些方式并不是单独存在，一般都是混合使用。

Agent的记忆设计目前是做活跃的研究方向之一，是因为它从根本上决定了Agent能否实现成长，从经验中持续学习和改进，同时也决定了Agent能否保持行为的一致性、完成跨长时间尺度的复杂任务，以及在与环境或用户的反复交互中真正沉淀出个性化的智能。

工具

我们常常听到一个比喻，就是大模型是Agent的大脑，工具就是Agent的手脚，没有工具的Agent，就是一个Chatbox。

工具的本质，是一组Agent可以调用的函数，每一个工具有名称，描述，参数，有返回值。Agent在思考过程中，会根据工具的名称和描述来选择合适的工具来帮助完成用户的任务。

常见的工具大致可以分为以下几类:

信息获取类：网页搜索、API查询、数据库读取
文件操作类：读文件、写文件、列目录
代码执行类：运行Python、执行SQL、调用Shell
通信类：发邮件、发消息、打电话
专业领域类：调用医疗诊断API、调用财务分析模型

工具的丰富程度，直接决定了Agent的能力边界，如果只有一个搜索工具的Agent，那么Agent还是一个百科全书，只能回答问题。而一个能读写文件，操作浏览器的Agent，就具备实际动手能力，可以自动完成任务。

规划

复杂任务不是一蹴而就的。如果你让Agent 去分析公司去年的财务报表，并给出改进的建议。它不能直接就给你答案，

他需要拆解任务，先要获取财务数据，做关键指标计算，再做同比环比分析，找出问题，再给出建议，最后整理成报告

这种把大任务拆成小步骤，理清先后顺序的能力，我们加它称为规划（Planning），业界探索了很多规划方法，我们把它分为3类

React （Reasoning + Acting）让模型在每一步都先思考再行动，思考和执行交替执行。
Plan-and-Solve 模型先把整个计划写出来，然后再逐步执行
Tree of Thoughts 让模型像下棋一样，同时推演多个可能得路径

每一种方法都各有优劣，也可以把不同的方式组合起来使用，比如可以先用Plan-and-Solve把步骤都先写出来，然后每一步都使用React来进行。核心思想就是：让Agent在行动之前先思考

循环

上面我们讲了Agent的大脑，工具，记忆，规划能力，现在还差最后一步，让它们联动起来，这就是我们常说的感知，思考，行动循环，我们也称它为Agent Loop。

Agent Loop 的循环处理流程是这样的：

1、接收用户输入2、大模型思考，要完成用户的任务要怎么做，调用工具，还是直接回答用户？3、如果大模型决定调用工具，Agent就执行模型返回的工具，把工具结果作为添加到模型的消息数据里面，回到第2步 再次让模型判断4、如果大模型决定输出最终答案，就结束

这个循环可能执行5次就结束了，也有可能会跑500次。它的终止条件可能是任务正常完成，也可能是达到了Agent设置的步数上限，或者Agent自己决定放弃不再执行。

Agent Loop把前面讲将的模型，工具，记忆能力都串联起来，在一个循环中，大模型负责思考推理，决定下一步做什么，如果需要调用工具，则执行工具，将工具结果或者模型的推理输出保存为记忆。

这个看似简单的循环，让Agent从一个回答的工具，变成了一个能持续工作的数字员工。

Agent能干什么

前面我们聊了Agent的实现原理，那么今天，Agent到底能帮我们做些什么呢？

编程Agent

如果要让我们选一个Agent最成熟的应用领域，我觉得毫无疑问就是编程Agent。

Claude Code、Cursor 、CodeX、Trae等工具，从最初的代码补全，逐步发展成能完整完成功能开发的Agent，你只需要给它一个需求，比如:“帮我写一个登录界面，要支持短信验证码登录”，它就会自己读取完整的项目目录，分析技术路径，设计接口，然后写代码，跑测试，自己修改bug。

为什么编程领域的Agent会最先落地

编程任务有大量的高质量训练数据，github上几十亿行代码，给模型提供了足够的学习素材
编程任务有非常清晰的反馈信号，代码能不能跑通，有没有语法错误，测试是否通过，模型自己就可以判断。
程序员天生爱偷懒，自己就会想方设法的搞工具来提高开发效率，只要能完成大部分体力工作，能节省时间，即便部分有错误，他们也愿意接受。
很容易搜集反馈数据，比如接受/拒绝代码，可以反补模型训练

研究助手

模型擅长阅读海量文档、总结要点、生成综述，因此天然适合充当研究助手。无论是文献调研、数据整理，还是竞品分析，Agent都能在几分钟内完成人类数小时的工作。

客服与运营

客服和运营，这类自动化流程，才是Agent商业化最大的战场，智能客服，电商的售前和售后，企业内部工作台，工单系统等。

这些场景过去大量依赖员工，后面大部分的工作都会被Agent接管，这个是真正发生的事情，很多企业都在内部提效，大量使用Agent来提高工作效率。将内部业务系统与Agent打通后，Agent就可以查订单，改地址，发优惠券，审核套餐等。

个人助理

普通人可能更加在乎的是一个个人助理Agent，那种你脑海里想象的，电影里面见过的，帮助你订机票，安排日程，提醒你别忘了女朋友生日的全能助理，就像前段时间爆火的openclaw，目前这种Agent还没有一个真正成熟的产品，但我相信不久的将来它一定会出现：

这个个人Agent我觉得是最难的，如果要表现很亮眼，它需要打通的工具太多了，你的邮箱，日历，微信，支付宝，以及其他各种你经常使用的App，目前这些都没有对应的工具体系，账号和数据都是不通的，虽然技术上可以实现，但是厂商的壁垒挺高的。

结语：抓住大模型时代的职业机遇

AI大模型的发展不是“替代人类”，而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作，却催生了更多需要“技术+业务”交叉能力的高端岗位。对于求职者而言，想要在这波浪潮中立足，不仅需要掌握Python、TensorFlow/PyTorch等技术工具，更要深入理解目标行业的业务逻辑（如金融的风险控制、医疗的临床需求），成为“懂技术、懂业务”的复合型人才。

无论是技术研发岗（如算法工程师、研究员），还是业务落地岗（如产品经理、应用工程师），大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情，紧跟技术趋势，就能在AI大模型时代找到属于自己的职业新蓝海。

最近两年大模型发展很迅速，在理论研究方面得到很大的拓展，基础模型的能力也取得重大突破，大模型现在正在积极探索落地的方向，如果与各行各业结合起来是未来落地的一个重大研究方向

大模型应用工程师年包50w+属于中等水平，如果想要入门大模型，那现在正是最佳时机

2025年Agent的元年，2026年将会百花齐放，相应的应用将覆盖文本，视频，语音，图像等全模态

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

扫描下方csdn官方合作二维码获取哦！

在这里插入图片描述

给大家推荐一个大模型应用学习路线

这个学习路线的具体内容如下：

第一节：提示词工程

提示词是用于与AI模型沟通交流的，这一部分主要介绍基本概念和相应的实践，高级的提示词工程来实现模型最佳效果，以现实案例为基础进行案例讲解，在企业中除了微调之外，最喜欢的就是用提示词工程技术来实现模型性能的提升

第二节：检索增强生成（RAG）

可能大家经常会看见RAG这个名词，这个就是将向量数据库与大模型结合的技术，通过外部知识来增强改进提升大模型的回答结果，这一部分主要介绍RAG架构与组件，从零开始搭建RAG系统，生成部署RAG，性能优化等

第三节：微调

预训练之后的模型想要在具体任务上进行适配，那就需要通过微调来提升模型的性能，能满足定制化的需求，这一部分主要介绍微调的基础，模型适配技术，最佳实践的案例，以及资源优化等内容

第四节：模型部署

想要把预训练或者微调之后的模型应用于生产实践，那就需要部署，模型部署分为云端部署和本地部署，部署的过程中需要考虑硬件支持，服务器性能，以及对性能进行优化，使用过程中的监控维护等

第五节：人工智能系统和项目

这一部分主要介绍自主人工智能系统，包括代理框架，决策框架，多智能体系统，以及实际应用，然后通过实践项目应用前面学习到的知识，包括端到端的实现，行业相关情景等

学完上面的大模型应用技术，就可以去做一些开源的项目，大模型领域现在非常注重项目的落地，后续可以学习一些Agent框架等内容

上面的资料做了一些整理，有需要的同学可以下方添加二维码获取（仅供学习使用）

在这里插入图片描述

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

AI Agent核心概念100题精练

（将长历史总结成要点）、

龙虾开发者社区

本地 AI 自动化工具 OpenClaw 搭建实录，各类踩坑点一次性讲透

龙虾开发者社区

[智能体-567]：个人使用者 AI 智能体完整收费组成（2026，分「云端 SaaS 平台」「本地开源自部署」两套体系）

平台订阅费 + 按量 Token / 工具消耗，上手零门槛，成本透明但长期高频使用单价更高；框架永久免费，支出仅硬件电费 / 云主机 + 可选 API 费用，一次性硬件投入后长期使用更省钱；最大可变开销永远是大模型 Token 调用多步骤自主智能体（Hermes/OpenClaw）会自动拆解任务多次调用模型，若不做用量限制极易超额扣费。