引言

什么是Agent?

在翻阅很多资料之后,发现这个问题真是“众说纷纭”。

有人说,LLM + MCP 调个工具就是 Agent;也有人说,Agent 是个推理、规划、协同的复杂系统。

其实,Agent这个词是多义性的,没有定义清楚前就开始讨论,就会产生困扰。

因此,本文将根据现有的Agent相关资料,对其建立一个基本的认知体系,以便为后续的学习建立基础。

Agent基本定义

Agent 很容易与 RL Agent 和 Agentic Workflow 混淆,首先需要把这几个的概念界定清楚。

RL Agent 和 AI Agent 区别

在强化学习(Reinforcement Learning, RL)中,Agent 是一个与环境交互的决策者
它通过“状态—动作—奖励”三元组不断学习最优策略,目标是最大化长期回报。

RL Agent 的行为可以看作是一个数学意义上的最优控制过程,其“智能”来源于对奖励信号的优化学习,而非语言或知识层面的推理。

在 2023 年之后谈论“Agent”时,更多指的是基于大语言模型的智能体系统。

AI Agent 不再局限于数值型的奖励学习,而是一个“靠语言推理与外部行动构成的认知体”。

Agentic Workflow 和 AI Agent 区别

去年,吴恩达提出了 Agentic Workflow 这个概念,从广义上来说,它也是 Agent 的一种[1]。

Agentic Workflow 和 AI Agent 的核心差异在于系统架构的自主权分配,两者的差异如下表所示:

维度 Agentic Workflow AI Agent
自主性 低:严格遵循开发者设定的逻辑链条 高:LLM自主生成决策树与执行计划
灵活性 确定性输出,适合结构化场景 非确定性输出,适合开放性问题
工具调用 工具类型和调用顺序预先绑定 动态选择工具组合(如临时切换API)
容错机制 依赖开发者预设异常处理 通过反思(ReAct等框架)自主纠错

Agentic Workflow 本质上是带有LLM的工作流,本文所讨论的 AI Agent 则是让 LLM 自主决策的智能体。

Agent 的基本结构

参考文献[2] 给出了一个 Agent 的完整结构,如下图所示:

翻译一下,一个完整智能体有以下结构:

  • 角色 (Profile)
  • 角色内容 (Profile contents)
  • 生成策略 (Generation strategy)
  • 记忆 (Memory)
  • 记忆结构 (Memory structure)
  • 记忆形式 (Memory formats)
  • 记忆操作 (Memory operation)
  • 规划 (Planning)
  • 无反馈规划 (Planning without feedback)
  • 有反馈规划 (Planning with feedback)
  • 行动 (Action)
  • 行动目标 (Action target)
  • 行动生成 (Action production)
  • 行动空间 (Action space)
  • 行动影响 (Action impact)

并不是说一个Agent必须要包含以上内容,只是可作为一个参考。

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​
在这里插入图片描述
Agent 的经典方法

在 Agent 的发展进程中,有以下经典方法,被广泛使用[3]。

ReAct

ReAct(推理+行动)是指,智能体首先针对给定任务写下思考内容,随后基于该思考执行动作并观察输出结果,这一循环可重复直至任务完成。

ReAct 是 Cot(思维链) 的进阶版,Cot 只是让模型写出推理过程,ReAct 则是推理+行动。

有研究表明[3],在 HotpotQA数据集上,使用 CoT 方法的幻觉发生率为 14%,而 ReAct 方法的这一比例则为6%。

下图是一个 ReAct 交互的例子:

不过,ReAct 也有局限性,将推理、观察和行动交织在一起可能会重复生成相同的思考与行动,无法产生新思路来推动任务完成并跳出ReAct循环。

TOT

思维树(Tree-of-Thought,ToT)是对 ReAct 和 Cot 思维链方法的进一步扩展,其核心思想是在推理过程中探索多条可能思路,而不是单一路径。

ToT 维护着一棵思维树,思维由连贯的语言序列表示,这个序列就是解决问题的中间步骤。使用这种方法,LLM 能够自己对严谨推理过程的中间思维进行评估。LLM 将生成及评估思维的能力与搜索算法(如广度优先搜索和深度优先搜索)相结合,在系统性探索思维的时候可以向前验证和回溯[4]。

ToT 的具体构建方式可参考 tree-of-thought-prompting仓库[5]的提示词。

RAISE

RAISE方法建立在ReAct方法的基础上,并增加了模拟人类短期和长期记忆的机制,该方法通过使用草稿纸实现短期存储,并利用类似历史案例的数据集进行长期存储。

下图是 RAISE的框架结构。

RAISE的局限性是智能体经常在角色认知或知识层面出现幻觉。例如,一个未明确定义角色的销售Agent可能保留着Python编程能力,导致其开始编写Python代码而非专注于销售任务。

Reflexion

自我反思(Reflexion)是指将来自环境的反馈转换为语言反馈,也被称作 self-reflection,为下一轮中 LLM 智能体提供上下文[4]。

本质上就是在得到结果和进行下一步决策时,再加一轮自我反思的流程,如下图所示。

Reflexion 的局限性是智能体的反思的能力并不一定有效,且额外增加的一轮交互,容易触发到模型的上下文Token数量上限。

LATS

语言代理树搜索(LATS)受蒙特卡洛树搜索启发,将状态表示为节点,将执行动作视为节点间的遍历,用树结构将规划、行动和推理协同结合,使用基于语言模型的启发式方法搜索可能选项,然后通过状态评估器选择动作。

然而,由于算法复杂性和涉及反射步骤,LATS通常比其他单智能体方法消耗更多计算资源且耗时更长。

CodeAct

CodeAct 是在 ReAct 基础上发展起来的一类专注于代码生成与执行的 Agent 框架[6],CodeAct 把 ReAct 的行动(Action) 变成了代码执行(Code Execution),被 Manus 等知名产品所采用[7]。

具体的工作流程如下:

多智能体结构

在一些更为复杂的系统中,往往会构建多智能体扮演不同的角色,来进行协作和信息共享[8]。

在智能体架构中,有以下经典方法[3]。

DyLAN

DyLAN 构建了一个Agent网络,该框架设有专门步骤用于评估各Agent在上一轮工作中的贡献度,并仅允许核心贡献者进入下一轮执行。

这种方法本质上是水平式的,因为Agent之间可以相互共享信息,且没有明确的领导角色。

AgentVerse

AgentVerse 框架包含任务执行的四个核心阶段:招募、协同决策、独立行动执行与评估,这一流程可循环直至达成总体目标。

MetaGPT

许多多智能体架构允许智能体在共同解决问题时相互对话。这种对话能力可能导致智能体之间产生冗余且无助于团队目标的闲聊。

MetaGPT通过要求智能体生成结构化输出(如文档和图表)而非共享非结构化聊天消息,解决了智能体间无效闲聊的问题。

此外,MetaGPT 实现了一种用于信息共享的“发布-订阅”机制。这使得所有智能体可以在一个地方共享信息,但只读取与其各自目标和任务相关的信息。这简化了整体目标执行过程,并减少了智能体之间的对话噪音。

Coding领域的Agent应用

不同领域的Agent都不尽相同,Vibe Coding 是当前Agent应用相对成熟的垂类领域。

Vibe Coding 意思是程序员通过纯指令的方式让Coding Agent去编写代码,基本交互流程如下图所示[9]。

历年来,关于此方面的模型、Agent、评测集和产品如下图所示[9]:

下图[9]汇总了当前领域所用的模型、Agent、开发环境和反馈算法,部分经典的在前文中已提到,更多内容可参考此图做引申研究。

Agent代表性项目

不难发现,Agent没有固定范式,还处于百家争鸣的状态,要进一步学习操作细节,可参考以下Agent的开源项目[10]:

  • AutoGPT:由SignificantGravitasLtd.视频游戏公司的创始人ToranBruceRichards开发,是2023年3月推出的早期Agent之一,它是当今GitHub上最受欢迎的Agent项目。
  • BabyAGI:任务驱动自主智能体的精简版。Python脚本只有140个字的代码。
  • SuperAGI:AutoGPT的更灵活且用户友好的替代方案。将其视为开源AI智能体的集成者,其中包含构建、维护和运行自己的Agent所需的一切。
  • ShortGPT:一个用于自动化内容创建的强大框架。它简化了视频创建、素材来源、配音合成和编辑任务。
  • ChatDev:一家虚拟软件公司,通过担任不同角色的各种智能体进行运营,包括首席执行官、首席产品官、首席技术官、程序员、审阅者、测试员、美术设计师。这些智能体形成了一个多智能体组织结构。
  • MetaGPT:试图模仿传统软件公司的结构,Agent被分配产品经理、项目经理和工程师的角色,并且他们在用户定义的编码任务上进行协作。
  • Camel:早期的多智能体框架之一,它使用独特的角色扮演设计来使多个智能体能够相互通信和协作。
  • JARVIS:通过访问HuggingFace中心中的数十个专用模型,利用ChatGPT的推理能力将最佳模型应用于给定任务。这使得它对于各种任务(从简单的摘要到对象检测)都具有相当不错的灵活性。
  • OpenAGI:一个开源AGI(通用人工智能)研究平台,结合了小型专家模型(为情感分析或图像去模糊等任务量身定制的模型)和任务反馈强化学习(RLTF),以提高其输出。
  • XAgent:一个开源实验性大型语言模型(LLM)驱动的自主智能体,可以自动解决各种任务。它被设计为一个通用Agent,可以应用于广泛的任务。

Agent开发框架

下面汇总了一些开源的开发框架,借此可以更方便地去开发Agent:

  • LangChain:它可以帮助开发者将 LLMs 与外部工具、API 和知识源连接,让 Agent 能够推理并采取行动。
  • LangGraph:在 LangChain 的基础上,支持以状态和转换的图(graphs)来设计 Agent。
  • Langflow:将 LangChain 的概念融入拖放式界面,无需深入编码即可可视化构建 AI 工作流程。
  • LlamaIndex:支持让 Agent 连接外部数据源(PDF、数据库、API、向量存储)来补充 Agent 的上下文信息。
  • AutoGen:一个支持使用多个智能体(Agent)开发LLM应用程序的框架,这些Agent可以相互对话来解决任务。
  • PromptAppGPT:基于LLM的自然语言应用开发框架:支持全自动编译、运行、界面生成,支持无代码配置实现流程调度,支持几十行低代码实现AutoGPT类全自主智能体。

本文从Agent的定义、结构、经典方法、热门项目、开发框架角度系统性地整理总结了Agent的相关内容。

后续将从实践的角度,进一步学习Agent的构建方式。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述
⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐