2025年都过半啦，还有人不知道AI Agent？从ChatGPT到自主智能体的进化之路，小白也能看懂的保姆级教程！

本文深入解析了AI Agent与传统聊天机器人的本质区别：Agent具备自主思考、决策和行动能力，通过"思考-行动-观察"循环工作，由提示词、工具和框架组成。相比聊天机器人的简单文字接龙，Agent能自主使用工具解决复杂问题。文章还探讨了Agent的未来发展方向，包括智能涌现、可解释性以及与人类文明的关系，为读者提供了全面理解AI Agent的视角。

网安福宝

658人浏览 · 2025-09-09 17:41:21

网安福宝 · 2025-09-09 17:41:21 发布

简介

快2026年了，到处都在讲AI Agent，这玩意到底是什么？和ChatGPT、豆包、DeepSeek这些聊天机器人有什么区别？

一句话总结，Agent相比于聊天机器人（chatbot），最本质的区别是「生成回答的过程」，Agent具备更强自主性、更多控制权——自己思考怎么解决问题、决定做出什么行动、判断问题是否已经解决等。

举个简单的例子，向AI提问“帮我整理关于AI的知识”。

聊天机器人：理解问题 ⇒ 从网络上搜索AI ⇒ 整理前n条搜索结果 ⇒ 输出回答
Agent

理解问题、制定目标：嗯，用户的问题是整理AI知识，一份好的知识资料需要有结构和逻辑，比如：1. 发展历史，2. 核心定义，3. 关键技术，4. 应用案例，5. 未来挑战。我现在需要为这5个部分收集资料；
行动、观察结果（多次）：搜索5个部分的资料，结果里频繁提到一个叫Transformer的项目，它似乎是一个关键点，现有的资料对它的解释不够深入。我决定进行一次补充搜索，深研究Transformer的技术架构。一些关键的对比数据是以图片形式存在的，我需要调用Python的图表分析工具来提取这些数据，让资料更有说服力。
判断、输出最终回答：判断现在所有部分的素材都已准备好，我将按照逻辑结构重新组织和整理，输出最终的AI知识资料

接下来，我们详细捋一捋AI是怎么从聊天机器人发展成Agent的，以及它们的本质是什么。

聊天机器人与大语言模型

我们首先来回顾一下ChatGPT、豆包、DeepSeek这些聊天机器人，本质是什么东西。

感官上，这些聊天机器人做的事情就是回答问题，不管你问什么它都会答，并且很「智能」——对问题的理解强、回答的质量高，接近人类水平。

在这背后，是大语言模型（Large Language Model，LLM。下文统称大模型）在做「文字接龙」——接收提问（输入）、生成回答（输出），即使是问了半句话，大模型也会补全。

那么大模型的本质是什么呢？为什么它能做到不管问什么都能接上？

它首先是一个算法模型，然后它内部的机制是模拟人类大脑神经元（神经网络），对输入的词句进行层层加工和传递，得到下一个词句。

首先的一个问题是，为什么要设计成文字接龙这样的机制？因为简单、直观、通用——人类的大部分活动，都可以抽象成「信息的输入和输出」，而文字又是应用最广泛的一类信息。能做文字接龙，其实就可以解决现实中的很多问题。

大模型做文字接龙时，是怎么确定下一个词的呢？

一种方式是结合前面的词，统计人类社会所有文字中，所有下一个可能出现的词及其概率，选概率最高的那个词。但是计算量爆炸（4万个常用英文单词，要计算连续20个字母的概率，可能出现的组合已经超过了全宇宙的粒子数量），行不通。

另一种方式是数学建模——用数学的方式来拟合复杂的现实。

例如线性回归，对2个相关的维度/变量进行分析，例如时间和销售额。建模后一般会得到一个函数，例如 f(x)= a + b x + c x^2，我们就可以代入未来的时间，得到销售额的预测结果。

但是对于文字接龙来说，我们要怎么建模？很难找出要用什么维度来拟合它，追根溯源，文字是人类生产出来的——严格来说文字源于人类大脑，那么我们是否能模拟人类大脑的机制来做文字接龙呢？

这就是神经网络的由来。

人类大脑的神经元互相连接，呈网状结构，实际上可以简化为一个超复杂、多层的数学函数。所有的大脑活动也可以简化为「输入A、输出B」这样的抽象过程，文字接龙这个任务也可以简化为「输入一些词、输出概率最高的下一个词」。像 GPT3 的神经网络，就有96层、1750亿个参数、数十亿个函数项。

现在，我们解决了文字接龙的建模用什么方法的问题。紧接着的问题是，神经网络是一个数学函数，只能输入和输出数字，那么文字怎么转换成数字呢？

先不说文字，如果是一个杯子，可以怎么用数字来表示？简单的方式是通过几个维度对应的数字来表示——例如直径、高、材质，对应3个数字，4（cm）、10（cm）、1（我们可以定义不同的数字代表不同材质，例如1为陶瓷）。我们增加越多维度及对应数字，对杯子的描述就越准确，例如增加功能、易碎性、是否有把手等。并且，当我们用同样的方式来表示不同的物体时，例如马克杯、保温杯、猫，前两者的数字一定更相似。

文字转换为数字同理。只不过因为文字的含义非常复杂，需要用非常多维度及数字来表示它们（目前市面上的大模型通常会用几千个维度），这种方法叫做「Embedding」，中文翻译为向量化。

接下来的问题是，神经网络怎么知道自己计算出来的下一个词，是否“正确”，或者起码是语句通顺的？似乎很难想出一个清晰的规则。

很简单，还是回归人类大脑，人写字、说话的时候，是怎么知道是否正确/通顺/符合语境的？

是靠从小到大在现实世界中学习和训练掌握的——识字、语法、逻辑、结构、语境、模式，并且受成长环境的影响，每个人会有不同的风格。

神经网络也一样，通过学习大量人类社会的高质量文本（技术上叫训练语料，包括网页、书籍、维基百科数据），掌握了接近人类的文字能力，并且被塑造为“人类好帮手”风格。这个学习过程也和人类接受教育类似，分为以下阶段：

通识教育阶段：博览群书、自己领悟，产出一个基础模型，学会“接话”。技术上叫做无监督学习（Unsupervised Learning）、预训练（Pre-training）阶段
专业培养阶段：技术上称为后训练（Post-Training）阶段

a.学习人类专家写的高质量对话集，学会“对话”，技术上叫做监督微调（Supervised Fine-Tuning，SFT），产出一个SFT模型

b.学习人类偏好，掌握“情商”和“价值观”，产出最终的模型，例如GPT。技术上叫人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）

在大模型的神经网络中，还有一个重要的、大名鼎鼎的机制：Attention（来自2017年谷歌发表的《Attention Is All You Need》）。简单理解，这个机制使神经网络能够理解每个词的上下文关联性（内部重要性）、语法/语义/逻辑/文化等（外部重要性）。最终能使文字接龙是连贯通顺的、符合人类认知的。

现在，我们搞清楚了最开始的问题——聊天机器人的本质：神经网络在经过大量文本的学习和训练后，接收输入的词、转换为数字做复杂的计算、得到下一个词的数字结果、再转换为文字。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

了解了大模型的奇妙后，我们再来看一下它的缺点。

幻觉：因为大模型的首要目标就是文字接龙，把句子补全，所以有时会睁眼说瞎话，我们称之为幻觉（hallucination）。在有了联网搜索能力，以及大模型的优化后（不确定时诚实回答），这个问题已经改善了很多
遗忘性：当上下文太长时，大模型可能会“忘记”前面的一些约束条件、关键事实等内容
可解释性和可控性：我们虽然了解大模型大概的机制，但其实并不清楚具体原理。在大模型训练的过程中，任务始终是文字接龙，虽然没有明确训练它编程、翻译、数据分析等能力，但当模型的参数量、训练数据量达到某个临界点后，它“涌现”了这些技能。可以说是大力出奇迹，这也就导致大模型的回答在一定程度上是不可控的。在实际使用中，想要得到指定回答，有时候得像“丢骰子”一样试很多次
成本：钱、时间。各大厂商都在降价、提速，有所改善
安全：数据隐私、内容安全问题

针对这些缺点，发展出了很多对策。

提示词工程（Prompt Engineering）：大家最耳熟能详的方法。一句话总结，提示词工程就是更有技巧性地提问，以得到大模型更好的回答。技巧包括提供明确的信息（背景和目标等）、结构化（使用#、’、<>、{}等符号）、给示例、要求逐步推理等，这部分比较简单
上下文工程（Context Engineering）：提示词工程是「更好地提问」，偏用户角度；上下文工程是「更好地组织、提供信息」，偏开发角度。在提示词工程的基础上，还包括为大模型提供数据、文档、对话历史等，这背后的技术包含RAG（Retrieval-Augmented Generation）、工具调用、状态及对话历史控制等。这里重点说一下前两者：

RAG：简单来说，就是先搜文档再回答。客服机器人是典型的应用场景，目前的技术也比较成熟，主要包括文件处理（标准化、分块、向量化、索引与存储、更新等）、检索与生成（问题分类/重写、向量检索、多模态检索、排序等）和效果评估
工具调用：顾名思义，给大模型提供各种工具，包括网络搜索、代码解释器、图表生成、数据查询等。这里涉及一个近期比较火的概念MCP（Model Context Protocol），这其实就是个规范，把五花八门的工具的服务解析、定义、请求和响应格式等统一起来，方便大模型调用

工作流（Workflow）：面对比较复杂但目标明确的场景，人为定义流程，编排分支、工具、大模型等，增强对最终回答的控制，例如客服这种场景。

接下来，我们详细理一理工作流。

工作流

工作流其实就像画流程图，我们可以灵活地把大模型放在指定的位置干指定的事情。

经过实践，可以总结出一些套路，例如Anthropic官方总结的几类工作流类型：

任务明显可以分类。例如客服场景，先对问题进行分类，简单问题用便宜模型，复杂问题用贵模型
任务可分解为明确的步骤。例如写作，写大纲 ⇒ 检查大纲是否符合标准 ⇒ 根据大纲写内容
任务比较复杂。例如给数据打标签、代码质量审查等场景，按不同角度对任务同时进行处理，最后投票，以提升速度、提高输出质量
更复杂的任务。例如代码（库）生成、深度研究生成报告场景，先对任务进行拆分和组织，调用大模型处理多个任务，最后再整合结果

举个更具体的例子：做一个社交媒体数据分析师bot。

我们可以把数据文件直接丢给大模型，它也能读内容、根据已有知识给一些分析结果，但是有比较明显的瓶颈：数据量大时丢失信息、缺乏行业知识。

这时工作流就派上用场了。数据的统计和分析用一个专门的Python脚本来处理、行业知识通过联网搜索来补充。那么这个bot的工作流程可以定义为：

接收用户问题和数据文件
结合问题，对数据进行初步分析，包括情感分析、观点总结等（使用代码解释器分析数据、调大模型）
根据初步分析结果，结合用户的问题，从网上搜索补充信息（调大模型、网络搜索）
整合所有信息，生成最终的分析结果（调大模型）

我们可以用类似Dify这样的低代码工具，或者是LlamaIndex、Langchain这种代码框架，来简单实现这个流程，就像画流程图，核心的元素就是分支、循环、大模型调用、工具。可以看到，这个bot最终按我们预设的路线一步步运行，得到还不错的数据分析结果。

通过工作流，我们可以解决大模型在较复杂场景的应用问题，但上面这个demo的缺点也很多，例如：

只能处理社交媒体类的数据
只进行了一轮网络搜索，行业知识补充得不够
最后的分析结果比较简陋，只有文字，没有图表

针对这些问题，我们可以在现有流程上继续加步骤来解决，本质上还是将人的经验固定在bot的背后，但是步骤越多，维护成本也就越高。并且对于更复杂的场景，例如代码生成、深度研究，要穷尽所有流程是不可能的。

类似前面讲的神经网络，当要解决的问题特别复杂时，我们能不能只关注最终的结果，尽量让大模型自己处理中间的过程呢？

这，就是Agent。

Agent

目前的Agent，本质上是大模型基于策略，自主行动。

策略：循环地进行思考、行动、观察。其实就是模仿人类，边思考边行动（ReAct，Reasoning and Acting），是解决问题的通用方法
自主行动：自行决定要做什么、用什么工具、什么时候算做完，例如网络搜索、写代码分析数据，甚至是用使用浏览器打开网页订票

我们可以先看几个例子，ChatGPT、Gemini、MiniMax、Cursor，感官上理解一下Agent干活的过程：

这里多提一下MiniMax的Agent，体验非常惊艳。我上传了一份消费者反馈数据，要求分析、搭个BI，它生成了质量很高的报告和BI，更牛逼的是，BI上的数据筛选、搜索功能都是真实可用的。

看过Agent怎么干活后，现在的问题是，这背后是怎么实现的？怎么感觉大模型自己变“聪明”了？

一句话总结，这背后是一段Prompt、一些工具、一套框架。

一段Prompt：

下面这段Prompt是用LangChain这类技术框架实现Agent时，官方的一个模版。其实就是前面说到的策略，循环地进行思考、行动、观察：

Answer the following questions as best you can. You have access to the following tools:

一些工具：

即前面提到的网络搜索、数据分析这些工具，在代码里长这样（以自己实现工具为例），核心就是说明有哪些工具、每个工具怎么用。

# 导入我们自己写的工具

一套框架：

框架是技术概念，可以理解为它是一个导演，负责管理和调度。 Agent的工作过程是这样的：

框架把上面的那段Prompt、工具说明、用户提问组合起来，给到大模型
大模型进行思考，决定用某个工具完成这次任务，给框架提需求
框架调用工具，把结果记录下来，再次给到大模型
一般上面的步骤经过几轮循环后，大模型判断任务已经完成，给出最终回答，通知框架
框架把最终回答打印出来

我们来看一下实际案例，可以看到执行了多次循环（Running step），每个循环内Agent都在思考（Thought）、行动（Action）、观察（Observation）：

You: 总结消费者的主要负面反馈，附上统计数据，并给出改进建议

现在，我们搞懂Agent到底是什么东西、具体是怎么做到的了。

接下来的问题是，所有人都说要做Agent，它是万能的吗？

是，也不是。相比于过去那种简单的聊天机器人，Agent的回答质量肯定会更高。但是理性地看，Agent的成本也更高，并且如果出错会是比较复杂的错误，需要要平衡收益（效果提升）和成本（复杂性）。不过话说回来，有时候Agent这个概念能给人比较大的情绪价值，哈哈。

此外，也不是说有了Agent就不用工作流了，针对内容质量、成本、安全等问题，我们还是可以用工作流来控制。

Agent的未来

搞懂了现在的Agent，我们来畅想一下未来。

可以想到，Agent接下来的发展肯定是朝着更「智能」的方向去——大模型自身推理能力更强、工具更加丰富、权限更高，例如各大厂商陆续开始做AI浏览器，软件层面，我比较期待PC上系统级Agent的出现。

也有好玩的，香港科技大学做了一个游戏《Aivilization》，是一个AI Agent版星露谷物语。每个玩家可以在里面创建一个Agent，选择人格、设定目标，然后就可以放养了。即使你关掉游戏，里面的Agent也在照常「生活」。有的玩家让Agent拼命赚钱，争取排行榜第一，有的玩家告诉Agent吃饱穿暖，开心第一。

回到未来，对于Agent，我们看看比较学术的定义是什么：

An intelligent agent is an entity that perceives its environment, takes actions autonomously to achieve goals, and may improve its performance through machine learning or by acquiring knowledge.

能够感知环境、自主采取行动以实现目标，并可通过机器学习或知识获取来提升自身性能的实体。也就是下面这张图：

前面讲的Agent中，「环境」就是运行环境、工具、指令、数据文件、互联网等，是数字世界。这个环境可以是网页、app、浏览器、操作系统、整个计算机，更可以扩展到现实的物理世界，目前视频、3d模型生成、汽车自动驾驶、机器人领域的模型就是在理解和计算我们这个物理世界。

那么十年后，我们的物理世界会是什么样子？

智能、现实和文明

最后，我们来聊点更有意思的。

涌现的智能与可解释性（Interpretability）

在大模型训练的过程中，任务始终是文字接龙，虽然没有明确训练它编程、翻译、数据分析等能力，但当模型的参数量、训练数据量达到某个临界点后，它突然“涌现”了这些技能，可以说是大力出奇迹/量变引起质变的结果。这非常有意思，联想一下人类，最开始是一些原始人，组成部落，采集、打猎、繁衍。人越来越多，逐渐形成了复杂的国家、社会、文化、文明。那么未来大模型会“涌现”出什么新的能力？会比人类社会本身进化得更快吗？另外，我们虽然了解大模型大概的机制，但并不清楚具体原理。有很多问题随之而来，例如：

大模型能说人类大部分语言，那么在它的“脑子”里，实际用的是什么“语言”？是否存在一种人类社会的“通用语言”？
大模型被塑造成人类好帮手，但它说的和实际“想的”东西一样吗？它真正的目标是什么？（参考人类，基因的首要目标是生存、繁衍，但是人类能自我发展出不生孩子）

这些都是目最前沿的研究课题，例如Anthropic（Claude背后的公司）就有专门研究大模型可解释性的部门，其中有很多脑科学、生物领域的专家。他们今年3月份有一篇研究《Tracing the thoughts of a large language model》，并且做了个可视化的页面（neuronpedia.org），可以体验一下。

确定性 vs. 不确定性

在过去，我们打造一个工具时，很多时候管理的是确定性，只要把逻辑想清楚、定好规则，那么大概率能做好。但是做大模型这样的工具时，我们更需要管理的是不确定性，甚至是数据分布（语料、微调数据等）。这和统计学非常类似，更难，但也更接近真实、复杂的现实世界。

人类文明的压缩与计算

除了文本模型，近两年也出现了生成图片、视频、3d模型、语音的模型。

从更大的角度看，文字、图片、视频这些东西，本身其实可以看作人类文明的浓缩。就像通过古籍、书信、档案等，我们可以对历史进行研究，还原过去某个时间点人类社会的风貌。大模型在计算时，目前可以看作在计算简化后的现实世界。那么随着发展，未来的现实世界，是否一切都能被计算？是否可以预知未来？

另外，我们不断研究神经网络——大模型的“大脑”，同时也是在研究人类自己的大脑。未来有怎样的研究成果？人类是否会借助AI实现一次文明的飞跃？

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述