LLM、Agent、MCP、Tool、Skills 分别是什么?一文看懂大模型、智能体与工具调用的区别
LLM、Agent、MCP、Tool、Skills 分别是什么?一文看懂大模型、智能体与工具调用的区别
很多人刚接触 AI 应用时,最容易混淆几个词:LLM、Skills、Tool、Agent、MCP。
它们经常一起出现,但其实并不是同一层的东西。
如果只用一句话来概括:
LLM是“大脑”Tool是“手和脚”Skills是“经验和方法”Agent是“会自己拆解任务并行动的执行者”MCP是“让模型安全接工具的标准接口”
这篇文章尽量用概念化、非技术门槛太高的方式,把它们讲清楚。
1. LLM 是什么?
LLM,全称是 Large Language Model,中文通常叫“大语言模型”。
它的核心能力,是基于海量数据训练后,具备:
- 理解自然语言
- 生成自然语言
- 做总结、改写、翻译、问答
- 一定程度上的推理、规划、代码生成
你可以把它理解成一个“会读、会写、会思考语言问题的大脑”。
但是要注意,LLM 本身通常只有“认知能力”,并不天然拥有:
- 访问你本地文件的能力
- 调用数据库的能力
- 打开浏览器点击页面的能力
- 下单、发邮件、操作系统的能力
也就是说,LLM 很聪明,但如果不给它外部连接能力,它就更像“只会说和想”的大脑。
常见的 LLM 例子
GPT系列:OpenAI 的代表性大模型Claude:Anthropic 的大模型Gemini:Google 的大模型Llama:Meta 开源模型系列Qwen(通义千问):阿里推出的大模型DeepSeek:国内外都很受关注的大模型MiniMax:MiniMax 提供的模型能力,也属于 LLM 范畴豆包大模型:字节跳动相关模型能力
这里容易混淆的一点
像 ChatGPT 这样的产品,严格说并不只是 LLM,它是“基于 LLM 构建出来的 AI 应用”。
但因为 ChatGPT 背后主要依赖 GPT 模型,所以很多人也会顺口把它当成 LLM 的代表产品。
2. Tool 是什么?
Tool,就是“工具”。
如果说 LLM 是大脑,那么 Tool 就是大脑可以调用的外部能力。
它让模型不只是“会说”,而是“真的能做事”。
比如一个模型接上工具后,可以:
- 查询天气
- 搜索网页
- 读取本地文件
- 执行代码
- 访问数据库
- 调用企业内部 API
- 控制浏览器
Tool 的本质
Tool 的本质不是“模型本身的能力”,而是“模型可以调用的外部函数或服务”。
所以你可以把它理解成:
LLM负责判断“什么时候该用工具”Tool负责真正执行动作- 执行结果再回给
LLM LLM再整理成用户看得懂的答案
常见的 Tool 例子
- 搜索工具:Google Search、Bing Search、SerpAPI
- 浏览器工具:Playwright、Browser Use、Chrome DevTools 相关能力
- 代码执行工具:Python REPL、Node.js REPL、Code Interpreter
- 数据库工具:MySQL 查询接口、PostgreSQL 查询接口
- 办公工具:发邮件 API、飞书/钉钉机器人、日历接口
- 地图工具:高德地图 API、Google Maps API
- 支付/业务工具:订单查询 API、CRM 接口、ERP 接口
面向普通用户的产品里,也有 Tool 的影子
ChatGPT的联网搜索、文件分析、代码执行,本质上都可以看作工具能力- 很多 AI 编程助手里的“读文件”“跑测试”“改代码”,本质也是工具调用
3. Skills 是什么?
Skills,可以理解成“技能包”或者“能力模板”。
它不是模型本身,也不是单个工具,而是一套被整理好的做事方法。
通常会包含:
- 什么时候做这件事
- 按什么步骤做
- 优先使用哪些工具
- 输出格式长什么样
- 遇到异常怎么处理
如果说:
LLM是大脑Tool是手脚
那么 Skills 更像是“做某类任务的经验手册”。
Skills 解决的是什么问题?
模型虽然聪明,但如果没有约束和流程,很容易:
- 每次做法都不一样
- 输出风格不稳定
- 工具选择不稳定
- 明明有现成方法,却重复摸索
而 Skills 的作用就是,把“会做某件事”沉淀成可复用的标准动作。
常见的 Skills 例子
- 写代码修 Bug 的技能
- 生成周报的技能
- 文档润色技能
- 代码 Review 技能
- 数据分析技能
- 生成 PPT 的技能
- 创建插件的技能
在一些 AI Agent 平台里,Skills 可能体现为:
- 预设 Prompt
- 工作流模板
- 任务 SOP
- 插件化能力包
所以 Skills 更像“经验层”,不是最底层能力,但非常重要。
4. Agent 是什么?
Agent,通常翻译为“智能体”。
它不是单纯一个模型,而是“模型 + 记忆 + 规划 + 工具调用 + 执行动作”的组合体。
一个 Agent 往往具备这些特征:
- 能理解目标
- 能把大任务拆成小步骤
- 能根据情况选择工具
- 能执行后观察结果
- 能根据结果继续下一步
- 有时还能保存上下文和长期记忆
为什么 Agent 比普通聊天更进一步?
普通聊天更像:
- 你问一句
- 模型答一句
而 Agent 更像:
- 你给它一个目标
- 它自己思考怎么完成
- 中间调用多个工具
- 必要时多轮执行
- 最后把结果交付给你
Agent 的典型例子
- AI 编程 Agent:能读项目、改代码、跑测试、修错误
- 客服 Agent:能查询订单、查物流、处理售后流程
- 办公 Agent:能整理会议纪要、发邮件、安排日程
- 数据 Agent:能拉取数据、分析、出图、写结论
常见产品例子
ChatGPT:在接入工具、记忆、任务执行能力后,可以表现出 Agent 特征OpenAI Codex / Codex 类编程助手:偏编程 AgentClaude配合工具后,也可作为 Agent 使用扣子(Coze):偏 Agent 搭建平台Dify:支持工作流和 Agent 形态AutoGPT:早期很典型的 Agent 项目CrewAI:多 Agent 协作框架LangGraph:适合构建更可控的 Agent 流程
所以,Agent 重点不在“模型多强”,而在“它能不能围绕目标自己完成事情”。
5. MCP 是什么?
MCP,全称是 Model Context Protocol。
它可以理解成一种“让大模型安全、标准化连接外部能力”的协议。
一句话解释:
MCP 想做的事,是把原本五花八门的工具接入方式,变成统一规范。
也就是说,过去不同工具、不同平台、不同服务,接法都不一样;
有了 MCP 之后,模型和工具之间可以按照统一协议通信。
MCP 主要解决什么问题?
它主要解决三个问题:
- 工具怎么被发现
- 工具怎么被调用
- 上下文和资源怎么被安全传递
这带来的好处是:
- 工具接入更标准
- Agent 框架更容易复用不同工具
- 不同客户端和服务端更容易协作
- 权限边界更清晰
你可以把 MCP 理解成什么?
如果 Tool 是一个个具体工具,
那 MCP 更像“工具连接的插座标准”。
它不是某一个工具,而是:
- 一种协议
- 一套通信规范
- 一种模型接外部世界的标准化方式
MCP 相关例子
- 文件系统 MCP Server
- GitHub MCP Server
- 数据库 MCP Server
- 文档检索 MCP Server
- 企业内部业务系统 MCP Server
这些都不是“模型”,而是“按 MCP 规范暴露能力的服务端”。
6. 五者之间到底是什么关系?
最容易理解的方式,是看它们所处的层级:
关系图
你也可以把这张图直接理解成一句话:
用户给 Agent 一个目标,Agent 调用 LLM 来思考,参考 Skills 来决定怎么做,再通过 Tool 去真正执行,而 MCP 负责把这些外部能力用统一标准接进来。
第一层:LLM
负责理解、推理、生成内容。
它是整个系统的大脑。
第二层:Tool
负责提供实际动作能力。
比如查资料、执行代码、访问系统。
第三层:Skills
负责沉淀某类任务的最佳实践。
它告诉模型“这类事通常怎么做更稳”。
第四层:Agent
负责把 LLM + Tool + Skills 组织起来,围绕目标持续执行。
它是“会做事的 AI 执行体”。
第五层:MCP
负责让模型和外部能力之间有统一标准接口。
它更像“连接规范层”。
7. 用一个现实类比彻底理解
假设你要开一家智能餐厅:
LLM像大脑和语言中枢,负责理解客人要什么Tool像厨房设备、收银机、电话、外卖系统Skills像店长培训手册,告诉员工怎么接待、怎么出餐、怎么处理投诉Agent像真正上岗的店长,能自己安排流程、调用资源、完成目标MCP像所有设备统一遵守的接口标准,让不同机器可以顺畅协同
这个类比下,几者就非常清楚了:
- 没有
LLM,系统不会思考 - 没有
Tool,系统不会行动 - 没有
Skills,系统做事不稳定 - 没有
Agent,系统不会主动完成复杂任务 - 没有
MCP,系统接各种工具会很混乱
8. 常见产品分别属于哪一类?
下面用一个表,快速对照常见产品到底更偏哪一类。
| 产品/平台 | 更偏向哪一类 | 说明 |
|---|---|---|
| ChatGPT | AI 应用 / Agent 入口 / 基于 LLM | 背后是 GPT 模型,前台是产品形态,不只是单纯 LLM |
| GPT 系列 | LLM | 典型大语言模型 |
| Claude | LLM / AI 应用 | 既可指底层模型,也可指其产品入口 |
| Gemini | LLM / AI 应用 | 同时是模型系列和产品入口 |
| MiniMax | LLM 平台 | 提供模型能力,核心归类是大模型能力提供方 |
| DeepSeek | LLM | 典型国产大模型代表 |
| 通义千问 Qwen | LLM | 阿里系大模型 |
| 豆包 | AI 应用 / 基于 LLM | 面向用户的产品,背后依赖模型能力 |
| Copilot | AI 应用 / Agent 化助手 | 本质是基于模型构建的编程助手 |
| Dify | Agent / 工作流平台 | 用来搭建 AI 应用、工作流和 Agent |
| Coze(扣子) | Agent 平台 | 偏向搭建 Bot 与 Agent |
| LangChain | Agent 开发框架 | 帮你组织模型、提示词、工具 |
| LangGraph | Agent 工作流框架 | 更适合复杂流程和状态控制 |
| AutoGPT | Agent 项目 | 典型早期自治型 Agent 代表 |
| Playwright | Tool | 浏览器自动化工具 |
| Python REPL | Tool | 代码执行工具 |
| 搜索 API | Tool | 信息检索工具 |
| GitHub MCP Server | MCP 服务 | 按 MCP 协议提供 GitHub 能力 |
| 文件系统 MCP Server | MCP 服务 | 按 MCP 协议提供文件访问能力 |
9. 一个最容易记住的判断方法
如果你还会混,可以直接用这几句话判断:
- 它主要负责“思考和生成”吗?是的话,多半是
LLM - 它主要负责“执行某个动作”吗?是的话,多半是
Tool - 它主要负责“沉淀某类任务的做法”吗?是的话,多半是
Skills - 它主要负责“围绕目标自主完成任务”吗?是的话,多半是
Agent - 它主要负责“标准化连接模型和工具”吗?是的话,多半是
MCP
10. 总结
最后用一句更完整的话收尾:
一个现代 AI 应用,通常不是只有一个 LLM,而是由 LLM 负责思考,Tool 负责执行,Skills 负责方法沉淀,Agent 负责任务编排,MCP 负责统一接入标准,共同组成的完整系统。
如果你是刚入门,最推荐的理解顺序是:
- 先理解
LLM是大脑 - 再理解
Tool是外部能力 - 然后理解
Agent是会调用工具完成目标的执行者 - 再补上
Skills是经验模板 - 最后理解
MCP是标准化连接协议
这样会非常清晰。
11. 一段适合放在文章结尾的话
过去大家讨论 AI,更多是在讨论“模型强不强”;
但现在真正决定 AI 应用上限的,往往不只是模型本身,而是 模型 + 工具 + 工作流 + 协议 的整体协同能力。
也就是说,未来比拼的,不只是“谁的 LLM 更强”,更是“谁能把 LLM、Tool、Skills、Agent、MCP 这几层真正组合起来,做成稳定可用的系统”。
如果你理解了这几个词之间的关系,基本就能看懂当下大多数 AI 产品和 Agent 平台在做什么了。
更多推荐



所有评论(0)