LLM、Agent、MCP、Tool、Skills 分别是什么？一文看懂大模型、智能体与工具调用的区别

HZH137940556

389人浏览 · 2026-06-26 20:45:00

HZH137940556 · 2026-06-26 20:45:00 发布

LLM、Agent、MCP、Tool、Skills 分别是什么？一文看懂大模型、智能体与工具调用的区别

很多人刚接触 AI 应用时，最容易混淆几个词：LLM、Skills、Tool、Agent、MCP。
它们经常一起出现，但其实并不是同一层的东西。

如果只用一句话来概括：

LLM 是“大脑”
Tool 是“手和脚”
Skills 是“经验和方法”
Agent 是“会自己拆解任务并行动的执行者”
MCP 是“让模型安全接工具的标准接口”

这篇文章尽量用概念化、非技术门槛太高的方式，把它们讲清楚。

1. LLM 是什么？

LLM，全称是 Large Language Model，中文通常叫“大语言模型”。

它的核心能力，是基于海量数据训练后，具备：

理解自然语言
生成自然语言
做总结、改写、翻译、问答
一定程度上的推理、规划、代码生成

你可以把它理解成一个“会读、会写、会思考语言问题的大脑”。

但是要注意，LLM 本身通常只有“认知能力”，并不天然拥有：

访问你本地文件的能力
调用数据库的能力
打开浏览器点击页面的能力
下单、发邮件、操作系统的能力

也就是说，LLM 很聪明，但如果不给它外部连接能力，它就更像“只会说和想”的大脑。

常见的 LLM 例子

GPT 系列：OpenAI 的代表性大模型
Claude：Anthropic 的大模型
Gemini：Google 的大模型
Llama：Meta 开源模型系列
Qwen（通义千问）：阿里推出的大模型
DeepSeek：国内外都很受关注的大模型
MiniMax：MiniMax 提供的模型能力，也属于 LLM 范畴
豆包大模型：字节跳动相关模型能力

这里容易混淆的一点

像 ChatGPT 这样的产品，严格说并不只是 LLM，它是“基于 LLM 构建出来的 AI 应用”。
但因为 ChatGPT 背后主要依赖 GPT 模型，所以很多人也会顺口把它当成 LLM 的代表产品。

2. Tool 是什么？

Tool，就是“工具”。

如果说 LLM 是大脑，那么 Tool 就是大脑可以调用的外部能力。
它让模型不只是“会说”，而是“真的能做事”。

比如一个模型接上工具后，可以：

查询天气
搜索网页
读取本地文件
执行代码
访问数据库
调用企业内部 API
控制浏览器

Tool 的本质

Tool 的本质不是“模型本身的能力”，而是“模型可以调用的外部函数或服务”。

所以你可以把它理解成：

LLM 负责判断“什么时候该用工具”
Tool 负责真正执行动作
执行结果再回给 LLM
LLM 再整理成用户看得懂的答案

常见的 Tool 例子

搜索工具：Google Search、Bing Search、SerpAPI
浏览器工具：Playwright、Browser Use、Chrome DevTools 相关能力
代码执行工具：Python REPL、Node.js REPL、Code Interpreter
数据库工具：MySQL 查询接口、PostgreSQL 查询接口
办公工具：发邮件 API、飞书/钉钉机器人、日历接口
地图工具：高德地图 API、Google Maps API
支付/业务工具：订单查询 API、CRM 接口、ERP 接口

面向普通用户的产品里，也有 Tool 的影子

ChatGPT 的联网搜索、文件分析、代码执行，本质上都可以看作工具能力
很多 AI 编程助手里的“读文件”“跑测试”“改代码”，本质也是工具调用

3. Skills 是什么？

Skills，可以理解成“技能包”或者“能力模板”。

它不是模型本身，也不是单个工具，而是一套被整理好的做事方法。
通常会包含：

什么时候做这件事
按什么步骤做
优先使用哪些工具
输出格式长什么样
遇到异常怎么处理

如果说：

LLM 是大脑
Tool 是手脚

那么 Skills 更像是“做某类任务的经验手册”。

Skills 解决的是什么问题？

模型虽然聪明，但如果没有约束和流程，很容易：

每次做法都不一样
输出风格不稳定
工具选择不稳定
明明有现成方法，却重复摸索

而 Skills 的作用就是，把“会做某件事”沉淀成可复用的标准动作。

常见的 Skills 例子

写代码修 Bug 的技能
生成周报的技能
文档润色技能
代码 Review 技能
数据分析技能
生成 PPT 的技能
创建插件的技能

在一些 AI Agent 平台里，Skills 可能体现为：

预设 Prompt
工作流模板
任务 SOP
插件化能力包

所以 Skills 更像“经验层”，不是最底层能力，但非常重要。

4. Agent 是什么？

Agent，通常翻译为“智能体”。

它不是单纯一个模型，而是“模型 + 记忆 + 规划 + 工具调用 + 执行动作”的组合体。

一个 Agent 往往具备这些特征：

能理解目标
能把大任务拆成小步骤
能根据情况选择工具
能执行后观察结果
能根据结果继续下一步
有时还能保存上下文和长期记忆

为什么 Agent 比普通聊天更进一步？

普通聊天更像：

你问一句
模型答一句

而 Agent 更像：

你给它一个目标
它自己思考怎么完成
中间调用多个工具
必要时多轮执行
最后把结果交付给你

Agent 的典型例子

AI 编程 Agent：能读项目、改代码、跑测试、修错误
客服 Agent：能查询订单、查物流、处理售后流程
办公 Agent：能整理会议纪要、发邮件、安排日程
数据 Agent：能拉取数据、分析、出图、写结论

常见产品例子

ChatGPT：在接入工具、记忆、任务执行能力后，可以表现出 Agent 特征
OpenAI Codex / Codex 类编程助手：偏编程 Agent
Claude 配合工具后，也可作为 Agent 使用
扣子（Coze）：偏 Agent 搭建平台
Dify：支持工作流和 Agent 形态
AutoGPT：早期很典型的 Agent 项目
CrewAI：多 Agent 协作框架
LangGraph：适合构建更可控的 Agent 流程

所以，Agent 重点不在“模型多强”，而在“它能不能围绕目标自己完成事情”。

5. MCP 是什么？

MCP，全称是 Model Context Protocol。

它可以理解成一种“让大模型安全、标准化连接外部能力”的协议。

一句话解释：

MCP 想做的事，是把原本五花八门的工具接入方式，变成统一规范。

也就是说，过去不同工具、不同平台、不同服务，接法都不一样；
有了 MCP 之后，模型和工具之间可以按照统一协议通信。

MCP 主要解决什么问题？

它主要解决三个问题：

工具怎么被发现
工具怎么被调用
上下文和资源怎么被安全传递

这带来的好处是：

工具接入更标准
Agent 框架更容易复用不同工具
不同客户端和服务端更容易协作
权限边界更清晰

你可以把 MCP 理解成什么？

如果 Tool 是一个个具体工具，
那 MCP 更像“工具连接的插座标准”。

它不是某一个工具，而是：

一种协议
一套通信规范
一种模型接外部世界的标准化方式

MCP 相关例子

文件系统 MCP Server
GitHub MCP Server
数据库 MCP Server
文档检索 MCP Server
企业内部业务系统 MCP Server

这些都不是“模型”，而是“按 MCP 规范暴露能力的服务端”。

6. 五者之间到底是什么关系？

最容易理解的方式，是看它们所处的层级：

关系图

你也可以把这张图直接理解成一句话：

用户给 Agent 一个目标，Agent 调用 LLM 来思考，参考 Skills 来决定怎么做，再通过 Tool 去真正执行，而 MCP 负责把这些外部能力用统一标准接进来。

第一层：LLM

负责理解、推理、生成内容。
它是整个系统的大脑。

第二层：Tool

负责提供实际动作能力。
比如查资料、执行代码、访问系统。

第三层：Skills

负责沉淀某类任务的最佳实践。
它告诉模型“这类事通常怎么做更稳”。

第四层：Agent

负责把 LLM + Tool + Skills 组织起来，围绕目标持续执行。
它是“会做事的 AI 执行体”。

第五层：MCP

负责让模型和外部能力之间有统一标准接口。
它更像“连接规范层”。

7. 用一个现实类比彻底理解

假设你要开一家智能餐厅：

LLM 像大脑和语言中枢，负责理解客人要什么
Tool 像厨房设备、收银机、电话、外卖系统
Skills 像店长培训手册，告诉员工怎么接待、怎么出餐、怎么处理投诉
Agent 像真正上岗的店长，能自己安排流程、调用资源、完成目标
MCP 像所有设备统一遵守的接口标准，让不同机器可以顺畅协同

这个类比下，几者就非常清楚了：

没有 LLM，系统不会思考
没有 Tool，系统不会行动
没有 Skills，系统做事不稳定
没有 Agent，系统不会主动完成复杂任务
没有 MCP，系统接各种工具会很混乱

8. 常见产品分别属于哪一类？

下面用一个表，快速对照常见产品到底更偏哪一类。

产品/平台	更偏向哪一类	说明
ChatGPT	AI 应用 / Agent 入口 / 基于 LLM	背后是 GPT 模型，前台是产品形态，不只是单纯 LLM
GPT 系列	LLM	典型大语言模型
Claude	LLM / AI 应用	既可指底层模型，也可指其产品入口
Gemini	LLM / AI 应用	同时是模型系列和产品入口
MiniMax	LLM 平台	提供模型能力，核心归类是大模型能力提供方
DeepSeek	LLM	典型国产大模型代表
通义千问 Qwen	LLM	阿里系大模型
豆包	AI 应用 / 基于 LLM	面向用户的产品，背后依赖模型能力
Copilot	AI 应用 / Agent 化助手	本质是基于模型构建的编程助手
Dify	Agent / 工作流平台	用来搭建 AI 应用、工作流和 Agent
Coze（扣子）	Agent 平台	偏向搭建 Bot 与 Agent
LangChain	Agent 开发框架	帮你组织模型、提示词、工具
LangGraph	Agent 工作流框架	更适合复杂流程和状态控制
AutoGPT	Agent 项目	典型早期自治型 Agent 代表
Playwright	Tool	浏览器自动化工具
Python REPL	Tool	代码执行工具
搜索 API	Tool	信息检索工具
GitHub MCP Server	MCP 服务	按 MCP 协议提供 GitHub 能力
文件系统 MCP Server	MCP 服务	按 MCP 协议提供文件访问能力