一张图打通 AI 底层逻辑:从 LLM 到 Agent Skill,你缺的不是工具而是地图
很多人用了半年 AI,却说不清 Token 和 Context 的区别,不知道 MCP 和 Tool 是什么关系,更搞不懂 Agent Skill 为什么比直接写 Prompt 更强。这篇文章帮你把这张"地图"画完整
很多人用了半年 AI,却说不清 Token 和 Context 的区别,不知道 MCP 和 Tool 是什么关系,更搞不懂 Agent Skill 为什么比直接写 Prompt 更强。这篇文章帮你把这张"地图"画完整。
为什么你总感觉 AI 用得不顺手?
用过 ChatGPT、Claude、Cursor 的人都有过这种感受:
“感觉 AI 很强,但就是用不到点子上。”
问题不在工具,在你对底层逻辑的理解是碎片化的。每个概念单独学都懂,但它们之间的关系是什么、调用链路是怎么跑的——这张整体的地图,大多数教程都没给你画出来。
马克的技术工作坊这期视频做的事情,就是把 LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill 这条完整链路,用一期视频从头捋到尾。
第一层:LLM 是什么,它能做什么
LLM(Large Language Model,大语言模型)是整个 AI 应用栈的基础。
它本质上是一个条件概率机器:给定输入文本,预测下一个最可能的词。通过海量数据训练,这个能力被极度放大,最终涌现出理解、推理、写作、编程等复杂能力。
输入:今天天气真的很
输出:好(概率最高的下一个词)
LLM 的边界:
- ✅ 能做:文本理解、逻辑推理、代码生成、内容创作
- ❌ 不能做:执行代码、查询实时信息、操作本地文件、访问外部系统
要突破这个边界,就需要引入 Tool(工具)。
第二层:Token 是什么,为什么这么重要
Token 是 LLM 处理文本的最小单位,不等于字,也不等于词。
英文示例:
"Hello World" → ["Hello", " World"](2 个 Token)
中文示例:
"人工智能" → ["人工", "智能"] 或 ["人", "工", "智", "能"](视分词策略)
Token 的三重意义:
| 意义 | 说明 |
|---|---|
| 计费单位 | 大模型 API 按输入+输出 Token 总量计费 |
| 速度影响 | Token 越多,推理越慢 |
| 上下文占用 | 每个 Token 都占 Context Window 的空间 |
实际换算参考:1 个中文字符 ≈ 0.6 个 Token,1 个英文字符 ≈ 0.3 个 Token。128K Token ≈ 6.5 万汉字,大约是一本《三体》。
第三层:Context 和 Context Window
Context(上下文) 是模型在处理当前请求时能"看到"的所有历史信息,包括:
- 之前的对话记录
- System Prompt
- 用户的当前输入
- 工具调用结果
Context Window(上下文窗口) 是一次请求中模型能处理的最大 Token 数量。超出这个限制的内容,模型看不到,就像从来没发生过。
┌─────────────────────────────────┐
│ Context Window │
│ ┌────────────────────────────┐ │
│ │ System Prompt │ │
│ ├────────────────────────────┤ │
│ │ 历史对话记录 │ │
│ ├────────────────────────────┤ │
│ │ 当前用户输入 │ │
│ ├────────────────────────────┤ │
│ │ 工具调用结果 │ │
│ └────────────────────────────┘ │
└─────────────────────────────────┘
为什么 Context Window 很关键?
长对话、长文档分析、多轮 Agent 任务——这些场景下,Context 会被快速填满。管理好 Context,是让 Agent 稳定运行的关键工程问题。
第四层:Prompt 的两种形式
Prompt 是与模型交互的语言接口,分两种:
User Prompt:用户在对话框输入的内容。
帮我写一篇关于量子计算的科普文章
System Prompt:在对话开始前注入的全局指令,用于设定模型的角色、行为边界、输出格式等。
你是一个专业的技术文档工程师,回答时必须用 Markdown 格式,
引用代码时必须注明编程语言,回答字数不超过 500 字。
System Prompt 是 Agent 的"宪法"——它定义了这个 Agent 是谁、能做什么、怎么做。
第五层:Tool 如何让 LLM 突破边界
Tool 是 LLM 的"手",让它能与外部世界交互。
工作原理:
- 在 System Prompt 中告诉模型"你有哪些工具可以用"
- 模型判断需要调用哪个工具,输出结构化的调用请求
- 宿主程序(Host)执行工具,把结果返回给模型
- 模型继续推理,生成最终答案
# 典型的 Tool 定义
tools = [
{
"name": "get_weather",
"description": "获取指定城市的天气预报",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"}
},
"required": ["city"]
}
}
]
第六层:MCP 是什么,解决了什么问题
MCP(Model Context Protocol,模型上下文协议)是 Anthropic 于 2024 年 11 月发布的标准化协议。
MCP 出现之前:每个 AI 应用都要为每个工具单独写适配代码,生态碎片化严重。
MCP 出现之后:就像 USB-C 统一了充电接口,MCP 统一了 LLM 与外部工具的交互方式。
MCP 架构:
┌──────────────┐ MCP 协议 ┌──────────────┐
│ MCP Host │ ←─────────────→ │ MCP Server │
│ (Claude/ │ │ (工具提供方) │
│ Cline/...) │ │ │
└──────────────┘ └──────────────┘
↕
大语言模型
MCP 的三类能力单元:
- Tool:可以被调用的函数(主动操作)
- Resource:可以被读取的数据(被动提供)
- Prompt:预定义的提示词模板
第七层:Agent 是什么
Agent = LLM + Tools + 循环执行能力
有了工具还不够,Agent 的关键在于循环:
用户输入 → 模型思考 → 决定是否调用工具
↑ ↓
观察结果 执行工具,获取结果
└──────────────────┘
直到任务完成
这就是 ReAct 模式(Reasoning + Acting):模型先推理,再行动,观察结果后继续推理,直到得出最终答案。
Cursor、Claude Code、Manus——这些工具的本质都是 ReAct Agent。
第八层:Agent Skill 是什么,为什么比 Prompt 更强
Agent Skill 是 Anthropic 提出的一种轻量级 Agent 能力封装机制。
一个 Skill 本质上是一个 Markdown 文件(SKILL.md),它告诉 Agent:
- 何时触发(Use when)
- 何时不触发(NOT for)
- 怎么执行(Workflow)
---
name: code-reviewer
description: 审查代码质量,给出改进建议
---
## Use when
用户提交代码并要求 review 时
## NOT for
用户只是让你解释代码含义时
## Workflow
1. 分析代码结构和逻辑
2. 检查潜在 Bug 和安全问题
3. 输出结构化的审查报告
Skill vs 普通 Prompt 的区别:
| 维度 | 普通 Prompt | Agent Skill |
|---|---|---|
| 触发方式 | 手动粘贴 | 自动识别场景触发 |
| 复用性 | 差(每次要重写) | 强(安装一次,永久可用) |
| 工程化程度 | 低 | 高(有版本、有测试、可发布) |
| 可组合性 | 差 | 强(多个 Skill 可协同工作) |
完整链路总结
LLM(大脑)
└─ Token(语言原子,计费单位)
└─ Context Window(记忆边界)
└─ Prompt(输入接口)
├─ System Prompt(角色定义)
└─ User Prompt(任务输入)
└─ Tool(执行能力)
└─ MCP(标准化协议)
└─ Agent(自主循环)
└─ Agent Skill(能力封装)
每一层都是对上一层的扩展:
- LLM 提供推理能力
- Token/Context 决定处理范围
- Prompt 是输入接口
- Tool 突破输入输出边界
- MCP 标准化工具接入
- Agent 实现自主循环
- Skill 让能力可复用、可组合
从哪里开始学
如果你现在要系统学习,推荐顺序:
- 先理解 Token 和 Context:影响你每一次用 AI 的体验和成本
- 学会写 System Prompt:这是控制 AI 行为最直接的方式
- 理解 Tool 调用机制:用 Function Calling 写一个最简单的工具
- 搭一个 MCP Server:用 FastMCP + Python,一小时能跑通
- 用 ReAct 模式写一个 Agent:从零实现,比用框架更能理解本质
- 写一个 Agent Skill:发布到 ClawHub,让别人也能用
不理解底层逻辑的人,只是在使用 AI;理解了底层逻辑的人,才在驾驭 AI。
更多推荐



所有评论(0)