一张图打通 AI 底层逻辑：从 LLM 到 Agent Skill，你缺的不是工具而是地图

很多人用了半年 AI，却说不清 Token 和 Context 的区别，不知道 MCP 和 Tool 是什么关系，更搞不懂 Agent Skill 为什么比直接写 Prompt 更强。这篇文章帮你把这张"地图"画完整

光的方向_

575人浏览 · 2026-03-18 10:29:08

光的方向_ · 2026-03-18 10:29:08 发布

很多人用了半年 AI，却说不清 Token 和 Context 的区别，不知道 MCP 和 Tool 是什么关系，更搞不懂 Agent Skill 为什么比直接写 Prompt 更强。这篇文章帮你把这张"地图"画完整。

为什么你总感觉 AI 用得不顺手？

用过 ChatGPT、Claude、Cursor 的人都有过这种感受：

“感觉 AI 很强，但就是用不到点子上。”

问题不在工具，在你对底层逻辑的理解是碎片化的。每个概念单独学都懂，但它们之间的关系是什么、调用链路是怎么跑的——这张整体的地图，大多数教程都没给你画出来。

就是把 LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill 这条完整链路，用一期视频从头捋到尾。

第一层：LLM 是什么，它能做什么

LLM（Large Language Model，大语言模型）是整个 AI 应用栈的基础。

它本质上是一个条件概率机器：给定输入文本，预测下一个最可能的词。通过海量数据训练，这个能力被极度放大，最终涌现出理解、推理、写作、编程等复杂能力。

输入：今天天气真的很
输出：好（概率最高的下一个词）

LLM 的边界：

✅ 能做：文本理解、逻辑推理、代码生成、内容创作
❌ 不能做：执行代码、查询实时信息、操作本地文件、访问外部系统

要突破这个边界，就需要引入 Tool（工具）。

第二层：Token 是什么，为什么这么重要

Token 是 LLM 处理文本的最小单位，不等于字，也不等于词。

英文示例：
"Hello World" → ["Hello", " World"]（2 个 Token）

中文示例：
"人工智能" → ["人工", "智能"] 或 ["人", "工", "智", "能"]（视分词策略）

Token 的三重意义：

意义	说明
计费单位	大模型 API 按输入+输出 Token 总量计费
速度影响	Token 越多，推理越慢
上下文占用	每个 Token 都占 Context Window 的空间

实际换算参考：1 个中文字符 ≈ 0.6 个 Token，1 个英文字符 ≈ 0.3 个 Token。128K Token ≈ 6.5 万汉字，大约是一本《三体》。

第三层：Context 和 Context Window

Context（上下文） 是模型在处理当前请求时能"看到"的所有历史信息，包括：

之前的对话记录
System Prompt
用户的当前输入
工具调用结果

Context Window（上下文窗口） 是一次请求中模型能处理的最大 Token 数量。超出这个限制的内容，模型看不到，就像从来没发生过。

┌─────────────────────────────────┐
│         Context Window          │
│  ┌────────────────────────────┐ │
│  │     System Prompt          │ │
│  ├────────────────────────────┤ │
│  │     历史对话记录             │ │
│  ├────────────────────────────┤ │
│  │     当前用户输入             │ │
│  ├────────────────────────────┤ │
│  │     工具调用结果             │ │
│  └────────────────────────────┘ │
└─────────────────────────────────┘

为什么 Context Window 很关键？

长对话、长文档分析、多轮 Agent 任务——这些场景下，Context 会被快速填满。管理好 Context，是让 Agent 稳定运行的关键工程问题。

第四层：Prompt 的两种形式

Prompt 是与模型交互的语言接口，分两种：

User Prompt：用户在对话框输入的内容。

帮我写一篇关于量子计算的科普文章

System Prompt：在对话开始前注入的全局指令，用于设定模型的角色、行为边界、输出格式等。

你是一个专业的技术文档工程师，回答时必须用 Markdown 格式，
引用代码时必须注明编程语言，回答字数不超过 500 字。

System Prompt 是 Agent 的"宪法"——它定义了这个 Agent 是谁、能做什么、怎么做。

第五层：Tool 如何让 LLM 突破边界

Tool 是 LLM 的"手"，让它能与外部世界交互。

工作原理：

在 System Prompt 中告诉模型"你有哪些工具可以用"
模型判断需要调用哪个工具，输出结构化的调用请求
宿主程序（Host）执行工具，把结果返回给模型
模型继续推理，生成最终答案

# 典型的 Tool 定义
tools = [
    {
        "name": "get_weather",
        "description": "获取指定城市的天气预报",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
        }
    }
]

第六层：MCP 是什么，解决了什么问题

MCP（Model Context Protocol，模型上下文协议）是 Anthropic 于 2024 年 11 月发布的标准化协议。

MCP 出现之前：每个 AI 应用都要为每个工具单独写适配代码，生态碎片化严重。

MCP 出现之后：就像 USB-C 统一了充电接口，MCP 统一了 LLM 与外部工具的交互方式。

MCP 架构：
┌──────────────┐     MCP 协议      ┌──────────────┐
│  MCP Host    │ ←─────────────→  │  MCP Server  │
│ (Claude/     │                   │ (工具提供方)  │
│  Cline/...）  │                   │              │
└──────────────┘                   └──────────────┘
       ↕
   大语言模型

MCP 的三类能力单元：

Tool：可以被调用的函数（主动操作）
Resource：可以被读取的数据（被动提供）
Prompt：预定义的提示词模板

第七层：Agent 是什么

Agent = LLM + Tools + 循环执行能力

有了工具还不够，Agent 的关键在于循环：

用户输入 → 模型思考 → 决定是否调用工具
              ↑                    ↓
         观察结果          执行工具，获取结果
              └──────────────────┘
                  直到任务完成

这就是 ReAct 模式（Reasoning + Acting）：模型先推理，再行动，观察结果后继续推理，直到得出最终答案。

Cursor、Claude Code、Manus——这些工具的本质都是 ReAct Agent。

第八层：Agent Skill 是什么，为什么比 Prompt 更强

Agent Skill 是 Anthropic 提出的一种轻量级 Agent 能力封装机制。

一个 Skill 本质上是一个 Markdown 文件（SKILL.md），它告诉 Agent：

何时触发（Use when）
何时不触发（NOT for）
怎么执行（Workflow）

---
name: code-reviewer
description: 审查代码质量，给出改进建议
---

## Use when
用户提交代码并要求 review 时

## NOT for
用户只是让你解释代码含义时

## Workflow
1. 分析代码结构和逻辑
2. 检查潜在 Bug 和安全问题
3. 输出结构化的审查报告

Skill vs 普通 Prompt 的区别：

维度	普通 Prompt	Agent Skill
触发方式	手动粘贴	自动识别场景触发
复用性	差（每次要重写）	强（安装一次，永久可用）
工程化程度	低	高（有版本、有测试、可发布）
可组合性	差	强（多个 Skill 可协同工作）

完整链路总结

LLM（大脑）
  └─ Token（语言原子，计费单位）
      └─ Context Window（记忆边界）
          └─ Prompt（输入接口）
              ├─ System Prompt（角色定义）
              └─ User Prompt（任务输入）
                  └─ Tool（执行能力）
                      └─ MCP（标准化协议）
                          └─ Agent（自主循环）
                              └─ Agent Skill（能力封装）

每一层都是对上一层的扩展：