很多人用了半年 AI,却说不清 Token 和 Context 的区别,不知道 MCP 和 Tool 是什么关系,更搞不懂 Agent Skill 为什么比直接写 Prompt 更强。这篇文章帮你把这张"地图"画完整。


为什么你总感觉 AI 用得不顺手?

用过 ChatGPT、Claude、Cursor 的人都有过这种感受:

“感觉 AI 很强,但就是用不到点子上。”

问题不在工具,在你对底层逻辑的理解是碎片化的。每个概念单独学都懂,但它们之间的关系是什么、调用链路是怎么跑的——这张整体的地图,大多数教程都没给你画出来。

马克的技术工作坊这期视频做的事情,就是把 LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill 这条完整链路,用一期视频从头捋到尾。


第一层:LLM 是什么,它能做什么

LLM(Large Language Model,大语言模型)是整个 AI 应用栈的基础。

它本质上是一个条件概率机器:给定输入文本,预测下一个最可能的词。通过海量数据训练,这个能力被极度放大,最终涌现出理解、推理、写作、编程等复杂能力。

输入:今天天气真的很
输出:好(概率最高的下一个词)

LLM 的边界

  • ✅ 能做:文本理解、逻辑推理、代码生成、内容创作
  • ❌ 不能做:执行代码、查询实时信息、操作本地文件、访问外部系统

要突破这个边界,就需要引入 Tool(工具)。


第二层:Token 是什么,为什么这么重要

Token 是 LLM 处理文本的最小单位,不等于字,也不等于词。

英文示例:
"Hello World" → ["Hello", " World"](2 个 Token)

中文示例:
"人工智能" → ["人工", "智能"] 或 ["人", "工", "智", "能"](视分词策略)

Token 的三重意义:

意义 说明
计费单位 大模型 API 按输入+输出 Token 总量计费
速度影响 Token 越多,推理越慢
上下文占用 每个 Token 都占 Context Window 的空间

实际换算参考:1 个中文字符 ≈ 0.6 个 Token,1 个英文字符 ≈ 0.3 个 Token。128K Token ≈ 6.5 万汉字,大约是一本《三体》。


第三层:Context 和 Context Window

Context(上下文) 是模型在处理当前请求时能"看到"的所有历史信息,包括:

  • 之前的对话记录
  • System Prompt
  • 用户的当前输入
  • 工具调用结果

Context Window(上下文窗口) 是一次请求中模型能处理的最大 Token 数量。超出这个限制的内容,模型看不到,就像从来没发生过。

┌─────────────────────────────────┐
│         Context Window          │
│  ┌────────────────────────────┐ │
│  │     System Prompt          │ │
│  ├────────────────────────────┤ │
│  │     历史对话记录             │ │
│  ├────────────────────────────┤ │
│  │     当前用户输入             │ │
│  ├────────────────────────────┤ │
│  │     工具调用结果             │ │
│  └────────────────────────────┘ │
└─────────────────────────────────┘

为什么 Context Window 很关键?

长对话、长文档分析、多轮 Agent 任务——这些场景下,Context 会被快速填满。管理好 Context,是让 Agent 稳定运行的关键工程问题。


第四层:Prompt 的两种形式

Prompt 是与模型交互的语言接口,分两种:

User Prompt:用户在对话框输入的内容。

帮我写一篇关于量子计算的科普文章

System Prompt:在对话开始前注入的全局指令,用于设定模型的角色、行为边界、输出格式等。

你是一个专业的技术文档工程师,回答时必须用 Markdown 格式,
引用代码时必须注明编程语言,回答字数不超过 500 字。

System Prompt 是 Agent 的"宪法"——它定义了这个 Agent 是谁、能做什么、怎么做。


第五层:Tool 如何让 LLM 突破边界

Tool 是 LLM 的"手",让它能与外部世界交互。

工作原理:

  1. 在 System Prompt 中告诉模型"你有哪些工具可以用"
  2. 模型判断需要调用哪个工具,输出结构化的调用请求
  3. 宿主程序(Host)执行工具,把结果返回给模型
  4. 模型继续推理,生成最终答案
# 典型的 Tool 定义
tools = [
    {
        "name": "get_weather",
        "description": "获取指定城市的天气预报",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "城市名称"}
            },
            "required": ["city"]
        }
    }
]

第六层:MCP 是什么,解决了什么问题

MCP(Model Context Protocol,模型上下文协议)是 Anthropic 于 2024 年 11 月发布的标准化协议。

MCP 出现之前:每个 AI 应用都要为每个工具单独写适配代码,生态碎片化严重。

MCP 出现之后:就像 USB-C 统一了充电接口,MCP 统一了 LLM 与外部工具的交互方式。

MCP 架构:
┌──────────────┐     MCP 协议      ┌──────────────┐
│  MCP Host    │ ←─────────────→  │  MCP Server  │
│ (Claude/     │                   │ (工具提供方)  │
│  Cline/...)  │                   │              │
└──────────────┘                   └──────────────┘
       ↕
   大语言模型

MCP 的三类能力单元:

  • Tool:可以被调用的函数(主动操作)
  • Resource:可以被读取的数据(被动提供)
  • Prompt:预定义的提示词模板

第七层:Agent 是什么

Agent = LLM + Tools + 循环执行能力

有了工具还不够,Agent 的关键在于循环

用户输入 → 模型思考 → 决定是否调用工具
              ↑                    ↓
         观察结果          执行工具,获取结果
              └──────────────────┘
                  直到任务完成

这就是 ReAct 模式(Reasoning + Acting):模型先推理,再行动,观察结果后继续推理,直到得出最终答案。

Cursor、Claude Code、Manus——这些工具的本质都是 ReAct Agent。


第八层:Agent Skill 是什么,为什么比 Prompt 更强

Agent Skill 是 Anthropic 提出的一种轻量级 Agent 能力封装机制

一个 Skill 本质上是一个 Markdown 文件(SKILL.md),它告诉 Agent:

  • 何时触发(Use when)
  • 何时不触发(NOT for)
  • 怎么执行(Workflow)
---
name: code-reviewer
description: 审查代码质量,给出改进建议
---

## Use when
用户提交代码并要求 review 时

## NOT for
用户只是让你解释代码含义时

## Workflow
1. 分析代码结构和逻辑
2. 检查潜在 Bug 和安全问题
3. 输出结构化的审查报告

Skill vs 普通 Prompt 的区别:

维度 普通 Prompt Agent Skill
触发方式 手动粘贴 自动识别场景触发
复用性 差(每次要重写) 强(安装一次,永久可用)
工程化程度 高(有版本、有测试、可发布)
可组合性 强(多个 Skill 可协同工作)

完整链路总结

LLM(大脑)
  └─ Token(语言原子,计费单位)
      └─ Context Window(记忆边界)
          └─ Prompt(输入接口)
              ├─ System Prompt(角色定义)
              └─ User Prompt(任务输入)
                  └─ Tool(执行能力)
                      └─ MCP(标准化协议)
                          └─ Agent(自主循环)
                              └─ Agent Skill(能力封装)

每一层都是对上一层的扩展:

  • LLM 提供推理能力
  • Token/Context 决定处理范围
  • Prompt 是输入接口
  • Tool 突破输入输出边界
  • MCP 标准化工具接入
  • Agent 实现自主循环
  • Skill 让能力可复用、可组合

从哪里开始学

如果你现在要系统学习,推荐顺序:

  1. 先理解 Token 和 Context:影响你每一次用 AI 的体验和成本
  2. 学会写 System Prompt:这是控制 AI 行为最直接的方式
  3. 理解 Tool 调用机制:用 Function Calling 写一个最简单的工具
  4. 搭一个 MCP Server:用 FastMCP + Python,一小时能跑通
  5. 用 ReAct 模式写一个 Agent:从零实现,比用框架更能理解本质
  6. 写一个 Agent Skill:发布到 ClawHub,让别人也能用

不理解底层逻辑的人,只是在使用 AI;理解了底层逻辑的人,才在驾驭 AI。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐