从文字接龙到 Agent Skill：大模型进化的底层逻辑全解

香香薯饼.

123人浏览 · 2026-05-11 21:30:50

香香薯饼. · 2026-05-11 21:30:50 发布

本文核心脉络源于 B 站 UP 主马克的技术工作坊的视频从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！，并补充了 Function Calling 这一关键机制，帮你把 AI 真正的“行动力”彻底讲透。

最近两年，AI 圈的概念层出不穷：LLM、Token、Prompt、Tool、MCP、Agent……它们像一块块散落的拼图，让人看得见局部却拼不出全景。

其实，这些技术并非孤立存在，而是同一条进化链条上的不同环节。今天，我们就沿着这条线索，用最直白的语言和精确的技术解释，把大模型从“接龙机器”逐步进化为“自主智能体”的完整故事讲明白。

一、智能的底座：Transformer 与文字接龙

一切的原点，是 2017 年 Google 团队在《Attention is All You Need》中提出的 Transformer 架构。正是它，奠定了当代大语言模型的基石。

大语言模型的本质，可以通俗地理解为一场高级的“文字接龙游戏”：它不停地预测下一个概率最高的词，从而生成一整段连贯的文本。从 2022 年底 GPT-3.5 达到可用级别，到 GPT-4 大幅拉高天花板，再到 Claude、Gemini 等强势竞争者涌现，这个“接龙引擎”在两年间完成了惊人的跨越。

然而，无论引擎多强，它始终活在训练数据构成的“静态世界”里——它无法知道今天的天气，也不能替你订一张机票。要突破这种局限，我们必须从头拆解，看看它究竟如何“理解”和“记忆”。

二、语言的原子：Token

要让模型理解人类的语言，首先得把它翻译成模型能懂的“语言”。这个翻译官就是 Tokenizer（分词器），步骤分两步：

切分：将文本拆解为一个个最小处理单元——Token；
映射：为每个 Token 分配一个数字 ID。

一个反直觉的细节是，Token 与自然语言的词语单位并非一一对应。例如：“工作坊”可能被切分成“工作”和“坊”，“helpful”会被分成“help”和“ful”，而一个简单符号“✅”甚至会占用 3 个 Token。

这个量化的视角非常重要。我们常说“上下文长度 40 万个 Token”，那意味着它能装下大约 60 万~80 万个汉字 或 30 万个英文单词，这，就是模型工作记忆的物理上限。

三、工作记忆：Context 与上下文窗口

模型每次处理任务时所接收到的全部信息，统称为 Context（上下文）。它囊括了：你的提问、对话历史、模型正在生成的输出、系统设定的人设，以及我们后面要介绍的工具列表等。所有这些，都被打包成 Token，塞进一个叫做 Context Window（上下文窗口） 的“临时记忆区”。

容量永远是稀缺的。当你需要模型处理一整本手册时，直接塞进去会让上下文迅速爆满。这时，RAG（检索增强生成） 技术应运而生：它会从事先构建好的知识库中，只提取与当前问题最相关的几个片段，送入模型。用最少的 Token 消耗，撬动最精准的外部知识注入，这就是 RAG 的智慧。

四、沟通的艺术：Prompt 的演进

Prompt（提示词） 是我们向模型下达的指令，它直接决定着输出质量的天花板。提示词通常分为两种：

User Prompt：你直接输入的具体请求，比如“帮我写一首关于秋天的诗”。
System Prompt：开发者在后台预设的人设与规则，比如“你是一个耐心的数学老师，不要直接给答案，要一步步引导学生思考”。

曾经，Prompt Engineering（提示词工程）被视为一门玄学手艺。但今天，它的重要性正在相对下降。原因一方面在于，写好提示词的门槛并不高，本质就是“把话说清楚”；另一方面，大模型本身的理解能力越来越强，对措辞的宽容度大幅提升。

这意味着，单纯在提示词上雕花的边际收益正在递减。下一个真正的能力跃迁，不在“说”得更巧妙，而在于让模型能 “做”些什么——这就是 Tool（工具调用） 登场的时候了。

五、从“说”到“做”：Tool 与 Function Calling

大模型有两个致命短板：既无法获取实时信息（如天气、股价），也难以胜任复杂精确的计算。Tool 的核心作用，就是给这颗博学的大脑装上 “手脚”，让它能调用外部函数，感知并影响真实世界。

但光把工具“丢”给模型是远远不够的。我们必须有一套精密的控制协议，确保它每次都准确调用工具，而不是仅仅输出一段描述性的文字。这套控制协议，就是 Function Calling。

你可以把 Function Calling 想象成一个严谨的“契约”执行流程：

定义工具：开发者事先注册好函数，每个函数都必须有清晰的名称、自然语言描述和严格的参数 Schema。比如一个 get_weather 函数，参数就明确要求 city 和 date。
模型决策：当用户提问“北京明天天气如何”，模型判断需要调用天气工具。此时它绝不直接执行任何代码，而是生成一个结构化的 JSON 请求：
```
{ "function": "get_weather", "parameters": { "city": "北京", "date": "2026-05-12" } }
```
程序执行与返回：你的应用程序捕获这个 JSON，运行真实的代码，去调用外部天气 API，拿到结果后，再把数据作为新的上下文喂回给模型。
模型整合回答：模型读取返回的数据，最终生成一句流畅的自然语言回复：“北京明天晴转多云，气温 18 到 28 度。”

更强大的地方在于，Function Calling 天然支持 并行调用（同时查询天气和新闻）和 多阶段调用（先查到城市代码，再用这个代码去查天气），这让复杂任务可以自动拆解、分步完成。正是这套机制，把 AI 从被动的“应答机”升级为主动的“执行者”。

六、标准化革命：MCP 让工具即插即用

随着可用的工具越来越多，新的瓶颈出现了：每家大模型、每个 AI 平台接入工具的方式都各不相同，这直接导致了“M×N”的集成灾难。

MCP（Model Context Protocol，模型上下文协议） 正是在此背景下诞生。它定义了一套统一的标准接口和开发框架，让任何 AI 应用都能像电脑使用 USB 设备一样，“即插即用”地连接各种外部资源——无论是企业数据库、本地文件、还是第三方服务，只要遵循 MCP 协议，就能无障碍接入。

要理解 MCP 与 Function Calling 的关系，有一个绝佳的比喻：

如果把 AI Agent 比作一个智能机器人，MCP 就是它身上标准化的工具接口，保障任何厂家的工具都能物理接上。
而 Function Calling 就是大脑指挥手去精确抓取并操作特定工具时，所发出的那串神经信号。一个管硬件兼容，一个管精准执行，两者配合，才能真正打通数字世界与物理世界的隔阂。

七、智能涌现：Agent 与 Agent Skill

现在，让我们把所有的拼图组装起来：

LLM 提供核心智慧（大脑）
Token & Context 管理记忆与信息流（工作记忆）
Prompt 定义任务与行为边界（指令）
Tool + Function Calling 赋予行动力（神经与手脚）
MCP 标准化所有行动接口（万能连接线）

当这六大组件被整合成一个闭环系统时，真正意义上的 Agent（智能体） 就诞生了。它不再是机械的“你问我答”，而是具备 自主规划、自主执行、持续迭代 的能力。它能理解一个模糊的目标，自己把任务拆解为多个步骤，主动决定何时调用哪个工具，再根据中间结果调整策略，直至任务完成。

更进一步，正如马克老师在视频尾声所点出的（约在 t=1945 秒处），业界正在将这些复杂的执行能力，封装为一个个低耦合、高内聚的 Agent Skill（智能体技能）。未来的开发者可能不再是埋头制造无数个单体 Agent，而是像搭积木一样，组合各种即插即用的技能包。

结语：技能积木时代的开启

从简单的文字接龙，到能自主调用工具、组合技能的智能体，大模型的进化之路每一步都精准地打在“弥补短板”上。Token 和 Context 解决了记忆瓶颈，Prompt 改善了沟通，Tool 和 Function Calling 赋予了行动力，MCP 扫清了集成的障碍，最终，Agent Skill 将这一切封装为可复用的生产力。

这不再是科幻。一个“超级个体”通过组合各种 Agent Skill，就能搭建出过去需要一个团队才能完成的工作流。这正是我今天看完马克老师的视频、并为你梳理出这条进化逻辑后，最想传达的信念：理解底层，拥抱技能，你就能站在 AI 潮头，成为那个搭积木的人。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

第13课：OpenClaw｜邮件自动化处理【让AI成为你的“收件箱管家”】

龙虾开发者社区

深度拆解——Google 工程总监如何把“资深工程师纪律“封装成 22 个可执行 Skill

龙虾开发者社区

Harness 比 Open Claw 强在哪儿？

Harness 并非一个具体的 Agent，而是一套“AI 智能体工程化”的基础设施，如同汽车的底盘、方向盘和刹车系统，确保 Agent 能稳定、可靠、可控地运行。：Harness 是交通规则、交通管理系统和车辆控制系统，确保每一辆车（Agent）都能安全、有序地行驶。OpenClaw 是一个开源的个人 AI 智能体，能像“数字员工”一样在你的电脑上执行实际操作。：OpenClaw 是一辆已经造好