从文字接龙到 Agent Skill:大模型进化的底层逻辑全解
本文核心脉络源于 B 站 UP 主马克的技术工作坊的视频从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!,并补充了 Function Calling 这一关键机制,帮你把 AI 真正的“行动力”彻底讲透。
最近两年,AI 圈的概念层出不穷:LLM、Token、Prompt、Tool、MCP、Agent……它们像一块块散落的拼图,让人看得见局部却拼不出全景。
其实,这些技术并非孤立存在,而是同一条进化链条上的不同环节。今天,我们就沿着这条线索,用最直白的语言和精确的技术解释,把大模型从“接龙机器”逐步进化为“自主智能体”的完整故事讲明白。
一、智能的底座:Transformer 与文字接龙
一切的原点,是 2017 年 Google 团队在《Attention is All You Need》中提出的 Transformer 架构。正是它,奠定了当代大语言模型的基石。
大语言模型的本质,可以通俗地理解为一场高级的“文字接龙游戏”:它不停地预测下一个概率最高的词,从而生成一整段连贯的文本。从 2022 年底 GPT-3.5 达到可用级别,到 GPT-4 大幅拉高天花板,再到 Claude、Gemini 等强势竞争者涌现,这个“接龙引擎”在两年间完成了惊人的跨越。
然而,无论引擎多强,它始终活在训练数据构成的“静态世界”里——它无法知道今天的天气,也不能替你订一张机票。要突破这种局限,我们必须从头拆解,看看它究竟如何“理解”和“记忆”。
二、语言的原子:Token
要让模型理解人类的语言,首先得把它翻译成模型能懂的“语言”。这个翻译官就是 Tokenizer(分词器),步骤分两步:
- 切分:将文本拆解为一个个最小处理单元——Token;
- 映射:为每个 Token 分配一个数字 ID。
一个反直觉的细节是,Token 与自然语言的词语单位并非一一对应。例如:“工作坊”可能被切分成“工作”和“坊”,“helpful”会被分成“help”和“ful”,而一个简单符号“✅”甚至会占用 3 个 Token。
这个量化的视角非常重要。我们常说“上下文长度 40 万个 Token”,那意味着它能装下大约 60 万~80 万个汉字 或 30 万个英文单词,这,就是模型工作记忆的物理上限。
三、工作记忆:Context 与上下文窗口
模型每次处理任务时所接收到的全部信息,统称为 Context(上下文)。它囊括了:你的提问、对话历史、模型正在生成的输出、系统设定的人设,以及我们后面要介绍的工具列表等。所有这些,都被打包成 Token,塞进一个叫做 Context Window(上下文窗口) 的“临时记忆区”。
容量永远是稀缺的。当你需要模型处理一整本手册时,直接塞进去会让上下文迅速爆满。这时,RAG(检索增强生成) 技术应运而生:它会从事先构建好的知识库中,只提取与当前问题最相关的几个片段,送入模型。用最少的 Token 消耗,撬动最精准的外部知识注入,这就是 RAG 的智慧。
四、沟通的艺术:Prompt 的演进
Prompt(提示词) 是我们向模型下达的指令,它直接决定着输出质量的天花板。提示词通常分为两种:
- User Prompt:你直接输入的具体请求,比如“帮我写一首关于秋天的诗”。
- System Prompt:开发者在后台预设的人设与规则,比如“你是一个耐心的数学老师,不要直接给答案,要一步步引导学生思考”。
曾经,Prompt Engineering(提示词工程)被视为一门玄学手艺。但今天,它的重要性正在相对下降。原因一方面在于,写好提示词的门槛并不高,本质就是“把话说清楚”;另一方面,大模型本身的理解能力越来越强,对措辞的宽容度大幅提升。
这意味着,单纯在提示词上雕花的边际收益正在递减。下一个真正的能力跃迁,不在“说”得更巧妙,而在于让模型能 “做”些什么——这就是 Tool(工具调用) 登场的时候了。
五、从“说”到“做”:Tool 与 Function Calling
大模型有两个致命短板:既无法获取实时信息(如天气、股价),也难以胜任复杂精确的计算。Tool 的核心作用,就是给这颗博学的大脑装上 “手脚”,让它能调用外部函数,感知并影响真实世界。
但光把工具“丢”给模型是远远不够的。我们必须有一套精密的控制协议,确保它每次都准确调用工具,而不是仅仅输出一段描述性的文字。这套控制协议,就是 Function Calling。
你可以把 Function Calling 想象成一个严谨的“契约”执行流程:
- 定义工具:开发者事先注册好函数,每个函数都必须有清晰的名称、自然语言描述和严格的参数 Schema。比如一个
get_weather函数,参数就明确要求city和date。 - 模型决策:当用户提问“北京明天天气如何”,模型判断需要调用天气工具。此时它绝不直接执行任何代码,而是生成一个结构化的 JSON 请求:
{ "function": "get_weather", "parameters": { "city": "北京", "date": "2026-05-12" } } - 程序执行与返回:你的应用程序捕获这个 JSON,运行真实的代码,去调用外部天气 API,拿到结果后,再把数据作为新的上下文喂回给模型。
- 模型整合回答:模型读取返回的数据,最终生成一句流畅的自然语言回复:“北京明天晴转多云,气温 18 到 28 度。”
更强大的地方在于,Function Calling 天然支持 并行调用(同时查询天气和新闻)和 多阶段调用(先查到城市代码,再用这个代码去查天气),这让复杂任务可以自动拆解、分步完成。正是这套机制,把 AI 从被动的“应答机”升级为主动的“执行者”。
六、标准化革命:MCP 让工具即插即用
随着可用的工具越来越多,新的瓶颈出现了:每家大模型、每个 AI 平台接入工具的方式都各不相同,这直接导致了“M×N”的集成灾难。
MCP(Model Context Protocol,模型上下文协议) 正是在此背景下诞生。它定义了一套统一的标准接口和开发框架,让任何 AI 应用都能像电脑使用 USB 设备一样,“即插即用”地连接各种外部资源——无论是企业数据库、本地文件、还是第三方服务,只要遵循 MCP 协议,就能无障碍接入。
要理解 MCP 与 Function Calling 的关系,有一个绝佳的比喻:
- 如果把 AI Agent 比作一个智能机器人,MCP 就是它身上标准化的工具接口,保障任何厂家的工具都能物理接上。
- 而 Function Calling 就是大脑指挥手去精确抓取并操作特定工具时,所发出的那串神经信号。一个管硬件兼容,一个管精准执行,两者配合,才能真正打通数字世界与物理世界的隔阂。
七、智能涌现:Agent 与 Agent Skill
现在,让我们把所有的拼图组装起来:
- LLM 提供核心智慧(大脑)
- Token & Context 管理记忆与信息流(工作记忆)
- Prompt 定义任务与行为边界(指令)
- Tool + Function Calling 赋予行动力(神经与手脚)
- MCP 标准化所有行动接口(万能连接线)
当这六大组件被整合成一个闭环系统时,真正意义上的 Agent(智能体) 就诞生了。它不再是机械的“你问我答”,而是具备 自主规划、自主执行、持续迭代 的能力。它能理解一个模糊的目标,自己把任务拆解为多个步骤,主动决定何时调用哪个工具,再根据中间结果调整策略,直至任务完成。
更进一步,正如马克老师在视频尾声所点出的(约在 t=1945 秒处),业界正在将这些复杂的执行能力,封装为一个个低耦合、高内聚的 Agent Skill(智能体技能)。未来的开发者可能不再是埋头制造无数个单体 Agent,而是像搭积木一样,组合各种即插即用的技能包。
结语:技能积木时代的开启
从简单的文字接龙,到能自主调用工具、组合技能的智能体,大模型的进化之路每一步都精准地打在“弥补短板”上。Token 和 Context 解决了记忆瓶颈,Prompt 改善了沟通,Tool 和 Function Calling 赋予了行动力,MCP 扫清了集成的障碍,最终,Agent Skill 将这一切封装为可复用的生产力。
这不再是科幻。一个“超级个体”通过组合各种 Agent Skill,就能搭建出过去需要一个团队才能完成的工作流。这正是我今天看完马克老师的视频、并为你梳理出这条进化逻辑后,最想传达的信念:理解底层,拥抱技能,你就能站在 AI 潮头,成为那个搭积木的人。
更多推荐



所有评论(0)