本文深入解析了 AI Agent 从提示词工程向模块化、工程化封装转变的趋势,重点介绍了 Anthropic 的 Agent Skills 和社区衍生的 Superpowers 工作流系统。内容涵盖了 Skills 的核心架构、渐进式披露机制、与 MCP 的适用边界对比、Superpowers 的 TDD 方法论、Planning with Files 的上下文管理,以及如何开发高质量 Skills。通过学习这些,开发者可以更有效地构建复杂、可靠的 AI Agent,推动 AI 应用从手工作坊走向工业化组装。

一、Agent Skills:打破上下文瓶颈的模块化架构

在构建复杂 Agent 时,开发者面临的核心矛盾是上下文窗口的有限性知识无限性之间的冲突。为了让 Agent 学会特定任务,塞入大量 Prompt 会迅速消耗 Token,导致“上下文污染”(Context Rot)。

Agent Skills 应运而生。它不是又一套 Prompt 模板,而是一种标准化的能力封装机制。

1.1 解剖一个 Skill

从工程视角看,一个 Skill 是一个遵循特定协议的文件夹,包含三个核心部分:

  1. 入口与元数据 (SKILL.md) :这是 Skill 的“大脑”,采用 YAML Frontmatter + Markdown Body 结构。YAML 定义了 namedescription(触发逻辑),Markdown Body 定义了具体的执行指令。
  2. 执行层 (scripts/) :存放 Python、Bash 或 Node.js 脚本。这些脚本是自包含的,通过工具调用协议执行,确保沙箱隔离。
  3. 知识层 (resources/) :存放静态资源(模板、PDF、规则说明),默认不加载,仅在需要时引用。

1.2 渐进式披露机制 (Progressive Disclosure)

Agent Skills 解决了 Token 效率问题,其核心在于按需加载

  1. Level 1:索引扫描:Agent 启动时,仅读取所有 Skills 的 YAML Frontmatter。这只需极少 Token,让 Agent 知道自己“会什么”。
  2. Level 2:指令注入 (Instruction Loading) :当用户 Prompt 触发某个 Skill 的 description 时,系统才将 Markdown Body 注入当前上下文。
  3. Level 3:动态执行:执行过程中,若需查阅文档或运行脚本,才进一步加载 resources/ 或调用 scripts/

这种机制使得 Agent 可以挂载成百上千个 Skills,而不会撑爆上下文窗口。

1.3 源码视角:宿主如何把 Skill 变成“可路由的工具”

概念层面讲“渐进式披露”很容易,但真正落地要解决三个工程问题:怎么从 SKILL.md 抽元数据怎么让模型在多技能里做选择怎么避免每轮交互都加载长文档。以开源 Agent 宿主(如 Cherry Studio)的实现为例,典型做法是:1. 元数据提取:只解析 Frontmatter,不吞全文

  • 解析入口:安装/扫描阶段通过类似 parseSkillMetadata 的函数读取 SKILL.md,提取 namedescription 等字段,生成结构化 PluginMetadata
  • 语义边界:对于 Skill,“文件名”语义往往是文件夹名而非 .md 文件名,这样一个 Skill 可以带 resources/scripts/ 等附件,而不是被限制成单文件。

2. 元数据缓存:把“技能索引”持久化,避免重复解析

  • 缓存介质:将解析后的 Skill 元数据写入 Agent 工作目录下的缓存文件(例如 .claude/plugins.json),而不是只放在内存里。
  • 读取路径:后续每次获取 Agent 信息或进入对话时,优先从缓存文件读取已安装插件列表;解析失败则降级为空列表但不中断运行。

3. 工具化注入:模型看到的是“技能菜单”,不是技能全文

  • 映射方式:Skill 在宿主里会被映射为一种工具类型(例如 AgentToolsType.Skill),并被统一纳入 MCP 工具列表。
  • 注入粒度:宿主将 name/description/参数结构 等信息拼装成工具定义注入 System Prompt,模型在每一轮对话里看到的是可用工具集合,并基于描述做路由决策。

4. 调用时再展开:把长文档留到真正需要的那一刻

  • 触发点:当模型决定调用某个 Skill(工具调用里带上 command 等参数)时,宿主才会进入对应的执行/渲染链路。
  • 展开策略:此时才按需读取更重的内容(可能是 SKILL.md 的 Body、引用的 resources/,或直接执行 scripts/),把“信息”从默认上下文挪到按需读取与可执行资产上。

二、Skills vs. MCP:静态指导与动态执行的博弈

理解 Skills 的关键在于厘清它与 MCP 的边界。

  • Skills 解决“怎么做”(How-to):提供流程指导、最佳实践和思维框架。
  • MCP 解决“有什么”(What):连接外部工具、数据库和实时数据源。

2.1 效率与场景对比

根据量化分析,Skills 与 MCP 在 Token 成本和延迟上存在显著差异:

  • Token 成本:Skills 通常需要加载文档(200-500 tokens)+ 理解(50-200 tokens),而 MCP 仅需工具描述(50-100 tokens)。Skills 的 Token 消耗是 MCP 的 3-8 倍
  • 延迟:Skills 需要文档加载和阅读理解过程,延迟通常是 MCP 的 1.4-10 倍

基于此,我们可以得出明确的选择原则:

场景类型 推荐方案 原因
实时数据查询 MCP Skills 是静态文档,无法获取实时状态;MCP 直接连接数据源。
高频简单操作 MCP 简单操作(如文件读写)无需复杂指导,Skills 会造成 Token 浪费。
复杂计算 MCP 解释执行代码容易出错,MCP 可调用原生优化代码(如 C++ 图像处理)。
状态保持操作 MCP Skills 无状态,MCP 工具可维护会话级状态(如断点续传)。
工作流指导 Skills 固化最佳实践、多步骤决策流程,AI 需要理解“为什么”做。

2.2 最佳实践:混合策略

最强大的 Agent 往往是 Skills 与 MCP 的组合:

  1. Skills 作为“指挥官”,负责流程编排和策略制定。
  2. MCP 作为“执行官”,负责具体操作和数据获取。

例如,在 systematic-debugging Skill 中,Agent 遵循 Skill 定义的“根因分析 -> 假设验证”流程,但在执行每一步时,调用 query_logsrun_test 等 MCP 工具。

三、Superpowers:TDD 驱动的 Agent 工作流系统

Superpowers Skills 是一套经过实战验证的高级 Agent 工作流系统,其核心理念是将测试驱动开发(TDD) 应用于 Prompt 和文档编写。

3.1 编写技能的方法论

编写技能 = 将 TDD 应用于流程文档

  • RED(基线失败):在没有技能的情况下运行压力测试,记录 Agent 的错误行为和“合理化借口”。
  • GREEN(最小实现):编写针对性的 Skill 文档,直接反驳那些借口,确保 Agent 遵守规则。
  • REFACTOR(封堵漏洞):随着 Agent 找到新的绕过方式,不断更新文档,添加明确的反对意见。

3.2 核心工作流技能

Superpowers 定义了从需求到交付的完整闭环:

  1. Brainstorming:任何创意工作前的必选项。通过逐个提问、方案权衡,生成设计文档。
  2. Writing-plans:将设计转化为 2-5 分钟粒度的可执行任务计划。
  3. Execution
  • subagent-driven-development:在当前会话中,为每个任务分派子 Agent,适合快速迭代。
  • executing-plans:在并行会话中批量执行任务,适合大规模实现。
  1. Test-Driven-Development:任何功能实现前先写失败测试。
  2. Systematic-Debugging:遇到 Bug 时,强制执行“根因调查 -> 模式分析 -> 假设测试”流程,严禁猜测性修复。
  3. Verification-before-completion:在声称“完成”前,必须运行验证命令并检查输出。

3.3 强制触发原则

Superpowers 的一条铁律:如果认为有 1% 的可能性某个技能适用,必须调用该技能。

这避免了 AI 的“合理化”倾向——即当任务看似简单时,AI 往往会跳过必要的规范步骤(如先写测试)。

四、Planning with Files:解决上下文遗忘的“外挂内存”

Agent 在长任务中常面临 Volatile Memory(易失性记忆)和 Goal Drift(目标漂移)问题。planning-with-files Skill 引入了“三文件模式”,将文件系统作为 Agent 的外部记忆。

4.1 三文件协议

  1. task_plan.md(指挥塔)
  • 作用:定义目标、拆解阶段、追踪进度、记录状态。
  • 机制Read-Before-Decide。每一次关键行动前,Agent 必须先读取此文件,确认“我在哪、下一步干什么”,对抗遗忘。
  1. notes.md(外部存储器)
  • 作用:存放调研材料、网页摘要、代码片段。
  • 机制Store, Don’t Stuff。将大量资料落盘,只在 Context 中保留指针,防止上下文填塞。
  1. [deliverable].md(最终交付物)
  • 作用:物理隔离“思考过程”与“最终结果”,便于复用与交付。

4.2 核心机制

这种模式本质上构建了一个 File-Based State Machine(基于文件的状态机)。通过不断更新 task_plan.md 中的状态(如将 [ ] 改为 [x]),Agent 即使在上下文重置后,也能从磁盘中恢复执行进度,实现长程任务的可靠交付。

五、实战落地:如何开发高质量 Skills

5.1 AI for AI

开发 Skill 的最佳实践是默认让 AI 来写 Skill

  1. 拉取官方 Skills 仓库作为参考。
  2. 清晰描述需求和基线失败场景。
  3. 让 Claude Opus/Sonnet 生成 SKILL.md
  4. 进行多模型测试(Haiku/Sonnet/Opus)。

5.2 工程原则

  • 依赖管理自包含:在 SKILL.md 中声明依赖,或在 scripts/ 中提供 setup.sh
  • 触发器前置:在 description 中不仅写功能,更要写明确的触发场景(Trigger Phrases)。
  • 代码即工具:不要在 Markdown 中写复杂的伪代码逻辑,尽量下沉到 Python/Node.js 脚本中,利用解释器的精确性。
  • 格式规范:遵循 YAML Frontmatter 规范,路径统一使用正斜杠 /,拒绝 Windows 反斜杠。

六、总结

Agent Skills 标志着 AI 应用开发正在从“手工作坊”走向“工业化组装”。

  • Skills 提供了标准化的能力封装与分发机制。
  • Superpowers 引入了 TDD 和严格的流程规范,保证了 Agent 的行为质量。
  • Planning with Files 解决了长程任务的记忆与注意力管理问题。
  • MCP 提供了强大的外部连接能力。

对于架构师和开发者而言,未来的核心工作将不再是反复调试 Prompt,而是设计合理的 Skill 边界,构建企业专属的“能力货架”,并灵活组合 Skills 与 MCP,打造出既聪明又可靠的 AI Agent。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

img


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

img

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

img

适用人群

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐