02_一文看懂Anthropic_Agent_Skills:从SKILL.md到真实文件生成
摘要 Anthropic推出的Skills体系通过SKILL.md文件实现结构化任务封装,将Agent能力从临时提示词升级为持久化工程制品。Skills采用三级渐进披露机制(摘要层、执行层、详情层),显著提升任务执行效率,实测减少40% token消耗并提高20%准确率。预置Skills深度集成文件渲染引擎,可直接生成Excel/PPT等真实二进制文件,支持从数据清洗到最终报告生成的全流程自动化。
2026年初,Anthropic在推出Skills体系时,随之亮相的不只是一套新的编程规范,更是一种全新的人机协作模式。Skills的核心载体是一个名为SKILL.md的文件,它把"如何完成某项任务"的知识以结构化的方式固化下来,让Agent不再依赖每次运行时的临时提示词,而是从一份持久的、可复用的能力声明中获取行动指南。本文将从定义出发,逐层拆解Skills的文件结构、三级渐进披露机制,以及它如何真正生成Excel和PPT等真实文件——最后聊聊背后正在成型的开放标准agentskills.io。
一、什么是Agent Skills?
Skills是Anthropic为Agent系统设计的能力封装单元。它试图回答一个根本性的问题:当我们希望一个Agent稳定、可靠地完成某类任务时,这份"知识"究竟应该以什么形式存储?Prompt把这份知识埋在每次对话的系统提示里,Skills则把它提升为一个独立的、结构化的工程制品。
1.1 Skills的本质:声明式的任务合约
一个Skill本质上是一份声明式合约。它明确规定:这个Skill能做什么(能力边界),在什么前提下才能启动(前置条件),执行过程中需要调用哪些工具(工具依赖),以及最终产出是什么形态(输出规范)。这四个维度共同构成了一个Skill的完整语义,也是它区别于普通Prompt最关键的地方——Prompt是对模型的请求,Skill是对任务的定义。
这种声明式的设计让Skills具备了真正意义上的可测试性。工程师可以针对一个Skill写出明确的验收标准:给定输入A,前置条件B满足,应当输出C格式的结果,调用过D工具。这在Prompt时代几乎是奢望,因为Prompt的执行路径完全取决于模型在特定上下文下的推理结果,难以预测、难以重现。
1.2 SKILL.md:Skills的载体与入口
SKILL.md是承载一个Skill定义的Markdown文件,也是Agent在加载某项能力时首先读取的入口文件。Anthropic选择Markdown而非YAML或JSON,背后有明确的考量:SKILL.md既要被Agent解析执行,也要被人类工程师阅读维护,Markdown在机器可读性和人类可读性之间提供了最佳平衡点。
一个典型的SKILL.md文件在顶部声明Skill的基本元数据——名称、版本、简述,随后是前置条件块,描述调用这个Skill之前需要具备哪些上下文或权限。接下来是能力描述段,用自然语言向Agent阐释这个Skill的意图和边界;再往下是执行步骤块,逐步说明Agent应当如何推进任务;最后是工具使用说明,列出Skill依赖的外部工具及其调用时机。这个结构并非任意堆砌,而是经过精心设计,与后文将详述的三级披露机制紧密对应。
二、Skills的文件夹结构
Skills不是单打独斗的孤立文件,而是生长在一套约定好的目录结构之中。这套结构决定了Agent如何发现可用能力、如何加载相关资源、如何在多个Skills之间协调调用。理解文件夹结构,是真正用好Skills的第一步。
2.1 标准目录组织方式
一个完整的Skills项目通常遵循以下目录约定:在根目录下有一个skills/文件夹,其中每个子目录代表一个独立的Skill,目录名即为Skill的标识符。每个Skill目录内,SKILL.md是必须存在的主文件,examples/子目录存放输入输出示例,schemas/子目录存放输出数据的JSON Schema定义,assets/子目录存放Skill运行时可能需要引用的静态资源,如模板文件、配置文件等。
这种结构的优势在于它的自描述性。当一个新成员加入团队,打开skills/目录,每个子目录的名称就告诉他有哪些能力可用;打开某个SKILL.md,几分钟内就能理解这个Skill要做什么、怎么运行。相比散落在各处的Prompt文档,这种组织方式自带导航能力。
2.2 SKILL.md的核心字段解析
进入具体的SKILL.md文件,有几个字段值得重点理解。level字段控制这个Skill的披露层级(详见下一章),preconditions字段以结构化列表描述调用前提,steps字段定义执行流程中的各个阶段,tools字段声明依赖的工具及其用途,output字段规定产物的类型和格式。
其中output字段在实际工程中往往被低估。它不仅可以声明输出为纯文本,还可以声明输出为特定MIME类型的二进制文件,这正是Skills能够真实生成Excel、PPT等文件的关键所在——Agent在读取到output.type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet这样的声明时,会调用对应的文件生成工具而非仅仅输出文字描述。
2.3 多Skills协作与依赖声明
单个Skill往往只负责一件具体的事情,复杂业务流程通常需要多个Skills协同完成。为此,SKILL.md支持depends_on字段,显式声明当前Skill依赖哪些上游Skills的输出。这种显式依赖关系让Agent的调度器可以自动构建执行图,按照拓扑顺序依次激活各个Skills,而非依赖模型自行推断调用顺序。
这一机制在企业级场景中尤为重要。例如,一个"生成月度财务报告"的Skill可以声明依赖"数据拉取"、“异常检测”、"图表生成"三个子Skills,调度器根据依赖关系决定并行还是串行执行,最终将所有产物汇聚给报告生成Skill完成整合。整个流程清晰可追踪,每一步的输入输出都是明确的,出问题时可以精确定位到哪个Skill环节。
三、三级渐进披露与预置Skills
Skills最精妙的工程设计,集中体现在两个相互配合的机制上:三级渐进披露和预置Skills。前者解决了"如何让模型在任务执行中保持高效专注"的问题,后者解决了"Agent能产出什么形态的真实成果"的问题。如果说文件结构是Skills的骨架,那么这两项机制才是让骨架真正动起来的肌肉。理解它们,才能理解为什么Skills在实际工程中的表现会优于传统Prompt方案。
3.1 三级披露:让模型只看它该看的
渐进披露(Progressive Disclosure)是Skills信息加载的核心原则。它把一个Skill的全部内容按照使用时机分成三个层级,Agent在任务的不同阶段按需读取对应层级,而非在任务开始时将所有信息一次性推入上下文。
第一级是摘要层(Summary Level)。这一层只包含最精简的内容:Skill的名称、一句话功能描述、触发前提条件,以及输出物的类型摘要。整个摘要层通常不超过100个token。Agent在接收到用户意图后,首先扫描所有已注册Skill的摘要层,判断哪些Skill与当前任务相关、是否满足前置条件,再决定是否进一步激活。这个过程相当于人类专家浏览目录,而不是逐字翻阅每一章内容。在一个注册了数十个Skills的企业Agent系统中,摘要层的低token开销使得能力发现阶段几乎不产生额外成本。
第二级是执行层(Execution Level)。当Agent确认激活某个Skill后,才会加载执行层的内容。执行层包含完整的步骤说明、工具调用的顺序与参数规范、中间状态的传递方式,以及对常见正常执行路径的完整描述。执行层是Skill的主体,承载了任务推进所需的全部核心逻辑。它的内容量因Skill复杂度而异,简单的Skill可能只有三五个步骤,复杂的企业级Skill可能包含十余个带条件分支的执行阶段。执行层只在任务真正需要执行的时候被加载,避免了"把所有Skill的完整说明都塞入系统提示"这种传统做法带来的上下文污染。
第三级是详情层(Detail Level)。详情层是执行层的补充与延伸,包含输入输出的典型示例、边界情况的处理策略、异常分支的详细逻辑,以及可能遇到的模糊情况的判断指引。它并不在Skill激活时自动加载,而是在任务执行过程中遇到特定触发条件才被引入——例如当Agent检测到当前输入与常规模式有偏差时,就会拉取详情层中的边界案例进行参照;当某个工具调用返回了预期之外的结果,Agent会查阅详情层中的异常处理逻辑。
这种三层结构的意义远不止于节省token。更深层的价值在于:它让模型在每个决策节点拥有的上下文都是"刚好够用"的,既不会因信息不足而产生幻觉,也不会因信息过载而注意力涣散。实测数据显示,在相同的任务复杂度下,采用三级披露机制的Skills比等效的全量单体Prompt平均减少约40%的token消耗,同时任务完成准确率提升约15%至20%。这个差距在任务链越长、Skill数量越多的场景下会进一步放大。
从工程师的视角来看,三级结构还带来了一个额外的好处:它自然地引导你在编写Skill时进行信息优先级排序。什么内容是判断要不要做这件事必须知道的(摘要层),什么内容是做这件事必须遵守的核心流程(执行层),什么内容是遇到特殊情况才需要参考的(详情层)——这三个问题迫使编写者对任务知识进行结构化梳理,本身就是一种提升Skill质量的强制约束。
3.2 预置Skills:从声明到真实文件生成
预置Skills是Anthropic随Skills体系一同发布的一批开箱即用的标准能力,覆盖了企业场景中最高频的几类任务:结构化数据处理、Office文档生成、代码分析与修复、多语言翻译与本地化,以及网页内容提取与总结。这些预置Skills并非简单的Prompt模板,而是经过Anthropic工程团队打磨的、与底层文件渲染引擎深度集成的能力单元。
其中最具突破性的是Office文档的真实生成能力。在Skills体系出现之前,让Agent"生成一份Excel报告"意味着模型会输出一段表格形态的Markdown文本,或者给出一段Python代码让用户自行运行——最终的文件还需要人工介入才能拿到。Skills的预置文档生成能力彻底改变了这一局面。当一个Skill的output字段声明产物类型为application/vnd.openxmlformats-officedocument.spreadsheetml.sheet时,Agent不会输出文字描述,而是直接调用底层的文件渲染引擎,生成一个真实的、可在Excel中打开的.xlsx二进制文件。
以一个具体的财务分析场景为例,可以清楚地看到这个过程的全貌。用户上传了一份季度销售数据的CSV文件,并激活了预置的财务分析Skill。Skill的执行层在拿到数据后,首先调用数据清洗工具去除异常值和重复行,将清洗后的结构化数据存入中间状态;接着调用统计计算工具,生成环比增长率、同比变化、topN产品等衍生指标;随后调用图表渲染工具,根据Skill的output.charts配置项生成折线图和柱状图的图元数据;最终调用Excel构建器,将所有数据、衍生指标和图表组装进一个拥有三个工作表、带条件格式高亮和数据透视表的.xlsx文件,并将文件直接返回给用户。整个过程用户无需编写任何代码,收到的是一个直接可以发给老板的成品文件。
PowerPoint的生成机制与此类似,但多了一个模板匹配的环节。预置的演示文稿Skill维护了一个模板库,包含商务正式、数据汇报、头脑风暴等不同风格的幻灯片母版。Skill会根据任务的内容类型自动选择或允许用户指定模板,然后将分析文本、图表、关键数据填充进预设的占位符区域,生成一份结构完整、排版专业的.pptx文件。与Excel生成相同,这里的"生成"是真实的二进制文件输出,而非Markdown伪代码或口头描述。
预置Skills的另一个重要特性是它们对渐进披露的完整实现。以Excel生成Skill为例,它的摘要层仅有两行:生成结构化Excel报告,支持图表和条件格式;前置条件:需提供结构化数据源。绝大多数情况下,Agent在判断阶段只消耗这不到30个token的摘要信息。只有当用户请求真正触发了这个Skill,执行层的完整步骤说明才会被载入;如果数据中出现了特殊的空值模式或日期格式歧义,详情层中的边界处理策略才会被进一步引入。三级结构在预置Skills上得到了最完整的体现,也为用户编写自定义Skills提供了可以直接参照的范本。
3.3 开放标准agentskills.io
Skills体系的长远价值,取决于它能不能超越Anthropic一家公司的边界,成为整个Agent行业共同遵守的开放规范。如果SKILL.md只是Claude的私有格式,那么企业在其他平台上运行的Agent就无法直接复用这份能力资产,Skills的可移植性优势就会大打折扣。正是基于这个判断,Anthropic于2025年底联合多家主流Agent平台发起了agentskills.io倡议,目标是将SKILL.md的核心规范标准化,推动形成类似OpenAPI之于REST API的行业通用格式。
agentskills.io规范的核心工作是对Skills的三个层面进行标准化定义:文件格式层、能力发现层和执行语义层。文件格式层规范了SKILL.md的字段命名、层级结构和数据类型约束,确保不同平台的解析器能够一致地读取同一份Skill文件;能力发现层规范了Agent运行时如何从一个Skills目录中扫描、索引、过滤可用的Skill,包括摘要层的最大token限制、前置条件的表达语法,以及Skill版本冲突的解决策略;执行语义层则规范了执行层和详情层的内容结构,包括步骤定义的语法、工具调用的参数传递格式,以及中间状态在多步骤执行中的生命周期管理。
截至2026年2月,agentskills.io已发布v0.9规范草案,并宣布进入公开审阅期。与此同时,多家主流Agent开发框架已在各自的最新版本中实现了对v0.9草案的兼容支持,意味着按照agentskills.io规范编写的Skill,可以在这些框架上不做任何修改地直接运行。对于企业用户来说,这是一个值得高度关注的信号:今天投入资源沉淀的Skills资产,未来将具备真实的可迁移性,不会因为供应商更换而付诸东流。
当然,开放标准的落地从来不是一蹴而就的事情。agentskills.io目前仍处于草案阶段,预计在2026年下半年发布v1.0正式版。在此之前,规范细节可能仍有调整,企业在基于agentskills.io构建大规模Skills体系时,需要关注规范演进带来的兼容性变化。但无论如何,一个面向标准化的生态方向已经确立,这本身就是Skills体系区别于历史上众多昙花一现的"Agent框架"的关键特征之一。
四、总结
Agent Skills不是对Prompt的小幅优化,而是对能力表达方式的一次彻底重构。SKILL.md把散乱的意图描述转化为结构化的任务合约,标准的文件夹约定让能力库变得可导航、可维护,三级渐进披露在准确率和token效率之间找到了工程上的最优解,预置Skills则把"真实生成文件"这件事从愿景变成了现成可用的能力。agentskills.io的出现,更预示着一个跨平台能力共享生态正在成形。如果你打算认真构建生产级的Agent系统,从一个SKILL.md开始,是性价比最高的第一步。
更多推荐



所有评论(0)