AI Agent Skills 内部结构

AIAgentSkills是一种模块化技术，通过标准化文件夹结构（包含指令、脚本和资源）扩展AI能力。其核心是"渐进式披露"三层机制：1)启动时预加载技能元数据；2)任务匹配时加载详细操作指南；3)按需调用深度资源。标准目录包含必需的SKILL.md（含YAML元数据和Markdown指令）及可选脚本、参考文档等。相比传统提示词，该技术使AI从泛化建议者转变为专业执行者，突破上

AI_Encyc

687人浏览 · 2026-05-01 06:55:59

AI_Encyc · 2026-05-01 06:55:59 发布

AI Agent Skills（智能体技能）是一种用于扩展AI智能体能力与专业知识的模块化、标准化格式。其核心是通过一个结构化的文件夹（包含指令、脚本和资源），让通用大语言模型（LLM）能够按需加载特定领域的“操作手册”，从而获得执行专业化任务的能力。

一、核心工作原理：渐进式披露 (Progressive Disclosure)

Agent Skills 最精妙的设计在于其 “三层渐进式披露” 工作机制。这就像一本分层的工作手册，AI不会一次性加载所有内容，而是按需索取，极大优化了上下文窗口（Token）的使用效率。

二、标准结构剖析

一个标准的Agent Skill是一个具有特定目录结构的文件夹。其核心与可选组件如下：

my-skill/                      # 技能根目录
├── SKILL.md                  # 【必需】核心指令文件，包含元数据和操作指南
├── scripts/                  # 【可选】可执行脚本（如.py, .sh文件）
│   └── process_data.py
├── references/               # 【可选】参考文档（如API手册、规范）
│   └── API_REFERENCE.md
└── assets/                   # 【可选】资源文件（如图片、模板、数据）
    └── report_template.docx

SKILL.md 文件详解

该文件是技能的灵魂，采用 YAML Frontmatter + Markdown正文 的格式。

---
name: pdf-processing        # 技能名称（1-64字符，建议kebab-case）[3](@ref)[4](@ref)
description: 从PDF文件中提取文本和表格、填充表单。当用户提及PDF或表单时使用。 # 功能描述（1-1024字符），决定触发条件[3](@ref)[4](@ref)
license: Apache-2.0         # 可选，许可证
compatibility: 需要python环境 # 可选，环境要求
allowed-tools: Bash, Read   # 可选，预授权工具列表
---

第一层：技能发现 (Discovery)
- 内容：仅加载每个技能的元数据，即 name（名称）和 description（描述）。
- 时机：智能体启动时，所有技能的元数据会预加载到系统提示中。
- 作用：AI凭借这份“技能目录”，快速判断用户当前的任务与哪个技能相关。此层开销极小，每个技能仅消耗约100个Token。
第二层：核心指令加载 (Activation)
- 内容：当AI判断任务需要某个技能时，它会读取并加载该技能的完整 SKILL.md 文件内容。
- 时机：任务与技能描述匹配时触发。
- 作用：AI获得执行该任务所需的详细、分步骤的操作指南。此层是技能的核心，通常建议将正文控制在5000个Token以内。
第三层：资源与代码执行 (Execution)
- 内容：技能目录中引用的额外资源文件，如参考文档 (references/)、可执行脚本 (scripts/)、模板资产 (assets/)等。
- 时机：仅在SKILL.md的指令明确引用或需要执行特定操作时，AI才会按需读取这些文件或运行脚本。
- 作用：提供更深度的专业知识或执行确定性操作（如运行Python脚本处理数据）。由于代码本身不进入对话上下文，仅输出结果消耗Token，因此知识库容量几乎不受限制。
1. YAML 前置元数据 (Frontmatter)：位于文件开头，用于技能发现。
三、架构与协作流程图

以下图表综合展示了Agent Skills的目录结构、文件内容以及其在智能体工作中的协作流程：
```
graph TD
    subgraph A [技能标准结构]
        direction TB
        A1[技能文件夹] --> A2[SKILL.md]
        A1 --> A3[scripts/]
        A1 --> A4[references/]
        A1 --> A5[assets/]
        
        subgraph A2_Detail [SKILL.md 构成]
            A2_Y[YAML Frontmatter<br/>name & description] --> A2_M[Markdown正文<br/>详细指令]
        end
    end

    subgraph B [智能体工作流：渐进式披露]
        B1[用户输入任务] --> B2{意图识别};
        B2 -->|匹配技能描述| B3[加载 SKILL.md 全文];
        B3 --> B4[执行核心指令];
        B4 --> B5{需要细节/执行？};
        B5 -->|是| B6[按需加载 references/<br/>或运行 scripts/];
        B5 -->|否| B7[生成最终结果];
        B6 --> B7;
    end

    A2_Y -.->|1. 发现层：元数据常驻内存| B2
    A2_M -.->|2. 激活层：任务匹配时加载| B3
    A3 & A4 -.->|3. 执行层：按需调用| B6
```
四、核心价值与对比

总结：Agent Skills通过渐进式披露的加载机制和标准化的目录结构，将过程性知识模块化，使AI智能体从“泛泛而谈的建议者”转变为“按章办事的专业执行者”，是实现AI智能体专业化、工程化落地的关键技术。
1. Markdown 正文 (Instructions)：提供具体的操作指南，通常包括：
  - 何时使用：明确的应用场景。
  - 分步骤指令：清晰、可操作的任务步骤。
  - 输入输出示例：让AI更好地理解格式。
  - 常见问题处理：针对边界情况的说明。
  - 与传统提示词 (Prompt) 的区别：Skills不是一次性的对话指令，而是持久化、可复用的能力模块。它突破了单次对话的上下文限制，并且通过调用确定性脚本，大幅减少了LLM的“幻觉”。
  - 与工具调用 (Tool Calling) 的关系：工具调用提供了连接外部API的“手”，而Skills则是教导AI“如何”使用这些手来完成复杂工作流程的“大脑”或“标准作业程序”。Skills可以封装和协调多个工具调用。
  - 与MCP协议的关系：模型上下文协议主要解决智能体连接外部数据源和系统的问题（“通过什么做”），而Skills专注于封装处理这些数据的流程与专业知识（“如何做”）。
  - 企业级价值：Skills允许企业将内部的业务流程、品牌规范、数据分析方法论等固化为可审计、可重复使用的数字资产，使AI能像训练有素的员工一样执行标准化任务。