Agent Skills 实战案例剖析：从0开始构建一个 Skills（含实现代码）

无论是代码审查、周报生成还是行业调研等，只要是具备标准化流程的工作，都可以抽象为 Agent Skills，让 AI 成为真正懂业务的“数字员工”。长文写作后的配图工作往往是效率的黑洞：构思画面、编写提示词、生成、筛选、插入，一篇几千字的文章往往需要耗费半小时以上。利用文件系统做“外挂显存”。如果风格参数过多，将其拆分为独立文件，Agent 仅在确定风格后通过读取文件命令加载具体参数，而非一次性全

musicml

1341人浏览 · 2026-01-18 08:01:14

musicml · 2026-01-18 08:01:14 发布

大家好，我是玄姐。

背景与痛点长文写作后的配图工作往往是效率的黑洞：构思画面、编写提示词、生成、筛选、插入，一篇几千字的文章往往需要耗费半小时以上。为了解决这个问题，开发了一个 Article Illustrator Skill，实现了从文本分析到图片插入的全流程自动化。

本文将拆解该 Skills 的设计思路、核心架构以及 SKILL.md 的实现细节。

一、核心概念：什么是 Agent Skill？

如果说 Agent 是“智能助理”，那么 Skills 就是一份“入职操作手册”。

定义：Skills 本质上是一个包含 SKILL.md 文件的文件夹。它定义了 Agent 在特定场景下的行为规范、工具调用逻辑和知识库。

机制：渐进式加载 (Progressive Loading)

Agent 启动时，仅加载 Skill 的名称和简介（约 100 tokens）。
只有被激活时，才会读取详细指令。
优势：极大节省 Context Window（上下文窗口），允许挂载大量 Skill 而不造成溢出。

与 Prompt/MCP 的区别：

vs. Prompt：Skills 具备脚本执行能力，支持模块化调用，且按需加载。
vs. MCP：MCP 是工具调用的底层协议，Skills 是指挥 Agent 如何使用 MCP 工具的上层逻辑。

二、架构设计：自动化配图的五步工作流

该 Skills 将复杂的配图任务拆解为五个标准化的工程步骤：

第一步、结构化分析 (Structural Analysis)

Agent 扫描全文，识别需要视觉辅助的节点（如抽象概念可视化、流程图解、核心论点强化）。
原则：配图服务于内容理解，而非单纯装饰。

第二步、风格自适应 (Style Matching)

基于文章语义自动匹配预设风格（如：频繁出现“算法/AI”匹配 Tech 风格；出现“情感/生活”匹配 Warm 风格）。
预设库：包含 Tech、Warm、Minimal、Notion 等 9 种风格，确保视觉一致性。

第三步、Prompt 工程化 (Prompt Engineering)

调用 prompts/system.md 模板，结合具体段落内容，生成标准化的绘图提示词。
生成策略：将“通用约束”（如 16:9、手绘风、非写实）与“动态内容”分离。

第四步、图像生成 (Image Generation)

调用图像生成工具（如 Gemini nano banana Pro），执行生成任务，并包含自动重试机制。

第五步、文档注入 (Document Injection)

核心魔法：Agent 自动将生成的图片路径（![desc](path/img.png)）插入到 Markdown 原文的对应位置，并补全图片描述。

三、代码实现：SKILL.md 详解

SKILL.md 是 Skill 的入口与灵魂，分为元数据与指令正文。

1. 头部元数据 (Metadata)

这是 Agent 决定是否调用该 Skill 的依据。

YAML

---name: article-illustratordescription: 分析文章内容，在需要配图的位置自动生成插画。当用户要求给文章配图、生成插画时使用。---

2. 指令正文 (Instructions)

正文是具体的操作SOP，主要包含以下模块：

风格库 (Style Library)：定义每种风格的配色、元素和适用场景索引。

路由规则 (Routing Rules)：定义内容信号（Content Signals）到视觉风格的映射逻辑。

工作流 (Workflow)：显式定义执行步骤（分析 -> 识别 -> 方案 -> 生成 -> 插入 -> 总结）。

文件规范 (File Standard)：规定图片和提示词文件的存储路径与命名规则。

3. 提示词模板 (System Prompt)

位于 prompts/system.md，用于约束生成的图片质量：

核心原则：

全程保持手绘质感，禁止写实/摄影元素

敏感人物替换为相似风格替代形象

信息简洁，留白充足，便于视觉扫描

四、设计哲学与最佳实践

1. 一致性 > 随机性

策略：不让 Agent 自由发挥，而是从预设的 9 种风格中选择。
目的：避免一篇文章中出现多种画风的割裂感，保证专业度。

2. 宁多勿少 (Better Too Many)

策略：生成方案时倾向于多生成几张。
目的：删除图片的成本远低于重新生成的成本，给用户做减法的空间。

3. 上下文工程 (Context Engineering)

技巧：利用文件系统做“外挂显存”。如果风格参数过多，将其拆分为独立文件，Agent 仅在确定风格后通过读取文件命令加载具体参数，而非一次性全部加载。

五、总结与启示

这个案例展示了从Prompt Engineering（提示词工程）向 Agent Engineering（智能体工程）的跨越。

不仅仅是和 AI 聊天，而是将业务流程（Workflow）和领域知识（Domain Knowledge）封装成 Skills。无论是代码审查、周报生成还是行业调研等，只要是具备标准化流程的工作，都可以抽象为 Agent Skills，让 AI 成为真正懂业务的“数字员工”。

六、 Skills 实现代码

1. 完整实现代码链接

参考宝玉 Skills 仓库:

https://github.com/JimLiu/baoyu-skills

2.直接安装指令

请帮我安装宝玉的这个文章配图技能：github.com/JimLiu/baoyu-skills/blob/main/skills/article-illustrator/SKILL.md

好了，这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣，别忘了点赞、关注噢~

—1—

加我微信

扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

加星标★，不错过每一次更新！

⬇戳”阅读原文“，立即预约！

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

OpenClaw+GLM-4.7-Flash语音交互：对接Whisper实现语音控制

本文介绍了如何在星图GPU平台上自动化部署【ollama】GLM-4.7-Flash镜像，构建语音交互系统。该系统结合Whisper语音识别与GLM-4.7-Flash的指令理解能力，实现智能家居控制等场景的语音操作，提升日常任务执行效率。

龙虾开发者社区

学生党福音：OpenClaw+nanobot搭建学习监督助手

本文介绍了如何在星图GPU平台上自动化部署🐈 nanobot：超轻量级OpenClaw镜像，构建智能学习监督助手。该方案利用轻量级模型实现网课进度跟踪、自动生成练习题和错题整理功能，特别适合学生群体通过QQ机器人实现移动端学习管理，显著提升学习效率。

龙虾开发者社区

OpenClaw创意工坊：用nanobot镜像生成技术海报文案

本文介绍了如何在星图GPU平台上自动化部署🐈 nanobot：超轻量级OpenClaw镜像，快速生成技术海报文案。该镜像基于Qwen3-4B模型，能将复杂技术术语转化为通俗表达，适用于技术活动宣传、社交媒体推广等场景，显著提升内容创作效率。

龙虾开发者社区

所有评论(0)

查看更多评论

musicml

@musicml

已为社区贡献61条内容

Agent Skills 实战案例剖析：从0开始构建一个 Skills（含实现代码）

musicml

一、 核心概念：什么是 Agent Skill？

二、 架构设计：自动化配图的五步工作流

三、 代码实现：SKILL.md 详解

四、 设计哲学与最佳实践

五、 总结与启示

所有评论(0)

musicml

一、核心概念：什么是 Agent Skill？

二、架构设计：自动化配图的五步工作流

三、代码实现：SKILL.md 详解

四、设计哲学与最佳实践

五、总结与启示