Agent Skills 实战案例剖析:从0开始构建一个 Skills(含实现代码)
无论是代码审查、周报生成还是行业调研等,只要是具备标准化流程的工作,都可以抽象为 Agent Skills,让 AI 成为真正懂业务的“数字员工”。长文写作后的配图工作往往是效率的黑洞:构思画面、编写提示词、生成、筛选、插入,一篇几千字的文章往往需要耗费半小时以上。利用文件系统做“外挂显存”。如果风格参数过多,将其拆分为独立文件,Agent 仅在确定风格后通过读取文件命令加载具体参数,而非一次性全
大家好,我是玄姐。
背景与痛点 长文写作后的配图工作往往是效率的黑洞:构思画面、编写提示词、生成、筛选、插入,一篇几千字的文章往往需要耗费半小时以上。为了解决这个问题,开发了一个 Article Illustrator Skill,实现了从文本分析到图片插入的全流程自动化。

本文将拆解该 Skills 的设计思路、核心架构以及 SKILL.md 的实现细节。
一、 核心概念:什么是 Agent Skill?
如果说 Agent 是“智能助理”,那么 Skills 就是一份“入职操作手册”。
定义:Skills 本质上是一个包含 SKILL.md 文件的文件夹。它定义了 Agent 在特定场景下的行为规范、工具调用逻辑和知识库。
机制:渐进式加载 (Progressive Loading)
-
Agent 启动时,仅加载 Skill 的名称和简介(约 100 tokens)。
-
只有被激活时,才会读取详细指令。
-
优势:极大节省 Context Window(上下文窗口),允许挂载大量 Skill 而不造成溢出。
与 Prompt/MCP 的区别:
-
vs. Prompt:Skills 具备脚本执行能力,支持模块化调用,且按需加载。
-
vs. MCP:MCP 是工具调用的底层协议,Skills 是指挥 Agent 如何使用 MCP 工具的上层逻辑。
二、 架构设计:自动化配图的五步工作流
该 Skills 将复杂的配图任务拆解为五个标准化的工程步骤:

第一步、结构化分析 (Structural Analysis)
-
Agent 扫描全文,识别需要视觉辅助的节点(如抽象概念可视化、流程图解、核心论点强化)。
-
原则:配图服务于内容理解,而非单纯装饰。
第二步、风格自适应 (Style Matching)
-
基于文章语义自动匹配预设风格(如:频繁出现“算法/AI”匹配 Tech 风格;出现“情感/生活”匹配 Warm 风格)。
-
预设库:包含 Tech、Warm、Minimal、Notion 等 9 种风格,确保视觉一致性。
第三步、Prompt 工程化 (Prompt Engineering)
-
调用
prompts/system.md模板,结合具体段落内容,生成标准化的绘图提示词。 -
生成策略:将“通用约束”(如 16:9、手绘风、非写实)与“动态内容”分离。
第四步、图像生成 (Image Generation)
-
调用图像生成工具(如 Gemini nano banana Pro),执行生成任务,并包含自动重试机制。
第五步、文档注入 (Document Injection)
核心魔法:Agent 自动将生成的图片路径()插入到 Markdown 原文的对应位置,并补全图片描述。
三、 代码实现:SKILL.md 详解
SKILL.md 是 Skill 的入口与灵魂,分为元数据与指令正文。

1. 头部元数据 (Metadata)
这是 Agent 决定是否调用该 Skill 的依据。
YAML
---name: article-illustratordescription: 分析文章内容,在需要配图的位置自动生成插画。当用户要求给文章配图、生成插画时使用。---
2. 指令正文 (Instructions)
正文是具体的操作SOP,主要包含以下模块:
风格库 (Style Library):定义每种风格的配色、元素和适用场景索引。
路由规则 (Routing Rules):定义内容信号(Content Signals)到视觉风格的映射逻辑。
工作流 (Workflow):显式定义执行步骤(分析 -> 识别 -> 方案 -> 生成 -> 插入 -> 总结)。
文件规范 (File Standard):规定图片和提示词文件的存储路径与命名规则。
3. 提示词模板 (System Prompt)
位于 prompts/system.md,用于约束生成的图片质量:
核心原则:
全程保持手绘质感,禁止写实/摄影元素
敏感人物替换为相似风格替代形象
信息简洁,留白充足,便于视觉扫描
四、 设计哲学与最佳实践
1. 一致性 > 随机性
-
策略:不让 Agent 自由发挥,而是从预设的 9 种风格中选择。
-
目的:避免一篇文章中出现多种画风的割裂感,保证专业度。
2. 宁多勿少 (Better Too Many)
-
策略:生成方案时倾向于多生成几张。
-
目的:删除图片的成本远低于重新生成的成本,给用户做减法的空间。
3. 上下文工程 (Context Engineering)
-
技巧:利用文件系统做“外挂显存”。如果风格参数过多,将其拆分为独立文件,Agent 仅在确定风格后通过读取文件命令加载具体参数,而非一次性全部加载。
五、 总结与启示
这个案例展示了从Prompt Engineering(提示词工程) 向 Agent Engineering(智能体工程) 的跨越。
不仅仅是和 AI 聊天,而是将业务流程(Workflow)和领域知识(Domain Knowledge)封装成 Skills。无论是代码审查、周报生成还是行业调研等,只要是具备标准化流程的工作,都可以抽象为 Agent Skills,让 AI 成为真正懂业务的“数字员工”。
六、 Skills 实现代码
1. 完整实现代码链接
参考 宝玉 Skills 仓库:
https://github.com/JimLiu/baoyu-skills
2.直接安装指令
请帮我安装宝玉的这个文章配图技能:github.com/JimLiu/baoyu-skills/blob/main/skills/article-illustrator/SKILL.md
好了,这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣,别忘了点赞、关注噢~
—1—
加我微信
扫码加我👇有很多不方便公开发公众号的我会直接分享在朋友圈,欢迎你扫码加我个人微信来看👇

加星标★,不错过每一次更新!
⬇戳”阅读原文“,立即预约!
更多推荐

所有评论(0)