SKILL.md正在接管Agent生态：一个Markdown模板，如何让AI编程不再‘瞎猜’？

一、你给AI的Prompt，每次都在碰运气二、本质变化：从“一次性对话”到“可执行技能包”三、核心机制拆解：一个Markdown文件怎么做到“不瞎猜”四、典型案例：三种工具，同一个Skill模板五、工程落地启示：对测试从业者意味着什么六、趋势判断：Skill正在变成Plugin，你要不要上车。

小舟畅学

395人浏览 · 2026-05-11 14:36:17

小舟畅学 · 2026-05-11 14:36:17 发布

一、你给AI的Prompt，每次都在碰运气
二、本质变化：从“一次性对话”到“可执行技能包”
三、核心机制拆解：一个Markdown文件怎么做到“不瞎猜”
四、典型案例：三种工具，同一个Skill模板
五、工程落地启示：对测试从业者意味着什么
六、趋势判断：Skill正在变成Plugin，你要不要上车

一、你给AI的Prompt，每次都在碰运气

身边越来越多的测试同事开始用AI写自动化脚本。

但没过两周，不少人回来吐槽同一件事：同样的需求，给AI的描述稍微换几个词，输出结果就完全不一样。有时候生成一套能跑的代码，有时候在同一个地方反复报错，有时候模型直接说“我不知道你在说什么”。

这不是你Prompt写得不好。这是当前AI编程工具的底层缺陷——不确定性。

Claude Code可以自己编译、跑测试、修Bug，Cursor能同时起8个Agent帮你补代码，OpenClaw甚至能打通WhatsApp替你执行任务。但不管多强，你让它们干同一件事两次，结果可能天差地别。

3万人的NEC用Claude，不是因为它“聪明”，而是因为它终于找到了一个让AI不再“瞎猜”的方案。

这个方案的核心，是一个叫SKILL.md 的Markdown文件。

二、本质变化：从“一次性对话”到“可执行技能包”

过去的AI交互模式是：你说一句，它猜一句。你给的Prompt越细，它猜得越准。但只要超出你写过的范围，它就开始自由发挥。

这本质上不是模型的问题。是没有“工程约束”的问题。

SKILL.md的本质，是把一个人的操作经验，固化成了机器可读的标准作业程序。

可以被截图传播的观点句：Prompt是一次性猜，Skill是确定性的工程。

你可以把SKILL.md 理解成“给AI看的SOP（标准操作流程）”。它不只是告诉AI“你要做什么”，还告诉AI“在什么条件下怎么做、出错了怎么办、调哪个脚本、读哪个文档”。

这背后的变化是范式级的：

之前：人类写自然语言指令 → 模型推理 → 输出（每次不同）
现在：人类写结构化技能包 → Agent解析 → 按步骤调用确定性工具 → 输出（可复现）

多了一层“技能编排”，就消除了大多数歧义。

三、核心机制拆解：一个Markdown文件怎么做到“不瞎猜”

先看SKILL.md 长什么样。

一个标准的Skill文件夹：

my-test-skill/
├── SKILL.md          # 核心指令文件
├── scripts/          # 辅助脚本（Python/Shell）
├── templates/        # 输出模板
└── resources/        # 参考资料

SKILL.md 的内部结构只有三块：

---
name:regression-tester
description:当用户提到回归测试、全量用例、冒烟测试时，主动加载该技能，不要等他明确要求。
version:1.0
---
# 执行流程
1.读取test_suite.yaml获取用例列表
2.调用scripts/runner.py并行执行
3.失败用例自动重试2次，间隔5秒
4.生成JSON报告并存储到reports/目录
---
# 异常处理
-环境未就绪→调用scripts/setup_env.sh
-用例超时→标记为TIMEOUT，继续下一用例

核心不在于写了什么文字，而在于模型不再需要“猜”怎么做。

完整的执行逻辑可以用这张图说明：

flowchart TD
    Start[用户输入] --> Scan[Agent扫描metadata]
    Scan --> Match{匹配description?}
    Match -- 否 --> Normal[普通对话模式]
    Match -- 是 --> Load[加载SKILL.md全文]
    Load --> Parse[解析执行流程]
    Parse --> Check{需要脚本?}
    Check -- 是 --> CallScript[调用scripts/确定性脚本]
    CallScript --> Exec[脚本执行并返回结果]
    Check -- 否 --> LLMStep[模型按指令推理]
    Exec --> Next{还有步骤?}
    LLMStep --> Next
    Next -- 是 --> Parse
    Next -- 否 --> Output[输出结果+报告]

三个设计让它“不瞎猜”：

第一，渐进式披露。Agent启动时只扫描所有Skill的metadata（几百字节），只有当用户问题匹配某个description才加载完整内容。不会把全量的指令一次性塞给模型，避免了上下文污染。

第二，确定性降级。凡是能用脚本做的事，绝不让模型去“写代码做”。编写好的runner.py永远是同一个行为，而模型每次生成的代码可能都不一样。所以Skill里把脚本路径写死，Agent只负责调用，不负责生成。

第三，强制流程固化。SKILL.md 里的执行步骤是顺序文本，模型读取后必须按这个顺序执行。不是“建议”，是“指令”。这直接解决了Prompt里“模型跑偏”的核心问题。

可以被截图传播的观点句：SKILL.md把人的经验变成了可执行的代码，而不是可参考的建议。

四、典型案例：三种工具，同一个Skill模板

Claude Code、Cursor、OpenClaw，今年被讨论最多的三款工具。很多人以为它们三选一就行。实际上它们分别对应不同的运行环境，但都可以加载同一个Skill文件夹。

把上面那个regression-tester的Skill，直接放进三种环境：

工具	运行环境	适用场景	用同一个Skill的效果
Claude Code	终端/CI	无人值守自动化	完全自主跑完所有步骤，输出报告
Cursor	IDE	日常编码+调试	按调用流程一步步执行，期间可人工打断修改
OpenClaw	手机/消息平台	远程监控/响应	收到消息触发，执行后发回结果