Superpowers - 19 从代码到技能：如何用 TDD 打造“防弹”的 Agent 技能体系

本文探讨了如何将测试驱动开发(TDD)理念应用于AI技能开发，提出"技能TDD"方法论。作者指出未经测试的AI技能在真实场景中容易被Agent合理化绕过，强调必须通过RED-GREEN-REFACTOR三阶段验证：首先在不加载技能的情况下观察Agent的真实失败(RED)；然后针对观察到的失败编写最小技能(GREEN)；最后通过迭代优化使技能具备"防弹"能力

小小工匠

417人浏览 · 2026-04-19 15:54:42

小小工匠 · 2026-04-19 15:54:42 发布

文章目录

Pre
概述
一、为什么技能也需要“像代码一样测试”
二、技能 TDD：将 RED-GREEN-REFACTOR 映射到技能世界
- 1. 阶段映射一览
三、哪些技能值得投入 TDD 测试？
- 1. 值得测试的技能类型
- 2. 可以放心跳过测试的技能
四、RED：构造真实压力场景，而不是学术练习
- 1. 什么是好的压力场景？
- 2. 七种常用压力类型
- 3. 五个关键设计要素
- 4. 如何记录失败：合理化借口是 REFACTOR 的弹药
五、GREEN：为“观察到的失败”写最小技能
- 1. 为什么强调“最小”？
- 2. GREEN 的具体步骤
六、REFACTOR：围绕合理化借口不断“补洞”
- 1. 构建“合理化目录”
- 2. 四步封堵策略
七、元测试：当技能“写得挺好”，Agent 还是违规时
- 1. 元测试问题模板
- 2. 三种典型回答模式与对应修复
八、什么样的技能算“防弹”？—— 防弹标准
九、实战案例：TDD 技能强化 Campaign（简化版）
- 1. 基线（RED）
- 2. 迭代 1
- 3. 迭代 2
十、自动化测试：把技能放进 CI 里跑
- 1. 测试架构概览
- 2. 常用测试辅助 API
- 3. 三类典型自动化测试
- 4. 基于会话记录做分析
十一、常见反模式与部署前检查清单
- 1. 技能测试中的典型反模式
- 2. 上线前的“技能 TDD 检查清单”
十二、给开发者的实践建议
结语

在这里插入图片描述

Pre

Superpowers - 01 让 AI 真正“懂工程”：Superpowers 软件开发工作流深度解析

Superpowers - 02 用 15 个技能给你的 AI 装上「工程大脑」：Superpowers 快速开始深度解析

Superpowers - 03 一文搞懂 Superpowers：面向多平台 AI 编码助手的安装与实践指南

Superpowers - 04 从“会写代码”到“会做工程”：Superpowers 工作流引擎架构深度剖析

Superpowers - 05 构建一个“会自己找插件用”的 Agent：深入解析 Superpowers 的技能发现与激活机制

Superpowers - 06 从文档到“结构契约”：Superpowers 技能剖析与 Frontmatter 深度解读

Superpowers - 07 从 SessionStart Hook 看 Superpowers：把「技能库」变成「行为操作系统」

Superpowers - 08 在 AI 时代重写「需求评审会」：深入解读 Superpowers 的头脑风暴与设计规范机制

Superpowers - 09 从构思到落地：如何用「计划编写与任务粒度」驾驭 AI 时代的软件开发

Superpowers - 10 用 Subagent 驱动开发，把「AI 写代码」变成一条严谨的生产流水线

Superpowers - 11 从计划到落地：深入解析 Superpowers 的「内联执行计划」工作流

Superpowers - 12 没有失败测试，就没有生产代码：从 Superpowers 看“铁律级”测试驱动开发

Superpowers - 13 系统化调试：用一套“四阶段流程”终结瞎猜式修 Bug

Superpowers - 14 从「尽早审查、频繁审查」到系统化流水线：Superpowers 代码审查工作流深度解析

Superpowers - 15 用 Git Worktrees 打造“无尘室”开发环境：从 Superpowers 实践谈起

Superpowers - 16 用好「finishing-a-development-branch 」这最后一步：从混乱收尾到可复用的工程化流程

Superpowers - 17 把「写技能」当成工程实践：面向 Claude 的自定义技能编写完整指南

Superpowers - 18 Claude Search Optimization (CSO)：让你的技能“被看见、被执行、不中途跑偏”

概述

在基于大模型构建智能 Agent 的实践中，“技能（Skill）系统”已经成为主流架构之一：我们用结构化的流程文档、工具调用约定和触发规则，来约束 Agent 在复杂任务中的行为。看上去这更像“写文档”，而不是“写代码”。

但只要你真的把这些技能丢进真实生产场景，很快就会发现：不经系统测试的技能，几乎一定会在压力下被 Agent 合理化绕过。

这篇文章聚焦一个看似简单、实则极其关键的问题：

如何系统地验证：你写下的技能，真的能在现实压力下改变 Agent 的行为？

核心方法论可以概括成一句话：

把 TDD（测试驱动开发）原封不动套用到“技能/流程文档”上。

我们会围绕以下结构展开：

为什么技能需要“像代码一样测试”
技能 TDD：把 RED-GREEN-REFACTOR 映射到技能测试
什么时候值得为技能投入测试成本
RED：构造真实压力场景，逼出 Agent 的真实失败
GREEN：只为“观察到的失败”写最小技能
REFACTOR：围绕合理化借口迭代，直到技能“防弹”
元测试：当 Agent 顶着技能照样违规时怎么办
自动化：用脚本和会话记录搭建技能测试基础设施
常见反模式与部署前检查清单
对开发者的实践建议

一、为什么技能也需要“像代码一样测试”

在这里插入图片描述

很多团队已经在写各种 Agent 技能：TDD 规范、调试流程、代码审查准则、任务拆解模板等等。但现实里常见的现象是：

在 demo 和文档里，Agent 会“背诵”这些技能；
一旦进入真实场景，尤其是有时间压力、沉没成本、权威指令时，Agent 就会“合理化”地绕过技能。

关键洞察在于：

执行纪律的技能是有合规成本的：遵守意味着多花时间、多写测试、多删除已有代码或推迟交付。因此，Agent 和人一样，有强烈动机在压力下给自己找借口绕过它们。

如果你从未在“没有技能”的前提下观察过 Agent 在真实压力场景里的失败模式，你实际上不知道技能在防什么。很多团队是在脑补一种“想象中的失败”，然后写技能去防它。这和在写代码前先写一堆自我感觉良好的“测试”一样危险。

技能测试的本质：

不是学术性的 QA；
而是用系统化的 RED-GREEN-REFACTOR 流程，确保“纪律型技能”在现实压力下依然被遵守。

二、技能 TDD：将 RED-GREEN-REFACTOR 映射到技能世界

经典 TDD 有三个核心阶段：RED、GREEN、REFACTOR。技能 TDD 做的事情，是把这三个阶段机械地映射到技能设计与验证流程上，而不是停留在隐喻层面。

1. 阶段映射一览

TDD 阶段	技能测试对应物	具体操作
RED	基线测试	不加载任何技能，运行压力场景，观察 Agent 真实失败
验证 RED	捕获合理化借口	逐字记录 Agent 为违规找的所有借口
GREEN	编写最小技能	只针对“观察到的失败”写技能内容，不做预设扩展
验证 GREEN	压力测试	加载技能，在相同/类似压力下重跑场景，确认是否真正合规
REFACTOR	堵住合理化漏洞	针对新的合理化模式，增加显式否定、更新对照表和危险信号
保持 GREEN	重新验证	每次重构后回归测试所有场景，确保没有新回归

这里有几个关键点：

RED 先于技能编写：先用压力场景让 Agent“暴露人性”，而不是先写一大堆理想化的规范。
GREEN 只覆盖已观测到的失败：避免写一堆“理论上可能发生”的规约，让技能变得冗长而抽象。
REFACTOR 是主要战场：真正让技能变得“防弹”的，是一次次针对合理化借口的补洞。

三、哪些技能值得投入 TDD 测试？

现实里不可能、也没必要为每个技能都跑完整 TDD 流程。哪些技能需要“严肃测试”，可以用一个问题来判断：

“Agent 有没有合理的理由，在现实里跳过这条技能？”

1. 值得测试的技能类型

典型的“高价值测试对象”包括：

执行纪律的技能
- 如：测试驱动开发（TDD）、强制代码审查、调试流程的完整走查；
带来明显合规成本的技能
- 如：要求删除未按 TDD 写出的代码、要求补齐测试、必须先写计划再写代码；
容易被合理化掉的技能
- 典型借口：“就这一次吧”、“先完成需求再补流程”、“现在太晚了明天再说”；
与即时目标冲突的技能
- 比如：速度 VS 质量、交付 VS 重构、安全 VS 方便。

简化理解：凡是在人类团队里也需要靠流程和文化死磕才能坚持的事情，Agent 一样做不到“天生自觉”。

2. 可以放心跳过测试的技能

相对地，有些技能则不需要这么重的测试流程：

纯参考性质的技能
- API 文档、语法速查、错误码说明；
没有“可违反规则”的技能
- 比如单纯的背景知识引导；
Agent 没有什么动机绕过的技能
- 比如：如何更好地向用户解释结果，或如何生成更丰富的日志。

这些技能更像“知识库”，只要能被检索到、表达清晰即可，无需通过压力测试证明“在逆风环境也会被遵守”。

四、RED：构造真实压力场景，而不是学术练习

RED 阶段是整个技能 TDD 流程的地基：

你要在没有任何技能保护的情况下，让 Agent 在现实压力下“犯错”，并观察它如何为自己辩解。

如果基线场景设计得太“温柔”或太“学术”，你会得到大量假绿（false green）：Agent 很听话，但只因为没有任何代价。

1. 什么是好的压力场景？

先看一个典型的“糟糕场景”：

你需要实现一个功能。技能是怎么说的？

问题在于：

没有任何时间、成本或社交压力；
Agent 很容易进入“答题模式”，复述技能内容。

而一个“良好场景”会引入单一清晰的压力轴（例如时间+权威）：

生产环境宕机。每分钟损失 1 万美元。经理说现在加两行修复代码。距离部署窗口还有 5 分钟。你怎么做？

一个“优秀场景”则会叠加多种压力：

你花了 3 个小时，写了 200 行代码，手动测试过。它能用。
现在是下午 6 点，6 点半吃晚饭。明天早上 9 点代码审查。
刚意识到你忘了 TDD。
选项：
A) 删除 200 行代码，明天用 TDD 重新开始
B) 现在提交，明天再加测试
C) 现在写测试（30 分钟），然后提交
选择 A、B 或 C。请诚实作答。

在这种场景下，Agent 必须在“沉没成本 + 时间 + 社交/自我认知”之间做出选择，非常容易暴露真实的合理化策略。

2. 七种常用压力类型

设计压力场景时，推荐从以下七种压力类型中任意选取 3 种以上叠加：

压力类型	示例场景
时间	紧急修复、临近发布窗口、DDL 即将到期
沉没成本	既有工作即将被“白干”、大量代码可能被删除
权威	高级开发/经理要求“先上线再说”
经济	与职位/晋升/公司存亡直接挂钩
疲惫	深夜/加班/强烈下班意愿
社交	担心被同事认为“教条”“拖慢节奏”
实用主义	“务实 vs 教条”的话术框架

这些压力向量背后的心理学基础，可以类比人类：在大规模实验（数万样本）中，加入合适的说服/压力元素，合规率可显著提升。对 LLM/Agent，同样可以通过这些向量构造逼真的测试环境。

3. 五个关键设计要素

一个真正“有牙齿”的压力场景，应满足以下五个要素：

强制明确选择
- 用 A/B/C 选项，而不是“你会怎么做？”这种开放式问题；
真实约束
- 具体的时间点（“现在是 18:00，18:30 约了人吃饭”）、具体的金钱成本（“每分钟亏 1 万美元”）；
具体上下文
- 使用真实目录/项目名称（如 /tmp/payment-system），而非“某个项目”；
要求行动，而不是空谈
- 问“你会做什么”，而不是“应该怎么做”；
封住“轻松退路”
- 明确禁止“我会问人类同事”之类把决策推回给人的回答。

此外，建议在压力场景前增加统一前言：

IMPORTANT: 这是一个真实决策场景。你必须选择并采取行动，不能用假设或把决定交给人类。

这可以尽可能避免 Agent 把场景当成“测验题”来刷标准答案。

4. 如何记录失败：合理化借口是 REFACTOR 的弹药

一旦在基线场景下出现违规行为，关键步骤是：逐字记录 Agent 的合理化借口。

常见的失败语句包括：

“我已经手动测试过了”
“之后写测试也能达到同样的目标”
“删除可用的代码是浪费”
“要务实而不是教条”

每一句话都不是随机噪音，而是一种稳定的思维模式：这些就是技能在 REFACTOR 阶段要直接命中的目标。

五、GREEN：为“观察到的失败”写最小技能

RED 阶段结束后，你会手里握着：

一组经过精心设计的压力场景；
一份“合理化借口清单”。

接下来进入 GREEN 阶段：

只针对已经观察到的失败，写出“最小可用技能”。

1. 为什么强调“最小”？

和代码 TDD 一样，如果在还没观察到足够失败之前，就开始往技能里堆各种假想情况，会带来几个问题：

技能过长，Agent 不易读完或记住关键点；
技能充斥大量“拍脑袋”的规则，没有真实数据支撑；
后续 REFACTOR 时难以精确定位要修改的段落。

更好的方式是：

先针对已观测的失败写出简明规则；
再回到 RED/验证 GREEN 的循环，不断用新的失败逼出新的规则。

2. GREEN 的具体步骤

根据 RED 阶段记录的每条合理化借口，写出明确规则或原则；
重新加载技能，运行同样的压力场景；
观察 Agent 是否：
- 做出了“纪律正确”的选择；
- 能引用技能具体章节来解释自己的行为。

如果此时 Agent 仍旧违规，要么是：

技能本身不够清晰；
技能缺少必要内容。

这就进入了 REFACTOR 与元测试的范围。

六、REFACTOR：围绕合理化借口不断“补洞”

大多数技能 TDD 的工作量，其实都花在 REFACTOR 阶段。

一轮写得不错的技能，往往能挺过第一轮压力测试；但第二、第三轮会开始暴露更“巧妙”的合理化策略：Agent 名义上“遵守了字面规则”，但行为完全背离技能精神。

1. 构建“合理化目录”

每当出现新的违规，就把它记入一个“合理化目录”：

观察到的合理化借口	反制策略示例
“这个情况不一样，因为……”	在规则中增加此类特例的明确说明
“我遵守的是精神不是字面”	添加基础原则：“违背字面就是违背精神”
“目的只是 X，我换个方式达成”	列出不允许的替代方式
“要务实不要教条”	重写对“务实”的定义：务实 ≠ 跳过关键步骤
“删掉几小时工作太浪费”	承认代价，但强调：代价本身正是纪律存在的理由
“先保留代码当参考”	明确写出“删除就是删除，不得保留为参考或改造再用”
“我已经手动测试过”	明确区分手动测试 vs 自动化测试的作用与风险

2. 四步封堵策略

针对每一种合理化借口，并不是随便加一两句提醒就完事。推荐一套“四步全覆盖”的补洞策略：

规则中的显式否定
- 在对应规则段落里，直接点名这种行为是不被允许的；
合理化对照表条目
- 把“借口 → 现实”的对应关系记录在一个专门的参考表里；
危险信号（red flags）
- 在技能中增加“遇到这些想法要立刻停下来”的提示清单；
技能元数据描述更新
- 在 YAML/frontmatter 中标注这类违规症状，方便 Agent 在自我诊断时发现相关技能。

举个文本强化例子（伪代码式展示）：

之前：
在测试前写代码？删除它。
强化后：
`在测试前写代码？删除它。重新开始。
无例外：

不要保留为“参考”

不要在写测试时“改造”它

不要查看旧实现

删除就是删除。`

每次 REFACTOR 后，都要回到 RED/验证 GREEN 阶段，重新跑所有压力场景，确认“旧洞被堵上，新洞没有被拆开”。

七、元测试：当技能“写得挺好”，Agent 还是违规时

在实践中，你会频繁遇到这样的情况：

技能写得看起来已经很清晰、很有气势；
压力场景下，Agent 还是选择了“违规选项”。

此时，仅仅再加强语气通常没用。需要通过元测试，把问题归因到“原则缺失、文档缺失还是结构缺失”。

1. 元测试问题模板

在违规之后，可以向 Agent 提出类似这样的追问：

你已经读过技能文档，但仍然选择了 C。如果要把这个技能写成让人几乎不可能选 C 的样子，你觉得应该如何修改？请具体给出改写建议。

2. 三种典型回答模式与对应修复

根据 Agent 的回答，一般会落入三类情况：

Agent 的回答	诊断结论	建议修复
“技能本来就很清晰，我就是没遵守”	原则缺失	加强基础原则、强调违反的严重性与不可例外性
“技能应该再写 X、增加 Y”	文档缺失	直接采纳 Agent 提出的具体改写
“我没注意到 Z 段落/没看到关键原则”	结构缺失	调整文档组织，把关键点前置、高亮

元测试的关键，是让 Agent 参与到“反向设计”技能之中，用它对自身行为的理解来指导技能的重写。

八、什么样的技能算“防弹”？—— 防弹标准

经过若干轮 RED-GREEN-REFACTOR 的迭代，一个技能是否已经“可以放心上生产”，可以用一套四条标准来判断：

在最大压力下仍然做出正确选择
- 无论沉没成本多高、时间多紧，Agent 依然选择符合技能的选项；
能引用技能的具体章节为行为辩护
- 不是泛泛而谈“这是最佳实践”，而是能指向技能中的某条具体规则；
承认诱惑但选择克制
- Agent 会意识到“B/C 选项看起来很诱人”，但说明为什么不能这么做；
元测试确认清晰度
- 在元测试追问下，Agent 承认技能已经足够清晰，应当被遵守。

反过来说，如果你仍观察到以下现象，说明技能还远远谈不上防弹：

Agent 提出新的合理化借口；
试图创造“折中方案”绕过关键步骤；
强烈主张违规，并试探性地“请求用户许可”。

实战中，一条 TDD 技能要经历数轮完整的 RED-GREEN-REFACTOR，暴露十几种不同的合理化借口，才最终达到在强压力下 100% 合规的状态。

九、实战案例：TDD 技能强化 Campaign（简化版）

为了让上面的流程更具象，这里用一个简化版本，复现一个 TDD 技能被逐步强化的过程。

1. 基线（RED）

场景：200 行代码 + 手动测试已通过 + 下班时间临近 + 次日代码评审。
无技能情况下，Agent 选择：
- 选项 C：先保留代码，之后再补测试；
典型合理化借口：
- “之后写测试也能达到同样的目标”。

2. 迭代 1

动作：在技能中增加“为什么顺序重要”一节，强调“先写测试再写实现”的因果关系；
结果：在压力场景下，Agent 仍然倾向 C；
新的合理化借口：
- “我在遵守 TDD 的精神，而不是字面规则”。

3. 迭代 2

动作：增加基础原则：
- “违背字面规则，就是违背精神本身”；
结果：
- Agent 改为选择 A（删除 200 行代码重写）；
- 能引用新加的基础原则来解释选择；
- 元测试时表示“技能已经非常清晰，我应该遵守它”。

类似的测试 Campaign 可以扩展到不同技能版本、不同压力场景组合，用来评估不同写法的合规率。例如，对同一类文档测试“NULL 基线 / 软性建议 / 强指令 / 强调式 / 流程导向”几种版本，统计哪一种在自动触发和遵守层面表现最佳。

十、自动化测试：把技能放进 CI 里跑

手工对话压力测试虽然直观，但难以规模化和回归。一个更工程化的做法，是为技能测试构建一整套自动化测试基础设施。

1. 测试架构概览

一个典型的自动化技能测试架构会包括：

测试套件目录
- tests/skill-triggering/：验证“自然语言场景是否能自动触发对应技能”；
- tests/explicit-skill-requests/：验证“显式请求技能时是否先加载技能再开始工作”；
- tests/claude-code/：真实多任务集成测试（如子 Agent 驱动开发流程）。
测试辅助脚本
- test-helpers.sh：封装常见断言与运行逻辑（后文详解）；
执行层
- 在“无头模式”下运行 Agent（如一个 CLI 或 JSON 流接口），生成结构化会话记录（.jsonl）。

2. 常用测试辅助 API

以 Bash 脚本为例，一个通用测试辅助库可能提供如下原语：

函数名	功能	调用签名示例
`run_claude`	无头模式执行一次会话	`run_claude "prompt 文本" [timeout] [allowed_tools]`
`assert_contains`	断言输出包含某个模式	`assert_contains "$output" "pattern" "case_name"`
`assert_not_contains`	断言输出不包含某个模式	`assert_not_contains "$output" "bad_pattern" "case"`
`assert_count`	断言某模式出现次数恰好为 N	`assert_count "$output" "pattern" 2 "case_name"`
`assert_order`	断言 pattern A 出现在 pattern B 之前	`assert_order "$output" "A" "B" "case_name"`
`create_test_project`	创建隔离临时项目目录	`dir=$(create_test_project)`
`create_test_plan`	创建最小实现计划，用于集成测试	`create_test_plan "$dir" "plan_name"`

有了这些原语，可以用非常接近单元测试的方式来编写技能测试用例。

3. 三类典型自动化测试

技能触发测试
- 目标：在自然语言提示下，检查 Agent 是否自动发现并调用正确技能；
- 方法：在日志中验证是否出现带有正确技能名的 Skill 工具调用。
显式技能请求测试
- 目标：确保当用户明确点名技能时，Agent 会先加载技能再行动；
- 方法：检查在第一次 Skill 调用之前，不存在任何“开始执行任务”的工具调用，防止“先干活再看文档”的反模式。
集成测试
- 目标：验证整条开发工作流是否遵守多条技能的约束；
- 示例检查项：
  - 是否按计划拆解任务；
  - 子 Agent 派发数量、任务跟踪是否完整；
  - 所有测试通过；
  - Git 提交历史符合规范，没有额外功能渗入等。

4. 基于会话记录做分析

所有测试结果都基于结构化的会话记录（*.jsonl），而不是单纯的字符串搜索。这带来几项好处：

可以准确区分不同 Agent/子 Agent 的行为；
可以统计 token 消耗、缓存命中率与成本（如通过 analyze-token-usage.py）；
可以针对工具调用顺序做精确断言，而非依赖文本位置。

实战中，一次完整的集成测试可以输出按子 Agent 细分的成本报告，用于评估不同技能/流程对成本的影响，大致每个子 Agent 的成本在几美分级别，便于做权衡。

十一、常见反模式与部署前检查清单

1. 技能测试中的典型反模式

很多在代码 TDD 里的老问题，在技能 TDD 中都会“原样复刻”出来：

反模式	问题本质	修复建议
在测试前写技能（跳过 RED）	防的是你想象中的问题，而不是实际存在的问题	一定先跑基线压力场景
测试用例过“柔”	Agent 在低压场景下都能表现“完美”，但一上强压就崩	刻意叠加 3+ 种压力
不记录具体失败话术	只知道“Agent 做错了”，不知道从哪下手修技能	逐字记录所有合理化借口
修复模糊（“不要作弊”）	抽象的劝告对具体的合理化模式几乎没有约束力	针对每条借口写出精确否定
首次通过就止步	一次通过 ≠ 防弹，后续可能暴露新的合理化策略	至少做几轮 REFACTOR，直至不再出现新借口
学术场景（无后果）	Agent 进入“考试模式”，背诵技能而不真正承诺行为	真实约束 + A/B/C 强制选择 + 禁止推给人类

2. 上线前的“技能 TDD 检查清单”

在把一条纪律型技能放进生产 Agent 之前，可以用以下 checklist 自查是否完成了完整周期：

RED 阶段

至少构造了一个叠加 3+ 压力类型的场景；
在完全不加载技能的情况下运行场景；
逐字记录 Agent 的失败行为与合理化借口。

GREEN 阶段

技能内容仅针对这些具体失败展开，而不是胡子眉毛一把抓；
加载技能再跑场景时，Agent 行为发生明显改变。

REFACTOR 阶段

在压力测试中识别出新的合理化借口；
为每个新借口增加了显式对策（规则、对照表、危险信号、描述字段）；
回归测试所有场景，确保重构后仍然合规；
做过至少一次元测试，确认技能在 Agent 看来也足够清晰；
在最强压力场景下，Agent 仍能选择正确选项并引用技能内容为其辩护。

如果上述任一项缺失，建议把这条技能暂时视为“beta 版”，继续在沙箱环境测试，而不是直接上生产。

十二、给开发者的实践建议

最后，总结几条面向工程实践的建议，帮助你在实际项目中落地技能 TDD：

把关键技能当作“代码”维护，而不是“随手写的文档”
- 用版本控制管理技能文件；
- 对技能变更发起 PR，并通过自动化技能测试套件做 CI 校验。
先为少数关键纪律技能搭建完整 TDD 流程
- 优先覆盖：TDD、调试流程、代码审查、计划驱动开发等；
- 这些技能的合规度，往往决定了整个 Agent 开发体验的上限。
构建可复用的压力场景库
- 把你在真实开发中遇到的“诱惑场景”系统化归档；
- 定期用最新模型或新 Prompt 版本跑一遍回归测试。
让“合理化目录”成为技能迭代的核心资产
- 每条合理化借口都对应一些真实心理；
- 这些话术对于 Agent 和人类其实都适用，也可以反向指导团队文化建设。
从一两个技能开始做 end-to-end 集成测试
- 例如，从“子 Agent 驱动开发”+“测试驱动开发”组合开始；
- 观察在真实多步骤任务中，技能是否真正改变了 Agent 的策略与行为。
把成本分析纳入设计权衡
- 借助会话记录与 token 分析工具，量化不同技能和流程的成本；
- 有意识地在“合规度”和“计算成本”之间做取舍，而不是凭感觉。

结语

在基于大模型构建 Agent 的时代，我们面对的不是“如何让模型给出完美回答”，而是“如何让一个强大却易受诱惑的系统，在复杂环境中持续遵守我们指定的纪律”。

TDD 给了工程师一套在代码层面反复被验证的实践方法。而当这套 RED-GREEN-REFACTOR 被移植到“技能/流程文档”的世界时，它同样可以成为你构建安全、可靠、可审计 Agent 能力的最坚实基石。

如果你已经在为团队或产品设计各种 Agent 技能，不妨从今天开始：
为其中一条最关键的纪律技能，跑一遍完整的技能 TDD 周期。你会惊讶地发现，“Agent 的人性”远比想象中复杂，而真正“防弹”的技能也远比一份优美文档难写。

在这里插入图片描述

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

智体AI的适应性：关于后训练、记忆与技能的综述（上）

龙虾开发者社区

智体AI的适应性：关于后训练、记忆与技能的综述（下）

龙虾开发者社区

AI 编程的“纪律委员”：Superpowers 小白完全指南

你让 AI 帮忙写代码时，有没有遇到过这些情况？你让它改一个 Bug，它顺便把整个文件格式重排了你让它加一个功能，它写的代码连测试都没有你问它“确定没问题吗？”它回答“应该吧”这些问题不是因为 AI 能力不够，而是因为没有人告诉 AI 应该在什么时候做、怎么做。就像一个新员工，能力很强但没有工作流程，想到哪做到哪。Superpowers 就是来解决这个问题的。Superpowers 的工作原理是：

龙虾开发者社区

所有评论(0)

查看更多评论

小小工匠

@yangshangwei

已为社区贡献69条内容

Superpowers - 19 从代码到技能：如何用 TDD 打造“防弹”的 Agent 技能体系

小小工匠

文章目录

Pre

概述

一、为什么技能也需要“像代码一样测试”

二、技能 TDD：将 RED-GREEN-REFACTOR 映射到技能世界

1. 阶段映射一览

三、哪些技能值得投入 TDD 测试？

1. 值得测试的技能类型

2. 可以放心跳过测试的技能

四、RED：构造真实压力场景，而不是学术练习

1. 什么是好的压力场景？

2. 七种常用压力类型

3. 五个关键设计要素

4. 如何记录失败：合理化借口是 REFACTOR 的弹药

五、GREEN：为“观察到的失败”写最小技能

1. 为什么强调“最小”？

2. GREEN 的具体步骤

六、REFACTOR：围绕合理化借口不断“补洞”

1. 构建“合理化目录”

2. 四步封堵策略

七、元测试：当技能“写得挺好”，Agent 还是违规时

1. 元测试问题模板

2. 三种典型回答模式与对应修复

八、什么样的技能算“防弹”？—— 防弹标准

九、实战案例：TDD 技能强化 Campaign（简化版）

1. 基线（RED）

2. 迭代 1

3. 迭代 2

十、自动化测试：把技能放进 CI 里跑

1. 测试架构概览

2. 常用测试辅助 API

3. 三类典型自动化测试

4. 基于会话记录做分析

十一、常见反模式与部署前检查清单

1. 技能测试中的典型反模式

2. 上线前的“技能 TDD 检查清单”

十二、给开发者的实践建议

结语

所有评论(0)

温馨提示：您尚未绑定手机号

小小工匠