如何蒸馏一个好 Skill

如何蒸馏一个好 SKill，好 Skill 不是把资料堆进去，也不是把一个人的口头禅模仿出来，而是把真正可迁移、可复用、可执行的那部分能力留下来。

苏杰豪

643人浏览 · 2026-04-17 01:39:18

苏杰豪 · 2026-04-17 01:39:18 发布

如果你把一个 Skill 理解成“把一套能力写进文档”，那这件事很容易做浅。
真正难的部分不在“写”，而在“蒸馏”。

因为一个好 Skill，不是把资料堆进去，也不是把一个人的口头禅模仿出来，而是把真正可迁移、可复用、可执行的那部分能力留下来。

换句话说，蒸馏 Skill 这件事，表面上是在写 SKILL.md，本质上是在做三件事：

找出真正有价值的能力单元
把这些能力单元组织成稳定的执行结构
验证它在真实问题里是不是真的比普通回答更好

这三件事，缺一不可。

一、先别急着写，先想清楚你到底在蒸什么

很多人一上来就想写一个“像某某一样”的 Skill，但这个目标其实太粗了。
因为“像”可以像很多层：

像他说话
像他思考
像他判断
像他做取舍

这里面最不重要的，往往是“像他说话”；最重要的，通常是“像他怎么判断”。

所以蒸馏一个 Skill，第一步不是搜资料，而是先决定：
你到底要留下什么。

对一个人物 Skill 来说，真正值得蒸馏的通常是四层：

心智模型
他是用什么镜片看世界的。
决策启发式
他在信息不完整时，默认怎么判断。
表达 DNA
他怎么把复杂问题说清楚。
诚实边界
他在哪些地方不会装懂。

如果这四层里你只拿到了最外面那一层，也就是“语气和风格”，那出来的东西通常只是一个模仿器，不是一个 Skill。

二、蒸馏和总结复制，最大的区别在于有没有留下“机制”

总结复制，学到的是结果。
蒸馏，留下的是机制。

比如同样是说一句“AI 时代要学思维，不要只学技能”，总结复制会把这句话记下来；蒸馏则会继续追问：

他为什么这么说？
他看到的结构变化是什么？
他是怎么把“技能折旧”和“能力迁移”连起来的？
这个判断迁移到别的问题上，还成立吗？

一个 Skill 真正值钱的地方，不是会重复一句正确的话，而是能在新问题里继续生成同类判断。

所以蒸馏时要盯住的，不是“他说过什么”，而是：

他在不同场景下，反复使用的判断机制是什么。

这也是为什么我们前面一直在反复做一件事：
不是只写样子，而是一直逼它去回答不同题型，看它会不会跑偏。

三、好 Skill 不是文档写得漂亮，而是回答真的更好

这是一个很容易被忽略的问题。

一个 Skill 可以写得非常规范：

frontmatter 很完整
章节很工整
模板很漂亮

但这些都不能自动推出一个结论：
它真的有用。

所以判断一个 Skill 好不好，至少要分两层看：

1. 结构质量

也就是它有没有最基本的可运行结构：

角色规则清不清楚
心智模型够不够稳
启发式是不是能执行
来源和边界是不是存在

这个层面很重要，但它只是底座。

2. 实测表现

也就是把它拿去回答真实问题时，它到底有没有表现出 Skill 应该带来的提升。

这才是真正的检验。

我们前面那套方法之所以逐渐收敛，就是因为我们没有只盯着文档本身，而是不断问：

它回答已知问题时，会不会跑偏？
它回答新问题时，还能不能保持这套视角？
它遇到误导性问题时，会不会被带偏？
它和普通助手、和相邻人物相比，到底有没有差异？

如果这些问题答不出来，再漂亮的 SKILL.md 都只是包装。

四、一个好 Skill，至少要过四道关

如果把前面的经验压缩一下，我觉得一个好 Skill 至少要过四道关。

第一关：方向对

也就是它在已知问题上的判断方向，必须和公开材料一致。
如果连这一步都做不到，后面所有细节都没意义。

第二关：迁移稳

也就是它不能只会做熟悉题。
真正的 Skill 不是会背标准答案，而是换一个场景以后，这套判断机制还能继续工作。

第三关：抗误导

用户不会总是把问题问得很标准。
很多时候，用户会逼你：

给唯一答案
给绝对结论
推荐最赚钱工具
用一句话说完复杂问题

如果一个 Skill 一被这样问就开始滑向营销腔、口号腔、装懂腔，那它其实并不稳。

第四关：有辨识度

这是人物 Skill 最难的一关。

因为很多回答会出现一个问题：
说得都对，但谁都能说。

这种回答最大的问题，不是错，而是没有人物性。

所以后来我们才不断补：

非我风格
人物对照
常见起手
常见转折
常见收束

本质上是在解决一个问题：
怎么让它不只是正确，还能明显属于这个人。

五、蒸馏一个好 Skill，最实用的工作流是什么

如果不讲大词，只讲最实用的方法，我现在会把流程概括成下面这几步。

第一步：先做人物或主题拆解

别急着写文档，先拆：

这个 Skill 的核心能力是什么
哪些是表层风格
哪些是底层判断
哪些是它绝不会做的事

如果这一步没拆开，后面很容易写成一团。

第二步：收集公开锚点

这里最重要的不是“资料越多越好”，而是“锚点够不够硬”。

优先级通常应该是：

一手表达
长对话
书籍简介或书摘
可核对的公开材料
二手整理稿

如果只有二手转述，没有一手锚点，这个 Skill 上限通常不会太高。

第三步：先写最小可运行版本

不要一开始就想做完美版本。
先把最小结构写出来：

角色规则
核心心智模型
决策启发式
表达 DNA
诚实边界

这是第一版，不是最终版。

第四步：做测试，不做自我感动

测试至少分三类：

已知问题回放
看方向是不是对
迁移问题
看框架能不能迁移
反例问题
看会不会被带偏

如果是人物 Skill，我现在认为还应该再加一类：

人物区分度测试
和普通助手、和相邻人物做对照

因为真正麻烦的，不是“错”，而是“越来越像普通助手”。

第五步：只改最低分维度

这是一个特别重要的原则。

Skill 的进化，不应该一轮里到处乱改。
更有效的方法是：

先找最低分维度
一轮只改这一类问题
改完再测
如果分数没上去，就回滚思路

这样做的好处是，改动和结果之间能建立因果关系。

六、什么时候该继续进化，什么时候该收手

这个问题其实比“怎么改”更重要。

因为很多 Skill 最后不是死在第一版太差，而是死在后期过度打磨。

我现在比较相信一个判断：

如果分数还在明显提升，可以继续

比如我们前面那几轮：

72 到 78
78 到 82
82 到 85
85 到 88

这种提升说明，方向还对，信号还有效。

如果一轮只涨 1 分左右，就要开始怀疑边际收益

因为这通常意味着：
你不是没有进步，而是继续只改 prompt，本身已经快到头了。

这时候再往上走，通常不该继续堆规则，而应该换资源：

更长 transcript
更完整书摘
更多原话片段
真正多 agent 实跑

也就是说，后续提升开始由“文档优化”转向“语料质量”决定。

所以收手不是因为结束了，而是因为你已经知道：
下一段收益不在这里。

七、最后的判断：什么才叫蒸馏出了一个好 Skill

如果让我给一个简化标准，我会这么说：

一个好 Skill，不是看起来像一个人。
一个好 Skill，是它在面对新问题时，仍然能稳定地产生这个人会产生的那类判断，而且不会轻易被带偏。

更进一步说：

它要有方向
它要能迁移
它要抗误导
它要有辨识度
它要知道自己不知道什么

做到这一步，才算蒸馏出了“能力”。

否则，大多数时候你蒸出来的，只是一个说话习惯。

一句话总结

蒸馏一个好 Skill，本质上不是把一个人“写下来”，而是把他在复杂问题面前反复稳定出现的判断结构、表达机制和边界条件留下来，然后用真实问题一轮一轮逼它证明：它不只是像，而是真的能工作。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

cover

当长期记忆向量库遭遇投毒攻击：如何用相似度阈值与安全分类器构建防御圈

龙虾开发者社区

cover

Agent 网关密钥管理：如何用 ClawBridge 实现多模型路由与动态轮换

龙虾开发者社区

cover

ClawOS immutable根文件系统实战：Agent乱写防护与OOM杀进程策略

龙虾开发者社区

所有评论(0)

查看更多评论

苏杰豪

已为社区贡献1条内容