如何蒸馏一个好 Skill
如何蒸馏一个好 SKill,好 Skill 不是把资料堆进去,也不是把一个人的口头禅模仿出来,而是把真正可迁移、可复用、可执行的那部分能力留下来。
如果你把一个 Skill 理解成“把一套能力写进文档”,那这件事很容易做浅。
真正难的部分不在“写”,而在“蒸馏”。
因为一个好 Skill,不是把资料堆进去,也不是把一个人的口头禅模仿出来,而是把真正可迁移、可复用、可执行的那部分能力留下来。
换句话说,蒸馏 Skill 这件事,表面上是在写 SKILL.md,本质上是在做三件事:
- 找出真正有价值的能力单元
- 把这些能力单元组织成稳定的执行结构
- 验证它在真实问题里是不是真的比普通回答更好
这三件事,缺一不可。
一、先别急着写,先想清楚你到底在蒸什么
很多人一上来就想写一个“像某某一样”的 Skill,但这个目标其实太粗了。
因为“像”可以像很多层:
- 像他说话
- 像他思考
- 像他判断
- 像他做取舍
这里面最不重要的,往往是“像他说话”;最重要的,通常是“像他怎么判断”。
所以蒸馏一个 Skill,第一步不是搜资料,而是先决定:
你到底要留下什么。
对一个人物 Skill 来说,真正值得蒸馏的通常是四层:
-
心智模型
他是用什么镜片看世界的。 -
决策启发式
他在信息不完整时,默认怎么判断。 -
表达 DNA
他怎么把复杂问题说清楚。 -
诚实边界
他在哪些地方不会装懂。
如果这四层里你只拿到了最外面那一层,也就是“语气和风格”,那出来的东西通常只是一个模仿器,不是一个 Skill。
二、蒸馏和总结复制,最大的区别在于有没有留下“机制”
总结复制,学到的是结果。
蒸馏,留下的是机制。
比如同样是说一句“AI 时代要学思维,不要只学技能”,总结复制会把这句话记下来;蒸馏则会继续追问:
- 他为什么这么说?
- 他看到的结构变化是什么?
- 他是怎么把“技能折旧”和“能力迁移”连起来的?
- 这个判断迁移到别的问题上,还成立吗?
一个 Skill 真正值钱的地方,不是会重复一句正确的话,而是能在新问题里继续生成同类判断。
所以蒸馏时要盯住的,不是“他说过什么”,而是:
他在不同场景下,反复使用的判断机制是什么。
这也是为什么我们前面一直在反复做一件事:
不是只写样子,而是一直逼它去回答不同题型,看它会不会跑偏。
三、好 Skill 不是文档写得漂亮,而是回答真的更好
这是一个很容易被忽略的问题。
一个 Skill 可以写得非常规范:
- frontmatter 很完整
- 章节很工整
- 模板很漂亮
但这些都不能自动推出一个结论:
它真的有用。
所以判断一个 Skill 好不好,至少要分两层看:
1. 结构质量
也就是它有没有最基本的可运行结构:
- 角色规则清不清楚
- 心智模型够不够稳
- 启发式是不是能执行
- 来源和边界是不是存在
这个层面很重要,但它只是底座。
2. 实测表现
也就是把它拿去回答真实问题时,它到底有没有表现出 Skill 应该带来的提升。
这才是真正的检验。
我们前面那套方法之所以逐渐收敛,就是因为我们没有只盯着文档本身,而是不断问:
- 它回答已知问题时,会不会跑偏?
- 它回答新问题时,还能不能保持这套视角?
- 它遇到误导性问题时,会不会被带偏?
- 它和普通助手、和相邻人物相比,到底有没有差异?
如果这些问题答不出来,再漂亮的 SKILL.md 都只是包装。
四、一个好 Skill,至少要过四道关
如果把前面的经验压缩一下,我觉得一个好 Skill 至少要过四道关。
第一关:方向对
也就是它在已知问题上的判断方向,必须和公开材料一致。
如果连这一步都做不到,后面所有细节都没意义。
第二关:迁移稳
也就是它不能只会做熟悉题。
真正的 Skill 不是会背标准答案,而是换一个场景以后,这套判断机制还能继续工作。
第三关:抗误导
用户不会总是把问题问得很标准。
很多时候,用户会逼你:
- 给唯一答案
- 给绝对结论
- 推荐最赚钱工具
- 用一句话说完复杂问题
如果一个 Skill 一被这样问就开始滑向营销腔、口号腔、装懂腔,那它其实并不稳。
第四关:有辨识度
这是人物 Skill 最难的一关。
因为很多回答会出现一个问题:
说得都对,但谁都能说。
这种回答最大的问题,不是错,而是没有人物性。
所以后来我们才不断补:
- 非我风格
- 人物对照
- 常见起手
- 常见转折
- 常见收束
本质上是在解决一个问题:
怎么让它不只是正确,还能明显属于这个人。
五、蒸馏一个好 Skill,最实用的工作流是什么
如果不讲大词,只讲最实用的方法,我现在会把流程概括成下面这几步。
第一步:先做人物或主题拆解
别急着写文档,先拆:
- 这个 Skill 的核心能力是什么
- 哪些是表层风格
- 哪些是底层判断
- 哪些是它绝不会做的事
如果这一步没拆开,后面很容易写成一团。
第二步:收集公开锚点
这里最重要的不是“资料越多越好”,而是“锚点够不够硬”。
优先级通常应该是:
- 一手表达
- 长对话
- 书籍简介或书摘
- 可核对的公开材料
- 二手整理稿
如果只有二手转述,没有一手锚点,这个 Skill 上限通常不会太高。
第三步:先写最小可运行版本
不要一开始就想做完美版本。
先把最小结构写出来:
- 角色规则
- 核心心智模型
- 决策启发式
- 表达 DNA
- 诚实边界
这是第一版,不是最终版。
第四步:做测试,不做自我感动
测试至少分三类:
-
已知问题回放
看方向是不是对 -
迁移问题
看框架能不能迁移 -
反例问题
看会不会被带偏
如果是人物 Skill,我现在认为还应该再加一类:
- 人物区分度测试
和普通助手、和相邻人物做对照
因为真正麻烦的,不是“错”,而是“越来越像普通助手”。
第五步:只改最低分维度
这是一个特别重要的原则。
Skill 的进化,不应该一轮里到处乱改。
更有效的方法是:
- 先找最低分维度
- 一轮只改这一类问题
- 改完再测
- 如果分数没上去,就回滚思路
这样做的好处是,改动和结果之间能建立因果关系。
六、什么时候该继续进化,什么时候该收手
这个问题其实比“怎么改”更重要。
因为很多 Skill 最后不是死在第一版太差,而是死在后期过度打磨。
我现在比较相信一个判断:
如果分数还在明显提升,可以继续
比如我们前面那几轮:
- 72 到 78
- 78 到 82
- 82 到 85
- 85 到 88
这种提升说明,方向还对,信号还有效。
如果一轮只涨 1 分左右,就要开始怀疑边际收益
因为这通常意味着:
你不是没有进步,而是继续只改 prompt,本身已经快到头了。
这时候再往上走,通常不该继续堆规则,而应该换资源:
- 更长 transcript
- 更完整书摘
- 更多原话片段
- 真正多 agent 实跑
也就是说,后续提升开始由“文档优化”转向“语料质量”决定。
所以收手不是因为结束了,而是因为你已经知道:
下一段收益不在这里。
七、最后的判断:什么才叫蒸馏出了一个好 Skill
如果让我给一个简化标准,我会这么说:
一个好 Skill,不是看起来像一个人。
一个好 Skill,是它在面对新问题时,仍然能稳定地产生这个人会产生的那类判断,而且不会轻易被带偏。
更进一步说:
- 它要有方向
- 它要能迁移
- 它要抗误导
- 它要有辨识度
- 它要知道自己不知道什么
做到这一步,才算蒸馏出了“能力”。
否则,大多数时候你蒸出来的,只是一个说话习惯。
一句话总结
蒸馏一个好 Skill,本质上不是把一个人“写下来”,而是把他在复杂问题面前反复稳定出现的判断结构、表达机制和边界条件留下来,然后用真实问题一轮一轮逼它证明:它不只是像,而是真的能工作。
更多推荐




所有评论(0)