如果你把一个 Skill 理解成“把一套能力写进文档”,那这件事很容易做浅。
真正难的部分不在“写”,而在“蒸馏”。

因为一个好 Skill,不是把资料堆进去,也不是把一个人的口头禅模仿出来,而是把真正可迁移、可复用、可执行的那部分能力留下来。

换句话说,蒸馏 Skill 这件事,表面上是在写 SKILL.md,本质上是在做三件事:

  1. 找出真正有价值的能力单元
  2. 把这些能力单元组织成稳定的执行结构
  3. 验证它在真实问题里是不是真的比普通回答更好

这三件事,缺一不可。


一、先别急着写,先想清楚你到底在蒸什么

很多人一上来就想写一个“像某某一样”的 Skill,但这个目标其实太粗了。
因为“像”可以像很多层:

  • 像他说话
  • 像他思考
  • 像他判断
  • 像他做取舍

这里面最不重要的,往往是“像他说话”;最重要的,通常是“像他怎么判断”。

所以蒸馏一个 Skill,第一步不是搜资料,而是先决定:
你到底要留下什么。

对一个人物 Skill 来说,真正值得蒸馏的通常是四层:

  1. 心智模型
    他是用什么镜片看世界的。

  2. 决策启发式
    他在信息不完整时,默认怎么判断。

  3. 表达 DNA
    他怎么把复杂问题说清楚。

  4. 诚实边界
    他在哪些地方不会装懂。

如果这四层里你只拿到了最外面那一层,也就是“语气和风格”,那出来的东西通常只是一个模仿器,不是一个 Skill。


二、蒸馏和总结复制,最大的区别在于有没有留下“机制”

总结复制,学到的是结果。
蒸馏,留下的是机制。

比如同样是说一句“AI 时代要学思维,不要只学技能”,总结复制会把这句话记下来;蒸馏则会继续追问:

  • 他为什么这么说?
  • 他看到的结构变化是什么?
  • 他是怎么把“技能折旧”和“能力迁移”连起来的?
  • 这个判断迁移到别的问题上,还成立吗?

一个 Skill 真正值钱的地方,不是会重复一句正确的话,而是能在新问题里继续生成同类判断。

所以蒸馏时要盯住的,不是“他说过什么”,而是:

他在不同场景下,反复使用的判断机制是什么。

这也是为什么我们前面一直在反复做一件事:
不是只写样子,而是一直逼它去回答不同题型,看它会不会跑偏。


三、好 Skill 不是文档写得漂亮,而是回答真的更好

这是一个很容易被忽略的问题。

一个 Skill 可以写得非常规范:

  • frontmatter 很完整
  • 章节很工整
  • 模板很漂亮

但这些都不能自动推出一个结论:
它真的有用。

所以判断一个 Skill 好不好,至少要分两层看:

1. 结构质量

也就是它有没有最基本的可运行结构:

  • 角色规则清不清楚
  • 心智模型够不够稳
  • 启发式是不是能执行
  • 来源和边界是不是存在

这个层面很重要,但它只是底座。

2. 实测表现

也就是把它拿去回答真实问题时,它到底有没有表现出 Skill 应该带来的提升。

这才是真正的检验。

我们前面那套方法之所以逐渐收敛,就是因为我们没有只盯着文档本身,而是不断问:

  • 它回答已知问题时,会不会跑偏?
  • 它回答新问题时,还能不能保持这套视角?
  • 它遇到误导性问题时,会不会被带偏?
  • 它和普通助手、和相邻人物相比,到底有没有差异?

如果这些问题答不出来,再漂亮的 SKILL.md 都只是包装。


四、一个好 Skill,至少要过四道关

如果把前面的经验压缩一下,我觉得一个好 Skill 至少要过四道关。

第一关:方向对

也就是它在已知问题上的判断方向,必须和公开材料一致。
如果连这一步都做不到,后面所有细节都没意义。

第二关:迁移稳

也就是它不能只会做熟悉题。
真正的 Skill 不是会背标准答案,而是换一个场景以后,这套判断机制还能继续工作。

第三关:抗误导

用户不会总是把问题问得很标准。
很多时候,用户会逼你:

  • 给唯一答案
  • 给绝对结论
  • 推荐最赚钱工具
  • 用一句话说完复杂问题

如果一个 Skill 一被这样问就开始滑向营销腔、口号腔、装懂腔,那它其实并不稳。

第四关:有辨识度

这是人物 Skill 最难的一关。

因为很多回答会出现一个问题:
说得都对,但谁都能说。

这种回答最大的问题,不是错,而是没有人物性。

所以后来我们才不断补:

  • 非我风格
  • 人物对照
  • 常见起手
  • 常见转折
  • 常见收束

本质上是在解决一个问题:
怎么让它不只是正确,还能明显属于这个人。


五、蒸馏一个好 Skill,最实用的工作流是什么

如果不讲大词,只讲最实用的方法,我现在会把流程概括成下面这几步。

第一步:先做人物或主题拆解

别急着写文档,先拆:

  • 这个 Skill 的核心能力是什么
  • 哪些是表层风格
  • 哪些是底层判断
  • 哪些是它绝不会做的事

如果这一步没拆开,后面很容易写成一团。

第二步:收集公开锚点

这里最重要的不是“资料越多越好”,而是“锚点够不够硬”。

优先级通常应该是:

  1. 一手表达
  2. 长对话
  3. 书籍简介或书摘
  4. 可核对的公开材料
  5. 二手整理稿

如果只有二手转述,没有一手锚点,这个 Skill 上限通常不会太高。

第三步:先写最小可运行版本

不要一开始就想做完美版本。
先把最小结构写出来:

  • 角色规则
  • 核心心智模型
  • 决策启发式
  • 表达 DNA
  • 诚实边界

这是第一版,不是最终版。

第四步:做测试,不做自我感动

测试至少分三类:

  1. 已知问题回放
    看方向是不是对

  2. 迁移问题
    看框架能不能迁移

  3. 反例问题
    看会不会被带偏

如果是人物 Skill,我现在认为还应该再加一类:

  1. 人物区分度测试
    和普通助手、和相邻人物做对照

因为真正麻烦的,不是“错”,而是“越来越像普通助手”。

第五步:只改最低分维度

这是一个特别重要的原则。

Skill 的进化,不应该一轮里到处乱改。
更有效的方法是:

  • 先找最低分维度
  • 一轮只改这一类问题
  • 改完再测
  • 如果分数没上去,就回滚思路

这样做的好处是,改动和结果之间能建立因果关系。


六、什么时候该继续进化,什么时候该收手

这个问题其实比“怎么改”更重要。

因为很多 Skill 最后不是死在第一版太差,而是死在后期过度打磨。

我现在比较相信一个判断:

如果分数还在明显提升,可以继续

比如我们前面那几轮:

  • 72 到 78
  • 78 到 82
  • 82 到 85
  • 85 到 88

这种提升说明,方向还对,信号还有效。

如果一轮只涨 1 分左右,就要开始怀疑边际收益

因为这通常意味着:
你不是没有进步,而是继续只改 prompt,本身已经快到头了

这时候再往上走,通常不该继续堆规则,而应该换资源:

  • 更长 transcript
  • 更完整书摘
  • 更多原话片段
  • 真正多 agent 实跑

也就是说,后续提升开始由“文档优化”转向“语料质量”决定。

所以收手不是因为结束了,而是因为你已经知道:
下一段收益不在这里。


七、最后的判断:什么才叫蒸馏出了一个好 Skill

如果让我给一个简化标准,我会这么说:

一个好 Skill,不是看起来像一个人。
一个好 Skill,是它在面对新问题时,仍然能稳定地产生这个人会产生的那类判断,而且不会轻易被带偏。

更进一步说:

  • 它要有方向
  • 它要能迁移
  • 它要抗误导
  • 它要有辨识度
  • 它要知道自己不知道什么

做到这一步,才算蒸馏出了“能力”。

否则,大多数时候你蒸出来的,只是一个说话习惯。


一句话总结

蒸馏一个好 Skill,本质上不是把一个人“写下来”,而是把他在复杂问题面前反复稳定出现的判断结构、表达机制和边界条件留下来,然后用真实问题一轮一轮逼它证明:它不只是像,而是真的能工作。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐