把一本书蒸馏成AI可调用的技能:仓颉Skill的六阶段知识精馏法
大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。
你有没有这种体验?读完一本好书,当时觉得醍醐灌顶,做了一堆笔记。过了两周想用里面的方法论解决实际问题,发现脑子里只剩一个模糊的印象,具体框架怎么说的完全想不起来。只好重新翻书,花不少时间定位到对应章节。
这跟AI的表现很像。大语言模型在训练阶段把大量经典著作都消化过,但你问它具体问题,它往往给出一堆四平八稳的废话,每个字都正确,就是没法直接用。
最近我在想,能不能换一种思路:不是让AI去"记住"书里的内容,而是让它把书里的方法论提取出来,变成遇到对应场景时可以自动调用的技能包?
从蒸馏一个人到蒸馏一本书
Skill这个概念最近很火。有人把离职同事的工作经验做成skill,让AI继续按他的方式干活。还有人做了"女娲skill",专门蒸馏各个领域顶尖人物——马斯克、芒格、巴菲特的思维方式。
这些做法的核心逻辑是:把隐性知识变成显性的、可被AI执行的程序。我顺着这个逻辑往下想:既然可以蒸馏一个人,为什么不蒸馏他花了大量时间写的书?一本书往往浓缩了作者多年的深度思考和实战经验,经过反复推敲和修订,信息密度比零散的对话高得多。把书里的方法论蒸馏出来,得到的是经过验证的、可落地的经验框架。
于是我动手做了"仓颉Skill"。
名字的由来很简单。传说仓颉观察鸟兽足迹,从纷繁复杂的自然信息中提炼出可复用的符号——文字。仓颉让知识能够被记录和传播,仓颉Skill做的事本质相同:从书本的万千文字中提炼出可被AI执行的技能。
GitHub地址:https://github.com/kangarooking/cangjie-skill
它不是做摘要
这一点必须说清楚。仓颉Skill不是读书笔记工具,不是摘要生成器。它的目标产出是Agent能在真实场景中自动调用的技能单元——每个技能都有触发条件、执行步骤、边界限制和质量校验。
打个比方,RAG(检索增强生成)像是一个图书馆:你得先知道要查什么,才能找到有用的内容。如果你连问题该怎么问都不知道,图书馆帮不了你。Skill则像是一个经验丰富的顾问,你只需要描述当前遇到的困境,他会主动匹配相关的方法论框架,给出可执行的建议。
两者解决的是不同层面的问题。RAG解决知识存储和检索,Skill解决知识在正确时机被正确运用。
六阶段蒸馏流水线
仓颉Skill的核心是一套六阶段的蒸馏标准流程。我先用Claude Code配合Claude Opus设计出这套体系,后来又借鉴了nuwa skill做了升级。具体阶段如下:
第一阶段:整书通读理解。 不是上来就摘金句,而是先摸清整本书的骨架——核心论点是什么,论证链条怎么走,关键术语作者怎么定义的,作者视角有什么盲区。这一步产出的不是知识点,而是对全书结构的宏观理解。
第二阶段:五个Agent并行提取。 同时从五个维度扫描全书文本。一个负责提取思维框架,一个提取原则性结论,一个整理作者案例,一个收集反面教训,一个建立概念词典。五个Agent独立工作互不干扰,最后汇总。
第三阶段:三重验证筛选。 每个候选单元必须通过三道关卡。跨域验证:这个方法论在书中至少两个独立场景中出现过吗?预测力测试:能否用它推导出书中没有直接讨论的问题?独特性检验:是不是放之四海而皆准的常识?三关全过才保留,通不过的直接淘汰,宁缺毋滥。
第四阶段:构造技能单元。 这是难度最大的一步。关键在于设计触发条件——什么场景下应该自动激活,什么场景下不应该被调用。触发条件设计得越精确,技能在实战中的可用性就越高。
第五阶段:关系链接。 找出技能之间的依赖关系、对比关系和组合关系,形成知识网络。有些技能需要组合使用才能发挥作用,有些则在特定条件下互相冲突。
第六阶段:压力测试。 包括诱饵测试——故意提供不该触发的场景,看技能会不会被错误调用。一个没有边界的技能,用错场景比不用还糟糕。
化学里有个概念叫精馏,把混合物按沸点差异分离成纯净组分。仓颉Skill做的事情类似:按框架、原则、案例、反例、术语五个维度把书中的知识分离提纯。所以我把这套方法称为"知识精馏"。
实际蒸馏的效果
我用仓颉Skill蒸馏的第一本书是《认知红利》。
刚开始用Claude Code加Opus跑,结果发现蒸馏过程极其消耗token,Claude Pro的额度根本撑不住。换了Claude Max之后仍然扛不住巨大的消耗量。最终我切换到Claude Code配合GLM-5.1的组合,智谱的Coding Plan在长任务上性价比很高,随便跑都没触及限额。
五个Agent并行扫描完全书后,一共提取出22个候选单元。经过三重验证筛选,最终保留15个可执行的技能,每个都有明确的触发场景、执行步骤和边界限制。
然后我做了一个测试:重新打开一个对话窗口,问"怎么在一年内赚到1000万",并补充了一些个人信息。
结果跟直接问AI完全不同。它自动调用了《认知红利》中多个方法论框架——批发时间、增强循环、复利飞轮,还给出了多维能力模型的组合建议,指出了哪些能力组合能构建市场稀缺性。一步步推导,最后给出了方向性判断和具体的行动路径。
不是说这个方案一定能赚到1000万。关键在于,书里的知识被真正"用"起来了。同一个问题,AI不再是给正确的废话,而是调动具体的方法论框架来分析。
更多实践
之后我又蒸馏了五本书:《穷查理宝典》、《大道:段永平投资问答录》、《不拘一格:网飞的自由与责任工作法》、《巴菲特致股东的信(1957-2024)》。
其中《穷查理宝典》信息密度极高,GLM-5.1跑了一个半小时才完成全部蒸馏。但一个半小时蒸馏出查理·芒格的思维精华并能实际运用,这个投入产出比相当划算。《巴菲特致股东的信》更是蒸馏出了整整20个技能。
另外值得提的一点:每个蒸馏出来的技能都自带测试用例,格式兼容darwin-skill。darwin-skill是一个专门用来自动进化技能的工具,把技能喂给它后会自动评估、改进、测试,分数只升不降。也就是说,蒸馏出来的技能不是静态的,可以持续优化。
Andrej Karpathy最近分享了他的LLM Knowledge Base思路:把原始资料交给LLM编译成wiki,再对wiki做问答,产出的内容回填进去持续增强。仓颉Skill的知识精馏吸收了这个思想中的深度阅读和结构化整理部分,但在此基础上多走了关键的一步——Karpathy的方案是把知识编译成wiki等着你去查,仓颉Skill是把知识提纯成技能在正确的时机主动调用。一个解决知识管理,一个解决知识运用。
注意事项
不是所有书都适合蒸馏。方法论密度高的书效果最好,比如投资类、决策类、管理类的经典著作。金句散文类的书蒸馏出来效果一般,因为可提炼的结构化方法论本身就不多。
蒸馏过程中需要人的参与和判断。最好是先读过一遍原书,这样你才知道哪些方法论是自己看重的,哪些重点区域需要关注。蒸馏不是让AI替你读书,而是让你和AI一起把书中的知识变成可反复调用的工具。
就算AI通过技能给出了建议,你也得有足够的判断力去评估方向是否正确、方案是否可执行。AI越强,对使用者的要求反而越高,因为它能给出更多选项和更复杂的分析,但最终选择和执行仍然是人的事。
不过,蒸馏和使用的过程本身就是一种加速学习。在蒸馏中你会重新审视书里的知识结构,在使用技能建议时会进一步深入思考。这个过程的吸收率比单纯读一遍书要高得多。
蒸馏到第三本的时候我意识到,一个人蒸馏不完所有值得蒸馏的书。所以我把全部内容开源了。
仓颉Skill本体:https://github.com/kangarooking/cangjie-skill
已蒸馏完成的技能包:
• 巴菲特致股东的信:https://github.com/kangarooking/buffett-letters-skill
• 穷查理宝典:https://github.com/kangarooking/poor-charlies-almanack-skill
• 不拘一格:https://github.com/kangarooking/no-rules-rules-skill
使用方式很简单:把仓颉Skill的GitHub地址给你的AI Agent,让它帮你安装即可。你可以直接使用已经蒸馏好的技能包,也可以用仓颉Skill蒸馏自己想读的书,再把成果分享出来。
如果你来蒸馏一本书,你会选哪本?
如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。
知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。
【ima知识库】苍一AI编程

更多推荐



所有评论(0)