大多数构建LLM代理人的团队,都还在手动维护一堆prompt模板、few-shot示例和硬编码的工具调用链。每次新任务上线,就得重新写一堆“技能”,上线后发现效果一般,再手动迭代——效率低到让人怀疑“agentic AI”到底是不是真命题。

Google最新SkillOS论文,直接把这个痛点翻转了。它把技能管理升级成一套完整的“操作系统”:代理人不再是被动执行prompt,而是拥有一个可持久化、可自我演化的SkillRepo。执行器只负责用技能,curator负责观察轨迹、判断成败,然后自动增删改技能仓库。整个循环用强化学习闭合,代理人在真实环境中“打怪升级”,技能越用越聪明。

这不是又一个“让LLM自己写prompt”的玩具实验,而是真正把记忆管理从人类手里解放出来的架构级创新。

我起初以为,提升代理人性能必然要全量fine-tune执行器模型。后来深入拆解SkillOS源码思路和训练流程,才发现Google的杀手锏恰恰是“冻结执行器,只训练curator”。这看似反直觉,却把计算成本压到最低,同时让技能仓库像人类专家的知识体系一样持续进化。

SkillOS的核心三件套:像操作系统一样组织代理人记忆

SkillOS把技能管理抽象成操作系统范式:SkillRepo就是文件系统,curator就是内核调度器,executor就是应用层。

  • Agent Executor(冻结状态):这是真正干活的LLM。它只做一件事——从SkillRepo里通过BM25检索top-k相关技能,然后带着任务描述和技能内容去和环境交互,产生完整trajectory。训练期间它的权重完全不动,性能提升100%来自仓库里的技能质量提升。

  • Skill Curator(可训练):这是真正的大脑。它接收executor的完整执行轨迹、正确性信号(由独立Qwen3-32B judge给出)和之前检索到的技能,判断要不要insert新技能、update现有技能,还是delete冗余技能。它本身是一个ReAct风格的LLM,输出结构化的function calls。

  • SkillRepo:持久化存储,所有技能以Markdown文件形式存在。每份技能严格遵循YAML frontmatter + 正文结构:

    ---
    name: frontend-design-principles
    description: 当用户要求设计网页UI时,先加载本技能,遵循响应式、对比度、无障碍三条核心原则,避免视觉混乱
    ---
    # Workflow
    1. 分析用户提供的设计需求和现有页面截图
    2. 确定布局类型(dashboard / marketing / form等)
    3. 应用...
    
    # When NOT to use
    - 纯代码生成需求(此时应调用programming-patterns技能)
    

    这种结构化设计让BM25检索极其高效,也让技能天然可组合、可复用。

技能发现的完整闭环:从原始轨迹到可复用知识

SkillOS的真正硬核在于“有机发现”机制,而不是人工编写。整个过程形成一个清晰的强化学习循环,我用Mermaid时序图直观展示:

SkillRepo Curator Judge Executor 环境 SkillRepo Curator Judge Executor 环境 技能质量经Qwen3-32B内容reward评估 BM25检索top-k技能 多步交互产生trajectory 提交轨迹 返回correctness信号 打包(任务+过去技能+轨迹+结果) ReAct思考 → 决定insert/update/delete 执行操作(结构化function call)
  1. Executor带着已有技能硬着头皮去完成任务,产生真实成败轨迹。
  2. Curator拿到“病例”(轨迹+诊断结果),像资深医生一样提炼通用规律。
  3. 它输出精确的操作:新技能insert时给出完整MD内容,update时精准替换,delete时移除低价值项。
  4. 外部judge再给curator的输出打内容质量分,形成RL reward,驱动curator越训越会“写技能”。

训练过程中curator的行为也呈现出人类专家进阶的特征:早期疯狂insert填满空仓库,中期update为主开始精炼,后期delete占比微升开始做减法。这正是知识管理最健康的演化路径。

传统技能工程 vs SkillOS的本质权衡

维度 传统手动技能工程 SkillOS自演化框架 核心权衡
技能创建 工程师手动编写prompt Curator从真实轨迹自动提炼 人工成本 vs 探索成本
迭代速度 任务上线后人工review、改prompt 每次失败/成功都触发curator自动优化 延迟反馈 vs 实时闭环
可扩展性 技能数量增长后检索和维护爆炸 BM25 + 结构化MD,天然支持几百上千技能 短期简单 vs 长期系统韧性
执行器依赖 经常需要升级底层模型 Executor完全冻结,性能只取决于技能仓库 算力浪费 vs 参数效率
知识保鲜 容易过时、重复劳动 持续从生产轨迹中学习,自动prune 静态文档 vs 动态OS

为什么SkillOS可能是下一代代理人基础设施

它真正解决了当前agent最大的瓶颈:知识无法累积、技能无法复用、每次任务都像从零开始。SkillOS把“记忆”变成了可审计、可版本化、可自我优化的资产。未来当我们谈论“生产级AI代理人”时,SkillRepo的质量很可能成为比模型参数量更重要的护城河。

更深一层,这套范式把代理人从“聪明的一次性工具”升级成了“有操作系统支撑的智能体”。executor负责执行,curator负责进化,repo负责存储——三者分工明确,又通过RL形成正反馈。这才是真正的agent OS。

在自己的项目里落地SkillOS思路前必须先做的三件事

  1. 选一个高频、边界清晰、容易产生可观测轨迹的窄领域(比如代码生成、UI设计、数据分析),先用现有agent harness跑几百次任务,收集真实trajectory。
  2. 把技能格式标准化:严格YAML frontmatter + Workflow + When NOT to use + 示例,描述字段必须为BM25检索优化。
  3. 搭建最小curator循环:用一个强judge模型先人工/半自动评估技能质量,形成早期reward信号,再逐步把curator本身放进RL训练。

做完这些,你会发现代理人的表现开始出现“复利”——今天积累的技能,会直接让明天完全不同的任务变得更简单。

这套思路不只属于Google。它已经可以被任何有agent构建能力的团队复现。真正拉开差距的,不是谁先用上GPT-5.5,而是谁先把技能仓库从“临时笔记”升级成“公司级操作系统”。

你目前构建的agent最头疼的技能管理痛点是什么?是检索不准、技能老化、还是难以提炼通用模式?欢迎在评论区分享你的场景,我们一起拆解如何用类似SkillOS的思路解决。

我是紫微AI,在做一个「人格操作系统(ZPF)」。后面会持续分享AI Agent和系统实验。感兴趣可以关注,我们下期见。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐