来源:arXiv:2606.26669 · 2026年6月25日
论文:SKILL-DISCO: Distilling and Compiling Agent Traces into Reusable Procedural Skills
核心标签:Skill Discovery · Agent Traces · PFSM · Procedural Skills · Reuse


📌 为什么你现在应该读这篇

如果你在做 Agent 技能系统,大概率遇到一个问题:Agent 反复从零开始解决相似任务。用户第一次让 Agent “部署一个 FastAPI 服务到 staging”,Agent 花了 20 步搞定。第二次类似任务,Agent 又从零开始花 20 步——没有从第一次经验中学到任何可复用的东西。

SKILL-DISCO 解决的正是这个问题:从 Agent 的成功执行轨迹中自动蒸馏出可复用的程序化技能。不是手动写 SKILL.md,而是让 Agent 自己"发现"哪些执行模式值得复用,然后编译成可调用、可执行、可验证的技能模块。

三件做 Agent 技能系统的人不能不知道的事:

① 技能 = 参数化控制流子图,不是文本文档

传统技能是"SKILL.md 文本说明"。SKILL-DISCO 的技能是"参数化有限状态机(PFSM)子图"——有状态、有控制流、有参数,可以直接执行。这不是文档,是可运行的程序。

② 蒸馏+编译两阶段:从轨迹提取结构,再编译成可执行技能

蒸馏阶段从成功 trace 中提取可重用的 PFSM 子图;编译阶段将子图编译为可调用、可执行、可验证的技能。两阶段分离让"发现"和"使用"解耦。

③ 和 Skill-to-LoRA 形成互补闭环

Skill-to-LoRA(0625学习)解决"技能文本→参数内化",SKILL-DISCO 解决"执行轨迹→技能发现"。两者结合 = 自动发现技能 + 参数化执行技能 = Agent 自主进化的工程路径。

如果你正在做:(1) Agent 技能管理系统;(2) 经验复用架构;(3) Agent 自主进化机制,下面的细节可以直接搬。


论文元信息

  • 来源:arXiv:2606.26669 · 2026年6月25日
  • 作者:Zhongxin Guo, Danrui Qi, Hanwen Gu, Peng Cheng, Yongqiang Xiong
  • 测试基准:ALFWorld(文本交互式家庭任务)+ WebArena(真实网站交互任务)
  • 核心创新:蒸馏-编译两阶段框架 + PFSM 子图表示

核心场景:你的 Agent 每次都在"重新发明轮子"

想象一下:你的 Agent 在 WebArena 上执行"在电商网站下单"任务。第一次花了 15 步:搜索商品 → 查看详情 → 加入购物车 → 填写地址 → 选择支付 → 确认下单。第二次类似任务又花了 15 步——因为 Agent 没有"下单流程"这个技能概念,每次都要重新规划。

SKILL-DISCO 的做法:从第一次成功的 15 步轨迹中,蒸馏出"电商下单"这个可复用的 PFSM 子图。下次遇到类似任务,直接加载这个技能子图——不需要重新规划,只需要填入新参数(商品名、地址、支付方式)。

蒸馏-编译两阶段框架

Agent 成功执行轨迹
    │
    ▼
┌──────────────────────────────┐
│  阶段一:蒸馏 (Distillation)   │
│                              │
│  · 将轨迹视为转移图中的路径     │
│  · 提取可重用的 PFSM 子图     │
│  · 识别参数化控制流模式        │
│                              │
│  输入:成功 trace             │
│  输出:PFSM 子图              │
└──────────┬───────────────────┘
           │
           ▼
┌──────────────────────────────┐
│  阶段二:编译 (Compilation)    │
│                              │
│  · 将 PFSM 子图编译为技能模块  │
│  · 三大特性:                 │
│    ✅ 可调用 (callable)       │
│    ✅ 可执行 (executable)     │
│    ✅ 可验证 (verifiable)     │
│                              │
│  输入:PFSM 子图              │
│  输出:可复用技能              │
└──────────────────────────────┘

编译后技能的三大特性

特性 说明 价值
可调用 作为模块被 Agent 调用 不需要每次重新规划
可执行 能直接执行具体操作 不只是文档,是可运行的程序
可验证 支持对执行结果验证 确保技能执行正确

与传统技能管理的对比

维度 传统 SKILL.md SKILL-DISCO
技能来源 人工编写 从执行轨迹自动蒸馏
技能格式 文本文档 参数化有限状态机子图
可执行性 ❌ 需 LLM 理解后执行 ✅ 直接可执行
可验证性 ❌ 无 ✅ 支持结果验证
参数化 ❌ 固定文本 ✅ 支持参数注入
发现方式 人工设计 自动发现

实验结果

指标 效果
成功率 📈 显著提升
Agent 执行轮次 📉 明显减少
跨基准泛化 ✅ ALFWorld + WebArena 均有效
跨模型规模 ✅ 不同模型规模均受益

技术细节:技能发现→内化闭环

SKILL-DISCO 和 Skill-to-LoRA(0625学习)形成完整闭环:

Agent 执行任务
    │
    ▼
┌─────────────────────────────┐
│  SKILL-DISCO(发现)         │
│  执行轨迹 → 蒸馏 → PFSM子图  │
│  → 编译 → 可复用技能          │
└──────────┬──────────────────┘
           │
           ▼
┌─────────────────────────────┐
│  Skill-to-LoRA(内化)       │
│  技能文本/子图 → LoRA适配器   │
│  → 参数化行为激活             │
└──────────┬──────────────────┘
           │
           ▼
    下次执行:加载LoRA
    不需要文本注入
    不需要重新规划

这个闭环意味着:Agent 可以自主发现新技能、内化为参数、下次自动使用——不需要人工编写 SKILL.md,不需要每次注入技能文本。这是 Agent 自主进化的工程路径。


So What:三类人的行动清单

🔧 工程师

  1. 记录 Agent 成功执行轨迹 —— 从轨迹中分析重复出现的控制流模式,这些是技能蒸馏的原料
  2. 用 PFSM 子图表示技能 —— 不用纯文本,用参数化状态机。支持参数注入和结果验证
  3. 明天就能做:统计你的 Agent 最频繁重复的任务类型,从最近 10 次成功执行中手动提取公共步骤——这就是蒸馏的简化版

📊 技术管理者

  1. "自动技能发现"是 Agent 进化的关键能力 —— 从"人工设计技能"到"Agent 自动发现技能",是自主性的质变
  2. 技能可验证性是质量保障 —— SKILL-DISCO 的技能支持结果验证,比纯文本技能更可靠
  3. 明天就能做:评估你的 Agent 系统中"重复任务"的占比——如果超过 30%,技能蒸馏的 ROI 很高

🚀 创业者/PM

  1. "技能自动发现+内化"是 Agent 平台的核心竞争力 —— 让 Agent 越用越聪明,而不是每次从零开始
  2. 技能市场可能从"人工编写"转向"Agent 生成" —— Agent 蒸馏的技能可以分享/交易
  3. 明天就能做:在产品路线图中加一个"技能自动化"里程碑——从手动→半自动→全自动技能发现

⚠️ 方法论局限

  1. 蒸馏算法细节不足:摘要仅概述高层思路,子图识别、参数化方法、对齐策略的具体实现需要查阅全文
  2. 代码开源未确认:arXiv 页面未直接展示代码仓库链接
  3. FSM 场景限制:在 FSM 定义的场景中处理,非结构化场景的适用性未知
  4. 技能质量控制:自动蒸馏的技能质量如何保证?错误轨迹是否会蒸馏出错误技能?未讨论

延伸阅读

  • 🔗 论文:https://arxiv.org/abs/2606.26669
  • 📄 互补阅读:论文⑤ Skill-to-LoRA (arXiv:2606.16769) —— SKILL-DISCO 发现技能,S2L 内化技能,形成闭环
  • 📄 互补阅读:论文③ JERP (arXiv:2606.27136) —— JERP 从经验中学习规则,SKILL-DISCO 从轨迹中蒸馏技能,方向一致
  • 📄 实践参考:OpenClaw 的 Skills 体系可参照 SKILL-DISCO 评估"自动技能发现"的升级路径

⏱️ 如果只有 5 分钟:看蒸馏-编译两阶段框架图 + 与传统 SKILL.md 对比表就够了。核心 takeaway 是"技能可以从执行轨迹中自动蒸馏,不需要人工编写"。


路易乔布斯 © 2026 · AI论文观察 · Skill Discovery
arXiv:2606.26669 · 2026.06.28
基于公开论文研读

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐