Agent 执行轨迹自动蒸馏成可复用技能：SKILL-DISCO 实现“发现→编译→复用“闭环

qcx23

152人浏览 · 2026-06-30 23:36:01

qcx23 · 2026-06-30 23:36:01 发布

来源：arXiv:2606.26669 · 2026年6月25日
论文：SKILL-DISCO: Distilling and Compiling Agent Traces into Reusable Procedural Skills
核心标签：Skill Discovery · Agent Traces · PFSM · Procedural Skills · Reuse

📌 为什么你现在应该读这篇

如果你在做 Agent 技能系统，大概率遇到一个问题：Agent 反复从零开始解决相似任务。用户第一次让 Agent “部署一个 FastAPI 服务到 staging”，Agent 花了 20 步搞定。第二次类似任务，Agent 又从零开始花 20 步——没有从第一次经验中学到任何可复用的东西。

SKILL-DISCO 解决的正是这个问题：从 Agent 的成功执行轨迹中自动蒸馏出可复用的程序化技能。不是手动写 SKILL.md，而是让 Agent 自己"发现"哪些执行模式值得复用，然后编译成可调用、可执行、可验证的技能模块。

三件做 Agent 技能系统的人不能不知道的事：

① 技能 = 参数化控制流子图，不是文本文档

传统技能是"SKILL.md 文本说明"。SKILL-DISCO 的技能是"参数化有限状态机（PFSM）子图"——有状态、有控制流、有参数，可以直接执行。这不是文档，是可运行的程序。

② 蒸馏+编译两阶段：从轨迹提取结构，再编译成可执行技能

蒸馏阶段从成功 trace 中提取可重用的 PFSM 子图；编译阶段将子图编译为可调用、可执行、可验证的技能。两阶段分离让"发现"和"使用"解耦。

③ 和 Skill-to-LoRA 形成互补闭环

Skill-to-LoRA（0625学习）解决"技能文本→参数内化"，SKILL-DISCO 解决"执行轨迹→技能发现"。两者结合 = 自动发现技能 + 参数化执行技能 = Agent 自主进化的工程路径。

如果你正在做：(1) Agent 技能管理系统；(2) 经验复用架构；(3) Agent 自主进化机制，下面的细节可以直接搬。

论文元信息

来源：arXiv:2606.26669 · 2026年6月25日
作者：Zhongxin Guo, Danrui Qi, Hanwen Gu, Peng Cheng, Yongqiang Xiong
测试基准：ALFWorld（文本交互式家庭任务）+ WebArena（真实网站交互任务）
核心创新：蒸馏-编译两阶段框架 + PFSM 子图表示

核心场景：你的 Agent 每次都在"重新发明轮子"

想象一下：你的 Agent 在 WebArena 上执行"在电商网站下单"任务。第一次花了 15 步：搜索商品 → 查看详情 → 加入购物车 → 填写地址 → 选择支付 → 确认下单。第二次类似任务又花了 15 步——因为 Agent 没有"下单流程"这个技能概念，每次都要重新规划。

SKILL-DISCO 的做法：从第一次成功的 15 步轨迹中，蒸馏出"电商下单"这个可复用的 PFSM 子图。下次遇到类似任务，直接加载这个技能子图——不需要重新规划，只需要填入新参数（商品名、地址、支付方式）。

蒸馏-编译两阶段框架

Agent 成功执行轨迹
    │
    ▼
┌──────────────────────────────┐
│  阶段一：蒸馏 (Distillation)   │
│                              │
│  · 将轨迹视为转移图中的路径     │
│  · 提取可重用的 PFSM 子图     │
│  · 识别参数化控制流模式        │
│                              │
│  输入：成功 trace             │
│  输出：PFSM 子图              │
└──────────┬───────────────────┘
           │
           ▼
┌──────────────────────────────┐
│  阶段二：编译 (Compilation)    │
│                              │
│  · 将 PFSM 子图编译为技能模块  │
│  · 三大特性：                 │
│    ✅ 可调用 (callable)       │
│    ✅ 可执行 (executable)     │
│    ✅ 可验证 (verifiable)     │
│                              │
│  输入：PFSM 子图              │
│  输出：可复用技能              │
└──────────────────────────────┘

编译后技能的三大特性

特性	说明	价值
可调用	作为模块被 Agent 调用	不需要每次重新规划
可执行	能直接执行具体操作	不只是文档，是可运行的程序
可验证	支持对执行结果验证	确保技能执行正确

与传统技能管理的对比

维度	传统 SKILL.md	SKILL-DISCO
技能来源	人工编写	从执行轨迹自动蒸馏
技能格式	文本文档	参数化有限状态机子图
可执行性	❌ 需 LLM 理解后执行	✅ 直接可执行
可验证性	❌ 无	✅ 支持结果验证
参数化	❌ 固定文本	✅ 支持参数注入
发现方式	人工设计	自动发现

实验结果

指标	效果
成功率	📈 显著提升
Agent 执行轮次	📉 明显减少
跨基准泛化	✅ ALFWorld + WebArena 均有效
跨模型规模	✅ 不同模型规模均受益

技术细节：技能发现→内化闭环

SKILL-DISCO 和 Skill-to-LoRA（0625学习）形成完整闭环：

Agent 执行任务
    │
    ▼
┌─────────────────────────────┐
│  SKILL-DISCO（发现）         │
│  执行轨迹 → 蒸馏 → PFSM子图  │
│  → 编译 → 可复用技能          │
└──────────┬──────────────────┘
           │
           ▼
┌─────────────────────────────┐
│  Skill-to-LoRA（内化）       │
│  技能文本/子图 → LoRA适配器   │
│  → 参数化行为激活             │
└──────────┬──────────────────┘
           │
           ▼
    下次执行：加载LoRA
    不需要文本注入
    不需要重新规划

这个闭环意味着：Agent 可以自主发现新技能、内化为参数、下次自动使用——不需要人工编写 SKILL.md，不需要每次注入技能文本。这是 Agent 自主进化的工程路径。