一、研究背景与问题

  • 现状:现有LLM智能体(Agent)在执行复杂任务时,常使用“技能”(Skill)作为可重用的过程性知识。但技能的创建、优化和选择通常由外部教师、人工规则或辅助模块管理,智能体本身只是被动调用技能,不具备自主掌握和演化技能的能力。
  • 挑战
    1. 技能由外部管理,智能体未内化技能掌握能力。
    2. 技能质量难以评估:仅靠任务成功/失败的稀疏奖励无法判断某个具体技能编辑是否有用。
    3. 任务执行与技能管理的联合优化困难:二者优化目标不同,容易相互干扰,训练不稳定。
      intro

二、SKILLMASTER框架

提出 SKILLMASTER,使LLM智能体能够自主地创建、更新和选择技能,将技能管理作为可学习的RL目标。

  1. 轨迹引导的技能审查(Trajectory-informed Skill Review)

    • 每个episode分为两个阶段:
      • 执行阶段(Acting Phase):智能体使用检索到的技能与环境交互,收集轨迹。
      • 技能掌握阶段(Skill-Mastery Phase):智能体根据任务、轨迹、结果,通过工具调用(propose_skill / update_skill / keep_skill)自主管理技能库。
    • 实现了任务执行与技能管理的端到端统一。
  2. 反事实效用奖励(Counterfactual Utility Reward)
    高质量技能应带来两个可测效果——提高先前失败任务的成功率,以及减少已成功任务的执行步数。

  • 每次技能修改时,选取 K K K 个相关探针任务(probe tasks)。
  • 比较原技能库与修改后技能库在探针任务上的表现,计算得分(成功+效率)。
  • 效用奖励 R utility = δ ˉ + α ⋅ w − ℓ K R_{\text{utility}} = \bar{\delta} + \alpha \cdot \frac{w - \ell}{K} Rutility=δˉ+αKw(平均改进幅度 + 方向一致性项)。
  • 总技能奖励: R skill = R format + R utility R_{\text{skill}} = R_{\text{format}} + R_{\text{utility}} Rskill=Rformat+Rutility
  1. DualAdv-GRPO:解耦的异质阶段优化
    标准GRPO假设所有奖励同尺度,但SKILLMASTER中执行阶段奖励(二元环境奖励)与技能掌握阶段奖励(连续效用奖励)性质不同。
  • 分别计算两类奖励的均值和标准差,得到归一化优势 A act A_{\text{act}} Aact A skill A_{\text{skill}} Askill
  • 按token类型分配优势:执行阶段token使用 A act A_{\text{act}} Aact,技能掌握阶段token使用 γ ⋅ A skill \gamma \cdot A_{\text{skill}} γAskill
  • 统一使用PPO-clip目标进行联合优化。

三、实验

3.1 设置

  • 环境
    • ALFWorld:具身家庭操作任务,6个任务族(Pick, Look, Clean, Heat, Cool, Pick Two)。
    • WebShop:在线购物任务,需要多步搜索与购买。
  • 基模型:Qwen2.5-7B-Instruct
  • 基线:闭源LLM(GPT-4o, Gemini-2.5-Pro)、提示型智能体(ReAct, Reflexion等)、记忆增强方法(Mem0, ExpeL等)、纯RL方法(RLOO, GRPO)、记忆增强RL方法(MemRL, EvolveR等)、以及最相关的教师驱动技能演化基线SKILLRL。
  • 实现细节:GRPO组大小G=8,KL系数0.01,学习率1e-6,8×A100 GPU,探针数K=4,α=0.3。

3.2 主要结果

方法 ALFWorld平均成功率 WebShop成功率 WebShop得分
SKILLRL(最强基线) 89.9% 72.7% 85.2
SKILLMASTER 98.7% (+8.8%) 82.0% (+9.3%) 95.0
  • 在ALFWorld的6个任务族中,4个达到100%成功率,剩余两个 >95%。
  • 性能提升广泛分布,未出现特定任务过拟合。

3.3 消融与分析

  1. 消融实验(图3a)

    • 移除效用奖励 → 性能明显下降(说明反事实评估至关重要)。
    • 替换为单优势归一化 → 性能下降(证明DualAdv解耦的必要性)。
    • 随机探针 vs 同族探针 → 随机探针效果差(需相关任务来评估技能迁移)。
    • 移除冷启动SFT → 最大性能下降(初始工具使用能力很重要)。
  2. 技能内化分析(图3b)

    • SKILLMASTER在测试时不检索技能,仅靠策略参数仍能达到与检索时相近的性能(整体仅差0.7%),且在4个任务族上零差距。
    • 说明技能掌握过程促使智能体将过程性知识内化到模型参数中,降低对显式技能库的依赖。
      framework
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐