【SkillMaster】Toward Autonomous Skill Mastery in LLM Agents
·
一、研究背景与问题
- 现状:现有LLM智能体(Agent)在执行复杂任务时,常使用“技能”(Skill)作为可重用的过程性知识。但技能的创建、优化和选择通常由外部教师、人工规则或辅助模块管理,智能体本身只是被动调用技能,不具备自主掌握和演化技能的能力。
- 挑战:
- 技能由外部管理,智能体未内化技能掌握能力。
- 技能质量难以评估:仅靠任务成功/失败的稀疏奖励无法判断某个具体技能编辑是否有用。
- 任务执行与技能管理的联合优化困难:二者优化目标不同,容易相互干扰,训练不稳定。

二、SKILLMASTER框架
提出 SKILLMASTER,使LLM智能体能够自主地创建、更新和选择技能,将技能管理作为可学习的RL目标。
-
轨迹引导的技能审查(Trajectory-informed Skill Review)
- 每个episode分为两个阶段:
- 执行阶段(Acting Phase):智能体使用检索到的技能与环境交互,收集轨迹。
- 技能掌握阶段(Skill-Mastery Phase):智能体根据任务、轨迹、结果,通过工具调用(propose_skill / update_skill / keep_skill)自主管理技能库。
- 实现了任务执行与技能管理的端到端统一。
- 每个episode分为两个阶段:
-
反事实效用奖励(Counterfactual Utility Reward)
高质量技能应带来两个可测效果——提高先前失败任务的成功率,以及减少已成功任务的执行步数。
- 每次技能修改时,选取 K K K 个相关探针任务(probe tasks)。
- 比较原技能库与修改后技能库在探针任务上的表现,计算得分(成功+效率)。
- 效用奖励 R utility = δ ˉ + α ⋅ w − ℓ K R_{\text{utility}} = \bar{\delta} + \alpha \cdot \frac{w - \ell}{K} Rutility=δˉ+α⋅Kw−ℓ(平均改进幅度 + 方向一致性项)。
- 总技能奖励: R skill = R format + R utility R_{\text{skill}} = R_{\text{format}} + R_{\text{utility}} Rskill=Rformat+Rutility。
- DualAdv-GRPO:解耦的异质阶段优化
标准GRPO假设所有奖励同尺度,但SKILLMASTER中执行阶段奖励(二元环境奖励)与技能掌握阶段奖励(连续效用奖励)性质不同。
- 分别计算两类奖励的均值和标准差,得到归一化优势 A act A_{\text{act}} Aact 和 A skill A_{\text{skill}} Askill。
- 按token类型分配优势:执行阶段token使用 A act A_{\text{act}} Aact,技能掌握阶段token使用 γ ⋅ A skill \gamma \cdot A_{\text{skill}} γ⋅Askill。
- 统一使用PPO-clip目标进行联合优化。
三、实验
3.1 设置
- 环境:
- ALFWorld:具身家庭操作任务,6个任务族(Pick, Look, Clean, Heat, Cool, Pick Two)。
- WebShop:在线购物任务,需要多步搜索与购买。
- 基模型:Qwen2.5-7B-Instruct
- 基线:闭源LLM(GPT-4o, Gemini-2.5-Pro)、提示型智能体(ReAct, Reflexion等)、记忆增强方法(Mem0, ExpeL等)、纯RL方法(RLOO, GRPO)、记忆增强RL方法(MemRL, EvolveR等)、以及最相关的教师驱动技能演化基线SKILLRL。
- 实现细节:GRPO组大小G=8,KL系数0.01,学习率1e-6,8×A100 GPU,探针数K=4,α=0.3。
3.2 主要结果
| 方法 | ALFWorld平均成功率 | WebShop成功率 | WebShop得分 |
|---|---|---|---|
| SKILLRL(最强基线) | 89.9% | 72.7% | 85.2 |
| SKILLMASTER | 98.7% (+8.8%) | 82.0% (+9.3%) | 95.0 |
- 在ALFWorld的6个任务族中,4个达到100%成功率,剩余两个 >95%。
- 性能提升广泛分布,未出现特定任务过拟合。
3.3 消融与分析
-
消融实验(图3a)
- 移除效用奖励 → 性能明显下降(说明反事实评估至关重要)。
- 替换为单优势归一化 → 性能下降(证明DualAdv解耦的必要性)。
- 随机探针 vs 同族探针 → 随机探针效果差(需相关任务来评估技能迁移)。
- 移除冷启动SFT → 最大性能下降(初始工具使用能力很重要)。
-
技能内化分析(图3b)
- SKILLMASTER在测试时不检索技能,仅靠策略参数仍能达到与检索时相近的性能(整体仅差0.7%),且在4个任务族上零差距。
- 说明技能掌握过程促使智能体将过程性知识内化到模型参数中,降低对显式技能库的依赖。

更多推荐




所有评论(0)