【SkillMaster】Toward Autonomous Skill Mastery in LLM Agents

2201_75464249

391人浏览 · 2026-05-18 20:40:56

2201_75464249 · 2026-05-18 20:40:56 发布

目录

一、研究背景与问题
二、SKILLMASTER框架
三、实验

一、研究背景与问题

现状：现有LLM智能体（Agent）在执行复杂任务时，常使用“技能”（Skill）作为可重用的过程性知识。但技能的创建、优化和选择通常由外部教师、人工规则或辅助模块管理，智能体本身只是被动调用技能，不具备自主掌握和演化技能的能力。
挑战：
1. 技能由外部管理，智能体未内化技能掌握能力。
2. 技能质量难以评估：仅靠任务成功/失败的稀疏奖励无法判断某个具体技能编辑是否有用。
3. 任务执行与技能管理的联合优化困难：二者优化目标不同，容易相互干扰，训练不稳定。

二、SKILLMASTER框架

提出 SKILLMASTER，使LLM智能体能够自主地创建、更新和选择技能，将技能管理作为可学习的RL目标。

轨迹引导的技能审查（Trajectory-informed Skill Review）
- 每个episode分为两个阶段：
  - 执行阶段（Acting Phase）：智能体使用检索到的技能与环境交互，收集轨迹。
  - 技能掌握阶段（Skill-Mastery Phase）：智能体根据任务、轨迹、结果，通过工具调用（propose_skill / update_skill / keep_skill）自主管理技能库。
- 实现了任务执行与技能管理的端到端统一。
反事实效用奖励（Counterfactual Utility Reward）
高质量技能应带来两个可测效果——提高先前失败任务的成功率，以及减少已成功任务的执行步数。

每次技能修改时，选取 $K$ 个相关探针任务（probe tasks）。
比较原技能库与修改后技能库在探针任务上的表现，计算得分（成功+效率）。
效用奖励 $R_{\text{utility}} = \bar{\delta} + \alpha \cdot \frac{w - \ell}{K}$ （平均改进幅度 + 方向一致性项）。
总技能奖励： $R_{\text{skill}} = R_{\text{format}} + R_{\text{utility}}$ 。

DualAdv-GRPO：解耦的异质阶段优化
标准GRPO假设所有奖励同尺度，但SKILLMASTER中执行阶段奖励（二元环境奖励）与技能掌握阶段奖励（连续效用奖励）性质不同。

分别计算两类奖励的均值和标准差，得到归一化优势 $A_{\text{act}}$ 和 $A_{\text{skill}}$ 。
按token类型分配优势：执行阶段token使用 $A_{\text{act}}$ ，技能掌握阶段token使用 $\gamma \cdot A_{\text{skill}}$ 。
统一使用PPO-clip目标进行联合优化。

三、实验

3.1 设置

环境：
- ALFWorld：具身家庭操作任务，6个任务族（Pick, Look, Clean, Heat, Cool, Pick Two）。
- WebShop：在线购物任务，需要多步搜索与购买。
基模型：Qwen2.5-7B-Instruct
基线：闭源LLM（GPT-4o, Gemini-2.5-Pro）、提示型智能体（ReAct, Reflexion等）、记忆增强方法（Mem0, ExpeL等）、纯RL方法（RLOO, GRPO）、记忆增强RL方法（MemRL, EvolveR等）、以及最相关的教师驱动技能演化基线SKILLRL。
实现细节：GRPO组大小G=8，KL系数0.01，学习率1e-6，8×A100 GPU，探针数K=4，α=0.3。

3.2 主要结果

方法	ALFWorld平均成功率	WebShop成功率	WebShop得分
SKILLRL（最强基线）	89.9%	72.7%	85.2
SKILLMASTER	98.7% (+8.8%)	82.0% (+9.3%)	95.0

在ALFWorld的6个任务族中，4个达到100%成功率，剩余两个 >95%。
性能提升广泛分布，未出现特定任务过拟合。

3.3 消融与分析

消融实验（图3a）
- 移除效用奖励 → 性能明显下降（说明反事实评估至关重要）。
- 替换为单优势归一化 → 性能下降（证明DualAdv解耦的必要性）。
- 随机探针 vs 同族探针 → 随机探针效果差（需相关任务来评估技能迁移）。
- 移除冷启动SFT → 最大性能下降（初始工具使用能力很重要）。
技能内化分析（图3b）
- SKILLMASTER在测试时不检索技能，仅靠策略参数仍能达到与检索时相近的性能（整体仅差0.7%），且在4个任务族上零差距。
- 说明技能掌握过程促使智能体将过程性知识内化到模型参数中，降低对显式技能库的依赖。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

cover

从45天到15分钟的工程质变：深度拆解萤石开放平台2.0如何打破IoT低效开发魔咒

龙虾开发者社区

cover

2026 年 6 月：7 个值得关注的开源 AI Agent 项目

龙虾开发者社区

cover

OpenClaw 网关离线、无法控机？排查方法与修复技巧

龙虾开发者社区

所有评论(0)

查看更多评论

2201_75464249

已为社区贡献1条内容