过去一年,AI Agent 的讨论里,“更大模型”几乎成了默认答案。

模型越大,推理越强;上下文越长,记忆越多;多模态能力越强,机器人就越接近通用智能。

但最近一批围绕 Agent Skill 的研究和工具,正在给出另一个方向:

真正让 Agent 变强的,不一定是继续堆模型参数,而是让 Agent 拥有一套可以被复用、被验证、被修正、被进化的 ​Skill 机制​。

这个趋势不是凭空冒出来的。

从 Google 和学界早期在具身任务中探索可复用技能、动作原语、程序化策略,到 Voyager 将探索过程沉淀为技能库,再到最新的 SkillEvolver、EmbodiSkill 和达尔文.skill,一条主线越来越清晰:

Agent 的长期进步,不应该只发生在模型权重里,也可以发生在外部 Skill 里。

换句话说,Skill 正在成为 frozen model 的“外部可训练状态”。

模型可以不动,但 Skill 可以持续变聪明。

这篇文章,我们就围绕三个工作,快速看清 Skill 进化机制正在往哪里走。


我整理了 13 个高频科研 skills 及组合使用方法,覆盖文献调研、论文绘图、正文写作、引用检查、审稿回复和论文转 PPT 等完整科研工作流,并准备好了安装包和使用手册,方便直接上手。

关注公-众-号-[LLM炼丹炉],后台回复关键词[B612]

一、SkillEvolver:让 Agent 自己学会写 Skill

论文地址:https://arxiv.org/abs/2605.10500

核心思想:不要让 Agent 只解决任务,而是让 Agent 学会为任务生成一个可复用 Skill。

SkillEvolver本身是一个 ​meta-skill​,也就是“学习技能的技能”。

它会驱动一个 CLI-Agent 完成完整流程:

理解新任务 → 在训练任务上少量探索 → 生成候选 domain skill → 部署给新的 Domain-Skill Agent 使用 → 观察哪里成功、哪里失败 → 对 Skill 做局部修补 → 交给独立 Auditor 审计。

它和传统“从轨迹里总结经验”的最大区别在于:

SkillEvolver 不只看作者 Agent 自己的反思,而是看另一个新 Agent 拿到这个 Skill 后到底怎么用。

这一步非常关键。

因为一个 Skill 文本上看起来正确,真正部署时却可能出现多种问题,其中最典型的问题叫 ​silent-bypass​:

Skill 内容看似有效,但运行时被 Agent 静默绕过。

比如你写了一个“论文图表生成 Skill”,里面有一个很有用的 plot_results.py 脚本,但 SKILL.md 前面堆满背景说明,Agent 没注意到脚本,最后自己手写 matplotlib,结果图画错了。

这种失败只看 Skill 文本很难发现,必须把 Skill 交给新 Agent 实际跑一遍才知道。

核心模块:Contrastive Skill Update:对比成功轨迹和失败轨迹

它会对比成功轨迹和失败轨迹:

成功的 Agent 做对了什么?

失败的 Agent 少了什么?

然后把差异转成对 Skill 的局部补丁,而不是重写整个 Skill。

实验结果:自动生成的Skill,反超人工技能 13.3 %

SkillEvolver 在 83 个 SkillsBench 任务上达到 ​56.9% avg@5​,超过人工策划 Skill 的 43.6% 和无 Skill 的 ​**29.9%**​。

二、EmbodiSkill:不要把执行失败误判成 Skill 错误

论文地址:https://arxiv.org/abs/2605.10332

核心思想:失败轨迹不能直接等于 Skill 错误

EmbodiSkill 面向的是 embodied agent,也就是在物理或模拟环境中完成任务的 Agent。

比如 ALFWorld 里的家务任务:

找到杯子、打开抽屉、放置物品、寻找冰水、给物体加热或冷却、在房间里导航和观察。

这类任务和纯数字环境不同,失败原因非常复杂。

一个 Agent 没完成任务,可能是 Skill 本身错了,也可能是:

  • • 没看到目标物体;
  • • 行动前置条件没满足;
  • • Skill 明明正确,但执行器没有遵循。

所以,失败轨迹不能直接等同于 Skill 错误。

核心模块:四类反思 + Skill body / appendix 分层更新

EmbodiSkill 不会把轨迹粗暴总结成“成功经验”或“失败教训”,而是​把轨迹和当前 Skill 对照​,判断它属于哪一类:

  1. 1. ​Discovery​:成功轨迹发现了 Skill 中没有的新内容;
  2. 2. ​Optimization​:已有 Skill 是对的,但执行方式可以更好;
  3. 3. ​Skill Defect​:Skill 本身错误、不完整或不够具体;
  4. 4. ​Execution Lapse​:Skill 是对的,但 Agent 没有遵循。

这个分类非常关键。

如果把 Execution Lapse 错判成 Skill Defect,系统就会把原本正确的 Skill 删除或改坏。

论文里的例子很形象:

任务是“把一瓶冰水放到桌上”。当前 Skill 已经写了:ice water 应该去冰箱找。但 Agent 第一次执行时没有遵循 Skill,反而拿了热水。

普通 skill-unaware evolution 可能会误以为 Skill 错了,于是删掉“去冰箱找冰水”这条正确规则。

EmbodiSkill 则会判断:

这不是 Skill 错,而是执行器没有遵守有效规则。

因此它不会修改 Skill body,而是把这条规则放进 appendix,让后续执行时重点关注。

这就是 EmbodiSkill 的精髓:

该改的改,不该改的强调,不要粗暴重写整个 Skill。

它把 Skill 分成两部分:

  • • ​Skill body​:真正的任务规则和流程;
  • • ​Skill appendix​:强调那些有效但容易被执行器忽略的内容。

Discovery、Optimization、Skill Defect 会更新 body;Execution Lapse 只更新 appendix。

这样可以避免 Skill 越进化越乱。

实验结果:显著提升具身任务成功率

实验中,EmbodiSkill 在 ALFWorld 上使用 frozen Qwen3.5-27B executor 和 GPT-5.2 skill evolution model,达到 93.28% 任务成功率,​显著高于直接无 Skill Agent 和记忆类方法​。

三、达尔文.skill:把 Skill 优化做成可测量的棘轮系统

第三个不是论文,而是一个功能化 Skill 项目:​达尔文.skill 2.0​。

项目地址:https://github.com/xigua0626/darwin-skill-public

核心思想:Skill 优化不能凭感觉,必须可评分、可验证、可回滚

达尔文.skill的定位很明确:

像训练模型一样优化你的 Agent Skills。

达尔文.skill 引入了“棘轮机制”:

  • • 每次只改一个 ​SKILL.md ​​;
  • • 每轮只优化一个维度;
  • • 修改后由独立评委评分;
  • • 分数提升就保留;
  • • 分数下降就 ​git revert​;
  • • 单轮涨幅不足就早停;
  • • 关键节点必须 ​human-in-the-loop​。

实验结果:

huashu-gpt-image skill:80.8 → 91.5 → 91.65,提升 +10.85。

darwin-skill 自评:86.05 → 92.05 → 92.7。

总结:三条路线,其实拼出了一张 Skill 进化地图

把这三个工作放在一起,会发现它们覆盖了 Skill 生命周期的不同阶段。

1. SkillEvolver:从无到有,生成 Skill

它解决的是:

新任务来了,能不能用少量探索轨迹自动写出一个可复用 Skill?

2. EmbodiSkill:从执行中进化 Skill

它解决的是:

Agent 在具身环境里失败了,到底该改 Skill,还是强调已有 Skill?

3. 达尔文.skill:从可用到可靠,优化 Skill

它解决的是:

已有 Skill 能不能像训练模型一样,有指标、有验证、有回滚地持续变好?

三者放在一起,说明 Agent 研究正在从“更大模型”走向“更聪明的外部进化机制”

下一阶段的 Agent,不只是会调用工具。

它应该会积累技能、修正技能、验证技能,并最终把经验变成可复用的程序性知识。

这可能正是具身智能的下一个风口。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐