具身智能的下一个风口:不是更大模型,而是更聪明的Skill进化机制
过去一年,AI Agent 的讨论里,“更大模型”几乎成了默认答案。
模型越大,推理越强;上下文越长,记忆越多;多模态能力越强,机器人就越接近通用智能。
但最近一批围绕 Agent Skill 的研究和工具,正在给出另一个方向:
真正让 Agent 变强的,不一定是继续堆模型参数,而是让 Agent 拥有一套可以被复用、被验证、被修正、被进化的 Skill 机制。
这个趋势不是凭空冒出来的。
从 Google 和学界早期在具身任务中探索可复用技能、动作原语、程序化策略,到 Voyager 将探索过程沉淀为技能库,再到最新的 SkillEvolver、EmbodiSkill 和达尔文.skill,一条主线越来越清晰:
Agent 的长期进步,不应该只发生在模型权重里,也可以发生在外部 Skill 里。
换句话说,Skill 正在成为 frozen model 的“外部可训练状态”。
模型可以不动,但 Skill 可以持续变聪明。
这篇文章,我们就围绕三个工作,快速看清 Skill 进化机制正在往哪里走。
我整理了 13 个高频科研 skills 及组合使用方法,覆盖文献调研、论文绘图、正文写作、引用检查、审稿回复和论文转 PPT 等完整科研工作流,并准备好了安装包和使用手册,方便直接上手。

关注公-众-号-[LLM炼丹炉],后台回复关键词[B612]
一、SkillEvolver:让 Agent 自己学会写 Skill
论文地址:https://arxiv.org/abs/2605.10500
核心思想:不要让 Agent 只解决任务,而是让 Agent 学会为任务生成一个可复用 Skill。
SkillEvolver本身是一个 meta-skill,也就是“学习技能的技能”。
它会驱动一个 CLI-Agent 完成完整流程:
理解新任务 → 在训练任务上少量探索 → 生成候选 domain skill → 部署给新的 Domain-Skill Agent 使用 → 观察哪里成功、哪里失败 → 对 Skill 做局部修补 → 交给独立 Auditor 审计。
它和传统“从轨迹里总结经验”的最大区别在于:
SkillEvolver 不只看作者 Agent 自己的反思,而是看另一个新 Agent 拿到这个 Skill 后到底怎么用。
这一步非常关键。
因为一个 Skill 文本上看起来正确,真正部署时却可能出现多种问题,其中最典型的问题叫 silent-bypass:
Skill 内容看似有效,但运行时被 Agent 静默绕过。
比如你写了一个“论文图表生成 Skill”,里面有一个很有用的 plot_results.py 脚本,但 SKILL.md 前面堆满背景说明,Agent 没注意到脚本,最后自己手写 matplotlib,结果图画错了。
这种失败只看 Skill 文本很难发现,必须把 Skill 交给新 Agent 实际跑一遍才知道。
核心模块:Contrastive Skill Update:对比成功轨迹和失败轨迹
它会对比成功轨迹和失败轨迹:
成功的 Agent 做对了什么?
失败的 Agent 少了什么?
然后把差异转成对 Skill 的局部补丁,而不是重写整个 Skill。
实验结果:自动生成的Skill,反超人工技能 13.3 %
SkillEvolver 在 83 个 SkillsBench 任务上达到 56.9% avg@5,超过人工策划 Skill 的 43.6% 和无 Skill 的 **29.9%**。
二、EmbodiSkill:不要把执行失败误判成 Skill 错误
论文地址:https://arxiv.org/abs/2605.10332
核心思想:失败轨迹不能直接等于 Skill 错误
EmbodiSkill 面向的是 embodied agent,也就是在物理或模拟环境中完成任务的 Agent。
比如 ALFWorld 里的家务任务:
找到杯子、打开抽屉、放置物品、寻找冰水、给物体加热或冷却、在房间里导航和观察。
这类任务和纯数字环境不同,失败原因非常复杂。
一个 Agent 没完成任务,可能是 Skill 本身错了,也可能是:
- • 没看到目标物体;
- • 行动前置条件没满足;
- • Skill 明明正确,但执行器没有遵循。
所以,失败轨迹不能直接等同于 Skill 错误。
核心模块:四类反思 + Skill body / appendix 分层更新
EmbodiSkill 不会把轨迹粗暴总结成“成功经验”或“失败教训”,而是把轨迹和当前 Skill 对照,判断它属于哪一类:
- 1. Discovery:成功轨迹发现了 Skill 中没有的新内容;
- 2. Optimization:已有 Skill 是对的,但执行方式可以更好;
- 3. Skill Defect:Skill 本身错误、不完整或不够具体;
- 4. Execution Lapse:Skill 是对的,但 Agent 没有遵循。
这个分类非常关键。
如果把 Execution Lapse 错判成 Skill Defect,系统就会把原本正确的 Skill 删除或改坏。
论文里的例子很形象:
任务是“把一瓶冰水放到桌上”。当前 Skill 已经写了:ice water 应该去冰箱找。但 Agent 第一次执行时没有遵循 Skill,反而拿了热水。
普通 skill-unaware evolution 可能会误以为 Skill 错了,于是删掉“去冰箱找冰水”这条正确规则。
EmbodiSkill 则会判断:
这不是 Skill 错,而是执行器没有遵守有效规则。
因此它不会修改 Skill body,而是把这条规则放进 appendix,让后续执行时重点关注。
这就是 EmbodiSkill 的精髓:
该改的改,不该改的强调,不要粗暴重写整个 Skill。
它把 Skill 分成两部分:
- • Skill body:真正的任务规则和流程;
- • Skill appendix:强调那些有效但容易被执行器忽略的内容。
Discovery、Optimization、Skill Defect 会更新 body;Execution Lapse 只更新 appendix。
这样可以避免 Skill 越进化越乱。
实验结果:显著提升具身任务成功率
实验中,EmbodiSkill 在 ALFWorld 上使用 frozen Qwen3.5-27B executor 和 GPT-5.2 skill evolution model,达到 93.28% 任务成功率,显著高于直接无 Skill Agent 和记忆类方法。
三、达尔文.skill:把 Skill 优化做成可测量的棘轮系统
第三个不是论文,而是一个功能化 Skill 项目:达尔文.skill 2.0。
项目地址:https://github.com/xigua0626/darwin-skill-public
核心思想:Skill 优化不能凭感觉,必须可评分、可验证、可回滚
达尔文.skill的定位很明确:
像训练模型一样优化你的 Agent Skills。
达尔文.skill 引入了“棘轮机制”:
- • 每次只改一个 SKILL.md ;
- • 每轮只优化一个维度;
- • 修改后由独立评委评分;
- • 分数提升就保留;
- • 分数下降就 git revert;
- • 单轮涨幅不足就早停;
- • 关键节点必须 human-in-the-loop。
实验结果:
huashu-gpt-image skill:80.8 → 91.5 → 91.65,提升 +10.85。
darwin-skill 自评:86.05 → 92.05 → 92.7。
总结:三条路线,其实拼出了一张 Skill 进化地图
把这三个工作放在一起,会发现它们覆盖了 Skill 生命周期的不同阶段。
1. SkillEvolver:从无到有,生成 Skill
它解决的是:
新任务来了,能不能用少量探索轨迹自动写出一个可复用 Skill?
2. EmbodiSkill:从执行中进化 Skill
它解决的是:
Agent 在具身环境里失败了,到底该改 Skill,还是强调已有 Skill?
3. 达尔文.skill:从可用到可靠,优化 Skill
它解决的是:
已有 Skill 能不能像训练模型一样,有指标、有验证、有回滚地持续变好?
三者放在一起,说明 Agent 研究正在从“更大模型”走向“更聪明的外部进化机制”
下一阶段的 Agent,不只是会调用工具。
它应该会积累技能、修正技能、验证技能,并最终把经验变成可复用的程序性知识。
这可能正是具身智能的下一个风口。
更多推荐



所有评论(0)