具身智能的下一个风口：不是更大模型，而是更聪明的Skill进化机制

LLM精进之路

384人浏览 · 2026-06-09 10:34:56

LLM精进之路 · 2026-06-09 10:34:56 发布

过去一年，AI Agent 的讨论里，“更大模型”几乎成了默认答案。

模型越大，推理越强；上下文越长，记忆越多；多模态能力越强，机器人就越接近通用智能。

但最近一批围绕 Agent Skill 的研究和工具，正在给出另一个方向：

真正让 Agent 变强的，不一定是继续堆模型参数，而是让 Agent 拥有一套可以被复用、被验证、被修正、被进化的 Skill 机制。

这个趋势不是凭空冒出来的。

从 Google 和学界早期在具身任务中探索可复用技能、动作原语、程序化策略，到 Voyager 将探索过程沉淀为技能库，再到最新的 SkillEvolver、EmbodiSkill 和达尔文.skill，一条主线越来越清晰：

Agent 的长期进步，不应该只发生在模型权重里，也可以发生在外部 Skill 里。

换句话说，Skill 正在成为 frozen model 的“外部可训练状态”。

模型可以不动，但 Skill 可以持续变聪明。

这篇文章，我们就围绕三个工作，快速看清 Skill 进化机制正在往哪里走。

我整理了 13 个高频科研 skills 及组合使用方法，覆盖文献调研、论文绘图、正文写作、引用检查、审稿回复和论文转 PPT 等完整科研工作流，并准备好了安装包和使用手册，方便直接上手。

关注公-众-号-[LLM炼丹炉]，后台回复关键词[B612]

一、SkillEvolver：让 Agent 自己学会写 Skill

论文地址：https://arxiv.org/abs/2605.10500

核心思想：不要让 Agent 只解决任务，而是让 Agent 学会为任务生成一个可复用 Skill。

SkillEvolver本身是一个 meta-skill，也就是“学习技能的技能”。

它会驱动一个 CLI-Agent 完成完整流程：

理解新任务 → 在训练任务上少量探索 → 生成候选 domain skill → 部署给新的 Domain-Skill Agent 使用 → 观察哪里成功、哪里失败 → 对 Skill 做局部修补 → 交给独立 Auditor 审计。

它和传统“从轨迹里总结经验”的最大区别在于：

SkillEvolver 不只看作者 Agent 自己的反思，而是看另一个新 Agent 拿到这个 Skill 后到底怎么用。

这一步非常关键。

因为一个 Skill 文本上看起来正确，真正部署时却可能出现多种问题，其中最典型的问题叫 silent-bypass：

Skill 内容看似有效，但运行时被 Agent 静默绕过。

比如你写了一个“论文图表生成 Skill”，里面有一个很有用的 plot_results.py 脚本，但 SKILL.md 前面堆满背景说明，Agent 没注意到脚本，最后自己手写 matplotlib，结果图画错了。

这种失败只看 Skill 文本很难发现，必须把 Skill 交给新 Agent 实际跑一遍才知道。

核心模块：Contrastive Skill Update：对比成功轨迹和失败轨迹

它会对比成功轨迹和失败轨迹：

成功的 Agent 做对了什么？

失败的 Agent 少了什么？

然后把差异转成对 Skill 的局部补丁，而不是重写整个 Skill。

实验结果：自动生成的Skill，反超人工技能 13.3 %

SkillEvolver 在 83 个 SkillsBench 任务上达到 56.9% avg@5，超过人工策划 Skill 的 43.6% 和无 Skill 的 **29.9%**。

二、EmbodiSkill：不要把执行失败误判成 Skill 错误

论文地址：https://arxiv.org/abs/2605.10332

核心思想：失败轨迹不能直接等于 Skill 错误

EmbodiSkill 面向的是 embodied agent，也就是在物理或模拟环境中完成任务的 Agent。

比如 ALFWorld 里的家务任务：

找到杯子、打开抽屉、放置物品、寻找冰水、给物体加热或冷却、在房间里导航和观察。

这类任务和纯数字环境不同，失败原因非常复杂。

一个 Agent 没完成任务，可能是 Skill 本身错了，也可能是：

• 没看到目标物体；
• 行动前置条件没满足；
• Skill 明明正确，但执行器没有遵循。

所以，失败轨迹不能直接等同于 Skill 错误。

核心模块：四类反思 + Skill body / appendix 分层更新

EmbodiSkill 不会把轨迹粗暴总结成“成功经验”或“失败教训”，而是把轨迹和当前 Skill 对照，判断它属于哪一类：

1. Discovery：成功轨迹发现了 Skill 中没有的新内容；
2. Optimization：已有 Skill 是对的，但执行方式可以更好；
3. Skill Defect：Skill 本身错误、不完整或不够具体；
4. Execution Lapse：Skill 是对的，但 Agent 没有遵循。

这个分类非常关键。

如果把 Execution Lapse 错判成 Skill Defect，系统就会把原本正确的 Skill 删除或改坏。

论文里的例子很形象：

任务是“把一瓶冰水放到桌上”。当前 Skill 已经写了：ice water 应该去冰箱找。但 Agent 第一次执行时没有遵循 Skill，反而拿了热水。

普通 skill-unaware evolution 可能会误以为 Skill 错了，于是删掉“去冰箱找冰水”这条正确规则。

EmbodiSkill 则会判断：

这不是 Skill 错，而是执行器没有遵守有效规则。

因此它不会修改 Skill body，而是把这条规则放进 appendix，让后续执行时重点关注。

这就是 EmbodiSkill 的精髓：

该改的改，不该改的强调，不要粗暴重写整个 Skill。

它把 Skill 分成两部分：

• Skill body：真正的任务规则和流程；
• Skill appendix：强调那些有效但容易被执行器忽略的内容。

Discovery、Optimization、Skill Defect 会更新 body；Execution Lapse 只更新 appendix。

这样可以避免 Skill 越进化越乱。

实验结果：显著提升具身任务成功率

实验中，EmbodiSkill 在 ALFWorld 上使用 frozen Qwen3.5-27B executor 和 GPT-5.2 skill evolution model，达到 93.28% 任务成功率，显著高于直接无 Skill Agent 和记忆类方法。

三、达尔文.skill：把 Skill 优化做成可测量的棘轮系统

第三个不是论文，而是一个功能化 Skill 项目：达尔文.skill 2.0。

项目地址：https://github.com/xigua0626/darwin-skill-public

核心思想：Skill 优化不能凭感觉，必须可评分、可验证、可回滚

达尔文.skill的定位很明确：

像训练模型一样优化你的 Agent Skills。

达尔文.skill 引入了“棘轮机制”：

• 每次只改一个 SKILL.md ；
• 每轮只优化一个维度；
• 修改后由独立评委评分；
• 分数提升就保留；
• 分数下降就 git revert；
• 单轮涨幅不足就早停；
• 关键节点必须 human-in-the-loop。

实验结果：

huashu-gpt-image skill：80.8 → 91.5 → 91.65，提升 +10.85。

darwin-skill 自评：86.05 → 92.05 → 92.7。

总结：三条路线，其实拼出了一张 Skill 进化地图

把这三个工作放在一起，会发现它们覆盖了 Skill 生命周期的不同阶段。

1. SkillEvolver：从无到有，生成 Skill

它解决的是：

新任务来了，能不能用少量探索轨迹自动写出一个可复用 Skill？

2. EmbodiSkill：从执行中进化 Skill

它解决的是：

Agent 在具身环境里失败了，到底该改 Skill，还是强调已有 Skill？

3. 达尔文.skill：从可用到可靠，优化 Skill

它解决的是：

已有 Skill 能不能像训练模型一样，有指标、有验证、有回滚地持续变好？

三者放在一起，说明 Agent 研究正在从“更大模型”走向“更聪明的外部进化机制”

下一阶段的 Agent，不只是会调用工具。

它应该会积累技能、修正技能、验证技能，并最终把经验变成可复用的程序性知识。

这可能正是具身智能的下一个风口。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

生命涌现的小龙虾技能之【中医体质识别分析工具】舌诊和面诊在火山云ArkClaw的使用教程

龙虾开发者社区

AI-Agent中的系统提示词的作用

本文阐述了AI Agent中系统提示词（System Prompt）的核心作用与重要性。系统提示词作为最高级指令层，定义了Agent的身份角色、行为目标、工具使用规则、推理方式、输出格式、安全边界等关键维度，使其区别于普通聊天模型，能够执行多步骤任务并保持一致性。文章通过典型示例说明，系统提示词实质是Agent的行为控制器与决策框架，决定了其能否真正实现自动化智能工作。