EvoSkills:自进化的skill,是好skill
EvoSkills团队识别出技能生成的两大核心难题:* **单次生成不可靠**:多文件技能包结构复杂,一次性生成容易产生逻辑错误* **反馈信号稀疏**:真实环境中缺乏ground-truth监督信号

核心挑战
EvoSkills团队识别出技能生成的两大核心难题:
- 单次生成不可靠:多文件技能包结构复杂,一次性生成容易产生逻辑错误
- 反馈信号稀疏:真实环境中缺乏ground-truth监督信号
双组件协同架构

EvoSkills框架概览
EvoSkills设计了Skill Generator(技能生成器)与Surrogate Verifier(替代验证器)两个信息隔离的组件:
- Skill Generator负责迭代式技能精炼,维护一个持续累积的上下文对话,包含历史验证反馈。
- 当执行产出输出后,Surrogate Verifier在完全独立的LLM会话中生成测试断言,提供结构化失败诊断。
这种设计避免了自我验证的确认偏误(confirmation bias),确保验证器不会继承生成器的偏见。

渐进式质量提升

进化迭代中的通过率提升
在SkillsBench基准测试上,EvoSkills展现出清晰的进化轨迹:
- 第0轮(基线):32%通过率
- 第3轮:超越人工策划技能(53.5%)
- 第5轮:达到75%通过率
skill质量对比
自进化skill在多数领域优于人工编写的skill
在Claude Opus 4.6 + Claude-Code上,EvoSkills达到 71.1% 通过率,相比:
- 无技能基线(30.6%):+40.5pp
- 人工精选技能(53.5%):+17.6pp
- Skill-Creator基线(34.1%):+37.0pp

跨模型迁移能力
使用Claude Opus 4.6进化的技能迁移到6个不同模型(GPT-5.2, Sonnet 4.5, Haiku 4.5, Qwen3-Coder, DeepSeek V3, Mistral Large 3)后,所**有模型均获得 +35pp至+44pp **的性能提升。即使对于本身能力较弱的模型(如Mistral Large 3基线仅4.9%),应用进化技能后也能达到43.1%。

案例:进化动态分析

详细案例分析显示(如系外行星凌日周期检测任务),EvoSkills能够在进化过程中实现定性方法转变:从最初尝试BLS(Box Least Squares)算法,通过两次75%的ground-truth反馈后,识别出精度限制,最终切换到TLS(Transit Least Squares)算法并引入两阶段搜索策略达成100%通过率。

EvoSkill:基于失败分析的技能发现

三个Agent协作机制
与EvoSkills的双组件设计不同,EvoSkill采用了三智能体架构:

EvoSkill循环概览
- Executor Agent:执行当前程序下的任务
- Proposer Agent:分析执行轨迹与失败案例,提出技能创建或修改建议
- Skill-Builder Agent:将高层提案具体化为结构化的技能文件夹(包含触发元数据、SKILL.md、辅助脚本)
Pareto前沿选择与历史反馈
EvoSkill维护一个容量固定的Pareto前沿(frontier)存储最优程序,通过轮询选择父程序进行突变。Proposer Agent维护累积反馈历史H,记录先前提案的结果与分数变化,避免重复提案并支持对部分成功策略的精细化改进。
跨任务迁移能力
EvoSkill的关键发现是技能级别的优化具有零样本迁移能力:在SealQA上进化的"搜索持久性协议"技能(search-persistence-protocol)未经修改直接应用于BrowseComp任务,仍带来5.3%的准确率提升。

实验结果对比分析
OfficeQA与SealQA上的验证

OfficeQA性能曲线
EvoSkill在OfficeQA(基于财政文档的推理任务)上实现7.3%的精确匹配提升。技能合并配置(merge-unique-skills)通过整合独立运行的发现,达到最佳性能。

训练数据比例
EvoSkills vs EvoSkill 方法论对比与互补性
| 维度 | EvoSkills | EvoSkill |
|---|---|---|
| 核心机制 | 生成器-验证器协同进化 | Proposer-SkillBuilder流水线 |
| 验证方式 | 替代验证器(无ground-truth) | 基于ground-truth的失败分析 |
| 反馈密度 | 每断言反馈 | 每任务反馈 |
| 技能表示 | 多文件包(代码+文档+引用) | 结构化文件夹(SKILL.md+脚本) |
| 选择策略 | 单一技能线迭代 | Pareto前沿多程序维护 |
| 迁移实验 | 跨模型(6个模型) | 跨任务(SealQA→BrowseComp) |
两篇论文虽然标题相似,但提供了互补的解决方案:
- EvoSkills解决了无监督环境下的技能验证问题,通过信息隔离的替代验证器提供密集反馈
- EvoSkill解决了技能发现的策略优化问题,通过历史反馈避免重复错误并支持跨任务迁移
最后
未来研究方向包括扩展到多模态任务、构建共享技能库,以及深化技能在模型间的迁移机制研究。随着这些技术的成熟,我们正迈向一个智能体能够自主扩展其能力边界的时代。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐




所有评论(0)