腾讯：持久决策历史驱动技能演化

大模型任我行

14人浏览 · 2026-06-22 08:00:00

大模型任我行 · 2026-06-22 08:00:00 发布

在这里插入图片描述

📖标题：SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History
🌐来源：arXiv, 2606.08671v1

🛎️文章简介
🔸研究问题：如何让智能体在跨会话开发中持续优化技能而不丢失历史修改依据？
🔸主要贡献：论文提出SkillHone框架，通过持久化决策历史和角色分离机制实现智能体技能的持续演化与维护。

📝重点思路
🔸构建包含技能库与评估库的双仓库架构，将技能修订与评估证据作为决策载体进行结构化存储，而非仅保留最终技能产物。
🔸设计角色分离的子智能体调度机制，优化端负责诊断与修订，评估端运行测试并返回脱敏报告，防止优化过程对评估数据的过拟合。
🔸建立持久决策历史记录，每条记录包含诊断、候选修订、脱敏证据及结果，使后续智能体能追溯变更原因并避免重复无效尝试。
🔸采用按需动态调度模式，子智能体根据权限边界执行特定任务，确保优化与评估的结构性隔离，增强框架在不同运行时环境的可移植性。

🔎分析总结
🔸在GAIA和WebWalkerQA-EN基准测试中，SkillHone生成的技能分别比商业检索支持的深度研究智能体高出15.8分和3.2分。
🔸相比现有技能直接复用、Skill-Creator及Hermes-SE等基线方法，SkillHone在原始开放网络设置下取得了最优平均准确率。
🔸性能提升主要体现在高难度任务上，表明演化后的技能有效改善了复杂问题解决流程，而不仅仅是获取了搜索工具。
🔸优化轨迹分析显示，持久决策历史使系统能在性能回退时精准定位问题并保留有效修改，优于基于标量信号的整体接受或拒绝策略。

💡个人观点
论文将技能演化从单次产物优化转变为基于记忆的持续维护过程，通过结构化保存“为什么改”和“为何被拒”的决策上下文，解决了长周期开发中的上下文遗忘难题。
在这里插入图片描述

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

免环境搭建 OpenClaw 2.7.9 一键部署 AI 自动化体系

龙虾开发者社区

Harness Engineering 是什么？AI Agent 越用越聪明的秘密

龙虾开发者社区

Claude Code Toolkit：让 Claude Code 更顺手的一套配置

《Claude Code Toolkit：提升AI协作效率的配置方案》摘要 Claude Code Toolkit是一套针对Claude Code的扩展工具集，通过模块化设计将常用工作流程系统化。该项目不修改模型底层，而是优化使用方式，包含三大核心组件：Skills（封装领域知识和工作流）、Hooks（事件触发脚本）和Templates（协作配置模板）。目前提供头脑风暴、文档生成等6个预设技能，支