用观察者Skill自动优化你的Agent能力，让AI越用越强（收藏版）

编程唐小宝

10人浏览 · 2026-06-27 14:34:39

编程唐小宝 · 2026-06-27 14:34:39 发布

本文介绍了如何通过构建一个“观察者Skill”来评估和迭代改进另一个Skill，使Agent的能力随着使用而增强。文章以网站迁移Skill为例，详细阐述了内层循环与外层循环的概念，以及观察者Skill如何通过自动化质检、综合分析结果并生成改进方案，从而实现Skill的自我优化。同时，文章还讨论了该方法的适用边界和实施步骤，为想要提升AI能力的程序员和小白提供了一种实用的工程实践参考。

本文整理自 Warp 创始人分享的一个工程实践：如何用”观察者 Skill”自动评估并迭代改进另一个 Skill，让 Agent 的能力越用越强，而不是一次性交付后就放在那里”等老化”。

一、为什么 Skill 需要”自优化”

如果你已经在用 Claude / Warp 这类支持 Skill（技能包）机制的 Agent，大概都遇到过这种情况：

写好一个 Skill，跑一次效果不错，但总有些边缘案例翻车——可能是某个图标没渲染出来，可能是某段逻辑在特定输入下走偏。传统做法是人工发现问题、人工改 Skill 的文档/脚本，下次再跑。

但这件事本质上是可以自动化的：只要任务的产出存在明确的”验证标准”（能跑通、能对比、能打分），就可以把”评估—发现问题—改进”这个循环交给另一个 Agent 来做。

这就是本文要讲的”Skill 优化闭环”。

二、案例背景：网站迁移 Skill

文章作者举的例子很具体：他们做了一个名为 /replatform-site 的 Skill，作用是把跑在 WYSIWYG 无代码建站平台上的网站，自动迁移成可以自托管的代码项目（比如部署到 Vercel）。

他拿自己新搭的播客网站做了次实测：原站在某无代码平台上，迁移后的版本部署在 Vercel。整体迁移效果不错，但有一个明显的视觉缺陷——页面里几个下拉菜单的图标丢失了。

这种”基本能跑、但有具体的、可对比的瑕疵”的场景，正是构建优化闭环的最佳土壤。

三、核心思路：内层循环 vs 外层循环

这里有一个很关键的概念区分，决定了你应该优化”这一次任务”，还是优化”这个 Skill 本身”：

‎内层循环（Inner Loop）：针对这一次具体的迁移任务做修复，确保这个网站迁移成功、没有瑕疵。这是”把这件事做对”。
‎外层循环（Outer Loop）：针对 Skill 本身做迭代，让它下一次执行同类任务时，从一开始就表现得更好。这是”让这个能力变得更强”。

本文聚焦的是外层循环——也就是怎么让 Skill 自己越用越准。

四、具体做法：用一个”观察者 Skill”去评估并修改另一个 Skill

整套机制的设计模式是：创建一个”observer（观察者）Skill”，专门负责给”inner（内层）Skill”打分、找问题、生成改进方案。

具体执行链路是这样的：

1. 观察者 Skill 接收一批测试输入

比如这里是 N 个待迁移的网站列表。数量可以根据你想要的覆盖面去调整——做小范围验证用几个站点即可，要打磨出一个能广泛复用的 Skill，就要扩大样本量。

2. 调用内层 Skill，批量执行任务

观察者 Skill 会依次（或并行）调用 /replatform-site，对列表里的每个网站执行真实的迁移操作。

3. 用 Computer Use + Browser Use 做自动化质检

这一步是整个闭环里最关键的技术细节：观察者会把迁移后的网站实际构建起来，然后通过 computer use（计算机操作）和 browser use（浏览器操作）能力，去打开原站和迁移后的站点做对比，检查：

‎视觉差异：截图比对，看排版、图标、样式是否一致；
‎行为差异：交互是否正常（比如下拉菜单能不能正常展开）。

同时，它还会记录每次迁移消耗的 token 数量，把”质量”和”成本”放在一起权衡——目标不是无脑堆资源去做到完美，而是在保证质量的前提下尽量压低成本。

4. 用 SOTA 模型做结果综合分析

把每一轮的检测结果（结构化数据）喂给一个能力更强的模型，让它去：

总结出有共性的失败模式（比如”图标类资源经常迁移失败”）；
找到可以改进的具体切入点。

这里有个细节值得注意：观察者 Skill 输出的是结构化数据，而不是一段模糊的文字总结。这样才能让后续做分析和建议的模型拿到足够精确的信息，给出有针对性的修复方案，而不是泛泛而谈。

5. 生成 Diff，自动改进内层 Skill

因为 Skill 本质上就是一组文件（Prompt、脚本、配置等），所以”改进 Skill”这件事，和”改代码”没有本质区别——可以让任意一个编程 Agent（文章里用的是 Warp）直接对 Skill 的源文件生成 diff，甚至提交 PR。

在实际跑下来的案例里，观察者 Skill 准确定位到了”下拉菜单图标丢失”这个问题，并针对性地生成了一版修复 /replatform-site 的改动。

6. 重复，直到收益递减

如果你想把这个 Skill 打磨到能支撑更大规模的实际使用，可以扩大测试样本，持续跑这个循环，直到观察者每次给出的 diff 变得越来越”无关紧要”——这通常意味着 Skill 已经收敛到一个比较稳定的状态。

很重要的一点是：观察者 Skill 内置了退出条件（exit criteria）。不是无限循环跑下去烧 token，而是设定明确的停止标准，避免过度优化、浪费资源。

五、整体架构图

六、落地这套方案需要的基础设施

要把这个闭环真正跑起来，有两个硬性前提：

‎支持多 Agent 编排的平台：观察者 Skill 本身要能调度内层 Skill、调度评分模型、调度改进模型，这是一个多步骤、多角色协作的流程，不是单轮对话能搞定的。
‎支持 Computer Use / Browser Use：因为很多任务（尤其是涉及网页、UI、可视化产出的任务）只看文本输出是判断不出质量好坏的，必须要能”像人一样”去点开、去看、去对比。

文章作者用的是 Warp 内置的 Oz（支持跨多个顶尖模型的 computer use 编排），但强调这不是唯一选择，市面上有不少平台都能支撑类似能力。

七、这套方法的适用边界

这套打法不是万能药，作者自己也坦诚地指出了局限：

‎依赖明确的验证标准：只有当任务的”对/错”“好/坏”能被自动判断（视觉对比、行为测试、单元测试等）时，这套闭环才跑得起来。如果任务本身评判标准很模糊（比如”写一篇更有创意的文案”），自动化评分就很难做。
‎容易陷入局部最优：自动优化本质上是一种局部搜索，调优 Skill 本身的提升空间是有限的，迭代多轮后可能卡在一个”还不错但不是最好”的状态，很难指望它自己跳出这个局部最优。
‎需要成本意识：如果不设退出条件，理论上可以无限循环优化下去，实际意义却越来越小，纯粹烧 token。

八、如果你想自己动手做一遍：执行清单

把整篇文章的方法论收敛成一份可执行清单，建议这样开始：

‎挑一个有明确验证标准的任务作为试点（网页迁移、格式转换、数据抽取等天然适合，因为产出可以直接对比）。
‎先写好”内层 Skill”，能跑通基本流程即可，不用一开始就完美。
‎再写一个”观察者 Skill”，让它具备三个能力：

批量调用内层 Skill 处理一组测试样本；
用合适的手段（截图对比、行为测试、computer use 等）对结果打分，并输出结构化数据；
用一个能力更强的模型去综合分析失败模式，生成对内层 Skill 的具体修改建议（甚至直接生成 diff）。

‎给观察者 Skill 设定退出条件：比如连续两轮 diff 都是无意义的小改动，就停止迭代。
‎小规模验证后再扩大样本量，逐步把 Skill 打磨到可以稳定支撑更广泛的真实场景。
‎接受它不是终点：这套机制能帮你把 Skill 从”能用”打磨到”好用”，但别指望它能无限拔高上限——必要时还是需要人工介入做关键设计决策。

写在最后

这套方法论真正有价值的地方,不在于”网站迁移”这个具体场景,而在于它示范了一种通用的工程范式:把 Skill 当作可以被测试、被打分、被迭代的”软件资产”来对待,而不是写完就一锤定音的提示词。只要你的任务有办法被自动验证,这个”内层执行—外层观察评分—生成改进—回灾验证”的闭环,几乎可以套用到任何 Agent 能力的打磨上。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述