最近 Anthropic 发了一篇工程博客,看完后我忍不住拍大腿:原来我们这些年做 AI Agent 的很多“卡点”,根本不是模型不够聪明,而是 harness(也就是那套让 Agent 长期稳定跑起来的架构)设计出了问题。

你是不是也遇到过类似情况?让 Claude 或者其他大模型单独做一个 UI 设计、一个 2D 游戏编辑器,甚至一个完整的全栈 App,它最后交出来的东西“看起来还行”,但实际一用就露馅——界面能点,逻辑全断,细节全靠自我安慰。单 Agent 自己评自己,永远觉得自己 90 分以上。

Anthropic 这次直接把问题戳破了:AI Agent 的核心矛盾,不是智能不够,而是缺少结构化的“生成 vs 评估”对抗机制。他们借鉴 GAN(生成对抗网络)的思路,把生成者和评估者彻底拆开,搭了一个三 Agent Harness,结果同一个任务,效果直接起飞。

单 Agent 为啥总是“自我感觉良好”?

先说痛点,这几乎是所有开发者做 Agent 时都会踩的坑。

单 Agent 在长时任务里会遇到两个致命问题:

  1. 上下文焦虑:上下文窗口一满,模型就开始慌,草草收尾。早期模型得手动 reset 上下文才能继续,新模型虽然好点,但还是需要精心设计。
  2. 自评偏差:尤其是主观任务(UI 设计、用户体验、视觉风格),Agent 特别容易给自己高分。它会找各种理由合理化平庸输出:“虽然颜色有点撞,但整体氛围还不错嘛。”

结果就是:20 分钟、9 美元,你能拿到一个“能看”的原型;但真正想落地成可用产品,单 Agent 几乎无解。

Anthropic 的解法很简单,也很狠——把生成和评估拆成独立 Agent,让它们互相制衡。这不是花里胡哨的 prompt 优化,而是系统级结构重构。

三 Agent Harness:Planner + Generator + Evaluator 的完整架构

他们最终落地的是一个经典的三角色系统,每一个 Agent 都只干一件事,干到极致:

  • Planner(规划者):输入一句话需求,输出完整的产品规格书。它会主动把 AI 能力织进去,比如把“做一个 2D 游戏编辑器”扩展成 16 个特性,还包含 AI 生成 sprite、AI 设计关卡等高级功能。Planner 不写代码,只管把愿景拉满,避免后面 Generator 一步步掉链子。

  • Generator(生成者):真正动手写代码的那个。技术栈是 React + Vite + FastAPI + PostgreSQL(早期用 SQLite)。它按 “sprint” 增量开发,每次只实现一个特性。每次 sprint 前,会和 Evaluator 签一个“冲刺合约”(sprint contract),把验收标准谈得清清楚楚。

  • Evaluator(评估者):最硬核的部分。它不用看代码,而是用 Playwright 真实操作界面:点按钮、调 API、查数据库、验证 UI 交互。打分维度包括产品深度、功能完整性、视觉设计、代码质量,每一条都有硬性阈值。发现 bug 就直接甩具体报告,比如“矩形填充工具只在拖拽起点放图块,没触发 mouseUp 事件”。

整个流程通过文件进行通信:写文件、读文件、迭代。Generator 按合约干活,Evaluator 真实测试,Planner 提供高阶指导。循环跑下来,质量和单 Agent 完全不是一个量级。

真实案例:同一个 2D 游戏编辑器,对比惨烈

同一个提示词:“创建一个带关卡编辑器、精灵编辑器、实体行为和可玩测试模式的 2D 复古游戏制作器。”

  • 单 Agent:20 分钟,9 美元。界面看着还行,但游戏逻辑全断——实体能看到,但点不动;代码里连线全错。典型的“看起来能用,实际玩不了”。

  • 三 Agent Harness:6 小时,200 美元。Planner 拉出 16 条特性,Generator 按 sprint 逐个实现,Evaluator 用 Playwright 逐条验收。最终成品有完整物理引擎、可拖拽排序、AI 内容生成,甚至能导出分享链接。Evaluator 抓出了 27 条具体验收标准里的每一个细节缺陷,比如删除实体时按键判断逻辑错误、API 路由参数误判等。

差距不是一点半点,而是从“玩具”到“可用产品”的质变。

5 个反直觉的硬核教训(直接可落地)

Anthropic 在文章最后总结了五条经验,我觉得每一条都值得单独拉出来做成卡片:

  1. 持续实验,你的模型假设随时会过期。今天有效的 harness,明天 Claude Opus 4.6 一升级,可能就多余了。
  2. 任务拆解 + 专职 Agent 是王道。别让一个 Agent 又写代码又评代码,结构决定上限。
  3. 模型变强时,果断删减 harness。他们 V2 版直接去掉 sprint 合约、改单轮评估,成本降到 124.7 美元、时间 3 小时 50 分钟,质量反而更稳。
  4. 生成与评估分离,比自我批判好调校多了。Evaluator 可以被训练得更“毒舌”,这才是迭代的真正杠杆。
  5. 主观判断必须可量化。“好看”不是标准,“对比度是否达标、颜色是否形成统一 mood”才是标准。把模糊变成具体,才能真正打分。

最让我震撼的一句话是:模型能力提升后,解决方案空间不会缩小,而是发生位移。Harness 不会消失,只会进化成更高级的形态。它是一场和模型共同进化的军备竞赛。

对我们开发者的真实启发

这个实验对国内做 AI Agent 的团队来说,意义太大了。

以前我们总觉得“prompt 再调调就行”“再等下一个更强模型”。现在看,真正拉开差距的是系统设计能力。如果你正在做一个长时 Agent 项目,强烈建议立刻尝试把 Generator 和 Evaluator 拆开,哪怕先用两个独立的 Claude 会话手动模拟,也能立刻看到效果提升。

未来,随着上下文窗口继续扩大、模型推理能力继续增强,harness 会越来越轻量,但“结构化对抗”的核心思想只会越来越重要。谁先把这套方法论吃透,谁就能在 AI 原生应用赛道里跑得更快。

本质上,这不是一个“技术问题”,而是一个“系统结构问题”。AI Agent 的落地,从来不是靠一个超级聪明的大模型,而是靠一套能让多个 Agent 互相监督、互相迭代的 harness 设计。

一句话总结:
AI Agent 拼的从来不是模型,而是流程。

我是紫微AI,我们下期见。
(完)

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐