大多数开发者以为 AI Agent 拼的是模型能力，但 Anthropic 最新实验告诉你：真正决定成败的是「生成-评估」分离的 Harness 设计

最近 Anthropic 发了一篇工程博客，看完后我忍不住拍大腿：原来我们这些年做 AI Agent 的很多“卡点”，根本不是模型不够聪明，而是 harness（也就是那套让 Agent 长期稳定跑起来的架构）设计出了问题。你是不是也遇到过类似情况？让 Claude 或者其他大模型单独做一个 UI 设计、一个 2D 游戏编辑器，甚至一个完整的全栈 App，它最后交出来的东西“看起来还行”，但实际一

紫微AI

242人浏览 · 2026-03-26 12:00:00

紫微AI · 2026-03-26 12:00:00 发布

最近 Anthropic 发了一篇工程博客，看完后我忍不住拍大腿：原来我们这些年做 AI Agent 的很多“卡点”，根本不是模型不够聪明，而是 harness（也就是那套让 Agent 长期稳定跑起来的架构）设计出了问题。

你是不是也遇到过类似情况？让 Claude 或者其他大模型单独做一个 UI 设计、一个 2D 游戏编辑器，甚至一个完整的全栈 App，它最后交出来的东西“看起来还行”，但实际一用就露馅——界面能点，逻辑全断，细节全靠自我安慰。单 Agent 自己评自己，永远觉得自己 90 分以上。

Anthropic 这次直接把问题戳破了：AI Agent 的核心矛盾，不是智能不够，而是缺少结构化的“生成 vs 评估”对抗机制。他们借鉴 GAN（生成对抗网络）的思路，把生成者和评估者彻底拆开，搭了一个三 Agent Harness，结果同一个任务，效果直接起飞。

单 Agent 为啥总是“自我感觉良好”？

先说痛点，这几乎是所有开发者做 Agent 时都会踩的坑。

单 Agent 在长时任务里会遇到两个致命问题：

上下文焦虑：上下文窗口一满，模型就开始慌，草草收尾。早期模型得手动 reset 上下文才能继续，新模型虽然好点，但还是需要精心设计。
自评偏差：尤其是主观任务（UI 设计、用户体验、视觉风格），Agent 特别容易给自己高分。它会找各种理由合理化平庸输出：“虽然颜色有点撞，但整体氛围还不错嘛。”

结果就是：20 分钟、9 美元，你能拿到一个“能看”的原型；但真正想落地成可用产品，单 Agent 几乎无解。

Anthropic 的解法很简单，也很狠——把生成和评估拆成独立 Agent，让它们互相制衡。这不是花里胡哨的 prompt 优化，而是系统级结构重构。

三 Agent Harness：Planner + Generator + Evaluator 的完整架构

他们最终落地的是一个经典的三角色系统，每一个 Agent 都只干一件事，干到极致：

Planner（规划者）：输入一句话需求，输出完整的产品规格书。它会主动把 AI 能力织进去，比如把“做一个 2D 游戏编辑器”扩展成 16 个特性，还包含 AI 生成 sprite、AI 设计关卡等高级功能。Planner 不写代码，只管把愿景拉满，避免后面 Generator 一步步掉链子。
Generator（生成者）：真正动手写代码的那个。技术栈是 React + Vite + FastAPI + PostgreSQL（早期用 SQLite）。它按 “sprint” 增量开发，每次只实现一个特性。每次 sprint 前，会和 Evaluator 签一个“冲刺合约”（sprint contract），把验收标准谈得清清楚楚。
Evaluator（评估者）：最硬核的部分。它不用看代码，而是用 Playwright 真实操作界面：点按钮、调 API、查数据库、验证 UI 交互。打分维度包括产品深度、功能完整性、视觉设计、代码质量，每一条都有硬性阈值。发现 bug 就直接甩具体报告，比如“矩形填充工具只在拖拽起点放图块，没触发 mouseUp 事件”。

整个流程通过文件进行通信：写文件、读文件、迭代。Generator 按合约干活，Evaluator 真实测试，Planner 提供高阶指导。循环跑下来，质量和单 Agent 完全不是一个量级。

真实案例：同一个 2D 游戏编辑器，对比惨烈

同一个提示词：“创建一个带关卡编辑器、精灵编辑器、实体行为和可玩测试模式的 2D 复古游戏制作器。”

单 Agent：20 分钟，9 美元。界面看着还行，但游戏逻辑全断——实体能看到，但点不动；代码里连线全错。典型的“看起来能用，实际玩不了”。
三 Agent Harness：6 小时，200 美元。Planner 拉出 16 条特性，Generator 按 sprint 逐个实现，Evaluator 用 Playwright 逐条验收。最终成品有完整物理引擎、可拖拽排序、AI 内容生成，甚至能导出分享链接。Evaluator 抓出了 27 条具体验收标准里的每一个细节缺陷，比如删除实体时按键判断逻辑错误、API 路由参数误判等。

差距不是一点半点，而是从“玩具”到“可用产品”的质变。

5 个反直觉的硬核教训（直接可落地）

Anthropic 在文章最后总结了五条经验，我觉得每一条都值得单独拉出来做成卡片：

持续实验，你的模型假设随时会过期。今天有效的 harness，明天 Claude Opus 4.6 一升级，可能就多余了。
任务拆解 + 专职 Agent 是王道。别让一个 Agent 又写代码又评代码，结构决定上限。
模型变强时，果断删减 harness。他们 V2 版直接去掉 sprint 合约、改单轮评估，成本降到 124.7 美元、时间 3 小时 50 分钟，质量反而更稳。
生成与评估分离，比自我批判好调校多了。Evaluator 可以被训练得更“毒舌”，这才是迭代的真正杠杆。
主观判断必须可量化。“好看”不是标准，“对比度是否达标、颜色是否形成统一 mood”才是标准。把模糊变成具体，才能真正打分。

最让我震撼的一句话是：模型能力提升后，解决方案空间不会缩小，而是发生位移。Harness 不会消失，只会进化成更高级的形态。它是一场和模型共同进化的军备竞赛。