为什么你的AI Agent成功率只有70%？从Prompt到Harness，三层架构决定一切

AI的能力瓶颈已经不在模型本身，而在模型外面那层"壳"。层次关注点要解决的问题Prompt怎么把话说清楚意图表达的精准度Context信息怎么喂进去知识供给的完整度和时机Harness整个系统怎么跑稳执行的稳定性、可恢复性、可观测性2026年的AI开发者，核心竞争力正在从"会不会调Prompt"变成"能不能造出稳定交付的系统"。同样的模型，Harness从70%拉到95%。同样的模型，一套好的提示

蒜香味可乐

554人浏览 · 2026-05-08 21:03:56

蒜香味可乐 · 2026-05-08 21:03:56 发布

同样的模型、同样的提示词，为什么别人的Agent能稳定跑很久，你的总是差强人意？答案不在模型里，在模型外面那层"壳"里。

先说一个真实案例

年初有个朋友找我帮他们调一个Agent系统。团队之前已经做了很多努力——换上了最好的旗舰模型，Prompt改了上百版，各种参数也调了不少，但一到真实场景，效果就是不稳定。有时候很聪明，有时候莫名跑偏，任务成功率不到70%。

后来我去看了一下，最后改动最大的地方，反而不是模型，也不是提示词。改进点在于：任务是怎么拆的、状态是怎么管的、关键步骤怎么校验、失败之后怎么恢复。

新版本上线之后，还是同样的模型、同样的提示词，成功率拉到了95%以上。

这个朋友问我：你到底改了什么？

说实话，那个时候我没有一个特别准确的词来形容。直到最近一个概念越来越火——Harness Engineering——我才意识到，我当时改的那些东西，本质上就是Harness。

一、AI工程的三次重心迁移

过去两年，AI工程经历了三次明显的重心迁移：

第一次：Prompt Engineering（提示词工程）

大模型刚火的时候，大家最直观的感受是：同一个模型，换一种说法，结果可能差很多。

你说"帮我总结一下这篇文章"，它可能只会给你一个很平的总结。但如果你说"你是一个资深编辑，用不超过200字概括这篇文章的核心论点，语气要犀利"，效果马上就不一样。

所以那个阶段大家都相信一件事：模型不是不会，而是你没有把问题说明白。

于是大家开始疯狂研究Prompt——角色设定、风格约束、Few-shot示例、分布引导、输出格式……

为什么这些有效？因为大模型本质上是一个对上下文非常敏感的概率生成系统。你给它什么身份，它就沿着那个身份回答；你给它什么样例，它就沿着那个范式补全；你强调什么约束，它就把那部分当成重点。

Prompt Engineering的本质，不是命令模型，而是塑造一个局部的概率空间。

但Prompt Engineering很快就遇到了天花板。

第二次：Context Engineering（上下文工程）

很多任务不是你说清楚就行，而是你真的得"知道"。比如：

分析一份公司内部文档
回答一个产品的最新配置
按照一套很长的规范去写代码
在多个工具之间完成复杂任务

这时候你会发现，Prompt写得再漂亮，也替代不了事实本身。

Prompt擅长的是：常驻任务约束、输出格式、激发模型已有能力。

Prompt不擅长的是：凭空弥补缺失的知识、管理大量动态信息、处理长链路任务里的状态。

说白了，Prompt解决的是表达的问题，不是信息的问题。

于是Context Engineering开始了。当大家还只是做聊天机器人的时候，Prompt的作用很大——任务短、链路短、状态少。但后来Agent开始火了，模型不只是回答问题，而是要进到真实环境里做事情：多轮对话、调浏览器、写代码、查数据库、在多个步骤之间传递中间结果、根据外部反馈不断修订计划。

这时候问题就变了：系统面对的不再是一次回答对不对，而是整条链路的任务能不能跑通。

Context Engineering的核心就变成一句话：模型不一定是知道的，系统必须在合适的时机把正确的信息送进去。

举个例子：你让AI做一个真实的任务——"帮我分析这份需求文档，找出潜在风险，结合历史评审意见给出改善建议，再生成一版发给产品经理的反馈稿。"

这至少需要：当前的需求文档、历史评审记录、相关规范、当前目标、已分析出的中间结论、输出对象是谁、语气应该怎么调……

Context不只是几段背景资料。在工程意义上，它代表了所有影响模型当前决策的信息总和——用户输入、历史对话、检索结果、工具返回、当前任务状态、中间产物、系统规则、安全约束、其他Agent传过来的结构化结果。

所以你会看到，Prompt其实只是Context的一部分。

第三次：Harness Engineering（驾驭工程）

但Context Engineering也不是终点。后来大家又发现了一个更麻烦的问题：就算信息给对了，模型也不一定能稳定地执行正确。

它可能计划做得很好，但执行跑偏了；可能调了工具，但理解错了返回结果；可能在一个很长的链路里已经慢慢偏航了，但系统却没有发现。

Prompt和Context主要都在解决输入侧的问题——Prompt优化意图表达，Context优化信息供给。但复杂的任务里还有一个更难的问题：

当模型开始连续行动的时候，谁来监督它、约束它、纠偏它？

Harness这个词，原本的意思是缰绳、马具、约束装置。放在AI系统里，就是在提醒我们一件非常朴素的事情：当模型从"回答问题"走向"执行任务"，系统不只要负责喂信息，还要驾驭整个过程。

如果前两代工程关注的是"怎么让模型更会想"，那Harness更关注的是"怎么让模型别跑偏、跑得稳、出了错还能拉回来"。

二、一个比喻讲清三者关系

假设你要派一个新人去完成一次重要的客户拜访：

Prompt Engineering：把话讲清楚——见面先寒暄→介绍方案→问需求→确认下一步。重点是把话说明白。

Context Engineering：把资料准备齐全——客户背景、过往沟通记录、产品报价、竞品情况、这次会议的目标。重点是把信息给对。

Harness Engineering：持续监督纠偏——带Checklist去、关键节点实时汇报、会后核实纪要和录音、发现偏差马上纠正、按明确标准验收结果。重点是有一套持续观测、持续纠偏、最终验收结果的机制。

三者不是替代关系，而是包含关系：

Prompt 是对指令的工程化
Context 是对输入环境的工程化
Harness 是对整个运行系统的工程化

它们的边界一层比一层大。

三、Harness的六层架构

一个成熟的Harness系统可以拆成六层：

第一层：Context管理（站在Harness视角重新看）

模型能不能稳定发挥，很多时候不取决于它多聪明，而取决于它看到了什么。Harness的第一职责就是让模型在正确的信息边界内思考。

三层细分：

角色/目标定义：模型要知道自己是谁、任务是什么、成功标准是什么
信息裁剪和选择：上下文不是越多越好，而是越相关越好
结构化组织：固定规则放哪、当前任务放哪、运行状态放哪、外部证据放哪——分层清楚，否则模型容易漏重点、忘约束、自我污染

第二层：工具系统

没有工具，大模型本质上还是一个文本预测器——会解释、会总结，但接触不到真实世界。连上工具后，模型才能真正做事：搜网页、读文档、写代码、调API。

Harness在这里要解决的不只是"挂工具"，而是三个问题：

给什么工具：太少能力不够，太多模型乱用
什么时候调用：不该查的时候别乱查，该查的时候也别硬答
结果怎么回喂：搜索回来的几十条结果不能原封不动塞回去，要提炼筛选、保持任务相关性

第三层：执行编排

核心问题：模型下一步该做什么？

很多Agent的问题不是某一步不会，而是不会把所有步骤串起来。它会搜索、会总结、也会写代码，但不知道先做哪个、后做哪个、哪些可以并行、什么时候该等待、什么时候该重试。

任务拆解、步骤依赖管理、并行执行、状态跟踪——这些都需要在Harness层面解决。

第四层：验证机制

Claude Design的提示词里有一个非常精辟的设计：在开发完成后，fork出一个独立的子Agent，对当前完成的网页做全面检查。

为什么不用同一个Agent检查自己的输出？因为它会天然倾向于觉得自己没问题。但换一个全新的上下文，这种"自我感觉良好"就很容易被打破。

这就是Harness中验证层的核心理念——独立验证，不要自己检查自己。

第五层：错误恢复

不是每个错误都需要从头来。Harness需要定义：

失败了怎么重试（相同策略还是换策略）
怎么回滚到上一个正确的状态
怎么降级处理（核心功能保底，非核心功能放弃）

第六层：可观测性

全链路的日志和监控。出了问题，能快速定位是哪一层、哪一步、什么原因。

四、实战案例：OpenClaw的多Agent架构就是Harness的工程化实践

聊完理论，来看一个真实的工程实践——OpenClaw的多智能体团队搭建。

有人用OpenClaw搭了一个7人AI团队：生图助手、资讯助手、开发助手、投资助手、社区助手、写作助手、团队协调专家。

为什么不能做一个"全能Agent"？

很多人装好OpenClaw后的第一反应：把所有技能塞进一个Agent。实践证明这是个坑，原因恰好对应Harness的前两层：

上下文污染（第一层问题）：生图的提示词模板、投资分析的框架、写作的风格指南全塞进同一个上下文，注意力严重分散。让它写文章，它可能在行文中不自觉使用投资分析的术语。

权限冲突（第二层问题）：开发助手需要Shell来调度Code，投资助手需要访问股票数据接口，社区助手需要访问Reddit。全部开放给一个Agent，违反最小权限原则。

人设冲突（第一层问题）：投资助手应该谨慎、数据驱动；写作助手应该有温度、有文采；社区助手需要有趣、有个性。这些截然不同的性格，很难在一个Agent上共存。

专精Agent的设计

每个Agent绑定不同的模型（写作用擅长聊天的模型，开发用擅长编码的模型），拥有独立的记忆（短期对话上下文 + 中期每日记录 + 长期偏好沉淀），通过SOUL.md等文件定义独立人设。

Agent间通过非阻塞调用协作：主Agent发起调用后继续做自己的事，被调用Agent完成后主动推送结果。通过serveAgent配置实现权限隔离。

这本质上就是Harness的工程化落地——每个Agent是一个被Harness约束的模型实例，多个Agent之间的协作编排是更高层的Harness。

五、Claude Design的提示词：Context Engineering的教科书级案例

Claude Design的提示词泄露后（上线不到24小时），被很多人视为Context Engineering的教科书。其中几个核心设计：

动态角色定位

不是"你是一个AI助手"，而是"你是一个专家级设计师，用户是你的产品经理"。根据任务动态切换身份：做动画就当动效设计师，做原型就当UX设计师。

这是Context Engineering中角色定义的高阶用法——不是写死一个角色，而是让模型根据任务自主切换角色边界。

去AI味清单

AI生成网页的典型毛病：紫粉蓝渐变、大圆角卡片、Emoji当图标、假数据填充、烂大街的字体。

Claude Design把这些雷区一条条列出来，逼着AI不能走老套路。

这对应Harness中的约束管理——不是告诉模型"应该做什么"，而是明确"绝对不能做什么"。

OKLCH色彩系统

传统HSL色彩空间感知不均匀——同样亮度值，黄色比蓝色看着亮一大截。用OKLCH（感知均匀的色彩空间），保持亮度和色度不变、只转变色相角，出来的颜色自然和谐。

这是Context Engineering中信息供给的精妙之处——不是给模型更多颜色选择，而是给它一个更好的颜色框架。

验证机制：独立子Agent检查

完成网页后，fork出一个独立的子Agent做全面检查。换一个全新上下文，打破"自我感觉良好"。

这直接对应Harness的第四层：独立验证机制。

六、写在最后：2026年AI开发者的核心竞争力

把这三个话题放在一起，结论很清晰：

AI的能力瓶颈已经不在模型本身，而在模型外面那层"壳"。

层次	关注点	要解决的问题
Prompt	怎么把话说清楚	意图表达的精准度
Context	信息怎么喂进去	知识供给的完整度和时机
Harness	整个系统怎么跑稳	执行的稳定性、可恢复性、可观测性