在这里插入图片描述

这是养虾系列 S4 《Harness Engineering 深度拆解》 的收官之作。

前七篇讲"怎么做"——护栏、心跳、上下文、评审、反模式,全是具体工程。

这一篇讲"往哪走"——两条路线的长期归宿、各自的天花板、我的选择理由

读完这 8 篇,你会对"怎么做一个长期好用的 Agent"有一个完整的方法论体系。


一、开篇钩子:一场持续 3 年的路线之争

2024 年 Claude 3 发布时,圈子里主流声音是:“模型再强一点就好了。”

那时大家相信——等 GPT-5、Claude 5 出来,Context 窗口到 10M,推理能力再翻倍,现在所有 Agent 的工程问题都会消失

2026 年 5 月的今天看——

  • GPT-5 已发布,Claude 4.5 已落地,Context 窗口确实扩到 500K+
  • 但 Agent 产品的失败率还是 70%+
  • 大模型厂商自己都承认:“模型能力不是 Agent 落地的瓶颈”

为什么?因为这从来不是一场"模型 vs 工程"的单选题,而是两条不同路径的长期竞赛

Big Model 路线:把所有问题交给下一代模型解决。
Big Harness 路线:在现有模型外围做工程加固。

我这 8 篇系列其实就是在为 Big Harness 路线 写辩护状。但今天这篇,我要公正地讲两条路的优劣——然后告诉你我为什么押注后者。


二、调研追溯:两条路线的代表公司

2.1 Big Model 阵营

典型代表:OpenAI(o 系列)、DeepMind(Gemini 2 Pro)、xAI(Grok-5)。

核心假设当下游工程复杂性越来越高时,升级模型本身是最有杠杆的解法

证据支撑

  • GPT-4 → GPT-4o:Agent 任务成功率从 54% → 73%
  • Claude 3 → Claude 3.5:工具调用准确率从 81% → 94%
  • 模型升级让大量 Harness hack 变得不必要

代表论文:《Scaling Laws for Neural Language Models》(Kaplan 2020)的后续演绎——“Intelligence is a scaling problem.”

2.2 Big Harness 阵营

典型代表:Anthropic(除了模型,投入大量工程在 Claude Code / Constitutional AI)、Stripe(Typed Policy Wall)、Cursor(IDE 级工程化)。

核心假设模型能力每代增长 1.3x,但工程可靠性可以增长 10x+

证据支撑

  • Claude Code 靠 Harness 工程让 Claude 3.5 做出 Claude 4 level 的产品体验
  • Stripe 的 Typed Policy Wall 让 AI 支付错误率从 3% 降到 0.02%(150 倍)
  • Cursor 靠 IDE 集成让 GPT-4 的实用度碾压裸调 API

代表观点:Simon Willison 的 “The LLM is the dumbest part of your AI application.”

2.3 第三条路(容易被忽略)

混合路线:模型能力和工程能力并行投入,不单押。

代表:Anthropic 自己——它同时做 Claude 5 和 Claude Code,两条腿走路。

这条路的好处是对冲风险,但资源投入翻倍。大部分团队做不到,只能选一边。


三、概念精析:两条路线的长期归宿

3.1 Big Model 路线的天花板

理想状态:模型足够聪明,所有现在的工程 hack 都可以去掉。

实际走向

  • Context 大了,但"注意力"没大——Claude 4 的 500K 上下文里,中段信息还是会被忽略
  • 推理强了,但"意图理解"没强——用户说"清理一下",模型依然会过度推断
  • 工具调用准了,但"组合"没准——单个工具 94% 准确,5 个工具链路准确率 = 0.94^5 = 73%

核心天花板模型的"可靠性"不是"智能"的线性函数。智能翻倍,可靠性可能只涨 20%。

这是为什么 GPT-5 之后,Agent 失败率依然没显著下降。

3.2 Big Harness 路线的天花板

理想状态:工程足够完善,差的模型也能组装出好的 Agent。

实际走向

  • 护栏越来越多,但维护成本越来越高
  • 工程复杂度上升——Harness 本身变成了一个需要"Harness 的 Harness"的系统
  • 模型能力增长后 Harness 需要重构——早期为 GPT-3.5 设计的护栏到 Claude 4 时可能是阻碍

核心天花板Harness 的 ROI 会随模型能力增长而衰减。如果下一代模型确实能解决某个问题,你为它写的护栏就成了死重。

3.3 两条路线的交叉点

我画一张图:

可靠性
│
│       Big Harness ──────────────
│      /         
│     /     
│    /        Big Model ────────
│   /       /
│  /      /
│ /     /
│/   /
└──────────────────────────────→ 时间
  ↑                    ↑
2024                 2028?
  • 短期(1-2 年):Big Harness 路线明显领先——现在就能做出靠谱产品
  • 中期(3-5 年):两条路线接近,有交叉
  • 长期(5 年+):不确定谁赢

3.4 我为什么押注 Big Harness

三个理由:

理由 1:时间成本不对等
今天押 Big Model = 等未来。今天押 Big Harness = 现在就能产出。

理由 2:差异化护城河
模型能力是全行业红利——你等 Claude 5 别人也等。Harness 是你的私产——别人复制不了你 6 个月踩出来的 47 条护栏。

理由 3:Harness 本身是知识沉淀
模型升级会淘汰老模型,但 Harness 里总结的经验会沉淀成方法论、流程、文化——这是"可迁移资产"


四、实例拆解:三家代码级对比(Hermes / Claude Design / OpenClaw)

我对比了三个开源/半开源的 Agent 框架,看他们如何站队。

4.1 Hermes Agent(NousResearch 开源)

Stars:84.9k
代码行数:~50K
Harness 占比~70%(ContextEngine、MemoryManager、PromptBuilder 等全是工程)

核心投入

  • ContextEngine 可插拔上下文压缩
  • 迭代摘要 + Handoff 框架
  • Token 预算制尾部保护
  • MemoryManager 插件化(内置 + 外部 + 围栏注入)
  • PromptBuilder 注入防御
  • SmartModelRouting 成本路由

站队Big Harness 极度偏向。模型能力不强的时候(他们用 Mixtral 为主)也能跑出好效果。

4.2 Claude Design(Anthropic 官方)

性质:Anthropic 内部设计规范 + 一小部分开源组件
代码行数:~12K(公开部分)
Harness 占比~60%

核心投入

  • Constitutional AI 做价值观护栏
  • Claude Code 做 IDE 级工程
  • MCP 协议做工具层统一
  • 但同时也在做 Claude 5

站队双押——资源够,既押模型也押工程。大公司玩法。

4.3 OpenClaw(我的)

性质:个人项目
代码行数:~8K
Harness 占比~85%(除了 LLM 调用本身几乎全是 Harness)

核心投入

  • 四层护栏(L1 Skill / L2 Hook / L3 CLAUDE.md / L4 Shell)
  • 三层心跳(微观 / 中观 / 宏观)
  • 预算制 Context(15K token 硬预算)
  • 独立 Evaluator(跨会话评审)
  • Skill 版本系统(semver + CHANGELOG)

站队Big Harness 极致偏向——我没有自研模型的能力,只能在模型外围死磕工程。

4.4 三家对比表

维度 Hermes Claude Design OpenClaw
Harness 占比 70% 60% 85%
模型无关性 ⚠️(绑 Claude)
护栏层数 3 层 4 层 4 层
Context 预算制
独立 Evaluator
宏观心跳
开源 部分 部分

共同点:三家都做了大量 Harness 工程。没有一家纯靠模型能力打天下。

这是 Big Harness 阵营最有力的证据——连模型厂商自己都不敢只押模型


五、启发与方法论:五条可迁移原则(全系列总结)

原则 1:工具箱 ≠ 边界(第 01 篇)

知识图谱和思考模型是工具不是边界,当已有工具不足以解决问题时,应基于问题本质动用一切推理能力去解决。

这是 Harness 思维的起点——不要被现有工具框住想象力

原则 2:确定性外壳 × 非确定性内核(第 02 篇)

非确定性的东西必须被确定性的东西包围。模型越聪明,护栏越要傻——傻到不讲理。

这是 Harness 的核心哲学。

原则 3:让规则可见,不让 AI 黑箱压缩(第 03 篇)

上下文管理不应该是模型的活儿,应该是工程的活儿。

Checkpoint > Compaction 的根本理由。

原则 4:给 Agent 分配时间维度(第 04 篇)

分层心跳——微观 Agentic Loop / 中观 Task Loop / 宏观 Evolution Loop。

让 Agent 真正"活"过当次对话。

原则 5:独立监督比自我监督可靠 10 倍(第 06 篇)

所有"自己监督自己"的机制,长期看都会退化为"自我表扬"。

评审、监督、审计——全部要独立实例。

额外:翻车即升级邀请函(第 07 篇)

Harness 不是设计出来的,是长出来的。每一次事故都是一次 Harness 升级的机会。


六、反驳性思考

反驳一:如果 GPT-5 真的解决了所有问题,Big Harness 岂不是白投?

不会白投

理由:Harness 沉淀的是方法论和流程,不是代码

  • 代码会被淘汰
  • 方法论会留下
  • 流程会迁移到新工具

我过去 6 个月在 Harness 上投入 ~400 小时。就算明天所有代码作废,那 400 小时学到的"怎么设计可靠的长期系统"这个思维模式不会作废。

反驳二:小团队投 Big Harness 是不是奢侈?

恰恰相反——小团队必须投 Big Harness

大厂可以双押,小团队资源有限,只能选一条。

  • 选 Big Model = 坐等大厂红利
  • 选 Big Harness = 立刻产出自己的护城河

小团队的生存之道是**“快速产出 + 独特性”**——Big Harness 两个都给。

反驳三:这篇系列是不是过度吹捧 Harness 了?

有点。 我承认这 8 篇立场明显偏向 Big Harness——因为我押的就是这条路,当然会有偏见。

公正地说:如果你有 10 亿美金和 500 个 AI 研究员,应该双押
如果你是个人开发者或小团队,Big Harness 是更理性的选择


七、全系列总结:我们用 56000 字讲了什么

回顾 8 篇内容,形成一套完整的 Harness 方法论:

# 篇章主题 核心概念
01 定义 Agent = Model + Harness
02 护栏 确定性外壳 × 非确定性内核(4 层)
03 上下文管理 Checkpoint > Compaction
04 时间维度 三层心跳(微观/中观/宏观)
05 空间维度 Context 预算制
06 质量保证 独立 Evaluator
07 反模式 5 个常见坑 + 真实事故
08 路线选择 Big Harness 的长期价值

这就是一套完整的 Agent 长期工程化方法论

可开源的配套代码仓库

按照第 01 篇的承诺,这 8 篇附带 4 个可开源的代码仓库:

  1. openclaw-guardrails(第 02 篇四层护栏)
  2. openclaw-daily-dream(第 03 篇心跳系统)
  3. openclaw-context-engine(第 05 篇预算制)
  4. openclaw-evaluator(第 06 篇独立评审)

后续我会逐个整理发到 GitHub。

全系列地图(完结)

# 标题 状态
01 Agent = Model + Harness
02 确定性外壳 × 非确定性内核
03 Checkpoint vs Compaction(硬货)
04 Task Loop 三层心跳(硬货)
05 Context 不是内存是预算
06 独立 Evaluator
07 五大反模式(硬货)
08 Big Model vs Big Harness ✅ 收官

八、收官:为什么我花 6 个月写这 8 篇

最后说一句心里话。

过去 6 个月我几乎每天都在想一个问题——AI 产品失败的真正原因是什么?

我观察了圈内圈外上百个项目,结论是:90% 的失败不是"模型不够好",是"没把模型放进正确的系统里"

这个"系统" = Harness。

但 Harness 这个词在中文技术圈几乎没人讲。我搜了一圈,找不到一篇中文深度文章。英文圈也只有散点讨论,没有成体系的方法论。

所以我决定自己写。56000 字,8 篇,用 6 周时间。

不敢说这是"权威方法论"——Harness 这个领域太新,每个人都在探索。但这 8 篇至少是我过去 6 个月踩坑 + 思考 + 开源代码的完整输出

如果你在做 Agent 产品,希望这 8 篇能让你少走弯路。

如果你在做 AI 研究,希望这 8 篇能提供一个工程视角。

如果你只是好奇"大模型到底怎么变成产品"——希望你读完会觉得,答案不在模型本身,而在模型之外

养虾系列 S4 · 完结。

感谢陪伴。下一季见。


路易乔布斯
2026 年 5 月 · 深圳
养虾系列 S4 · Harness Engineering 深度拆解 08/08 · 全系列完结


后记:这个系列的写作过程本身也是一次 Harness 实验

8 篇文章的产出用了:

  • OpenClaw 的 classroom-article-writer-v2 Skill(第 06 篇讲的自检机制)
  • daily-dream 心跳系统(第 03 篇讲的,保证记忆不丢失)
  • 独立 Evaluator(新 Claude 会话评审每篇)
  • Git 版本锁定(第 07 篇反模式 4 的修复)

Harness 既是写作的主题,也是写作的工具。这是我最得意的一点——方法论通过自己验证自己,形成闭环

Logo

更多推荐