【Harness Engineering系列】08 Big Model vs Big Harness——模型路线 vs 工程路线，我们应该往哪走

摘要：本文探讨AI Agent发展的两条技术路线——Big Model（依赖模型升级）与Big Harness（外围工程加固），通过分析OpenAI、Anthropic等案例，揭示两者天花板：模型可靠性增长非线性，工程复杂度会随模型进化衰减。作者基于时间成本、差异化护城河和知识沉淀三方面原因押注Big Harness路线，并通过Hermes、Claude Design等框架的代码级对比，证明工程

qcx23

501人浏览 · 2026-05-09 00:08:43

qcx23 · 2026-05-09 00:08:43 发布

在这里插入图片描述

这是养虾系列 S4 《Harness Engineering 深度拆解》 的收官之作。

前七篇讲"怎么做"——护栏、心跳、上下文、评审、反模式，全是具体工程。

这一篇讲"往哪走"——两条路线的长期归宿、各自的天花板、我的选择理由。

读完这 8 篇，你会对"怎么做一个长期好用的 Agent"有一个完整的方法论体系。

一、开篇钩子：一场持续 3 年的路线之争

2024 年 Claude 3 发布时，圈子里主流声音是：“模型再强一点就好了。”

那时大家相信——等 GPT-5、Claude 5 出来，Context 窗口到 10M，推理能力再翻倍，现在所有 Agent 的工程问题都会消失。

2026 年 5 月的今天看——

GPT-5 已发布，Claude 4.5 已落地，Context 窗口确实扩到 500K+
但 Agent 产品的失败率还是 70%+
大模型厂商自己都承认：“模型能力不是 Agent 落地的瓶颈”

为什么？因为这从来不是一场"模型 vs 工程"的单选题，而是两条不同路径的长期竞赛。

Big Model 路线：把所有问题交给下一代模型解决。
Big Harness 路线：在现有模型外围做工程加固。

我这 8 篇系列其实就是在为 Big Harness 路线 写辩护状。但今天这篇，我要公正地讲两条路的优劣——然后告诉你我为什么押注后者。

二、调研追溯：两条路线的代表公司

2.1 Big Model 阵营

典型代表：OpenAI（o 系列）、DeepMind（Gemini 2 Pro）、xAI（Grok-5）。

核心假设：当下游工程复杂性越来越高时，升级模型本身是最有杠杆的解法。

证据支撑：

GPT-4 → GPT-4o：Agent 任务成功率从 54% → 73%
Claude 3 → Claude 3.5：工具调用准确率从 81% → 94%
模型升级让大量 Harness hack 变得不必要

代表论文：《Scaling Laws for Neural Language Models》（Kaplan 2020）的后续演绎——“Intelligence is a scaling problem.”

2.2 Big Harness 阵营

典型代表：Anthropic（除了模型，投入大量工程在 Claude Code / Constitutional AI）、Stripe（Typed Policy Wall）、Cursor（IDE 级工程化）。

核心假设：模型能力每代增长 1.3x，但工程可靠性可以增长 10x+。

证据支撑：

Claude Code 靠 Harness 工程让 Claude 3.5 做出 Claude 4 level 的产品体验
Stripe 的 Typed Policy Wall 让 AI 支付错误率从 3% 降到 0.02%（150 倍）
Cursor 靠 IDE 集成让 GPT-4 的实用度碾压裸调 API

代表观点：Simon Willison 的 “The LLM is the dumbest part of your AI application.”

2.3 第三条路（容易被忽略）

混合路线：模型能力和工程能力并行投入，不单押。

代表：Anthropic 自己——它同时做 Claude 5 和 Claude Code，两条腿走路。

这条路的好处是对冲风险，但资源投入翻倍。大部分团队做不到，只能选一边。

三、概念精析：两条路线的长期归宿

3.1 Big Model 路线的天花板

理想状态：模型足够聪明，所有现在的工程 hack 都可以去掉。

实际走向：

Context 大了，但"注意力"没大——Claude 4 的 500K 上下文里，中段信息还是会被忽略
推理强了，但"意图理解"没强——用户说"清理一下"，模型依然会过度推断
工具调用准了，但"组合"没准——单个工具 94% 准确，5 个工具链路准确率 = 0.94^5 = 73%

核心天花板：模型的"可靠性"不是"智能"的线性函数。智能翻倍，可靠性可能只涨 20%。

这是为什么 GPT-5 之后，Agent 失败率依然没显著下降。

3.2 Big Harness 路线的天花板

理想状态：工程足够完善，差的模型也能组装出好的 Agent。

实际走向：

护栏越来越多，但维护成本越来越高
工程复杂度上升——Harness 本身变成了一个需要"Harness 的 Harness"的系统
模型能力增长后 Harness 需要重构——早期为 GPT-3.5 设计的护栏到 Claude 4 时可能是阻碍

核心天花板：Harness 的 ROI 会随模型能力增长而衰减。如果下一代模型确实能解决某个问题，你为它写的护栏就成了死重。

3.3 两条路线的交叉点

我画一张图：

可靠性
│
│       Big Harness ──────────────
│      ／         
│     ／     
│    ／        Big Model ────────
│   ／       ／
│  ／      ／
│ ／     ／
│／   ／
└──────────────────────────────→ 时间
  ↑                    ↑
2024                 2028?

短期（1-2 年）：Big Harness 路线明显领先——现在就能做出靠谱产品
中期（3-5 年）：两条路线接近，有交叉
长期（5 年+）：不确定谁赢

3.4 我为什么押注 Big Harness

三个理由：

理由 1：时间成本不对等
今天押 Big Model = 等未来。今天押 Big Harness = 现在就能产出。

理由 2：差异化护城河
模型能力是全行业红利——你等 Claude 5 别人也等。Harness 是你的私产——别人复制不了你 6 个月踩出来的 47 条护栏。

理由 3：Harness 本身是知识沉淀
模型升级会淘汰老模型，但 Harness 里总结的经验会沉淀成方法论、流程、文化——这是"可迁移资产"。

四、实例拆解：三家代码级对比（Hermes / Claude Design / OpenClaw）

我对比了三个开源/半开源的 Agent 框架，看他们如何站队。

4.1 Hermes Agent（NousResearch 开源）

Stars：84.9k
代码行数：~50K
Harness 占比：~70%（ContextEngine、MemoryManager、PromptBuilder 等全是工程）

核心投入：

ContextEngine 可插拔上下文压缩
迭代摘要 + Handoff 框架
Token 预算制尾部保护
MemoryManager 插件化（内置 + 外部 + 围栏注入）
PromptBuilder 注入防御
SmartModelRouting 成本路由

站队：Big Harness 极度偏向。模型能力不强的时候（他们用 Mixtral 为主）也能跑出好效果。

4.2 Claude Design（Anthropic 官方）

性质：Anthropic 内部设计规范 + 一小部分开源组件
代码行数：~12K（公开部分）
Harness 占比：~60%

核心投入：

Constitutional AI 做价值观护栏
Claude Code 做 IDE 级工程
MCP 协议做工具层统一
但同时也在做 Claude 5

站队：双押——资源够，既押模型也押工程。大公司玩法。

4.3 OpenClaw（我的）

性质：个人项目
代码行数：~8K
Harness 占比：~85%（除了 LLM 调用本身几乎全是 Harness）

核心投入：

四层护栏（L1 Skill / L2 Hook / L3 CLAUDE.md / L4 Shell）
三层心跳（微观 / 中观 / 宏观）
预算制 Context（15K token 硬预算）
独立 Evaluator（跨会话评审）
Skill 版本系统（semver + CHANGELOG）

站队：Big Harness 极致偏向——我没有自研模型的能力，只能在模型外围死磕工程。

4.4 三家对比表

维度	Hermes	Claude Design	OpenClaw
Harness 占比	70%	60%	85%
模型无关性	✅	⚠️（绑 Claude）	✅
护栏层数	3 层	4 层	4 层
Context 预算制	✅	✅	✅
独立 Evaluator	❌	✅	✅
宏观心跳	❌	❌	✅
开源	✅	部分	部分

共同点：三家都做了大量 Harness 工程。没有一家纯靠模型能力打天下。

这是 Big Harness 阵营最有力的证据——连模型厂商自己都不敢只押模型。

五、启发与方法论：五条可迁移原则（全系列总结）

原则 1：工具箱 ≠ 边界（第 01 篇）

知识图谱和思考模型是工具不是边界，当已有工具不足以解决问题时，应基于问题本质动用一切推理能力去解决。

这是 Harness 思维的起点——不要被现有工具框住想象力。

原则 2：确定性外壳 × 非确定性内核（第 02 篇）

非确定性的东西必须被确定性的东西包围。模型越聪明，护栏越要傻——傻到不讲理。

这是 Harness 的核心哲学。

原则 3：让规则可见，不让 AI 黑箱压缩（第 03 篇）

上下文管理不应该是模型的活儿，应该是工程的活儿。

Checkpoint > Compaction 的根本理由。

原则 4：给 Agent 分配时间维度（第 04 篇）

分层心跳——微观 Agentic Loop / 中观 Task Loop / 宏观 Evolution Loop。

让 Agent 真正"活"过当次对话。

原则 5：独立监督比自我监督可靠 10 倍（第 06 篇）

所有"自己监督自己"的机制，长期看都会退化为"自我表扬"。

评审、监督、审计——全部要独立实例。

额外：翻车即升级邀请函（第 07 篇）

Harness 不是设计出来的，是长出来的。每一次事故都是一次 Harness 升级的机会。

六、反驳性思考

反驳一：如果 GPT-5 真的解决了所有问题，Big Harness 岂不是白投？

不会白投。

理由：Harness 沉淀的是方法论和流程，不是代码。

代码会被淘汰
方法论会留下
流程会迁移到新工具

我过去 6 个月在 Harness 上投入 ~400 小时。就算明天所有代码作废，那 400 小时学到的"怎么设计可靠的长期系统"这个思维模式不会作废。

反驳二：小团队投 Big Harness 是不是奢侈？

恰恰相反——小团队必须投 Big Harness。

大厂可以双押，小团队资源有限，只能选一条。

选 Big Model = 坐等大厂红利
选 Big Harness = 立刻产出自己的护城河

小团队的生存之道是**“快速产出 + 独特性”**——Big Harness 两个都给。

反驳三：这篇系列是不是过度吹捧 Harness 了？

有点。 我承认这 8 篇立场明显偏向 Big Harness——因为我押的就是这条路，当然会有偏见。

公正地说：如果你有 10 亿美金和 500 个 AI 研究员，应该双押。
如果你是个人开发者或小团队，Big Harness 是更理性的选择。

七、全系列总结：我们用 56000 字讲了什么

回顾 8 篇内容，形成一套完整的 Harness 方法论：

#	篇章主题	核心概念
01	定义	Agent = Model + Harness
02	护栏	确定性外壳 × 非确定性内核（4 层）
03	上下文管理	Checkpoint > Compaction
04	时间维度	三层心跳（微观/中观/宏观）
05	空间维度	Context 预算制
06	质量保证	独立 Evaluator
07	反模式	5 个常见坑 + 真实事故
08	路线选择	Big Harness 的长期价值

这就是一套完整的 Agent 长期工程化方法论。

可开源的配套代码仓库

按照第 01 篇的承诺，这 8 篇附带 4 个可开源的代码仓库：

openclaw-guardrails（第 02 篇四层护栏）
openclaw-daily-dream（第 03 篇心跳系统）
openclaw-context-engine（第 05 篇预算制）
openclaw-evaluator（第 06 篇独立评审）

后续我会逐个整理发到 GitHub。

全系列地图（完结）

#	标题	状态
01	Agent = Model + Harness	✅
02	确定性外壳 × 非确定性内核	✅
03	Checkpoint vs Compaction（硬货）	✅
04	Task Loop 三层心跳（硬货）	✅
05	Context 不是内存是预算	✅
06	独立 Evaluator	✅
07	五大反模式（硬货）	✅
08	Big Model vs Big Harness	✅ 收官