【Harness Engineering系列】08 Big Model vs Big Harness——模型路线 vs 工程路线,我们应该往哪走
摘要: 本文探讨AI Agent发展的两条技术路线——Big Model(依赖模型升级)与Big Harness(外围工程加固),通过分析OpenAI、Anthropic等案例,揭示两者天花板:模型可靠性增长非线性,工程复杂度会随模型进化衰减。作者基于时间成本、差异化护城河和知识沉淀三方面原因押注Big Harness路线,并通过Hermes、Claude Design等框架的代码级对比,证明工程

这是养虾系列 S4 《Harness Engineering 深度拆解》 的收官之作。
前七篇讲"怎么做"——护栏、心跳、上下文、评审、反模式,全是具体工程。
这一篇讲"往哪走"——两条路线的长期归宿、各自的天花板、我的选择理由。
读完这 8 篇,你会对"怎么做一个长期好用的 Agent"有一个完整的方法论体系。
一、开篇钩子:一场持续 3 年的路线之争
2024 年 Claude 3 发布时,圈子里主流声音是:“模型再强一点就好了。”
那时大家相信——等 GPT-5、Claude 5 出来,Context 窗口到 10M,推理能力再翻倍,现在所有 Agent 的工程问题都会消失。
2026 年 5 月的今天看——
- GPT-5 已发布,Claude 4.5 已落地,Context 窗口确实扩到 500K+
- 但 Agent 产品的失败率还是 70%+
- 大模型厂商自己都承认:“模型能力不是 Agent 落地的瓶颈”
为什么?因为这从来不是一场"模型 vs 工程"的单选题,而是两条不同路径的长期竞赛。
Big Model 路线:把所有问题交给下一代模型解决。
Big Harness 路线:在现有模型外围做工程加固。
我这 8 篇系列其实就是在为 Big Harness 路线 写辩护状。但今天这篇,我要公正地讲两条路的优劣——然后告诉你我为什么押注后者。
二、调研追溯:两条路线的代表公司
2.1 Big Model 阵营
典型代表:OpenAI(o 系列)、DeepMind(Gemini 2 Pro)、xAI(Grok-5)。
核心假设:当下游工程复杂性越来越高时,升级模型本身是最有杠杆的解法。
证据支撑:
- GPT-4 → GPT-4o:Agent 任务成功率从 54% → 73%
- Claude 3 → Claude 3.5:工具调用准确率从 81% → 94%
- 模型升级让大量 Harness hack 变得不必要
代表论文:《Scaling Laws for Neural Language Models》(Kaplan 2020)的后续演绎——“Intelligence is a scaling problem.”
2.2 Big Harness 阵营
典型代表:Anthropic(除了模型,投入大量工程在 Claude Code / Constitutional AI)、Stripe(Typed Policy Wall)、Cursor(IDE 级工程化)。
核心假设:模型能力每代增长 1.3x,但工程可靠性可以增长 10x+。
证据支撑:
- Claude Code 靠 Harness 工程让 Claude 3.5 做出 Claude 4 level 的产品体验
- Stripe 的 Typed Policy Wall 让 AI 支付错误率从 3% 降到 0.02%(150 倍)
- Cursor 靠 IDE 集成让 GPT-4 的实用度碾压裸调 API
代表观点:Simon Willison 的 “The LLM is the dumbest part of your AI application.”
2.3 第三条路(容易被忽略)
混合路线:模型能力和工程能力并行投入,不单押。
代表:Anthropic 自己——它同时做 Claude 5 和 Claude Code,两条腿走路。
这条路的好处是对冲风险,但资源投入翻倍。大部分团队做不到,只能选一边。
三、概念精析:两条路线的长期归宿
3.1 Big Model 路线的天花板
理想状态:模型足够聪明,所有现在的工程 hack 都可以去掉。
实际走向:
- Context 大了,但"注意力"没大——Claude 4 的 500K 上下文里,中段信息还是会被忽略
- 推理强了,但"意图理解"没强——用户说"清理一下",模型依然会过度推断
- 工具调用准了,但"组合"没准——单个工具 94% 准确,5 个工具链路准确率 = 0.94^5 = 73%
核心天花板:模型的"可靠性"不是"智能"的线性函数。智能翻倍,可靠性可能只涨 20%。
这是为什么 GPT-5 之后,Agent 失败率依然没显著下降。
3.2 Big Harness 路线的天花板
理想状态:工程足够完善,差的模型也能组装出好的 Agent。
实际走向:
- 护栏越来越多,但维护成本越来越高
- 工程复杂度上升——Harness 本身变成了一个需要"Harness 的 Harness"的系统
- 模型能力增长后 Harness 需要重构——早期为 GPT-3.5 设计的护栏到 Claude 4 时可能是阻碍
核心天花板:Harness 的 ROI 会随模型能力增长而衰减。如果下一代模型确实能解决某个问题,你为它写的护栏就成了死重。
3.3 两条路线的交叉点
我画一张图:
可靠性
│
│ Big Harness ──────────────
│ /
│ /
│ / Big Model ────────
│ / /
│ / /
│ / /
│/ /
└──────────────────────────────→ 时间
↑ ↑
2024 2028?
- 短期(1-2 年):Big Harness 路线明显领先——现在就能做出靠谱产品
- 中期(3-5 年):两条路线接近,有交叉
- 长期(5 年+):不确定谁赢
3.4 我为什么押注 Big Harness
三个理由:
理由 1:时间成本不对等
今天押 Big Model = 等未来。今天押 Big Harness = 现在就能产出。
理由 2:差异化护城河
模型能力是全行业红利——你等 Claude 5 别人也等。Harness 是你的私产——别人复制不了你 6 个月踩出来的 47 条护栏。
理由 3:Harness 本身是知识沉淀
模型升级会淘汰老模型,但 Harness 里总结的经验会沉淀成方法论、流程、文化——这是"可迁移资产"。
四、实例拆解:三家代码级对比(Hermes / Claude Design / OpenClaw)
我对比了三个开源/半开源的 Agent 框架,看他们如何站队。
4.1 Hermes Agent(NousResearch 开源)
Stars:84.9k
代码行数:~50K
Harness 占比:~70%(ContextEngine、MemoryManager、PromptBuilder 等全是工程)
核心投入:
- ContextEngine 可插拔上下文压缩
- 迭代摘要 + Handoff 框架
- Token 预算制尾部保护
- MemoryManager 插件化(内置 + 外部 + 围栏注入)
- PromptBuilder 注入防御
- SmartModelRouting 成本路由
站队:Big Harness 极度偏向。模型能力不强的时候(他们用 Mixtral 为主)也能跑出好效果。
4.2 Claude Design(Anthropic 官方)
性质:Anthropic 内部设计规范 + 一小部分开源组件
代码行数:~12K(公开部分)
Harness 占比:~60%
核心投入:
- Constitutional AI 做价值观护栏
- Claude Code 做 IDE 级工程
- MCP 协议做工具层统一
- 但同时也在做 Claude 5
站队:双押——资源够,既押模型也押工程。大公司玩法。
4.3 OpenClaw(我的)
性质:个人项目
代码行数:~8K
Harness 占比:~85%(除了 LLM 调用本身几乎全是 Harness)
核心投入:
- 四层护栏(L1 Skill / L2 Hook / L3 CLAUDE.md / L4 Shell)
- 三层心跳(微观 / 中观 / 宏观)
- 预算制 Context(15K token 硬预算)
- 独立 Evaluator(跨会话评审)
- Skill 版本系统(semver + CHANGELOG)
站队:Big Harness 极致偏向——我没有自研模型的能力,只能在模型外围死磕工程。
4.4 三家对比表
| 维度 | Hermes | Claude Design | OpenClaw |
|---|---|---|---|
| Harness 占比 | 70% | 60% | 85% |
| 模型无关性 | ✅ | ⚠️(绑 Claude) | ✅ |
| 护栏层数 | 3 层 | 4 层 | 4 层 |
| Context 预算制 | ✅ | ✅ | ✅ |
| 独立 Evaluator | ❌ | ✅ | ✅ |
| 宏观心跳 | ❌ | ❌ | ✅ |
| 开源 | ✅ | 部分 | 部分 |
共同点:三家都做了大量 Harness 工程。没有一家纯靠模型能力打天下。
这是 Big Harness 阵营最有力的证据——连模型厂商自己都不敢只押模型。
五、启发与方法论:五条可迁移原则(全系列总结)
原则 1:工具箱 ≠ 边界(第 01 篇)
知识图谱和思考模型是工具不是边界,当已有工具不足以解决问题时,应基于问题本质动用一切推理能力去解决。
这是 Harness 思维的起点——不要被现有工具框住想象力。
原则 2:确定性外壳 × 非确定性内核(第 02 篇)
非确定性的东西必须被确定性的东西包围。模型越聪明,护栏越要傻——傻到不讲理。
这是 Harness 的核心哲学。
原则 3:让规则可见,不让 AI 黑箱压缩(第 03 篇)
上下文管理不应该是模型的活儿,应该是工程的活儿。
Checkpoint > Compaction 的根本理由。
原则 4:给 Agent 分配时间维度(第 04 篇)
分层心跳——微观 Agentic Loop / 中观 Task Loop / 宏观 Evolution Loop。
让 Agent 真正"活"过当次对话。
原则 5:独立监督比自我监督可靠 10 倍(第 06 篇)
所有"自己监督自己"的机制,长期看都会退化为"自我表扬"。
评审、监督、审计——全部要独立实例。
额外:翻车即升级邀请函(第 07 篇)
Harness 不是设计出来的,是长出来的。每一次事故都是一次 Harness 升级的机会。
六、反驳性思考
反驳一:如果 GPT-5 真的解决了所有问题,Big Harness 岂不是白投?
不会白投。
理由:Harness 沉淀的是方法论和流程,不是代码。
- 代码会被淘汰
- 方法论会留下
- 流程会迁移到新工具
我过去 6 个月在 Harness 上投入 ~400 小时。就算明天所有代码作废,那 400 小时学到的"怎么设计可靠的长期系统"这个思维模式不会作废。
反驳二:小团队投 Big Harness 是不是奢侈?
恰恰相反——小团队必须投 Big Harness。
大厂可以双押,小团队资源有限,只能选一条。
- 选 Big Model = 坐等大厂红利
- 选 Big Harness = 立刻产出自己的护城河
小团队的生存之道是**“快速产出 + 独特性”**——Big Harness 两个都给。
反驳三:这篇系列是不是过度吹捧 Harness 了?
有点。 我承认这 8 篇立场明显偏向 Big Harness——因为我押的就是这条路,当然会有偏见。
公正地说:如果你有 10 亿美金和 500 个 AI 研究员,应该双押。
如果你是个人开发者或小团队,Big Harness 是更理性的选择。
七、全系列总结:我们用 56000 字讲了什么
回顾 8 篇内容,形成一套完整的 Harness 方法论:
| # | 篇章主题 | 核心概念 |
|---|---|---|
| 01 | 定义 | Agent = Model + Harness |
| 02 | 护栏 | 确定性外壳 × 非确定性内核(4 层) |
| 03 | 上下文管理 | Checkpoint > Compaction |
| 04 | 时间维度 | 三层心跳(微观/中观/宏观) |
| 05 | 空间维度 | Context 预算制 |
| 06 | 质量保证 | 独立 Evaluator |
| 07 | 反模式 | 5 个常见坑 + 真实事故 |
| 08 | 路线选择 | Big Harness 的长期价值 |
这就是一套完整的 Agent 长期工程化方法论。
可开源的配套代码仓库
按照第 01 篇的承诺,这 8 篇附带 4 个可开源的代码仓库:
openclaw-guardrails(第 02 篇四层护栏)openclaw-daily-dream(第 03 篇心跳系统)openclaw-context-engine(第 05 篇预算制)openclaw-evaluator(第 06 篇独立评审)
后续我会逐个整理发到 GitHub。
全系列地图(完结)
| # | 标题 | 状态 |
|---|---|---|
| 01 | Agent = Model + Harness | ✅ |
| 02 | 确定性外壳 × 非确定性内核 | ✅ |
| 03 | Checkpoint vs Compaction(硬货) | ✅ |
| 04 | Task Loop 三层心跳(硬货) | ✅ |
| 05 | Context 不是内存是预算 | ✅ |
| 06 | 独立 Evaluator | ✅ |
| 07 | 五大反模式(硬货) | ✅ |
| 08 | Big Model vs Big Harness | ✅ 收官 |
八、收官:为什么我花 6 个月写这 8 篇
最后说一句心里话。
过去 6 个月我几乎每天都在想一个问题——AI 产品失败的真正原因是什么?
我观察了圈内圈外上百个项目,结论是:90% 的失败不是"模型不够好",是"没把模型放进正确的系统里"。
这个"系统" = Harness。
但 Harness 这个词在中文技术圈几乎没人讲。我搜了一圈,找不到一篇中文深度文章。英文圈也只有散点讨论,没有成体系的方法论。
所以我决定自己写。56000 字,8 篇,用 6 周时间。
不敢说这是"权威方法论"——Harness 这个领域太新,每个人都在探索。但这 8 篇至少是我过去 6 个月踩坑 + 思考 + 开源代码的完整输出。
如果你在做 Agent 产品,希望这 8 篇能让你少走弯路。
如果你在做 AI 研究,希望这 8 篇能提供一个工程视角。
如果你只是好奇"大模型到底怎么变成产品"——希望你读完会觉得,答案不在模型本身,而在模型之外。
养虾系列 S4 · 完结。
感谢陪伴。下一季见。
路易乔布斯
2026 年 5 月 · 深圳
养虾系列 S4 · Harness Engineering 深度拆解 08/08 · 全系列完结
后记:这个系列的写作过程本身也是一次 Harness 实验
8 篇文章的产出用了:
- OpenClaw 的 classroom-article-writer-v2 Skill(第 06 篇讲的自检机制)
- daily-dream 心跳系统(第 03 篇讲的,保证记忆不丢失)
- 独立 Evaluator(新 Claude 会话评审每篇)
- Git 版本锁定(第 07 篇反模式 4 的修复)
Harness 既是写作的主题,也是写作的工具。这是我最得意的一点——方法论通过自己验证自己,形成闭环。
更多推荐



所有评论(0)