最近刷 OpenAI Build Hour 时,被一场直播彻底惊艳到了。
OpenAI 团队直接展示:从 GPT 自动补全 → IDE 结对编程,再到如今的 Agent 全权委托,开发模式已经彻底进入第三个阶段。
尤其是他们提出的 Harness Engineering(驾驭工程) 理念——把代码库彻底“调教”成 Agent 能看懂、能自主产出高质量 PR 的状态,让人类工程师彻底从敲键盘的循环里解放出来,只负责最高层决策。

我作为一个天天跟 AI 打交道的开发者,看完后直接手痒:这不就是我们梦寐以求的生产力飞跃吗?
今天就把这场 Build Hour 的干货,结合中文开发者实际场景,全部拆解给你。5 分钟读完,你就能立刻在自己项目里落地一部分。

核心概念解释

OpenAI 把软件开发分成三个清晰阶段:

  1. 自动补全时代(幽灵文本)
  2. 结对编程时代(IDE 里一起写代码)
  3. Agent 全委托时代(你只提需求,多个 Agent 自己规划、写代码、测试、提 PR)

现在我们已经实打实进入第三阶段。
核心武器就是 Codex 桌面端应用 + GPT-5.4
GPT-5.4 最大的突破是原生 Computer Use Agent(KUA):它能直接操作浏览器、运行 Shell,还支持 100 万 Token 上下文 + 工具搜索(Tool Search)

最关键的概念叫 Harness Engineering(驾驭工程)
不是让 Agent 随便生成代码,而是把代码库彻底工程化——加上清晰的文档、Lint 规则、测试框架、决策记录,让 Agent 产出的代码能直接过 CI、过人类 review,甚至达到“人类只需点一下 Merge”的地步。

简单说:把“人类写代码”的思维,改成“为 Agent 写代码”的思维。

技术实现拆解

1. Codex 桌面端应用的新杀手级功能

  • Skills(技能):给 Agent 注入专业知识和工具使用指南,开箱即用一堆预置 Skills。
  • Apps(应用):以前叫 Connectors,能把 Slack、Linear、Google 日历等工具直接连进来。
  • Worktree(工作树):Git 沙盒,支持同时跑多个任务互不干扰,一键 Handoff 合并回主分支。
  • Hosted Shell + Websocket Mode:Agent 拥有真实容器环境,延迟降低 20-30%,还能运行 Bash、JS REPL。
  • 自动化(Automations):定时让 Agent 审 PR、查 Bug、生成站会总结,真正实现“懒人开发”。

2. Agent 易读性评分(Agent Legibility Score)

现场演示里,Codex 自己写了一个 App,能对任意 GitHub 仓库打分,指标包括:

  • Bootstrap Self-sufficiency(能否零配置启动)
  • Task Entry Points(make / build / lint 是否清晰)
  • Validation Harness(测试框架是否完善)
  • Linting & Formatting(Lint 规则是否清晰可调用)
  • 文件地图、文档结构、决策记录(Decision Records)

Symphony 这个开源示例仓库就被打了个 B 级,Codex 还直接给出改进建议。
这套评分系统现在已经开源,你可以直接让 Codex 帮你跑一次自家代码库。

3. Harness Engineering 实战落地(Basis 团队真实案例)

Basis(会计师 Agent 平台)把公司级知识全部塞进代码库:

  • 根目录放 agent.md(全局标准)
  • 每个模块放 agents.md(模块专属)
  • 跨模块通用知识做成 Skill,并明确 Owner
  • 内部工具 Paper 管理所有 Skill 的所有权和更新流程
  • 子 Agent 专门负责代码审查、冒烟测试、生成 QA 计划
  • Dotnotes 自动记录每次决策历史,彻底解决“为什么这么改”的问题

结果:代码 100% 由 Codex 写,团队吞吐量从 0.25 人/工程师 → 3-10 人/工程师,而且新成员越多,整体效率反而越高(知识飞轮效应)。

关键洞察 / 作者观点

这里有一个特别狠的设计思想:AI Slop(AI 垃圾代码)是可以从源头杜绝的

以往大家怕 Agent 写烂代码,所以不敢全权委托。
但 OpenAI 团队的做法是:把你讨厌的一切模式(重复代码、缺少重试、加密库不标准、前端组件过大……)全部写成 Lint 规则 + 测试 + 审查 Agent,直接静态禁止。

更绝的是:把团队里每个工程师的“品味”和“专长”全部编码进代码库。
新来的前端大牛把 Hooks 拆小、组件微型化 → 所有 Agent 立刻学会;安全工程师把加密库要求写死 → 以后再也没人敢用错包。

这才是真正的“集体智慧上身”——你的 Agent 不再是单个模型,而是整个团队经验的化身

实际应用或启发

想立刻在自己项目里用起来?按这个顺序抄作业就行:

  1. 先装 Codex 桌面端应用(Windows 原生支持已上线)
  2. 建一个 agent.md,把团队编码规范、Lint 规则、验收标准全部写进去
  3. 开启 Worktree + Automations,让 Agent 自己审 PR、跑测试
  4. 引入 子 Agent 做专项审查(可靠性、产品规格、QA 计划)
  5. 用今天分享的易读性评分 App 给自家仓库打分,缺什么补什么

适合场景:

  • AI 创业团队(想用 5 个人干 50 人的活)
  • 大型遗留系统改造(逐步切割业务域 + 加本地文档)
  • 个人开发者(把 Codex 当成 24 小时不睡觉的搭档)

最爽的启发是:未来写代码的门槛不再是敲键盘,而是“会不会给 Agent 设计规则”
谁先把代码库“Agent 友好化”,谁就能在 2026 年实现指数级迭代。

总结

OpenAI 这场 Build Hour 说白了就一句话:
把代码库从“给人看”改成“给 Agent 看”,人类就能彻底从执行者变成管理者

Harness Engineering + Codex 新能力,已经让百万行生产代码 100% Agent 生成成为现实。
而这一切,只需要你花点时间把团队智慧写进 Markdown 就行。

赶紧去试试吧——把你的仓库喂给 Codex,让它自己给你打个 Legibility Score,看看差在哪里。

下次你再打开 IDE,可能就只剩下“审核 PR”和“点 Merge”两个按钮了。

我是紫微AI,我们下期见。
(完)

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐