【万字长文】上下文工程详解，大模型开发者必收藏的架构指南！

本文探讨上下文工程作为AI应用的基础架构，揭示当前AI开发的"炼金术"问题及上下文腐烂现象。指出RAG概念已过时，提出将检索系统与上下文工程解耦。强调通过操作主义方法论，定义测量、迭代实验的重要性。分析AI时代创业挑战，认为有长期价值的AI产品需要独特数据和算法能力作为护城河。

程序员王饱饱

292人浏览 · 2025-09-25 17:12:56

程序员王饱饱 · 2025-09-25 17:12:56 发布

前不久看了 Latent Space 对 Chroma CEO 的访谈，并对他在视频中推荐的上下文工程（Context Engineering）的技术路线做了进一步深入的了解和推敲，很有启发。

个人感觉，Chroma的工程团队，几乎给出了 AI App 最基本的通用架构设计。

为了尽量用通俗易懂的方法，让普通读者也可以理解到一个较为复杂的 AI 工程系统的设计思路，作者也是第一次做了一个视频，希望可以在 20 分钟内，尽可能得梳理清楚整个逻辑。

注意：

此文有大量本人自己的理解、观点和思考，与原采访的时间线和行文结构并不一样
推荐大家有空也去看一下原文

为什么值得看？

Jeff 作为技术出身开发 Infra 产品的 CEO 不讲 bullshit，脚踏实地讲逻辑
Chroma 作为向量数据库，是 AI 服务的核心基础工具，因此他们有业界大量的一手经验
他们在认真推导用工程驱动（Eng Driven）的方法来开发稳定可靠的 AI 产品，而不是碰模型的运气
他们提供的方法论和技术路线非常务实且可执行（Actionable）

内容大纲

我们整体就讨论两个内容：

上下文工程：是什么？为什么需要？如何做？为什么不是 AGI？
AI 时代技术创业公司的一些感想

上下文工程

为了理解上下文工程，我们从三个方向来展开讨论：

AI 炼金术
上下文腐烂（Context Rot）
为什么说 RAG 已死

AI 炼金术

AI 炼金术其实在业界已经是一个非常著名的梗了，现实中很多个人用户甚至产品团队使用语言模型的方法如下：

先把提示词（Prompt）和所有的上下文全都扔进语言模型里，然后让语言模型产出结果
如果结果不满意呢，我们就重新调整上下文和提示词，重新来，一直到得到满意的结果为止

听到这个很多人估计都会有很大的疑问：

到底应该遵循怎么样的科学原则，来让这个提示词调整的重复过程：快速、可验证、可拓展呢？

很少有人可以给出体系化、工程化的答案。

Sam 的 AGI 炒作？

用户走这套所谓碰运气的流程，非常符合人性。

而一些 AI 产品团队也如此操作，大概原因是：

很多产品在提示词之外做的工程系统，都很快被模型的更新所覆盖了
大家对模型未来革命性迭代海有预期，AI的部分先凑合能用，把其他功能的迭代和市场推广做好了，在等待模型的更新带自己起飞

造成这样的结果跟 Sam 的操作有一定的关系：

Sam 自己给不出 AGI 的定义，但是却一直在用 AGI 来炒作，让所有人遐想一个强大无比的空中楼阁，当然，他肯定是故意的
（个人臆测）如果强行套入 Sam 的叙事，这套提示词的流程，在几乎（比如 99%）不需要重复调整的情况下，就可以直接实现基本满意的结果时候，这套系统可能就是 Sam 口中的 AGI

为了方便讨论，下文中所有的 AGI 都指这个特定的定义。

那这样的 AGI 是不是很近了呢？

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

AGI 挑战

Transformer 模型的原生局限

至少AI 三巨头的 Yann LeCun 一直不看好 Transformer 模型，他的主要理由有非常多：

文字和语言的数据量非常小，而且已经用完了
语言和智慧之间有非常大的差距
语言模型无法稳定得建立可信的因果关系
缺乏与真实世界的互动和联系 - 需要建立世界模型

有兴趣的朋友可以去听一下他的访谈，他说出了好多好多理由。

大语言模型中的“推理”

另外说说推理（reasoning）模型，大家都听说过推理模型，但是有多少人知道这个所谓的推理（reasoning）到底是什么意思呢？

根据 DeepMind 的 AI 科学家 Denny 的介绍，大语言模型的工程上，对“推理”（reasoning）的定义，跟人类自己的理解是有差别：

语言模型里“推理”，只是把生成的中间过程显似地表达出来，同时也作为后续步骤的输入，这就是推理 - 可以简单想象成“边说边想”
这个跟人类建立因果关系的“推理”，完全不是一个概念
商业上，这样“故意”的认知错位，反而更进一步推进 AI 热度，所谓：取名是商业的艺术

上下文腐烂

第三，也是我们主要要讲的内容，Chroma 团队自己发表了一份科学报告：上下文腐烂。

操作主义 Operationalism

在探讨上下文腐烂这份报告之前，我们先简单了解一个的知识点 - 操作主义。

个人多年前在学校研究物理学时无意中了解到它，从此这个概念成了认识世界、理解世界的一个最基础的方法论。理解它，可以帮助理解后续的逻辑。

操作主义最早来自于诺贝尔物理奖得主、哈佛大学教授 Prof Bridgman 的书《现代物理学的基础逻辑》：

“操作主义”是定义对现象的测量的过程，重点是定义测量过程
它近似于是“空谈”和科学讨论的一个分界点。想要科学地讨论任何事情，先需要定义好测量方法

笔者个人的理解：我们对世界的测量方式决定我们对世界的理解程度

简而言之：

如果你想要了解任何事情，就去了解这个事情的测量方法

比如：人类用GDP来定义国家的国力，了解GDP的测量方法，就是在了解国家的国力
一个测量方法可能不全面不正确，但是至少可以让一个抽象的概念变得可讨论、可分析甚至可计算

反之，想要操作人们对某个事物的认知，最简单的就是操作测量方法

这个理论框架，在后面还会出现，如果一下子不能理解，相信后面具体的例子可以帮助理解。

上下文腐烂

我们回到上下文腐烂的主题，Chroma团队发现：

LLM 支持的上下文窗口越来越长，而且在跑分中得分也几乎完美
按照这样结果，语言模型应该在长上下文和短上下文，表现出非常均衡的性能
但是现实情况却是，语言模型的性能却随着上下文的长度而变化

这到底是为什么呢？

“大海捞针” 测试

这就涉及到对测量方法的定义了。

Chroma 团队检查了最常用的基准测试，稻草堆找针，有如下发现：

首先，我们需要寻找的关键内容（针 - needle），被一些不相关的内容围绕（稻草 - haystack）
其次，测试的问题，跟需要寻找的内容（Needle），词法用法高度相似
这个测试被大量使用的一个原因是扩展性强

但是，这么简单的测试，如今的模型怎么可能不过呢？那自然就是模型的上下文窗口变长了，基准测试依然完美。

这就是一个典型的，用测量方法改变我们对事物认知的例子。

上下文腐烂 - 改进测试

于是，Chroma团队对稻草堆找针测试，做了一系列的升级，比如：

让问题和寻找的内容（needle）词法不一样
在上下文（haystack）中增加干扰项
增加上下文（haystack）和寻找内容（needle）的相关性
使用真实的对话数据
等等等

经过这一系列的升级，结论终于跟体验统一了：上下文越长，LLM 的性能越差。

No AGI

简单做一个阶段总结，上面我们讨论过的三点：

Transformer 模型有原生局限性
大语言模型中“推理”的定义是非常浅层的
上下文腐烂

根据这几个观点，我们推测 AGI 可能还有一段距离。

但是产品和工程依然需要往下推进，根据上下文腐烂的指导，为了让模型成为一个稳定的系统部件：

我们必须对放入模型上下文的内容非常有选择性，而这个选择的方法论就是上下文工程。

上下文工程的原则

根据前面的指导，其实我们可以比较容易构建出我们对上下文工程的基本要求：

我们需要尽量减少上下文的长度
因为长度有限，我们需要提高上下文的相关性
在不同的问题中，我们的系统必须要保证模型输出的持续准确性

那具体对于长度、相关性、准确率，应该如何实操呢？

这里就又要回归我们的之前反复强调过的操作主义的概念了。

对这几个关键参数定义测量方法和阈值把控，彰显的就是团队对自己想要解决的问题和开发的产品的理解深度。如果团队给不出自己对需求清晰的理解和定义，只是去看充斥着网络的“上下文工程技巧”就毫无意义。

因为：

每个不同的业务，不同的用户场景的需求都是不一样的。比如律师 Agent 需要的准确率显然会远高于一个旅行 Agent
并没有一个统一的技巧和数字可以覆盖所有的产品和场景
除了不停地迭代、实验和持续的反馈、评估，没有任何捷径可走

再次强调，对于这几个关键参数的持续不断自我演进的定义、测量、评估、调整，决定了团队对自己要解决的问题和要开发的产品的理解深度。

必须将对产品的理解、探索和迭代过程，转换成一个数学上的优化问题。

同时这里其实还有另外一个值得引申的问题：

长度和准确率，还比较好理解和定义
这个相关性，非常抽象，它该如何操作呢？

信息检索 Information Retrieval

好消息是，人类对相关性已经有非常长的研究历史和成熟的知识体系了，也就是信息检索（Information Retrieval）：

它解决的核心问题就是对于具体的问题（query）如何排序相关的内容（documents）
这门研究已经持续多年，算法和理论已经经历了大量成熟产品的检验
近年来的自然语言处理（NLP）对这门学科也有非常大的推进
我们每个人每天都会使用的搜索引擎就是一个典型的检索系统

为什么 RAG 是一个烂名字

至此，我们终于梳理清楚了所有的逻辑。然后回到了开篇 Chrome CEO 的爆论：RAG 已死。

至少 RAG 是一个很烂的名字。为什么呢：

Retrieval-Augmented Generation，其实是把几个不相关的概念生搬硬套组合在一起
它可能非常适合营销和传播，来继续推升 AI 的热情
但是它削弱了工程上的可操作性
而且可能会给人一个错误的印象：炼金术那一套将问题和所有上下文扔进模型的做法是正确的

当我们回归工程的初心，放弃这个营销的名字，用最基本的工程原理，将两个需求解耦合，我们就得到了两个更容易独立分析、操作和迭代的子工程：

检索系统，负责找到最相关的上下文，并且复用已经发展了几十年的成熟算法和知识体系，不需要重新发明轮子
上下文工程，针对自己的具体业务，优化长度、相关性和准确性这三者的组合

检索 + 上下文工程的系统架构

最后，我们把前面所有讨论的内容，根据Chroma团队提供的其他细节，综合起来，于是一个 AI 应用最基础的通用架构原型就得到了。但是注意：

这个只是一个最基本的梗概，不同的业务有完全不同的需求，所以一定回归操作主义，自己寻找对要解决的问题最正确的定义和最合适的体系
同样，除了不停地迭代、实验和持续的反馈、评估，没有任何捷径可走

这一部分，技术细节过多，就不展开讨论了，有兴趣的同学可以参考 Chroma CEO 的原文或后台私信。

技术祛魅

我们谈了这么多，有没有发现了工程的几个核心方法论：

拆分分治（Divde and Conquer）：把复杂的大问题拆分成多个可理解、已经解决的小问题

机器学习里找到更多独立的特征（feature）也是同样的道理

定义测量（Define Measrurements）：把主观、抽象的感觉定义成客观的数字
迭代实验验证（Iterative experiments and evaluation）：建立流程，将优化变成一个数学问题，尊重数字、尊重客观事实

从天上的卫星到地上的高铁，从机房里的 GPU 到手机上的 App，所有的这些工程项目，都遵循着这些基本的第一性原理，就是如此朴实无华，不高深也不神秘。

而如此，慢慢建立因果关系或者统计关系的流程，可能才是人类所理解的推理（reasoning）。

那工程的难度在哪里呢：

保持每一步的高准确率。所谓手艺，就是对无数细节品质的把控，这不是工程的技术，这是工程的艺术。

AI时代的技术创业

讲了这么多工程设计和推理逻辑，我们来做一个简单的商业总结，聊一聊 AI 时代的应用创业。

AI App 的工程挑战

首先我们聊一聊 AI 应用的工程挑战。

如果我们对整个计算机的知识和技能体系，做一个非常粗颗粒度的拆分，可以得出一个不严谨的结论：

AI 时代的科技创业对团队的技术要求远高于互联网时代

在互联网时代，绝大部分应用团队，主要工作内容：

数据模型的设计
商业流程的梳理和实现

互联网时代最核心的任务，是从现实世界到数字世界的迁移。

但是在 AI 时代，所有想要有长期价值的应用团队：

不仅需要做互联网时代要做的所有事情
并且需要有很强的算法能力
要拥抱 LLM 的不确定性，探索它的“稳定边界”

AI 时代产品的核心价值在于构建商业智能，这个难度比互联网的数字迁移，高几个数量级。

团队的算法能力极其重要，但现实是：

对于信息检索和机器学习这样算法密集的工程系统，绝大部分工程师不仅在学校没有认真学过，而且在工业界也很少有上手经验，笔者就见过十年工作经验的大厂老码农，写不出一个入门的学习算法
大部分情况，算法本就比系统工程更难，尤其是现在，大量成熟的系统工具开盒即用。但是算法的探索和优化只能团队自研
互联网的产品经理难以转型 AI 产品经理跟这个也有一定的关系

AI 时代创业变简单了的错觉，可能只是 AI 降低了 60 分的产品的开发门槛。

而真正有长期价值，可以躲过模型碾压的90分产品，都需要自己有独门的数据能力和算法能力。这可能会是 AI 应用的一个小护城河。

AI App 的商业现实

而另外一边，AI 应用也面临着非常残酷的商业现实。

AI App 的毛利率

AI 时代仿佛终结了自软件时代所开启的边际成本几乎为零的巨大不对称优势，自己将自己拉下神坛成了“近似”的传统行业：

毛利率从 SaaS 的 80-90% 降低到了 AI 的 50-60%
在服务收费的同时，还会限制用量，模型费用成了大部分初创企业的一大支出
大家都在说模型费用会降低，但是需求同时也在指数上升，所以两者结合的最终效果，其实还不明确

AI 产品的转化率

作为最重要商业指标之一的转化率，我们看看有公开数据的ChatGPT：

7亿周活用户，1500万付费用户，转化率 2.2%
面对高额的成本，如何盈利呢？
真的变成流量入口，做流量生意吗？

当然，作为行业领跑者，转化率、盈利可能本就不是 OpenAI 最重要的目标。

但是，其他没有公开数据 AI App 呢？转换率可以做到什么水平呢？可以超过 ChatGPT 吗？

AI 产品的留存疑云

这里又是一个操作主义的例子。

业务另外一个重要商业指标的 - 留存，越来越多的公司开始使用 Annualized Run Rate 来做财务披露的指标，并且直接使用 ARR 的缩写，也不做任何说明，好像就希望人们理解错误：

这是为了制造短期的炒作？
还是长期的数据拿不出手？

这些现实都挑战着我们对 AI 商业化盲目的乐观。

面向未来

最后，话说回来，新领域的商业路径永远都是不清晰，技术要求也总是越来越有挑战性。

然而，身为一个高级智慧体，做简单的事业、挣简单的钱又什么乐趣呢？

吗？

AI 产品的留存疑云

[外链图片转存中…(img-ruvlC4uC-1758791492925)]

这里又是一个操作主义的例子。

这是为了制造短期的炒作？
还是长期的数据拿不出手？

这些现实都挑战着我们对 AI 商业化盲目的乐观。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述
如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

武汉城市开发者社区

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士，涵盖了多个领域，包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动，为开发者提供更多的学习和交流机会。

更多推荐

开发一个能够实现小红书平台图文内容一键发布功能的智能体模型：全面技术方案

武汉城市开发者社区

科研效率提升：Deep Research

DeepResearch是一种具备自主闭环研究能力的AI智能体，通过自动化任务拆解、多轮检索验证和跨源信息融合，将传统需数天完成的深度研究工作压缩至30分钟内完成。其核心优势在于聚焦深度主题研究、支持异步任务处理，并能生成结构化报告和创新性观点。技术架构基于认知推理、工具集成和流程自动化三大支柱。国内外主流工具各有侧重，如BAAI悟道适合中文深度学术研究，腾讯云智服适用于企业应用研究。科研落地流程