上下文工程(Context_Engineering):从点式调优到系统优化的AI进阶之路
上下文工程超越传统提示词工程,将上下文视为系统优化的核心对象。它通过上下文检索与生成、处理和管理三个基础组件,以及RAG系统、记忆系统、工具集成和多智能体系统等实现形式,提升大语言模型在真实应用中的表现、可靠性与效率。面对当前标准缺乏、自动化不足等挑战,上下文工程未来将向更高效、自适应、多模态的系统化方向发展,成为智能系统的关键支柱。
简介
上下文工程超越传统提示词工程,将上下文视为系统优化的核心对象。它通过上下文检索与生成、处理和管理三个基础组件,以及RAG系统、记忆系统、工具集成和多智能体系统等实现形式,提升大语言模型在真实应用中的表现、可靠性与效率。面对当前标准缺乏、自动化不足等挑战,上下文工程未来将向更高效、自适应、多模态的系统化方向发展,成为智能系统的关键支柱。
摘要
大语言模型(LLMs)的性能在根本上取决于推理过程中所提供的上下文信息。本综述引入了上下文工程(Context Engineering),这一学科超越了简单的提示词设计,涵盖了面向LLMs系统化优化信息载荷的方法。我们提出了一套全面的分类法,将上下文工程分解为基础组件以及将其集成到智能系统中的复杂实现。
首先,我们考察了三个基础组件:
-
上下文检索与生成:涵盖基于提示的生成与外部知识获取;
-
上下文处理:涉及长序列处理、自我改进、结构化信息整合;
-
上下文管理:包括记忆层级、压缩与优化。
然后,我们探讨这些组件如何在体系结构上集成,从而构建复杂的系统实现:
-
检索增强生成(RAG),包括模块化、代理化以及图增强架构;
-
记忆系统,支持持久交互;
-
工具集成推理,用于函数调用与环境交互;
-
多智能体系统,实现通信与编排。
通过对 1400 多篇研究论文的系统分析,本综述不仅建立了该领域的技术路线图,还揭示了一个关键的研究缺口:模型能力存在根本性的不对称性。当前模型在先进上下文工程的增强下,能够展现出对复杂上下文的卓越理解能力,但在生成同等复杂、长形式输出方面仍表现出显著局限。解决这一缺口是未来研究的关键优先事项。最终,本综述为研究人员与工程师提供了一个统一框架,以推动面向上下文的人工智能发展。
一、引言
大型语言模型(LLMs)的出现标志着人工智能领域的范式转变,展现了前所未有的自然语言理解、生成与推理能力 。然而,这些模型的性能和效能在根本上受到其接收的上下文信息所支配。上下文——从简单的指令提示到复杂的外部知识库——构成了引导模型行为、增强其知识以及释放其能力的主要机制。
随着 LLMs 从最初的指令跟随系统演化为复杂应用的核心推理引擎,设计和管理其信息载荷的方法也随之发展,最终形成了上下文工程(Context Engineering)这一正式学科。
上下文工程的研究领域以爆炸式速度扩展,催生了大量专业化但彼此分散的研究方向。我们将其概念化为由**基础组件**及其后续的**系统实现**所组成的整体。基础组件通过三个关键阶段构成上下文工程的系统化流程:
- 上下文检索与生成:涵盖基于提示的生成与外部知识获取;
- 上下文处理:涉及长序列处理、自我改进机制、结构化信息整合 ;
- 上下文管理:处理记忆层级、压缩技术与优化策略。
这些基础组件为更复杂、面向应用的系统实现奠定了基石,使 LLMs 能够与外部世界相连接。相关系统包括:
- 高级检索增强生成(RAG):其架构已发展为模块化与代理化形式,用于动态知识注入 ;
- 显式记忆系统:模拟人类认知功能,实现持久信息存储;
- 智能体系统生态:这一类别代表上下文工程的顶点,其中智能体通过函数调用与工具集成推理来与世界交互,并依赖复杂的通信协议与上下文编排机制,在多智能体环境中完成复杂目标。
尽管这些领域都产生了大量创新,但它们大多是孤立研究的。这种碎片化的发展掩盖了不同技术之间的内在联系,并给研究者理解整体格局、实践者高效利用方法带来了障碍。该领域亟需一个统一的框架,以系统化地组织多样化技术、澄清其基本原理,并揭示其相互依赖关系。
为弥补这一关键空缺,本综述首次对 LLM 的上下文工程进行全面系统的回顾。我们的主要贡献是提出了一套新颖的结构化分类法,用于归纳设计、管理和优化上下文的多样化技术。该分类法将该领域组织为**基础组件**与其在**复杂系统实现**中的集成。通过该框架,我们:
-
提供了跨各个子领域的最新进展的清晰结构化概览;
-
分析了不同方法的核心机制、优势与局限;
-
识别了整体挑战并提出了未来研究的潜在方向。
本工作既是引导研究者探索复杂上下文工程领域的技术路线图,也是推动深入理解与未来创新的基石。
本文其余部分的组织如下:在讨论相关工作并正式定义上下文工程之后,我们首先考察该领域的基础组件,包括上下文检索与生成、上下文处理与上下文管理。随后,我们探讨其系统实现,如检索增强生成、记忆系统、工具集成推理与多智能体系统。最后,我们讨论评估方法论、未来研究方向,并给出总结。图1展示了我们的分类法概览,阐释了上下文工程中技术的层次化组织及其相互关系。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

二、 相关工作
随着大型语言模型(LLMs)的快速成熟,已经出现了大量综述文献,试图描绘其多维度的研究版图。虽然这些工作非常有价值,但它们大多集中在我们所定义的上下文工程(Context Engineering)的某些垂直子领域。我们的综述旨在补充这些成就,提供一个横向的、统一的分类法,将基础组件与其在复杂系统中的集成实现区分开来,从而打通这些专业化领域之间的联系。
基础组件
许多综述聚焦于上下文工程的基础组件,这些组件构成了有效上下文操作的核心技术能力。
- 上下文检索与生成
该方向包括提示词工程方法与外部知识获取技术。关于提示词工程的综述已系统梳理了引导 LLM 行为的多种方法,从基础的少样本方法到高级的结构化推理框架 。外部知识检索与整合技术,尤其是通过知识图谱与结构化数据源的方式,则在表示方法、整合范式和应用场景方面得到了回顾,这些方法提升了 LLM 的事实性支撑能力 。 - 上下文处理
该方向解决处理长序列、自我改进机制以及结构化信息整合的技术挑战。长上下文处理方面的综述分析了扩展上下文窗口、优化注意力机制和高效记忆管理的方法。此外,关于 LLM 内部认知过程的研究也越来越多,其中涉及自我上下文化技术和自我改进范式的综述逐渐受到关注。 - 上下文管理
相关文献则聚焦于记忆层级、压缩技术与优化策略,旨在在计算约束下实现高效的信息组织与检索。虽然针对“上下文管理”这一整体领域的专门综述仍然有限,但关于记忆系统与上下文压缩的研究已为这些关键能力提供了重要的基础见解。
系统实现
与此同时,文献中也广泛覆盖了将基础组件集成到复杂架构中的**系统实现**,这些架构面向现实应用需求。
- 检索增强生成(RAG)
这一领域受到了广泛关注,早期综述梳理了其发展过程及其在缓解幻觉问题上的作用 。近期工作进一步综述了其向模块化、agentic与图增强 RAG 架构演进的趋势。 - 记忆系统
支持持久交互的记忆系统与认知架构被探讨于专门综述中,重点放在记忆增强型智能体及其应用。更广泛的 基于 LLM 的智能体类别也是基础研究热点之一,已有大量综述覆盖自主智能体的体系结构、规划与方法论。 - 工具集成推理
涵盖函数调用机制与智能体-环境交互的研究也得到了系统性总结,探索了从单工具系统到复杂编排框架的演变。 - 多智能体系统(MAS)
这一方向同样是研究焦点,综述文献涉及 MAS 的工作流、基础设施、通信协议与协调机制。
评估
对这些复杂系统的评估也是重要研究方向,已有综述深入分析了组件级和系统级能力评估的基准与方法论。这类评估研究涵盖了基础组件的测试与集成系统的整体评估范式。
我们的贡献
虽然现有综述对各自领域提供了深入分析,但它们不可避免地呈现出一种碎片化视角。比如:
- RAG 作为外部记忆的一种形式;
- 工具使用作为上下文获取的一种方法;
- 提示词工程作为编排这些组件的语言。
这些联系在大多数综述中往往没有被明确揭示。
我们的工作与现有文献的区别在于:提出**上下文工程**这一统一抽象概念,明确区分基础组件与其在复杂实现中的集成。通过将分散的研究领域组织为一个单一且连贯的分类体系,本综述旨在阐明它们之间的基本关系,并提供一个整体图景,展示上下文是如何被生成、处理、管理和利用的,以驱动新一代智能系统的发展。
三、为什么需要上下文工程?
随着大型语言模型(LLMs)从简单的指令跟随系统演变为复杂、多维应用的核心推理引擎,我们与其交互的方式也必须随之演进。传统的“提示词工程(prompt engineering)”一词,虽然在早期至关重要,但已经不足以涵盖现代 AI 系统中**设计、管理和优化信息载荷**的全貌。当今的系统并不仅仅依赖单一的、静态的字符串输入;它们利用的是动态的、结构化的、多维度的信息流。为了应对这一转变,我们在此提出并正式定义**上下文工程(Context Engineering)**。
3.1 上下文工程的定义
我们从自回归 LLM 的标准概率模型出发来形式化上下文工程。给定模型参数 θ,模型在输入上下文 **C** 的条件下生成输出序列 **Y = (y₁, …, y\_T)**,目标是最大化条件概率:
在提示词工程范式下,上下文 C 通常被视为一个单一、静态的字符串(即 C = prompt)。但这种视角已经无法满足现代系统的需求。
上下文工程重新定义了 C ——它是一个由多个信息组件c1,c2,…,cn动态组合而成的结构化集合。这些组件是由一组函数来获取、筛选、格式化,最终由高级汇编函数A进行编排:
这些组件ci并非任意存在,而是直接对应于本综述所覆盖的核心技术领域:
- c_instr:系统指令与规则(上下文检索与生成,第4.1节);
- c_know:外部知识(通过 RAG 或知识图谱获取,第4.2节与第5.1节);
- c_tools:外部工具的定义与接口(函数调用与工具集成推理,第5.3节);
- c_mem:来自过往交互的持久信息(记忆系统与上下文管理,第5.2节与第4.3节);
- c_state:用户、世界或多智能体系统的动态状态(多智能体系统与编排,第5.4节);
- c_query:用户的即时请求。
上下文工程的优化问题
上下文工程可以被形式化为:寻找一组最优的上下文生成函数 F = {A, Retrieve, Select, …},以最大化模型输出的期望质量。给定任务分布tau
,目标为:
其中,τ 表示一个具体的任务实例,C_F(τ) 表示由函数集 F 为该任务生成的上下文,而 Y*_τ 则是该任务的真实输出或理想输出。这个优化问题受到一些硬性约束,最主要的是模型的上下文长度限制:
信息论与贝叶斯框架
-
知识检索:可以建模为信息论最优性问题,给定问题,c_query目标是选择使答案 Y* 信息增益最大的外部知识 c_know。
-
贝叶斯推断:上下文构建可以被视为对最优上下文后验概率的推断:
最终目标是寻找能最大化期望奖励的上下文 C*。
3.2 为什么需要上下文工程
3.2.1 当前局限性
- 计算限制:自注意力机制的 O(n²) 复杂度导致长上下文处理的计算与内存开销极高,严重影响诸如对话系统和代码理解模型等实际应用。
- 可靠性问题:LLMs 常出现幻觉、不忠实于输入、对输入变化过度敏感、输出语法正确但语义空洞等问题。
- 方法学不足:提示词工程往往依赖经验与近似优化,缺乏系统性,难以保证一致性。
3.2.2 性能提升
上下文工程已在多个方面证明了显著的性能改进:
- RAG 与提示优化可使文本导航准确率提升 18 倍,任务成功率达到 94%;
- 结构化提示(如 Chain-of-Thought)让模型能够逐步推理,提升代码总结与 bug 修复等任务表现;
- 领域特定上下文工程在代码生成、硬件设计、安全验证等专业任务中显著提升了性能。
3.2.3 资源优化
上下文工程通过智能筛选与压缩技术,能够:
- 降低 token 消耗,减少计算与存储成本;
- 通过动态上下文优化与注意力引导机制,提高信息密度,减少延迟与开销。
3.2.4 未来潜力
上下文工程为自适应 AI提供了强大潜力:
- 上下文学习让模型无需重新训练即可适应新任务;
- 压缩与选择机制使模型在低资源场景中仍能高效运行;
- 推理增强方法(CoT、ToT、GoT 等)为复杂任务的理解与生成奠定了基础。
未来研究的关键方向包括:
-
通过结合对数几率对比机制(logit contrast mechanisms)的链式思维增强来提升推理能力;
-
在代码智能、跨模态理解等领域更好地融合不同类型上下文;
-
优化上下文利用策略;
-
克服 Transformer 架构的扩展性限制,向更复杂的过滤和选择机制演进。
四、基础组件
上下文工程由三个基本组件构建,这三者共同应对大语言模型中信息管理的核心挑战:
- 上下文检索与生成(Context Retrieval and Generation)
- 通过提示词工程、外部知识检索与动态上下文组装来获取合适的上下文信息。
- 上下文处理(Context Processing)
- 通过长序列处理、自我改进机制与结构化数据整合来转换和优化获取的信息。
- 上下文管理(Context Management)
- 通过应对基础约束、实现复杂的记忆层级结构以及发展压缩技术,实现高效的上下文组织与利用。
这些基础组件共同奠定了上下文工程的理论与实践基础,形成一个完整的框架:每个组件分别处理上下文工程流程中的不同方面,同时保持协同关系,从而实现整体上的上下文优化与有效的工程策略。
4.1 上下文检索与生成
上下文检索与生成是上下文工程的基础层,涵盖了为 LLMs 系统化地**获取与构建相关信息**的过程。其核心挑战是如何获取合适的上下文信息,主要包括三种机制:
- 基于提示的生成 ——通过设计有效的输入指令和推理框架来引导模型;
- 外部知识检索 ——从动态知识源获取所需信息;
- 动态上下文组装 ——将获取到的组件编排为连贯、任务优化的上下文。
4.1.1 提示词工程与上下文生成
提示词工程与上下文生成构成了上下文检索的核心环节,其本质是战略性的输入设计,融合了艺术与科学,以便为 LLMs 构建有效的指令。
- CLEAR 框架(简洁性、逻辑性、明确性、适应性与反思性)为提示构建提供指导;
- 核心结构整合了任务指令、上下文信息、输入数据与输出指标。
零样本与少样本学习范式
- 零样本提示(Zero-shot)依赖指令的清晰度和模型预训练知识,无需示例即可完成任务 ;
- 少样本提示(Few-shot)通过精心选择的示例引导模型响应,从而提高任务执行效果;
- 上下文学习(In-context Learning) 使模型在无需更新参数的情况下,通过示例适应新任务,性能高度依赖示例的选择与排序策略。
链式思维(Chain-of-Thought, CoT)
- 将复杂问题分解为中间推理步骤,模仿人类思维过程 ;
- 零样本 CoT 使用触发短语(如“让我们一步一步思考”),能显著提升数学推理任务准确率(例如 MultiArith 从 17.7% 提升至 78.7%);
- 树式思维(Tree-of-Thought, ToT)将推理组织为层次结构,支持前瞻与回溯;
- 图式思维(Graph-of-Thought, GoT)将推理建模为图结构,进一步提升质量并降低成本。
认知架构融合
- 认知提示模拟人类操作流程,如目标澄清、分解、过滤、抽象与模式识别,从而实现系统化的多步任务解决;
- Guilford 的智力结构模型为认知操作(如模式识别、记忆检索与评估)提供心理学基础;
- 高级实现中,认知操作被模块化为推理工具,可显著提升复杂任务表现(例如 GPT-4.1 在 AIME2024 上从 26.7% 提升至 43.3%)。
4.1.2 外部知识检索
外部知识检索是上下文检索的重要组成部分,用于突破参数化知识的局限,动态接入外部数据源(数据库、知识图谱、文档集合等)。
RAG(检索增强生成)
结合模型参数内知识与外部检索信息,既能保持参数效率,又能获取最新的领域知识;高级变体包括 FlashRAG、Self-RAG、RAPTOR、HippoRAG、GraphRAG 等,分别侧重模块化、自适应检索、层次化文档处理、记忆启发与图增强知识访问。
知识图谱集成与结构化检索
- 框架如 KAPING 基于语义相似性检索相关事实并将其插入提示中;
- KARPA 无需训练即可适配知识图谱,通过路径规划和关系推理实现最优性能;
- Think-on-Graph 通过知识图谱进行序列化推理,生成多条推理路径。
代理化与模块化检索系统
- 代理型 RAG 将检索建模为动态操作,智能体像调查员一样分析与交叉验证信息;
- 模块化 RAG 通过标准化接口与即插即用设计实现灵活组装;
- 实时 RAG 支持流式动态信息场景。
4.1.3 动态上下文组装
动态上下文组装是对已获取信息的高级编排过程,目标是生成连贯且任务最优的上下文,同时兼顾计算约束。
组装函数与编排机制
- 包括基于模板的格式化、基于优先级的选择与自适应组合;
- 在多智能体系统中,涉及智能体选择、上下文分配与交互流控制。
多组件集成
- 需解决跨模态集成问题,处理文本、结构化知识、时间序列及外部工具接口;
- 结构化数据常被转化为自然语言(如将知识图谱三元组、表格行转化为句子),或直接利用 Python/SQL 进行表示。
自动化优化
- 自动提示工程(APE) 通过搜索算法自动发现最优提示;
- Promptbreeder 实现自进化提示改进;
- Self-refine 允许模型通过自我批评与修订提升输出质量;
- 多智能体协作框架中,智能体扮演分析师、程序员、测试员等角色,显著提升任务成功率;
- 工具集成框架如 LangChain、Auto-GPT、AutoGen 提供复杂 AI 智能体开发支持。
4.2 上下文处理
上下文处理的目标是**转换与优化已获取的上下文信息**,以最大化其对大语言模型(LLMs)的效用。该部分主要解决以下挑战:
- 超长序列处理 ——应对计算复杂度和内存瓶颈;
- 自我改进与适应 ——让模型通过反馈与迭代自我提升;
- 多模态与结构化信息整合 ——融合来自文本、图像、音频、知识图谱等多种形式的信息,构建一致的上下文表示。
4.2.1 长上下文处理
计算挑战
Transformer 的自注意力机制复杂度为 O(n²),当序列长度增加时,计算与存储需求急剧上升,成为 LLM 在现实应用(如对话、代码理解)中的主要瓶颈 。例如:
- Mistral-7B 的输入从 4K 扩展到 128K tokens,计算量增加了 122 倍;
- Llama 3.1 8B 在 128K token 的请求中需要高达 16GB 显存。
架构创新
- 状态空间模型(SSMs):通过固定大小的隐藏状态维持线性计算复杂度与常量内存需求,如 Mamba 模型;
- 稀疏/膨胀注意力:如 LongNet,通过指数扩展的注意力感受野实现线性复杂度,支持超过 10 亿 tokens 的序列;
- Toeplitz 神经网络(TNNs):使用位置编码矩阵实现 log-linear 复杂度,可从训练时的 512 tokens 推广至推理时的 14,000 tokens;
- 线性注意力:将注意力表达为核函数映射点积,将复杂度从 O(N²) 降为 O(N),加速长序列处理 4000 倍;
- 非注意力 LLMs:通过递归记忆 Transformer 等方法突破平方复杂度瓶颈。
位置扩展与上下文延伸
- 位置插值:通过重新缩放位置索引扩展上下文长度(如 YaRN, LongRoPE, PoSE 等方法可实现百万级 tokens);
- 自扩展(Self-Extend):结合邻域注意力与分组注意力,使模型无需微调即可处理超长输入。
高效优化技术
- Grouped-Query Attention (GQA):共享 KV heads,降低解码时内存开销;
- FlashAttention:利用 GPU 内存层级实现线性内存扩展,FlashAttention-2 再提速一倍;
- 环形注意力(Ring Attention):在多设备分布式环境中高效处理长序列;
- 稀疏注意力:如 LongLoRA 中的 S2-Attn,在保持 92% 性能的同时显著降低计算;
- 高效选择注意力(ESA):对关键 tokens 进行压缩选择,支持 256K tokens 序列;
- StreamingLLM:实现无限序列处理,在 400 万 tokens 序列上达到 22 倍加速;
- Infini-attention:结合压缩记忆与局部注意力,实现有界内存下的无限输入处理。
4.2.2 上下文自我改进与适应
自我改进使 LLM 能够像人类一样通过反馈循环不断修正输出。这与强化学习不同,更强调在推理过程中利用自我批评与修订。
基础框架
- Self-Refine:同一个模型既作为生成器,也作为反馈者与修订者,实现迭代优化;
- Reflexion:通过语言反馈,将反思性文本存储在记忆缓冲区中,用于未来决策;
- 多方面反馈:结合冻结模型与外部工具,对不同错误类别进行独立评估;
- N-CRITICS:由多个批评者模型组成的集成评价系统,对初始输出进行审查并指导修订;
- A2R 框架:在正确性、引用质量等多个维度进行显式评估,生成自然语言反馈并逐步改进输出。
元学习与自主进化
- SELF 框架:教授模型自我反馈与自我改进的元技能,然后让其通过生成与筛选自有训练数据进行自进化;
- 自我奖励机制:模型同时扮演执行者与裁判,自我评分并优化;
- Self-Developing:模型能自主生成并优化自身的改进算法,以代码形式迭代执行;
- 决策预训练 Transformer:可作为上下文中的强化学习代理,解决训练分布之外的任务。
长链推理(Long CoT)与高级推理
- 长链式推理(LongCoT)通过更长的推理轨迹实现更深入的问题探索,已在 OpenAI o1、DeepSeek-R1、Gemini 2.0 等模型中应用;
- 实验证明:更长的推理步骤即便不提供额外信息,也能显著提升推理性能(test-time scaling 效应);
- 优化策略:包括 best-of-N 采样、动态推理路径长度(Auto Long-Short Reasoning)等,既保持性能又减少 token 消耗。
4.2.3 多模态上下文
多模态 LLM(MLLMs)将上下文工程扩展到文本以外的模态,如图像、音频、视频与 3D 环境。
集成方法
- 视觉提示生成器(VPGs):将视觉特征映射到 LLM 的嵌入空间,与文本 tokens 拼接输入;
- 跨模态注意力:在 LLM 内部学习文本与视觉 tokens 的依赖关系,用于图像编辑等任务;
- 分层结构:对视频等长模态输入进行分阶段处理,提高可扩展性;
- 联合预训练:在多模态数据与文本语料上共同训练,以减少模态对齐问题。
核心挑战
- 模态偏差:模型往往依赖文本模式,忽视视觉/音频信息,导致多模态推理不足;
- 细粒度推理困难:如目标定位、事件顺序理解等;
- 内部机制不透明:MLLM 的推理过程仍是“黑箱”。
未来方向与应用
- 多模态上下文学习:在 prompt 中输入图文示例即可迁移到新任务;
- 长视频理解:通过 token 压缩、动态帧选择、层次化建模实现;
- 新应用:手术辅助、数字规划、社交媒体内容理解、触觉/事件/图数据处理等。
4.2.4 关系与结构化上下文
LLMs 天生难以处理表格、数据库、知识图谱等结构化数据,因其输入为线性文本序列。
方法
- 知识图谱嵌入:将实体与关系编码为向量,用于多跳推理;
- 图神经网络(GNN)融合:在 Transformer 中嵌入 GNN 组件(如 GraphFormers),实现结构化推理;
- 结构显式表示:GraphToken 显著提升图推理表现;
- 混合架构:如 Heterformer 将文本编码与异质结构编码结合。
应用
- 通过观察驱动的代理框架(ODA)、训练自由的 KG 适配框架(KARPA)等,推动 LLM 与知识图谱的深度整合。
4.3 上下文管理
上下文管理关注于**如何高效组织与利用上下文信息**,以突破计算与存储约束,并提升 LLM 的整体表现。它涵盖三个核心方面:
- 基础约束 ——应对上下文窗口长度与计算复杂度的限制;
- 记忆层级与存储架构 ——设计类似人类记忆的短期与长期存储机制;
- 上下文压缩 ——通过信息浓缩与裁剪技术提升信息密度。
这些方法共同决定了 LLM 在实际应用中能否有效利用有限的上下文容量。
4.3.1 基础约束
LLMs 在推理时面临以下核心限制:
- 上下文窗口限制:Transformer 架构的自注意力机制通常限制在数万到数十万 tokens,即便是百万级上下文也伴随极高计算与内存成本;
- 平方复杂度瓶颈:自注意力在序列长度 n 下的 O(n²) 计算与内存开销,限制了大规模扩展;
- 延迟与成本问题:在商用部署中,反复处理长上下文会增加响应延迟与 token 计费成本。
因此,上下文管理的研究重点在于:在保证信息质量的同时,减少对冗余上下文的依赖。
4.3.2 记忆层级与存储架构
为应对上下文限制,研究者提出了类比人类记忆的层级化存储机制:
- 短期记忆(Working Memory):类似人脑的即时存储,用于对话的上下文保持,通常通过 KV 缓存实现;
- 长期记忆(Long-term Memory):将过往交互与外部知识库持久化存储,必要时检索回上下文;
- 分层记忆系统:结合快速访问的缓存与大容量的外部数据库,在速度与规模之间取得平衡。
代表性方法:
- MemoryBank:模拟人类的长期记忆存储;
- MemGPT:结合短期和长期记忆,提升对话一致性;
- 层级记忆架构(Hierarchical Memory):通过多级缓存与信息筛选管理大规模上下文。
4.3.3 上下文压缩
上下文压缩的目标是在不牺牲语义完整性的前提下,减少输入长度、提升信息密度。
- 基于选择的压缩:仅保留关键 tokens 或句子,剔除冗余信息;
- 摘要与抽取式压缩:通过模型生成短摘要作为输入;
- 分层压缩:对长文本先进行局部摘要,再逐步整合为全局表示;
- 动态压缩:根据任务需求和模型状态,自动决定哪些信息应保留。
实例:
- QwenLong-CPRS:基于自然语言指令的动态多粒度压缩;
- InfLLM:将远距离上下文存入额外记忆单元,根据相关性动态检索。
这些技术不仅降低计算与存储负担,还能提升模型的聚焦能力。
4.3.4 应用
上下文管理在多种实际场景中至关重要:
- 对话系统:通过记忆层级与压缩机制保持长期一致性;
- 检索增强生成(RAG):在大规模知识库中进行动态裁剪与聚合;
- 多智能体系统:需要共享与协调上下文,避免冗余通信开销;
- 低资源部署:通过高效压缩与缓存机制,在有限算力下运行 LLM。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

五、系统实现
在第四章的**基础组件**之上,研究者将其进一步集成为面向实际应用的复杂系统架构。本文将其归纳为四类核心实现:
- 检索增强生成(Retrieval-Augmented Generation, RAG)
- 记忆系统(Memory Systems)
- 工具集成推理(Tool-Integrated Reasoning)
- 多智能体系统(Multi-Agent Systems)
这些系统实现体现了上下文工程在更高层次的集成方式,推动 LLM 与外部世界进行更智能的交互。
5.1 检索增强生成(RAG)
RAG 是上下文工程中最成熟的实现形式之一,其核心思想是:
- 将 模型参数中的知识(parametric memory) 与 外部检索到的非参数知识(non-parametric memory) 相结合;
- 动态注入最新、特定领域的知识,同时避免对模型进行频繁的再训练。
5.1.1 模块化 RAG 架构
模块化 RAG 通过标准化接口与可插拔模块,实现检索与生成的解耦:
- ComposeRAG:允许不同检索器与生成器灵活组合;
- KRAGEN:通过多级检索策略提升任务性能;
- FlashRAG:提供模块化实现与全面评测框架。
5.1.2 代理化 RAG 系统
在代理化 RAG 中,检索被视为一个动态推理过程:
- 智能体可以像“研究员”一样,主动分析任务、选择检索计划、交叉验证信息;
- 具备规划、反思与多轮推理能力,例如 Self-RAG,能动态决定何时触发检索。
5.1.3 图增强 RAG
结合知识图谱与图结构表示来提升信息访问:
- GraphRAG:利用图结构实现语义增强检索;
- HippoRAG:引入记忆启发的图检索机制;
- RAPTOR:支持层次化文档处理与图推理。
5.1.4 应用
- 法律、医疗等专业领域知识问答;
- 科研助手,自动检索论文并结合模型生成总结;
- 代码智能,通过动态检索 API 文档辅助生成。
5.2 记忆系统(Memory Systems)
记忆系统扩展了 RAG 的思路,进一步支持**长期交互与持续学习**。
5.2.1 记忆架构
- 短期记忆:利用 KV 缓存保持对话上下文;
- 长期记忆:通过数据库或知识库保存历史交互;
- 混合架构:结合快速访问与持久存储,如 MemoryBank与 MemGPT。
5.2.2 记忆增强型智能体
- REMEMBERER:记录与重用过往交互经验;
- RecMind:通过经验回放机制提升任务执行稳定性;
- CAMELoT:支持多智能体协作中的共享记忆。
5.2.3 评估与挑战
- 评估难点:如何衡量记忆的相关性、准确性与对长期任务的贡献;
- 挑战:记忆检索的效率、遗忘机制的设计,以及长期交互中的一致性维护。
5.3 工具集成推理(Tool-Integrated Reasoning)
该方向使 LLM 能够通过调用外部工具来增强自身推理与执行能力。
5.3.1 函数调用机制
- Toolformer:让 LLM 在生成过程中自主决定是否调用外部 API;
- Granite-Function Calling:提供标准化函数调用接口;
- API-Bank:构建大规模函数调用基准库。
5.3.2 工具集成推理
- ReAct:结合推理链与动作调用,使模型既能思考又能执行;
- Gorilla:大规模训练函数调用能力;
- ToolLLM:统一不同工具调用方式。
5.3.3 智能体-环境交互
- 通过调用浏览器、数据库、机器人接口等工具,模型可以与环境实时交互;
- 应用于 自主科研助手(调用学术搜索引擎)、自动化办公代理(调用日历与邮件 API)、机器人控制 等场景。
5.4 多智能体系统(Multi-Agent Systems, MAS)
MAS 代表了上下文工程的顶点,强调智能体之间的**通信、协调与编排**。
5.4.1 通信协议
- KQML、FIPA ACL:早期智能体通信语言;
- MCP 协议、A2A/ACP/ANP:支持现代大规模 LLM 智能体通信。
5.4.2 编排机制
- AutoGen:支持多智能体对话编排;
- CAMEL:通过角色设定实现协作;
- CrewAI:团队式多智能体系统;
- SagaLLM:关注复杂任务的多阶段编排。
5.4.3 协同策略
- 去中心化协作:智能体自主协作完成任务;
- 层级化组织:通过“领导者-执行者”架构协调多智能体;
- 博弈与激励机制:在竞争或合作场景下实现最优策略。
六、评估(Evaluation)
随着上下文工程逐渐发展为一个跨越基础组件与系统实现的独立学科,**如何评估其有效性与鲁棒性**成为研究中的核心挑战。本章综述了评估的三个主要层面:
- 组件级评估 ——针对检索、处理与管理模块的能力测试;
- 系统级评估 ——衡量 RAG、记忆系统、工具集成推理与多智能体系统等整体性能;
- 方法论与基准体系 ——提供标准化测试框架,以保证不同方法之间的可比性。
6.1 组件级评估
本节介绍用于评估上下文工程中单个组件以及集成系统的全面方法。
6.1.1 检索与生成评估
- 相关性(Relevance):检索到的信息是否与用户查询高度匹配;
- 覆盖率(Coverage):检索信息是否完整涵盖任务所需知识;
- 幻觉率(Hallucination Rate):生成过程中是否引入错误或捏造的内容;
- 指标:Precision@k、Recall@k、MRR、nDCG 等。
6.1.2 长上下文处理评估
- 记忆保持能力:模型在长序列中能否保持对早期信息的准确访问;
- 定位精度:模型是否能够准确定位序列中的关键信息(如 Needle-in-a-Haystack 基准);
- 计算效率:在保证准确性的同时,是否能够显著降低计算与存储开销。
6.1.3 压缩与优化评估
- 信息保持率(Information Retention):压缩后上下文中的关键信息是否被完整保留;
- 任务性能变化:压缩是否导致下游任务(如问答、推理)的准确率下降;
- 效率提升:压缩后在延迟与成本上的改进幅度。
6.2 系统级评估
本节回顾专门用于评估上下文工程系统性能的基准测试与评估范式。
6.2.1 RAG 系统
- 检索质量 + 生成质量 的联合评估;
- 基准数据集:Natural Questions、HotpotQA、WebQuestions 等;
- 指标:EM(Exact Match)、F1、Faithfulness(忠实性)、Utility(有用性)。
6.2.2 记忆系统
- 长期一致性:在多轮对话中保持语义连贯与事实一致;
- 遗忘机制:能否主动清理无关或过时的信息;
- 用户模拟测试:通过虚拟用户交互评估记忆检索与调用的准确性。
6.2.3 工具集成推理
- 调用正确性:是否正确选择并调用合适的工具或 API;
- 执行有效性:调用结果是否被正确解析并应用于推理链;
- 基准:ToolBench、API-Bank、Gorilla Eval。
6.2.4 多智能体系统
- 协作效率:智能体之间是否能够高效分工与交流;
- 任务完成率:复杂任务能否被正确完成;
- 鲁棒性:在部分智能体失败或通信受限的情况下,系统是否仍能保持稳定;
- 基准平台:AgentBench、CAMEL、MAGIC。
6.3 方法论与基准体系
为了推动上下文工程研究,需要统一的评估方法与标准化基准。
- HolisticEval:覆盖生成质量、相关性、忠实性与多维度指标的综合框架;
- BigBench:包含 200+ 子任务,测试模型在语言理解、推理与记忆上的综合表现;
- HELM 框架:提出全面评估维度(准确性、公平性、效率、鲁棒性等);
- EvalAgent:面向多智能体系统的交互评估平台。
未来方向
- 动态评估:在真实交互与开放环境中评估系统,而非仅依赖静态数据集;
- 人类参与评估(Human-in-the-loop):引入专家与用户反馈,衡量实际可用性;
- 跨系统比较:建立跨 RAG、记忆、工具与多智能体系统的统一评测基准。
七、未来方向
上下文工程作为一个新兴且快速发展的研究领域,已经展示出巨大的潜力,但仍然面临诸多挑战。未来的研究方向主要集中在以下几个方面:
7.1 高效与可扩展的上下文利用
尽管长上下文处理与压缩技术已取得显著进展,但计算与存储仍然是关键瓶颈。未来研究需要:
- 高效注意力机制:设计超线性或近似线性复杂度的注意力架构;
- 智能上下文选择:结合任务需求与动态环境,自动选择最有价值的上下文片段;
- 跨层次优化:在模型架构、编译器与硬件层面联合优化,提高系统整体效率。
7.2 上下文的自适应与个性化
现有上下文工程方法多为通用策略,缺乏对**用户特性与任务场景的适应能力**。
未来方向包括:
- 个性化上下文构建:根据用户偏好与历史交互自动调整提示、检索与记忆内容;
- 情境感知系统:能够感知时间、空间、情绪等多维信号,从而动态调整上下文;
- 终身学习机制:结合长期记忆与自我改进,让系统持续演化。
7.3 上下文与推理的深度结合
当前许多方法将“上下文组织”与“推理过程”相对独立地处理。未来研究需要探索:
- 推理驱动的上下文选择:让模型在推理过程中主动决定需要哪些上下文;
- 上下文增强的推理链:结合 Chain-of-Thought、Tree-of-Thought、Graph-of-Thought,与上下文检索与管理深度融合;
- 混合范式:融合符号推理与神经推理,实现更强的逻辑一致性与可解释性。
7.4 多模态与跨模态上下文工程
随着多模态 LLM(MLLMs)的崛起,上下文工程需要扩展到**图像、音频、视频、传感器数据等非文本模态**:
- 多模态上下文学习:结合图文示例进行跨模态迁移;
- 跨模态推理:统一不同模态的语义表示,支持复杂任务(如视频理解、机器人感知);
- 实时多模态交互:支持动态环境中的感知与决策,例如自动驾驶与人机交互。
7.5 系统层级的编排与治理
随着系统复杂度的提升,单一的上下文优化已不足以支撑实际应用,需要在**系统层面进行整体编排与治理**:
- 多智能体协作框架:设计高效通信协议与激励机制,保证任务分解与协作执行的有效性;
- 上下文治理机制:确保不同来源的上下文在安全性、可靠性与一致性上的合规;
- 可观测性与调试工具:开发可视化与监控工具,帮助研究者理解与优化上下文流。
7.6 评估与基准的新范式
未来需要更加全面与动态的评估方法:
- 开放环境评估:在真实交互环境中测试,而不仅仅依赖静态数据集;
- 人类在环(Human-in-the-loop):引入真实用户反馈,衡量系统实际可用性;
- 统一跨系统基准:建立跨 RAG、记忆系统、工具推理与多智能体系统的比较平台。
7.7 安全性与鲁棒性
上下文工程不仅要提升能力,还必须应对潜在风险:
- 对抗性上下文攻击:防止恶意构造的输入导致模型幻觉或泄露信息;
- 鲁棒性机制:确保在上下文缺失或冲突时,模型仍能保持稳定;
- 责任与伦理问题:确保记忆与上下文管理中涉及的用户数据得到妥善保护。
总结来说,未来的上下文工程将走向:
- 更高效(突破计算瓶颈),
- 更智能(自适应与推理结合),
- 更多模态(跨越文本、图像与现实世界信号),
- 更系统化(从单一组件到多智能体生态),
- 更安全(鲁棒且可信)。
这些方向不仅将推动 LLM 能力的进一步提升,也将为构建新一代智能系统奠定基础。
八、结论
在本文中,我们提出了上下文工程(Context Engineering)的统一概念框架,并对其基础组件与系统实现进行了系统性综述。
我们展示了如何通过 上下文检索与生成、上下文处理与优化、上下文管理与压缩 这些核心机制,为大语言模型提供必要的能力支撑;同时,我们分析了这些能力如何被集成到更复杂的系统之中,例如 RAG 架构、记忆系统、工具集成推理以及多智能体系统。
这一框架使我们能够:
- 将过去零散的研究方向整合到一个连贯的分类体系之中;
- 明确不同研究之间的内在联系;
- 揭示上下文工程作为新兴学科的重要性与独特地位。
通过提出这种新的视角,我们希望:
- 推动学术研究 ——为未来在上下文构建、优化与评估方面提供清晰的研究路线;
- 指导实践应用 ——帮助工程师与开发者在构建实际系统时,有系统地理解和利用上下文工程方法;
- 促进跨领域融合 ——打通自然语言处理、信息检索、知识图谱、多模态学习、强化学习与认知科学等领域之间的联系。
我们相信,上下文工程将成为未来智能系统的关键支柱:
- 它不仅是提升模型性能的技术手段,更是让 LLM 能够在复杂环境中学习、推理、适应与协作的核心能力。
记忆与上下文管理中涉及的用户数据得到妥善保护。
总结来说,未来的上下文工程将走向:
- 更高效(突破计算瓶颈),
- 更智能(自适应与推理结合),
- 更多模态(跨越文本、图像与现实世界信号),
- 更系统化(从单一组件到多智能体生态),
- 更安全(鲁棒且可信)。
这些方向不仅将推动 LLM 能力的进一步提升,也将为构建新一代智能系统奠定基础。
九、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)