上下文工程（Context Engineering）：大模型时代的下一个前沿技术框架

本文探讨了上下文工程（Context Engineering）这一新兴概念，它作为提示词工程的进阶，专注于系统化设计和优化大语言模型的完整信息生态系统。文章分析了上下文工程的产生背景、技术挑战（如计算瓶颈、模型可靠性问题）及核心方法（检索、压缩、隔离等策略），并对比了其与提示词工程在关注点、工作方式和应用场景上的差异。上下文工程在AI智能体、企业级应用等复杂场景中展现出重要价值，未来将向动态化、多

_sias

905人浏览 · 2025-10-21 11:37:49

_sias · 2025-10-21 11:37:49 发布

1 上下文工程的定义与背景

上下文工程（Context Engineering）是近年来随着大语言模型和AI智能体发展而兴起的重要概念。这一概念由AI领域知名专家Andrej Karpathy正式提出，将其定义为"一门精妙的艺术与科学：精准地将大语言模型的上下文窗口填充上恰到好处的信息，让模型能准确地迈出下一步"。与主要关注单次提示优化的提示词工程不同，上下文工程采取了一种更为系统化和全面的方法，专注于设计和优化在推理时提供给大语言模型的完整信息生态系统。

从技术本质上看，上下文工程将上下文重新概念化为动态结构化的信息组件集合，而非静态字符串。其数学形式化包含两个关键层次：组件层和优化层。在组件层，上下文被定义为不同信息源的集合，包括指令、外部知识、记忆等；在优化层，通过一系列函数进行检索、选择、组装等操作，目标是最大化任务期望收益，而非局部提示调整。这种形式化框架将上下文设计转化为系统级优化问题，为构建复杂、上下文感知的AI系统奠定了理论基础。

上下文工程的兴起与AI智能体的快速发展密切相关。随着大语言模型从简单的指令跟随系统演变为复杂多面应用的核心推理引擎，传统提示词工程已不足以涵盖设计、管理和优化现代AI系统所需信息负载的全部范围。特别是在AI智能体应用中，模型需要处理动态生成的大量上下文，包括工具调用结果、历史对话、外部知识检索等，如何有效管理这些信息成为智能体性能的关键决定因素。

表：提示词工程与上下文工程的核心区别

维度	提示词工程	上下文工程
模型	静态字符串	动态结构化组装
目标	优化单次提示	系统级函数优化
状态性	无状态	显式记忆与状态管理
扩展性	长度增加导致脆弱性	模块化组合管理复杂度

2 上下文工程的产生必要性与待解决的问题

上下文工程的兴起源于大语言模型在实际应用中面临的一系列技术瓶颈和挑战。随着大模型从简单的聊天机器人发展为复杂AI应用的核心推理引擎，传统的交互方式已无法满足复杂场景的需求，催生了对更系统化上下文管理方法的需要。

2.1 计算瓶颈与性能约束

大语言模型面临的核心技术障碍之一是其自注意力机制随序列长度增加带来的平方级计算和内存开销。当将模型输入从4K令牌扩展到128K令牌时，所需计算量增加122倍，这对处理扩展上下文构成重大障碍。例如，Llama 3.1 8B模型在处理128K令牌请求时需要高达16GB内存，这种资源需求显著影响了聊天机器人和代码理解模型等现实世界应用的可行性。商业部署中重复的上下文处理进一步加剧了这些挑战，引入了额外的延迟和基于令牌的定价成本，使得高效管理上下文成为降低推理成本的关键因素。

2.2 模型可靠性与一致性问题

除了计算约束外，大语言模型表现出令人担忧的可靠性问题，包括频繁的幻觉、对输入上下文的不忠实、输入变化的敏感性以及表面上语法正确但缺乏语义深度或连贯性的响应。传统提示词工程通过近似驱动和主观方法优化单次交互，但难以应对模型在长对话中出现的逻辑一致性断裂和事实一致性下降问题。实验证据表明，在延伸思维链任务中，模型性能因"中间信息丢失"可能下降多达73%，且生成质量随长度增加呈指数级衰减。这些问题凸显了需要更系统的上下文管理方法来维持生成长内容的逻辑连贯性和事实准确性。

2.3 AI智能体的特定挑战

在AI智能体场景中，上下文管理面临更为复杂的挑战。生产级智能体在运行时可能需要进行数百次工具调用，每次调用都会产生新的上下文。例如，Manus团队报告其典型任务平均需要约50次工具调用，而Anthropic的多智能体研究甚至观察到高达数百次的工具调用。这种长循环任务容易导致智能体偏离主题或忘记早期目标，尤其是在长上下文或复杂任务中。如果不进行优化，单次运行可能消耗50万个令牌，成本达到1-2美元，从经济角度考量也不可持续。

2.4 上下文衰减与"丢失在中间"问题

随着上下文长度增加，大语言模型的注意力分散问题变得尤为突出，导致推理能力下降。Chroma在7月发布的报告《Context Rot: How Increasing Input Tokens Impacts LLM Performance》中详细分析了这一现象，显示随着上下文长度增加，模型性能显著下降。Jeff Huber将这种现象称为"上下文衰减"，并认为当前大多数出色的AI原生应用的核心能力实际上就是上下文工程。此外，"丢失在中间"问题指模型难以有效访问分布在长上下文不同位置的信息，尤其是当关键信息位于中间部分时，模型性能明显下降。

3 上下文工程的核心技术框架与方法论

上下文工程作为一个系统化学科，包含一套完整的技术栈和方法论，旨在解决大语言模型在处理复杂任务时面临的上下文管理挑战。其技术框架可以划分为基础组件和系统实现两个层次，共同构成了一个全面优化模型信息生态的工程体系。

3.1 上下文检索、处理与管理的技术体系

上下文工程的基础架构建立在三个核心组件上：上下文检索与生成、上下文处理以及上下文管理。这三个组件协同工作，确保模型能够在正确时间获得正确信息，并高效地处理这些信息。

上下文检索与生成：这一组件关注如何为LLM系统性地检索和构建相关信息，包含三种主要机制：基于提示的生成（如思维链、思维树等技术）、外部知识检索（如RAG、知识图谱集成）以及动态上下文组装。其中，思维链技术将复杂问题分解为中间推理步骤，在数学推理任务中将准确率从17.7%提升至78.7%；而思维树和思维图则进一步将推理组织为层次结构或任意图结构，提供更强大的推理能力。
上下文处理：这一组件专注于转换和优化获取的上下文信息，以最大化其对LLM的效用。关键技术包括长序列处理（如状态空间模型、位置插值等）、自我优化与适应（如Self-Refine框架让LLM同时担任生成器、反馈提供者和优化器）以及多模态整合（解决文本、视觉、结构化数据的融合挑战）。特别是针对长上下文处理，出现了多种创新架构，如状态空间模型通过固定大小隐藏状态保持线性计算复杂度，突破了传统Transformer的平方级瓶颈。
上下文管理：这一组件负责上下文信息的有效组织和利用，应对有限上下文窗口大小、"中间迷失"现象等基本约束。关键技术包括记忆架构（短时记忆与长时记忆的层次设计）、上下文压缩（如自动编码器基压缩、记忆增强方法）以及应用策略（如滑动窗口、关键信息保留等）。这些技术共同确保上下文信息既能充分支持任务完成，又不会超出模型处理能力。

3.2 五大核心策略：转移、压缩、检索、隔离与缓存

面对长上下文带来的挑战，业界领先团队总结出了五种核心策略，形成上下文工程的方法论基础：

转移：将大量上下文从模型的短期记忆转移到外部存储系统（如文件系统、数据库），仅在需要时提供摘要或引用。Manus团队将文件系统视为"终极上下文"，因为它大小不受限制、天然持久化，且智能体可以直接操作。
压缩：通过摘要、剪裁等方法减少上下文内容。例如，当Claude Code的上下文窗口95%被占满时，系统会自动触发压缩机制。但需注意，过度激进的压缩可能导致信息丢失，因此Manus采用先转移后压缩的策略，确保原始数据可回溯。
检索：从外部资源（知识库、历史对话等）检索与当前任务最相关的信息加入上下文。除了传统RAG，还出现了生成式检索等新方法，如Anthropic的Claude Code不依赖复杂索引，而是通过基础文件工具访问实现有效检索。
隔离：将长上下文分解为相对独立的模块，让模型专注于当前任务最相关的部分。在多智能体系统中，隔离体表现为任务分解和智能体间关注点分离。
缓存：存储重复使用的计算结果或上下文片段，避免重复处理。例如，KV缓存优化技术Heavy Hitter Oracle通过淘汰低贡献令牌可提升吞吐量29倍。

3.3 系统实现架构

上下文工程的理念最终通过四种系统实现架构落地应用：

检索增强生成系统：从早期简单检索-生成模式演进为模块化RAG、智能体驱动RAG和图增强RAG等先进架构。例如，智能体RAG将自主AI智能体嵌入RAG管道，具备任务分解与反思机制，显著提升检索精度。
记忆系统：模拟人类记忆层次，包括短时记忆（上下文窗口内KV缓存）和长时记忆（外部存储）。如MemGPT模拟操作系统分页机制，实现信息的智能交换。
工具集成推理：通过函数调用机制使LLM能够使用外部工具，解决其内在局限性。技术演进从ToolFormer、ReAct到OpenAI JSON标准化，形成完整工具调用生态。
多智能体系统：通过多智能体协作分担复杂任务，需要通信协议标准化和编排机制确保系统协调运行。例如，模型上下文协议旨在成为类似USB-C的AI交互标准，解决协议碎片化问题。

4 上下文工程与提示词工程的深度对比

上下文工程与提示词工程虽然都涉及优化与大语言模型的交互，但两者在范围、焦点和复杂性上存在本质区别。理解这些区别对于构建高效的大模型应用至关重要，以下从多个维度进行系统对比。

4.1 关注点与范围的本质差异

提示词工程主要关注单次交互中的指令优化，即"如何表达"问题。它侧重于优化提示的措辞、结构、语气以及少数示例的使用，以引导模型生成期望的输出。例如，通过精心设计的提示词，可以让大模型扮演特定角色或遵循特定输出格式。提示词工程的核心是单次交互的优化，其影响范围通常局限于当前对话回合。

相比之下，上下文工程采用系统级视角，关注的是模型所能感知的完整信息环境设计。它不仅包括用户当前的输入，还涵盖系统提示、历史对话、记忆模块、文档检索结果、工具调用输出等多源信息的动态整合与管理。上下文工程需要决定"模型看到什么、什么时候看到、为什么要在意"，构建的是长期对话、一致性行为和任务自动化的基础架构。其核心是信息生态系统的整体优化，而非单点突破。

表：提示词工程与上下文工程的详细对比

对比维度	提示词工程	上下文工程
关注焦点	单次提示的优化设计	整体信息生态系统的设计
工作方式	手工打磨、试验反馈	系统化、自动化流程
时间范围	单次交互	跨会话的长期交互
信息范围	当前提示内容	多源信息整合与优先级排序
核心技术	措辞优化、示例选择、角色设定	RAG、记忆系统、工具集成、动态管理
主要目标	优化单次请求-响应的质量	维持长期交互的连贯性、一致性
适用场景	相对简单、明确的任务	复杂、多步、需要记忆的任务

4.2 工作方式与流程的对比

从工作流程角度看，提示词工程更像一种"即兴写作"或"自然语言编程"，依赖工程师的语言表达技巧和对模型心理的直观理解。这个过程通常是迭代式的：设计提示词→测试模型输出→根据结果调整提示词，直到获得满意效果。由于缺乏统一范式，提示词工程在很大程度上仍是一门艺术，依赖经验积累和启发式方法。

上下文工程则更接近系统工程设计，强调方法论的系统性和组件的模块化。它涉及建立完整的信息流水线，包括上下文检索、处理、组装和管理等环节。与提示词工程的手工打磨不同，上下文工程追求可复用、可扩展的架构设计，一旦建立高效上下文流水线，可支持多种复杂应用场景。例如，一个良好的上下文管理系统可以同时支持客户服务、内容生成和数据分析等不同任务，而不需要为每个任务单独设计提示策略。

4.3 应用场景与复杂度的区别

提示词工程适用于相对简单、明确的任务场景，如文案生成、风格模拟、代码片段生成等一次性任务。这些任务通常不需要维持长对话状态或整合多源信息，单次精心设计的提示即可获得良好结果。例如，让大模型"用幽默风格总结苹果Vision Pro的产品定位"就是一个典型的提示词工程场景。

上下文工程则针对复杂、多轮、需要上下文感知的应用场景，如智能助手、复杂决策支持系统、多步问题解决等。这些场景需要系统能够记忆对话历史、理解当前情境、跟踪目标进展，并基于完整背景提供个性化服务。例如，企业级智能客服需要整合用户档案、产品知识库、历史交互记录等信息，才能提供准确连贯的服务。

5 应用场景与未来展望

上下文工程作为一门新兴学科，已经在多个领域展现出巨大价值，并为下一代AI系统的发展指明了方向。随着大模型技术的不断演进，上下文工程的应用范围和重要性将持续扩大。

5.1 核心应用场景

上下文工程的核心价值在需要长对话管理、复杂任务处理和个性化服务的场景中尤为突出：

AI智能体应用：上下文工程是AI智能体能力的核心决定因素。智能体在执行复杂任务时需要进行多次工具调用和长链条推理，如何有效管理这些过程中产生的大量上下文，直接决定智能体的性能表现。例如，Manus团队通过不断重写待办事项列表将全局计划推入模型的近期注意力范围内，避免"丢失在中间"的问题，显著减少目标不一致。生产级智能体可能需要处理数百次工具调用产生的上下文，没有系统的上下文工程，智能体很容易偏离主题或忘记早期目标。
企业级应用与个性化服务：在企业环境中，上下文工程使AI系统能够理解完整的业务情境，提供真正智能的个性化服务。例如，智能客服系统可以通过RAG技术整合最新产品文档和用户历史记录，给出精准解答；企业助手可以记住项目背景、用户偏好和历史决策，使每次交互都变成有价值的推进，而非信息的重复收集。这种"基于理解继续"而非"每次重新开始"的交互模式，大幅提升了AI系统的实用性和用户体验。
复杂内容生成与决策支持：对于需要整合多源信息的长篇内容生成、复杂数据分析和多步推理任务，上下文工程通过动态信息检索和优先级管理，确保模型始终基于最相关、最新的信息生成输出。例如，在学术研究助手应用中，系统可以协调多个智能体分别负责文献检索、数据分析、结果解释等任务，通过有效的上下文工程维持任务的整体连贯性和逻辑一致性。

5.2 未来研究方向与挑战

尽管上下文工程已取得显著进展，但仍面临多项挑战，为未来研究指明了方向：

理论基础与数学形式化：需要建立更严格的上下文组合数学规范，进一步夯实上下文工程的理论基础。当前研究已开始运用信息论和贝叶斯推理等数学工具，如检索组件需最大化与答案的互信息，确保信息相关性；通过后验概率推断处理不确定性。然而，这些理论框架仍需进一步完善，以指导更复杂的上下文优化策略。
长文本生成与逻辑一致性：解决LLM存在的"核心不对称性"是重要挑战：模型在上下文理解上表现卓越，但在长文本生成中暴露出逻辑连贯性断裂、事实一致性下降和规划深度不足等问题。未来研究需要突破长文本生成瓶颈，实现多模态与图结构的深度融合，增强模型的长期推理和规划能力。
评估框架与标准化：传统评估指标（如BLEU/ROUGE）难以捕捉上下文工程系统的细微动态行为，需要开发更有效的评估范式。新兴的评估方法如自我优化评估范式、多方面反馈评估、批评引导评估等有望更准确衡量上下文工程系统的性能。同时，多智能体协作缺乏事务完整性验证标准，需要建立更全面的评估基准。
伦理与安全考虑：随着上下文工程系统日益复杂，需要设计内存隐私保护机制与多智能体责任框架。上下文工程系统可能处理大量用户敏感信息，如何确保数据安全、防止信息泄露和滥用，是必须解决的重大问题。

5.3 技术发展趋势

上下文工程领域正呈现几个明显的技术发展趋势：

从静态到动态：上下文组装策略正从固定模板向基于任务特性和实时状态的自适应组装发展。智能上下文管理系统能够根据对话进程、任务复杂度和可用资源动态调整上下文组成和优先级，实现更高效的信息利用。
从单一到多元：上下文工程正整合多模态信息（文本、图像、音频）、结构化数据（知识图谱、数据库）和工具API，形成更全面的上下文表征。这种多元整合极大扩展了AI系统的感知和理解能力，使其能够应对更复杂的现实世界任务。
从人工到自主：通过自迭代优化、元学习等技术的应用，上下文工程系统正逐渐减少对人工设计的依赖。例如，Self-Refine框架让LLM同时担任生成器、反馈提供者和优化器，实现自主性能提升；SELF框架使LLM通过生成-过滤自有数据持续进化，减少人工监督。

总结

上下文工程代表了大模型交互范式的重要演进，从优化单次提示的"艺术"发展为设计整体信息生态的"科学"。随着大模型从简单的文本生成器发展为复杂推理引擎和AI智能体的核心，有效管理上下文已成为释放其潜力的关键。上下文工程通过系统化的上下文检索、处理和管理，使AI系统能够理解完整情境背景，维持长期一致性，处理复杂任务，从而实现从"每次重新开始"到"基于理解继续"的智能进化。

这一转变不仅具有技术意义，更标志着AI交互范式的根本变革。随着上下文工程技术的成熟和普及，我们有望看到更智能、更可靠、更实用的AI系统出现，真正成为人类工作与生活中的智能伙伴。未来的AI系统将不再是被动响应指令的工具，而是能够理解情境、记忆历史、主动协助的智能体，为各行业带来革命性变化。

北京朝阳AI社区

更多推荐

LLaMA-Factory：一站式大模型微调神器，轻松打造专属AI！

北京朝阳AI社区

大模型做导师之学习推荐

摘要：针对初级程序员代码中的问题，让AI推荐需要补充的知识，推荐8个核心知识体系：1）数据库连接池管理（防连接泄漏）；2）并发编程与线程安全（解决数据竞争）；3）内存管理（防止内存爆炸）；4）异步编程（正确处理异步资源）；5）面向对象设计模式（规范工厂模式实现）；6）SQL性能优化（索引创建与查询优化）；7）日志监控（异常追踪）；8）缓存策略（防并发写入损坏）。每个知识点包含学习路径、核心概念、推

北京朝阳AI社区

通用 AI · Universal AI 4

本文摘要：文章详细介绍了Qwen API的调用实践，包括模型选择、参数配置和提示词设计策略。主选qwen-max模型因其强大的技术理解能力和128K上下文支持，适合生成区块链等技术文档。参数配置（temperature=0.7等）平衡了技术准确性和表达多样性。通过实际案例展示了ZetaChain技术文档的生成过程，包括API调用步骤、结果验证和学习总结。后部分介绍了Qwen-Agent框架的组件和