上下文工程四大支柱：构建能记忆、学习和适应的智能体完全指南！

本文详细介绍了上下文工程的四大核心支柱：写入、读取、压缩和隔离上下文，以及六种关键上下文类型。通过战略性管理信息流，解决大模型的token限制、成本优化和信息相关性挑战，实现智能体的记忆、学习和适应能力。文章提供了最佳实践、工具技术及衡量标准，帮助开发者构建真正理解用户需求的AI智能体，是提升大模型应用效能的必备知识。

python零基础入门小白

467人浏览 · 2025-10-11 07:15:00

python零基础入门小白 · 2025-10-11 07:15:00 发布

通过战略性上下文管理，构建能记忆、学习和适应的智能体

随着AI智能体日益复杂，一个关键挑战浮现出来：我们如何高效地管理上下文？ 上下文工程是一门艺术与科学，旨在战略性地管理进出AI智能体的信息流，确保它们在正确的时间获得正确的信息，同时优化性能、成本和准确性。

可以把上下文工程看作AI智能体的记忆管理系统——正如人类认知依赖不同类型的记忆（工作记忆、长期记忆、情景记忆），AI智能体也需要复杂的上下文管理，才能在多轮复杂场景中有效运作。

为什么上下文工程至关重要

现代AI应用面临多个与上下文相关的挑战：

Token限制：大多数大语言模型（LLM）具有有限的上下文窗口（4K至200K个token），迫使我们必须战略性地选择包含哪些信息。

成本优化：每个token都有成本。低效的上下文管理会导致生产应用中的成本呈指数级增长。

信息相关性：并非所有上下文对每个任务都同等重要。无关信息实际上会通过干扰或混淆损害性能。

状态持久化：智能体需要跨会话维持状态、记住用户偏好，并在先前交互的基础上持续构建。

上下文工程的四大支柱

根据图示框架，上下文工程包含四项基本操作：

写入上下文：持久化信息

写入上下文是指将信息存储在即时上下文窗口之外，以便未来检索。这创建了一个持久的知识层，智能体可在不同会话和任务中访问。

存储类型：

长期记忆：跨会话持久化（用户偏好、习得行为、历史交互）
短期记忆：在单次会话内持久化（对话历史、临时变量、工作流状态）
状态对象：运行时状态管理（当前任务进度、临时计算、会话变量）

实现示例：

// 长期记忆存储  const userProfile = {    preferences: { communicationStyle: "technical", expertise: "senior-developer" },    projectContext: { currentProject: "video-editor", techStack: ["React", "RxJS", "PIXI.js"] },    conversationHistory: [...previousSessions]  };    // 当前会话的短期记忆  const sessionState = {    currentTask: "debugging timeline drag-drop",    activeFiles: ["timeline.jsx", "dragHandler.js"],    recentErrors: [...]  };

读取上下文：战略性信息检索

读取上下文涉及智能地将相关信息拉入智能体的工作上下文窗口。这需要复杂的检索机制和相关性评分。

上下文来源：

工具：外部API、数据库、文件系统
知识库：文档、向量数据库、结构化数据
记忆系统：来自写入操作的先前存储上下文

按Enter键或点击以查看完整尺寸图片

graph TD  	A[用户查询] --> B[上下文检索引擎]  	B --> C[工具结果]  	B --> D[记忆查找]  	B --> E[知识库搜索]  	C --> F[上下文组装]  	D --> F  	E --> F  	F --> G[智能体处理]  	G --> H[响应生成]

智能检索策略：

语义搜索：使用向量嵌入查找上下文相关的信息
时效性加权：优先考虑最近的交互和更新
任务特定过滤：仅检索与当前目标相关的上下文
渐进式加载：从核心上下文开始，按需加载额外细节

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

压缩上下文：智能摘要

上下文压缩解决了一个现实问题：检索到的信息通常包含冗余、无关细节或过度冗长。有效的压缩在减少token使用的同时保留关键信息。

按Enter键或点击以查看完整尺寸图片

压缩技术：

graph LR  	A[原始上下文<br/>1000 tokens] --> B[LLM摘要器]  	B --> C[压缩后上下文<br/>200 tokens]  	A1[对话历史] --> B  	A2[文档摘录] --> B  	A3[工具结果] --> B  	C --> D[关键事实]  	C --> E[重要决策]  	C --> F[行动项]

压缩技术：

分层摘要：创建多层摘要（详细 → 中等 → 高层）
实体提取：聚焦关键实体、关系和事实
意图保留：确保压缩后的上下文保持原始意图和含义
模板化压缩：使用结构化格式标准化压缩输出

压缩示例：

// 原始上下文（500 tokens）  "用户正在开发一个基于React的视频编辑器应用。他们提到时间轴组件中的拖放操作无法正常工作。该时间轴使用PIXI.js进行渲染，并通过RxJS可观察对象进行复杂的状态管理。他们尝试了多种解决方案，包括更新拖拽处理器、检查事件传播和调试状态更新。该应用还使用GSAP进行动画，并与Chromatic集成进行视觉回归测试..."  // 压缩后上下文（100 tokens）  "项目：基于React的视频编辑器，使用PIXI.js时间轴。问题：拖放功能失效。技术栈：RxJS状态管理，GSAP动画。已尝试：事件处理器更新、状态调试。测试：Chromatic集成。"
``````plaintext
// 压缩后上下文（100 tokens）  "项目：基于React的视频编辑器，使用PIXI.js时间轴。问题：拖放功能失效。技术栈：RxJS状态管理，GSAP动画。已尝试：事件处理器更新、状态调试。测试：Chromatic集成。"

隔离上下文：专用环境管理

上下文隔离涉及战略性地分离不同类型的上下文，以防止干扰并支持专用处理。这对于具有多重关注点的复杂应用至关重要。

隔离策略：

多智能体架构：不同智能体处理问题的不同方面
沙箱环境：用于代码、实验或敏感操作的隔离执行上下文
状态分区：为不同功能域分离状态对象

按Enter键或点击以查看完整尺寸图片

隔离策略

graph TD  	A[主上下文] --> B[拆分上下文]  	B --> C[智能体1<br/>UI/UX专注]  	B --> D[智能体2<br/>后端逻辑]  	B --> E[智能体3<br/>测试策略]  	B --> F[沙箱环境<br/>代码执行]  	G[共享状态] --> C  	G --> D  	G --> E  	C --> H[协调响应]  	D --> H  	E --> H

六种上下文类型

有效的上下文工程需要理解智能体所需的六种上下文类型：

指令上下文

角色定义：智能体应采用何种角色？
目标：需要达成哪些具体目标？
要求：必须遵循哪些约束、格式或标准？

示例上下文

行为示例：智能体应如何思考问题？
响应示例：优质输出应是什么样子？
反模式：应避免哪些错误？

知识上下文

外部知识：领域特定信息、文档、最佳实践
任务特定知识：API、模式、工作流、技术规范

记忆上下文

短期记忆：当前会话状态、近期交互
长期记忆：用户偏好、历史模式、习得行为

工具上下文

工具描述：每个工具的功能及使用时机
参数：所需输入、可选设置、预期输出
结果：如何解释和处理工具输出

防护栏上下文

输入验证：确保输入干净、安全
操作约束：将工具和操作限制在安全、批准的范围内
输出验证：确保响应符合安全和质量标准

上下文策略：

写入上下文：存储用户编辑偏好、项目设置、常用特效
读取上下文：检索当前时间轴状态、可用资源、用户编辑历史
压缩上下文：将长时间编辑会话摘要为关键决策和变更
隔离上下文：分离渲染操作与UI交互，隔离撤销/重做状态

最佳实践与模式

上下文生命周期管理

stateDiagram-v2  	[*] --> Initialize  	Initialize --> Active: 加载上下文  	Active --> Update: 新信息  	Update --> Active: 上下文已更新  	Active --> Compress: 达到Token限制  	Compress --> Active: 上下文已压缩  	Active --> Archive: 会话结束  	Archive --> [*]: 上下文已存储