从 0 学大模型：一文吃透上下文工程，让 AI 拥有 “持久记忆”

m0_48891301

804人浏览 · 2025-09-17 10:35:55

m0_48891301 · 2025-09-17 10:35:55 发布

在大型语言模型（LLM）飞速迭代的浪潮中，人类与AI的交互早已突破“一问一答”的简单模式，迈向了多轮对话协作、自主完成复杂任务的AI智能体（Agent）新阶段。当我们为AI展现出的“聪明才智”惊叹时，一个支撑其能力的关键技术——上下文工程（Context Engineering），正逐渐从幕后走向台前，成为决定AI交互体验与任务完成质量的核心。

与人类依赖过往经验和当下信息做判断类似，大模型的每一次响应都并非“凭空创造”，而是基于用户提供的提示（Prompt）与上下文信息进行逻辑推理的结果。这就像厨师做菜，既需要明确的“菜谱指令”（提示），也需要新鲜的食材、厨具状态等“环境信息”（上下文）；若缺少关键食材或不清楚厨具用法，即便菜谱再详尽，也难做出满意的菜品。同理，上下文的完整性与合理性，直接决定了大模型能否发挥出应有的能力上限。

正如OpenAI前首席科学家Andrej Karpathy的观点：“绝大多数AI智能体的失效，问题不在于模型本身的能力，而在于上下文工程的设计缺陷。” 本文将带您全面拆解上下文工程的核心逻辑，揭示AI“持久记忆”背后的技术原理。

一、重新理解“上下文”：不止于“聊天记录”

在大模型应用初期，人们更关注“提示工程（Prompt Engineering）”——通过优化提问方式，让AI更精准地理解单次需求。但随着应用场景复杂化，仅靠“问得好”已无法满足需求：比如电商AI客服，要解决用户的退货问题，不仅需要当前的“退货请求”，还需掌握用户身份（是否为会员）、订单信息（购买时间、商品状态）、历史交互（是否此前咨询过同类问题）等信息。这些与任务相关的所有信息的集合，就是“上下文”；而围绕这些信息的设计、管理、调度技术，便是“上下文工程”。

简单来说，提示工程解决的是“如何把问题说清楚”，而上下文工程解决的是“如何让AI掌握解决问题所需的全部信息”。

二、上下文工程与提示工程：从属而非并列

由于都聚焦于“优化AI输入”，上下文工程与提示工程常被混淆，但二者在定位、目标和范围上存在本质差异。可以说，提示工程是上下文工程的重要子集，前者服务于单次交互的指令优化，后者则着眼于AI系统级的“认知能力”构建。

1. 提示工程：聚焦单次输入的“精准指令”

提示工程的核心目标是通过优化单次输入的措辞、结构和格式，让AI在特定任务中输出更优结果。它处理的是“孤立的文本输入”，即便在多轮对话中，也仅关注“如何在本轮输入中衔接上文”，本质仍是对单轮文本的调整。

案例：

基础提示：“写一篇成都旅游攻略”（输出内容宽泛，缺乏针对性）；
优化提示：“为20-25岁女性设计成都3天2夜旅游攻略，人均预算3000元，重点推荐小众咖啡馆、文创街区和适合打卡拍照的网红景点，避开传统热门景区的拥挤时段”（输出内容更贴合用户需求，细节更丰富）。

2. 上下文工程：构建动态的“信息网络”

上下文工程追求让AI具备“持续理解能力”，不仅能解读当前请求，还能整合历史交互、用户特征、场景规则等多维度信息，形成动态更新的“信息网络”。它处理的不是孤立文本，而是“与任务相关的所有信息集合”，涵盖三个核心层级：

即时信息：用户当前的输入内容（如“我想退这个连衣裙”）；
历史信息：用户过往的交互记录（如“3天前下单，商品未拆封，此前未咨询过退货”）；
外部信息：场景相关的系统数据（如“该商品支持7天无理由退货”“用户为钻石会员，享有免运费退货权益”）。

案例：
当用户提出“退货”请求时，AI客服系统通过上下文工程自动触发“查询订单状态→匹配退货政策→关联用户会员等级→计算退货运费→生成解决方案”的完整链路，直接告知用户“可申请免运费退货，退货地址将发送至您的手机号”，无需用户重复提供订单号、会员信息等内容——这正是上下文工程的核心价值：让AI从“单次应答工具”升级为“持续服务助手”。

三、上下文的三大支柱：指令、知识与操作

若将LLM或AI智能体比作“新型操作系统”，那么LLM本身如同“CPU”，上下文窗口（Context Window）则是“内存（RAM）”，而上下文工程就是这个系统的“内存管理器”——它的职责不是简单地“填满内存”，而是通过智能调度，让“内存”中始终加载最关键、最有效的信息，确保系统流畅运行。

从功能维度划分，上下文可拆解为三大核心支柱：指令上下文、知识上下文与操作上下文，三者共同构成AI完成任务的“信息基础”。

1. 指令上下文：告诉AI“做什么”和“怎么做”

指令上下文为AI的行为设定框架、目标和规则，核心是明确“任务边界”和“执行标准”，提示工程主要针对这类上下文进行优化。其核心组成包括：

系统提示（System Prompt）：定义AI的角色与行为准则（如“你是专业的电商客服，需耐心解答用户问题，避免使用专业术语，语气友好”）；
少样本示例（Few-shot Examples）：通过少量高质量的“输入-输出”案例，帮助AI理解任务模式（如给AI展示2个“用户投诉处理”的对话范例，让其掌握沟通逻辑）；
结构化输出模板：强制AI以固定格式输出结果（如要求AI用JSON格式返回“订单号、商品名称、退货进度”等信息，便于后续系统对接）。

2. 知识上下文：告诉AI“用什么知识”

知识上下文为AI提供解决问题所需的事实、数据和专业知识，核心是弥补LLM“固有知识库”的不足（如时效性、专业性、专有性缺陷），减少“幻觉输出”。其核心实现方式包括：

检索增强生成（RAG）：从外部知识库（如企业文档、行业手册、产品说明书）中检索与当前任务相关的信息片段，嵌入上下文窗口。例如，金融AI顾问可通过RAG调取最新的“个人所得税政策”文档，为用户提供精准的税务筹划建议；
实时API调用：针对动态变化的信息（如天气、股票价格、物流状态），通过调用外部API获取实时数据。例如，出行AI助手在规划行程时，调用天气API获取目的地未来3天的天气数据，自动调整出行建议；
数据库集成：对接结构化数据库（如用户订单库、客户信息库），查询任务相关的结构化数据。例如，教育AI助教可查询学生的“历史作业完成情况”“考试错题记录”，生成个性化的复习计划。

3. 操作上下文：告诉AI“当前状态”和“交互记录”

操作上下文赋予AI与外部世界及用户“持续交互”的能力，核心是让AI记住“已做过什么”“当前处于什么阶段”，避免重复操作或信息丢失。其核心组成包括：

短期记忆（对话历史）：存储近期的对话轮次，确保多轮交互的连贯性。例如，用户先问“成都有哪些小众咖啡馆”，接着问“其中哪些适合带笔记本办公”，AI通过短期记忆可直接关联上一轮的“咖啡馆列表”，无需用户重复提问；
长期记忆（内容摘要）：由于上下文窗口长度有限（通常为几千至几十万Token），无法永久存储超长对话或历史记录，因此通过定期“摘要压缩”，将海量交互信息浓缩为关键要点。例如，将100轮客户服务对话浓缩为“用户关注产品质保、多次询问安装流程、对价格敏感”等核心结论，便于后续快速调用；
工具输出存储器：记录AI此前调用工具的结果（如计算结果、检索内容、API返回数据），避免重复操作。例如，AI已通过计算器工具算出“美元兑人民币汇率为7.2”，后续用户询问“100美元可兑换多少人民币”时，直接调用历史计算结果即可，无需再次触发工具；
模型上下文协议（MCP）：为解决不同AI系统间“上下文格式不统一”的问题，MCP通过标准化的格式定义操作上下文（如对话状态、记忆摘要、工具使用记录），实现跨平台上下文共享。例如，用户从A品牌的AI客服切换到B品牌的AI导购时，通过MCP可直接同步“用户偏好（喜欢简约风格、预算500元以内）”，无需用户重新描述。

四、上下文管理的四大核心策略

受限于上下文窗口的Token容量，AI无法“记住所有信息”，因此需要通过科学的策略管理上下文——核心目标是“在有限空间内，保留最有价值的信息”。目前主流的上下文管理策略可分为四类：写入（Write）、选择（Select）、压缩（Compress）、隔离（Isolate）。

1. 写入策略：将非即时信息“移出内存”

写入策略的核心是“减负”：将AI执行任务时不需要即时调用的信息（如长期计划、历史摘要、中间过程）存储到上下文窗口之外的“外部存储”（如向量数据库、知识图谱），避免占用有限的窗口空间，同时确保后续可随时调用。主要包括两种方式：

草稿本（Scratchpads）：用于存储任务的“临时演算过程”，类似人类做题时的草稿纸。例如，AI在制定“产品推广方案”时，将初步的思路框架（目标人群、推广渠道、预算分配）存入草稿本，仅将“方案核心亮点”放入上下文窗口，待需要调整细节时再从草稿本调取完整框架；
记忆库（Memories）：用于存储跨会话的“长期信息”，类似人类的长期记忆。例如，将用户的“偏好（喜欢无糖饮料、每周五下单）”“重要信息（会员卡号、常用收货地址）”存入记忆库，每次交互时按需调取，实现“一次告知，永久记住”。

2. 选择策略：让“有用信息”精准进入窗口

选择策略的核心是“精准筛选”：从外部存储（草稿本、记忆库、知识库）中，挑选与当前任务最相关的信息传入上下文窗口，避免无关信息占用空间。主要包括三种方式：

确定性选取：基于预设规则加载固定信息，类似“流程化操作”。例如，代码助手AI每次启动时，自动加载“编程语言语法规则”“常见错误排查手册”等基础文档，无需每次手动触发；
模型驱动选取：当信息总量过大（如上万份企业文档），预设规则无法覆盖时，让AI自主判断“哪些信息有用”。例如，AI在回答“如何优化产品供应链”时，自主从企业知识库中筛选出“近3年供应链成本数据”“供应商评价报告”“物流时效分析”等相关文档；
检索式选取：通过“相似度匹配”筛选信息，是目前最主流的方式。例如，用户询问“如何解决手机续航问题”，AI通过关键词检索，从产品手册中匹配出“电池省电设置”“后台应用管理”“充电注意事项”等相关内容。

3. 压缩策略：用更少Token“保留关键信息”

压缩策略的核心是“精简”：在不丢失核心信息的前提下，通过技术手段减少信息的Token占用量，让上下文窗口容纳更多有效内容。主要包括两种方式：

上下文摘要：通过LLM对已有信息进行“提炼总结”，保留关键要点。例如，将10轮用户咨询“产品售后”的对话，浓缩为“用户关注质保期（2年）、维修网点位置（需就近）、上门服务费用（免费）”等核心信息；
上下文修剪：直接“剔除无关信息”，仅保留必要内容。例如，在多轮对话中，删除较早的、与当前任务无关的闲聊内容（如“今天天气真好”），仅保留与“产品问题”相关的交互记录。

4. 隔离策略：避免不同上下文“相互干扰”

不同类型的上下文（如指令、知识、操作）若混杂在同一窗口中，可能会相互干扰（即“上下文中毒”），导致AI输出错误。隔离策略的核心是“分治”：通过技术手段将不同类型的上下文分开管理，减少干扰。主要包括两种方式：

多智能体分工：将复杂任务拆解为多个子任务，分配给不同的“专业智能体”，每个智能体拥有独立的上下文窗口。例如，“客户服务任务”拆解为“问题识别”“信息检索”“解决方案生成”三个子任务，分别由“识别智能体”“检索智能体”“生成智能体”处理，各自仅加载与自身任务相关的上下文，避免信息混杂；
上下文与环境隔离：将AI的“推理上下文”（如对话逻辑、任务状态）与“运行环境”（如代码执行、工具调用、API接口）分开管理。例如，AI在生成“数据分析报告”时，推理上下文仅保存“分析目标、数据维度、结论框架”，而数据计算、图表生成等操作则在独立的“环境层”完成，两者互不干扰，既保证了推理的连贯性，也避免了操作错误对上下文的污染。

五、总结：上下文工程是AI迈向“智能协作”的基石

从“单次应答”到“持续服务”，从“孤立任务”到“复杂协作”，上下文工程的发展标志着大模型应用已进入“系统级优化”的新阶段。它不仅是提升AI交互体验的技术手段，更是AI智能体实现“自主思考、高效协作”的核心基础——就像操作系统之于计算机，没有优秀的“内存管理”，再强大的“CPU”也无法发挥价值。

未来，随着多智能体协作、人机融合交互等场景的普及，上下文工程将进一步向“智能化、标准化、跨平台化”发展：一方面，通过AI自主优化上下文管理策略（如自动判断“该写入还是压缩”“该选取哪类信息”），减少人工干预；另一方面，通过统一的上下文协议（如MCP），实现不同AI系统、不同场景间的“信息互通”，让AI真正成为“懂用户、懂场景、能持续协作”的智能伙伴。

理解上下文工程，不仅是掌握一项AI技术，更是把握未来人机交互的核心逻辑——毕竟，让AI“记住关键信息”，才能让它更“懂你”。

六、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

七、为什么要学习大模型？

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着AI技术飞速发展，预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

八、大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

2、大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

适用人群

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

北京朝阳AI社区

更多推荐

人工智能在医疗影像诊断中的最新进展：从技术原理到临床应用

本文详细介绍了人工智能在医疗影像诊断中的最新进展。从CNN、Vision Transformer等核心技术出发，涵盖肿瘤检测、心脑血管疾病、骨科诊断等应用场景，并通过谷歌、阿里云、IBM等真实案例展示AI的临床价值。同时分析了数据隐私、模型可解释性等关键挑战，展望了AI与医生协作、多模态诊断等未来发展方向。适合医疗IT从业者、技术管理者及AI爱好者阅读。

北京朝阳AI社区

从运筹学到智能决策：决策优化技术的崛起与未来图景

北京朝阳AI社区

LLM模型

本文系统梳理了神经网络与大语言模型的核心技术要点。首先介绍了神经网络基础概念，包括激活函数（ReLU）、损失函数（MSE）及过拟合解决方案（Dropout、L1/L2正则）。随后深入探讨了Transformer架构的关键组件：自注意力机制（QKV矩阵）、多头注意力、位置编码（RoPE）和前馈网络（FFN）。针对大模型训练优化，分析了FlashAttention的内存效率改进、MOE架构的专家负载均