提升大模型智能体性能的核心技术——上下文工程（Context Engineering）

上下文工程是AI领域新兴概念，从提示工程发展而来，核心是为任务提供最佳上下文，使LLM更好解决问题。随着智能体兴起，上下文质量成为决定其成败的关键因素。上下文工程聚焦优化、管理和控制输入给LLM的上下文信息，目标包括提升效率、降低成本和提高质量。对于智能体，有效的上下文工程策略包括记忆管理、上下文压缩和上下文隔离，解决长期运行中的数据积累、幻觉和上下文限制等问题。

AI-椰子不椰

488人浏览 · 2025-09-25 15:23:57

AI-椰子不椰 · 2025-09-25 15:23:57 发布

简介

Context Engineering（上下文工程）是 AI 领域一个新兴的术语。讨论的重点从 “提示工程” 转向一个更广泛、更强大的概念。理解为：「为任务提供所有上下文，使 LLM 能够最好的解决问题」。

随着智能体的兴起，决定智能体成功或者失败的**「最大因素」**是提供的上下文的质量，而不是模型的是否强大。

一、什么是上下文工程？

简单的说，上下文工程是一系列旨在优化、管理和控制输入给 LLM 的上下文信息，目标是模型最大化性能、效率、成本效益等。

「核心目标：」

「优化效率：」 在有限的上下文内，让模型获取到最相关、最关键、生成更准确，一致的输出。
「优化成本：」 减少输入的 tokens 数，可以有效降低成本。
「提高质量：」 提升输入的信噪比。

「与提示工程的区别：」

「提示工程：」 更关注指令的设计本身，指导模型做什么和怎么做，比如思维链、角色扮演、格式要求等。
「上下文工程：」 主要聚焦在管理和优化提供给模型的背景信息。解决的是，给模型看什么的问题，尤其在信息量庞大或需要精挑细选时。
一般来说，提示工程也是上下文工程中的一个子项。

现代化的智能体也需要有上下文才能更好的工作。Andrej Karpathy（没错，还是那个男人 https://www.youtube.com/watch?v=7xTGNNLPyMI[1]）说过，LLMs 就像一种新的操作系统，LLM 是 CPU，而上下文窗口就是 RAM，作为模型的内存。需要对精挑细选后再放入 CPU 中。

这个 Twitter 上大家讨论也很活跃：https://x.com/karpathy/status/1937902205765607626?lang=en[2]

二、上下文窗口架构

目前还没有统一的或者比较流行的架构，但是一般来说会分为三类：

「Guiding Context：」 核心为 Prompt，知道模型如何做。包含系统提示词、任务描述、少量示例、输出格式等。
「Informational Context：」 核心为补充相关信息，让模型把知识锁定在一个确认的范围内，避免幻觉，提高信噪比。主要有 RAG、知识图谱、短时记忆、长时记忆、草稿等。
「Actionable Context：」 核心为工具，连接外部资源，对信息进行补充，提高模型的输出质量。

甚至有人开始想做成一种规范：

https://github.com/contextwindowarchitecture[3]
https://docs.google.com/document/d/1qR9qa00eW8ud0x7yoP2XicH38ibP33xWCnQHVRd0C4Q/edit?tab=t.0[4]

当然一个好的上下文工程，还需要实现很多细节，内容也不局限在上面这些。

三、智能体的上下文工程

今年以来，LLMs 在推理和工具层面的能力不断的提升。

一个任务经常需要长时间的运行，不断的调用工具并反馈给 LLM，持续的对话回合也非常长。这种数据的累计对于 LLM 和智能体都是一个负担，同时也会消耗大量的 token，提高着用户的使用成本，增加了网络延迟等问题。还会经常伴随着几个问题：

幻觉数据进入上下文，导致错误的数据出现。
上下文容易超出限制。
多余的、不相关数据进入上下文。
有时候甚至出现上下文内容不一致。

所以，一个好用的智能体，「上下文工程、上下文管理策略是关键！」

四、Context Memory 上下文记忆

可以分为长时记忆和短时记忆。把信息保存在起来，可以帮助智能体完成任务。

Anhtropic 的多智能体研究院也说过：

❝

The LeadResearcher begins by thinking through the approach and saving its plan to Memory to persist the context, since if the context window exceeds 200,000 tokens it will be truncated and it is important to retain the plan.

❞

当要执行一个新任务时，如果智能体有记忆的能力。这时候可以选择于任务相关的数据，包括示例、行为、事实等。

目前流行的做法是，把长时记忆用规则文件保存以来，比如 Cluade 使用 CLAUDE.md。

但是，如果需要存储大量的事实或者关系数据，这时候使用嵌入型数据库或者知识图谱就比较合适了。

同时合理运用 RAG 技术，也提高了智能体使用工具和知识的能力和准确性。

代码例子：

[
  {
"role": "system",
"content": "You are a helpful assistant..."
  },
  {
"role": "user",
"content": |
            Here's everything that happened so far:

        <slack_message>
            From: @alex
            Channel: #deployments
            Text: Can you deploy the backend?
        </slack_message>

        <list_git_tags>
            intent: "list_git_tags"
        </list_git_tags>

        <list_git_tags_result>
            tags:
              - name: "v1.2.3"
                commit: "abc123"
                date: "2024-03-15T10:00:00Z"
              - name: "v1.2.2"
                commit: "def456"
                date: "2024-03-14T15:30:00Z"
              - name: "v1.2.1"
                commit: "ghi789"
                date: "2024-03-13T09:15:00Z"
        </list_git_tags_result>

        what's the next step?
    }
]

slack_message、list_git_tags、list_git_tags_result 都是通过上下文管理，从工具或者其他地方提取的数据。放进去之后，LLM 就能更好了解到用户意图。

五、 Context Compression 上下文压缩

智能体的交互可能经过几百个回合，这时候会堆积大量的数据。Claude Code 的策略是当超过 95% 的窗口限制时，运行 “自动压缩”，可以是：

分层摘要，提炼出关键信息。
智能地选择原始文档中的哪些部分需要完整保留作为上下文。
从原始上下文中精准抽取出与任务直接相关的结构化信息片段（如特定实体、关系、关键事实、代码片段），而非传递原始文本。这要求对任务有明确的理解。
研究更高效的Token表示方法或注意力机制变体，试图在不损失信息的前提下物理减少存储和计算需求（如Token合并技术）。

六、Context Isolation 上下文隔离

常见的就是采用多智能体，进行关注点分离。把任务拆分给多个智能体来执行。每个智能体都拥有自己一套工具、指令、上下文窗口等。

其次还可以使用环境隔离，比如智能体生成代码，然后把代码放在一个独立的环境执行，最后把结果再返回给智能体。

七、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述
如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

北京朝阳AI社区

更多推荐

2025云栖大会

大会期间，阿里宣布与英伟达合作推进Physical AI，覆盖数据合成、模型训练、仿真强化学习等全流程，并发布磐久128超节点AI服务器，支持128个AI芯片协同工作，强调低延迟、高带宽特性，适用于自动驾驶、机器人等边缘场景。例如，在智能座舱领域，阿里与高通、斑马智行合作推出端侧大模型解决方案“Auto Omni”，实现车内交互的本地化处理，凸显边缘计算在垂直行业的落地深化。例如，农村边缘节点可支

北京朝阳AI社区

YashanDB在医疗行业的应用与机遇

随着医疗行业数据规模的持续扩展和智能医疗应用的深化，数据库系统的性能和可靠性成为医疗信息化的核心竞争力。未来，随着医疗场景对人工智能、大数据实时分析等技术的不断融合，YashanDB将持续深化HTAP能力，增强分布式协作与资源整合能力，通过不断优化系统性能和安全保障，推动医疗行业数据管理水平的全面提升，为智慧医疗服务的广泛应用奠定坚实基础。YashanDB在医疗行业中，基于强大的逻辑架构，实现了客

北京朝阳AI社区

数据共享视角下交通行业高质量数据集建设研究

数据作为新型生产要素，在交通行业数字化转型中发挥着关键作用。然而，当前交通行业数据共享程度低、数据质量参差不齐，严重制约了行业大模型训练和智能化应用。本文从数据共享视角出发，深入剖析交通行业数据集建设的理论基础、技术路径和制度保障，提出构建"采-存-算-用"全生命周期数据治理体系，通过区块链、隐私计算等技术破解数据共享难题，打造覆盖"人-车-路-环"全要素的高质量交通数据集。