文章深入剖析了 Manus、Cursor、Anthropic、OpenAI、Google 和 LangChain 等公司在 AI Agent 上下文管理上的核心方案,对比了各公司的技术策略,如 Manus 的六条生产原则、Cursor 的动态上下文发现、Anthropic 的注意力预算框架等。文章总结了行业共识,如文件系统作为扩展记忆,动态检索优于静态检索;探讨了争议点,如工具过载处理、长上下文与精简上下文的策略选择;并指出了未解决的问题,如会话记忆的多样性、上下文工程评估标准等。最终强调,简化 Agent harness 是提升智能度的关键。


当前做 AI Agent 的公司,无论 Manus、Cursor、Anthropic 还是 OpenAI,本质上都在解决同一个问题:LLM 应该什么时候看到什么信息,信息应该如何组织。

有意思的是,这些公司都把自己的方案公开了——通过博客、SDK 文档、研究论文。每家公司从不同的约束出发,走出了不同的方案。有些方案趋于一致,有些甚至互相矛盾。

这篇文章把各家的方案拆开来看,做了横向对比,总结出哪些技术正在成为行业标准,哪些还在实验阶段。

目录

    1. 问题背景
    1. Manus:六条生产原则
  • 2.1 背景
  • 2.2 六条原则
    1. Cursor:动态上下文发现
  • 3.1 背景
  • 3.2 五种技术
    1. Anthropic:注意力预算框架
  • 4.1 背景
  • 4.2 核心策略
    1. OpenAI:会话记忆即基础设施
  • 5.1 背景
  • 5.2 三种模式
    1. Google:长上下文赌注
  • 6.1 背景
  • 6.2 方案
    1. LangChain:框架分类法
  • 7.1 背景
  • 7.2 四个操作
    1. 方案对比矩阵
  • 8.1 上下文窗口管理
  • 8.2 信息检索
  • 8.3 规划与一致性
  • 8.4 多 Agent 与隔离
  • 8.5 记忆与健壮性
    1. 总结
  • 9.1 共识
  • 9.2 争议
  • 9.3 未解决
  • 9.4 值得关注
    1. 开放问题
  • 参考资料

  1. 问题背景

所有公司都面对同一个约束:上下文窗口是有限的,而 Agent 生成的 token 是指数级增长的。

一个典型任务大概涉及 50 次工具调用。每次调用都会向上下文添加观察结果。没有干预的话,窗口很快就会填满,性能下降——这就是"上下文腐烂"(context rot)。

各公司的叫法不同,Anthropic 称之为"注意力预算"问题,LangChain 用"上下文窗口 = RAM"做类比,但结论是一致的:更聪明的上下文管理,比更大的上下文窗口更重要。


  1. Manus:六条生产原则

2.1 背景

Manus 服务数百万用户。典型任务平均 50 次工具调用,输入与输出 token 比例是 100:1。

他们重写了四遍 Agent 框架,每次都是因为发现了更好的上下文塑形方式。他们把这个过程称为"随机梯度下降"。

2.2 六条原则

KV-Cache 是神圣的。 缓存的 token 成本是 ,未缓存是3/MTok,相差 10 倍。保持 prompt 前缀稳定,日志只追加。即使重新排列 JSON 键名也会使缓存失效。

用 Logit 屏蔽而非移除工具。 所有工具永久加载。每步的可用性通过在解码时约束输出 token 概率来控制。上下文保持稳定,只有行为约束在变。

文件系统作为扩展记忆。 大型观察写入文件;只有轻量级引用留在上下文里。只要可逆,压缩就 OK。

通过背诵操作注意力。 一个"活"的待办事项列表每步更新并重新阅读,把当前目标放在高注意力区域(上下文末尾)。

保留错误,不清理。 失败的操作留在上下文里用于隐式信念更新,减少重复犯错。

结构化变化防止固化。 不同迭代使用不同的序列化模板和措辞,防止模型陷入僵化的重复模式。


  1. Cursor:动态上下文发现

3.1 背景

Cursor 在 2026 年 1 月的研究博客中描述了五种技术。核心发现是:随着模型变强,少给细节、让 Agent 自己拉上下文,效果反而更好。他们用 A/B 测试数据支撑这个结论。

3.2 五种技术

文件作为工具输出接口。 大型 JSON 响应写入文件。Agent 通过 tail/grep 增量读取。不做不必要的摘要。

聊天历史文件实现无损压缩。 完整历史在摘要前保存到文件。Agent 可以恢复任何丢失的细节——有损压缩变成了无损压缩。

技能作为可发现文件。 领域能力存为文件,通过搜索发现,不预加载到 system prompt 里。

懒加载 MCP 工具。 只预加载工具名称。按需获取完整定义。A/B 测试中减少了 46.9% 的 token。

终端会话作为文件。 Shell 历史变成可搜索的文件,Agent grep 需要的内容。

核心假设:模型现在足够好,知道自己需要什么上下文。


  1. Anthropic:注意力预算框架

4.1 背景

Anthropic 在 2025 年 9 月发布了被很多人视为上下文工程奠基性的框架,2026 年 1 月深入探讨了长时间运行的 Agent Harness,2025 年 11 月研究了基于 MCP 的代码执行。这些工作都建立在构建 Claude Code 的基础上。

4.2 核心策略

System Prompt 的金发女孩区。 Anthropic 发现了两种失败模式:过度工程的 system prompt(2K+ 词的 if-else 逻辑,在边缘情况崩溃),以及模糊的 prompt 如"be helpful"(模型无所适从)。他们的解决方案:把 prompt 组织成清晰的部分(XML 标签或 markdown 标题),用典型示例展示预期行为,让模型处理边缘情况而不是硬编码。

即时检索。 Agent 在运行时根据实际需要检索上下文,正在从推理前 RAG 转向循环内检索。

无重叠的精简工具。 如果人类工程师说不出在给定情况下该用哪个工具,模型也不行。工具应该是自包含且明确的。

95% 时压缩。 Claude Code 在窗口达到 95% 容量时自动摘要。对于长时间运行的 Agent,一个初始化 Agent 写一个跨窗口持久化的全面需求文件(200+ 特性)。

代码执行优于直接工具调用。 对于多服务器的 MCP,Agent 写代码调用工具而不是直接调用。定义留在文件系统里。

两种失败模式:Agent"一杆进洞"复杂项目(在实现中途耗尽上下文),以及压缩在跨窗口时信息传递不完整。解决方案:文件系统里的结构化规划文件。


  1. OpenAI:会话记忆即基础设施

5.1 背景

OpenAI 的方案记录在他们的 Agents SDK 和两份详细的 cookbook 中——一份关于短期会话记忆(2025 年 9月),一份关于长期上下文个性化(2025 年 12 月)。

他们的贡献是面向框架的:开发者可以直接采用的模式。

5.2 三种模式

截断。 删除更早的轮次,保留最后 N 个。简单、确定性、零延迟,但会导致早期约束"失忆"。

压缩。 用单独的模型调用摘要更早的历史。摘要作为"清洁室"可以修正之前的错误。风险:摘要漂移。

基于状态的长期记忆。 结构化状态对象(profile + notes)跨会话持久化。每次运行:提炼记忆 → 合并 notes → 注入状态(优先级:最新输入 → 会话 → 全局默认)。

关键区别:OpenAI 把基于检索的记忆(作为文档搜索过去交互)与基于状态的记忆(带优先级的结构化字段)做了对比。基于状态的支持信念更新而非事实积累,更可靠、更确定性。


  1. Google:长上下文赌注

6.1 背景

Google 的方案与名单上的其他人都不同。其他公司专注于把正确的 token 塞进有限的窗口,Google 押注富足——Gemini 模型提供高达 2M token 的上下文,研究测试甚至到 10M。他们的 ReadAgent 论文(2024)为记忆压缩提供了互补的研究角度。

6.2 方案

“全放进去。” 默认填满上下文窗口。RAG 和摘要是有限上下文模型的 workaround。证据:Gemini 仅从上下文材料就学会了翻译 Kalamang(不到 200 speakers)。

上下文缓存。 通过缓存 API 减少高达 75% 的成本,类似于 Manus 的 KV-cache 优化。

渐进截断。 压缩更早的上下文同时保持逻辑线程。

ReadAgent - Gist Memory(研究)。 把交互压缩成情景"gist 记忆",需要时查找原文。有效上下文增加 20 倍。模型人类阅读长文档的方式。

多样本上下文学习。 独特优势利用巨大的上下文窗口——数百/数千个样本在上下文里,达到微调模型的表现。

张力在于:长上下文没有消除上下文工程,但改变了它的样子。研究仍然显示上下文长度增加时性能下降 15-47%。


  1. LangChain:框架分类法

7.1 背景

他们的贡献是分类学的——把别人的做法组织成连贯的框架,基于他们的 LangGraph 实现和"Deep Agents"分析。

7.2 四个操作

写——把上下文保存在窗口外。 草稿本、持久化状态对象、文件系统存储。例子:Anthropic 的多 Agent 研究员把计划存到记忆里,因为超过 200K token 的上下文会被截断。

拉——拉取相关上下文。 RAG、语义搜索、文件系统遍历(grep/glob)。挑战是在正确的时间检索正确的上下文,不只是最语义相似的。

压缩——只保留必要的 token。 对话摘要、工具输出压缩。LangChain 测量到端到端摘要从 115K 减少到 60K token。

隔离——跨 Agent 分割上下文。 多 Agent 架构中子 Agent 有自己的上下文窗口,防止"上下文污染"——无关细节在共享窗口里累积。

No-op 工具作为上下文工程。 他们的"Deep Agents"分析发现 Claude Code 的待办事项工具功能上什么都不做,但它纯粹是一种上下文策略——强制 Agent 表述它的计划,在长轨迹中保持正轨。


  1. 方案对比矩阵

图例:[C] = 核心差异化特性 [Y] = 使用/倡导 [–] = 公开未讨论 [alt] = 同一问题的不同方案

8.1 上下文窗口管理

8.2 信息检索

8.3 规划与一致性

8.4 多 Agent 与隔离

8.5 记忆与健壮性


  1. 总结

9.1 共识

  • 文件系统作为扩展记忆。

    动态优于静态检索。长时间任务用持久化计划文件。错误追踪保留,不清理。

9.2 争议

  • 工具过载怎么处理:

    Manus 的 logit 屏蔽 vs Cursor 的懒加载——相反的策略,都有效。

  • 长上下文 vs 精简上下文:

    Google vs 其他所有人。

  • 用框架还是原始原语。

9.3 未解决

  • 会话记忆:

    没有两家公司做法相同。

  • 上下文工程评估:

    没有标准 benchmark。Cursor 的 46.9% token 减少是少数公开的数据之一。

  • 何时隔离子 Agent 上下文 vs 共享:

    仍然是纯经验性的。

9.4 值得关注

做出最好 Agent 的团队一直在简化。Manus 重写了五遍。每遍都在删除东西。如果你的 Agent harness 越来越复杂,而模型越来越好,那就有问题了。


  1. 开放问题

  • 长上下文 vs 智能压缩——规模化后谁赢?
  • 子 Agent 应该共享上下文还是只传递结果?
  • 怎么评估上下文工程的质量?

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

在这里插入图片描述

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

在这里插入图片描述

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐