一、论文速读

本文由斯坦福大学与 SambaNova Systems 团队联合提出 Agentic Context Engineering(ACE) 框架,旨在解决大型语言模型(LLM)上下文适配中的 “简洁性偏差(brevity bias)” 与 “上下文坍缩(context collapse)” 两大核心问题,实现 LLM 系统的自改进。

研究背景与问题

现有的 LLM 上下文适配方法(如 GEPA、Dynamic Cheatsheet)存在显著缺陷:

  • 一是 “简洁性偏差”,它导致优化过程中倾向于生成简洁但缺乏详细领域见解(如领域特定启发式内容、工具使用指南)等关键细节;
  • 二是 “上下文坍缩”,多次迭代重写过程中,累积的上下文被压缩为简短且信息量较少的摘要,导致信息丢失与性能骤降(如 AppWorld 任务中,上下文从 18,282 tokens 坍缩至 122 tokens,准确率从 66.7% 降至 57.1%,低于无适配基线的 63.7%)。

与此同时,长上下文 LLM(如支持 KV 缓存复用的模型)的发展为上下文密集型方法提供了可行性,亟需新框架实现全面、可演进的上下文管理。

核心方法:ACE 框架

ACE(Agentic Context Engineering) 将上下文视为 “演进的操作手册(evolving playbooks)”,通过生成器(Generator)、反思器(Reflector)、整理器(Curator) 三模块协同,实现上下文的积累、优化与组织。

模块化流程

  • 生成器(Generator): 生成新的解题推理轨迹和工具调用,揭示有效的策略和常见的陷阱。
  • 反思器(Reflector): 从成功和错误中提取具体可操作的 insight,通过多次迭代提炼这些 insight。
  • 整理器(Curator): 将这些 insight 整合为结构化的上下文更新,采用增量式的 delta 更新,避免全量重写。
Delta 更新

上下文被表示为一系列结构化的、条目化的条目(bullets),每个条目包含元数据(如唯一 ID 和使用频率)和内容(如可重用的策略、领域概念或常见失败模式)。

通过反思器提取的教训,整理器生成紧凑的 delta 上下文,这些 delta 上下文被集成到现有上下文中,避免了全量重写的计算成本和延迟。

Grow-and-Refine 机制

通过定期或懒惰的提炼,确保上下文保持紧凑和相关。新条目以新标识符追加,现有条目在原地更新,并通过语义 embedding 进行去冗余处理,平衡上下文扩展与冗余控制。

示例展示

实验

实验设置

Agent 任务:AppWorld(ReAct 框架),评估 Task Goal Completion (TGC) 与 Scenario Goal Completion (SGC),含普通/挑战两个难度与公开榜单。

金融领域:FiNER(财务数值实体识别,XBRL)与 Formula(从 XBRL 抽取与计算的数值推理)。

对比 baseline

  • 基础 LLM: 直接在每个基准测试上评估,使用数据集作者提供的默认提示。
  • ICL(上下文学习): 提供任务演示,使模型能够推断任务格式和期望输出。
  • MIPROv2: 通过贝叶斯优化联合优化系统指令和上下文演示。
  • GEPA: 基于反射的提示优化器,通过执行轨迹和自然语言反思来诊断错误并提议提示更新。
  • Dynamic Cheatsheet (DC): 通过连续更新自适应外部记忆来积累知识和重用。
结果分析
  1. 性能优势:ACE 在智能体任务平均提升 10.6%,金融任务平均提升 8.6%;在 AppWorld 排行榜上,使用开源模型 DeepSeek-V3.1 的 ACE 与基于 GPT-4.1 的顶级商用智能体 IBMCUGA 平均性能持平(59.4% vs 60.3%),且在高难度 test-challenge 子集上超越后者;
  2. 效率优势:ACE 平均降低 86.9% 适配延迟,离线 AppWorld 任务中比 GEPA 减少 82.3% 延迟与 75.1% rollout 次数,在线 FiNER 任务中比 DC 减少 91.5% 延迟与 83.6% token 成本;
  3. 无监督适配能力:无需标注数据,仅通过执行反馈(如代码执行成败)即可构建有效上下文,在 AppWorld 无 GT 标签场景下仍实现 14.8% 性能提升。

总结

ACE 通过全面、可演进的上下文管理,实现了 LLM 系统的可扩展、高效自改进,证明上下文密集型方法在智能体与领域特定任务中的巨大潜力,同时为在线持续学习、选择性遗忘等方向提供了新范式。

二、关键问题(附 AI 解答)

1. 论文提出 ACE 框架的核心动机是什么?旨在解决现有 LLM 上下文适配方法的哪些问题?

ACE 框架的核心动机是应对 LLM 上下文适配中 “简洁性偏差” 与 “上下文坍缩” 两大关键问题,同时利用长上下文 LLM 的技术进展,构建全面、可演进的上下文管理系统,实现 LLM 的自改进。其针对的现有方法缺陷具体包括:

  • 简洁性偏差:现有方法(如 GEPA)优先追求简洁通用指令,忽略领域特定细节(如工具使用指南、常见失败模式),导致在智能体、知识密集型任务中性能不足;
  • 上下文坍缩:依赖 LLM 全量重写上下文的方法(如 Dynamic Cheatsheet),会随迭代将上下文压缩为短摘要,造成信息丢失与性能骤降(论文图 2 显示,AppWorld 任务中单次迭代可使上下文从 18,282 tokens 坍缩至 122 tokens,准确率从 66.7% 降至 57.1%);

此外,ACE 还旨在解决现有方法适配效率低、依赖标注数据的问题,通过增量更新与无监督反馈机制,降低成本并扩展适用场景。


2. ACE 框架的三大核心模块(Generator、Reflector、Curator)分别承担什么功能?三者如何协同实现上下文的 “演进”?

ACE 的三大模块功能及协同机制如下:

  • 生成器(Generator):接收新查询,产出推理轨迹(包括有效策略与常见陷阱),同时标记轨迹中有用或误导性的上下文条目,为后续优化提供反馈;
  • 反思器(Reflector):分析生成器的推理轨迹,从成败中提取具体洞察(如错误原因、改进策略),可通过多轮迭代优化洞察质量,这是 ACE 区别于 Dynamic Cheatsheet 的关键创新,单独提升了上下文质量与下游性能;
  • 整理器(Curator):将反思器提取的洞察整合为紧凑的 Delta 条目(含元数据与内容),通过轻量级非 LLM 逻辑将 Delta 条目确定性地合并到现有上下文中,支持并行合并多 Delta 条目,实现批量适配。

三者协同实现上下文 “演进” 的流程为:Generator 产出轨迹→Reflector 提炼洞察→Curator 整合为 Delta 条目并更新上下文,同时通过 “生长 - 优化机制” 追加新条目、去重冗余,使上下文持续积累领域知识,且避免坍缩与冗余。


3. ACE 框架的 “增量 Delta 更新” 与 “Grow-and-Refine 机制” 具体如何设计?这两个创新如何解决 “上下文坍缩” 问题?

(1)增量 Delta 更新设计

ACE 将上下文表示为结构化 “条目(bullet)” 集合,而非单块文本:

  • 每条目包含两部分:①元数据(唯一 ID、有用 / 有害计数器,用于跟踪条目价值);②内容(如可复用策略、领域概念、失败模式);
  • Delta 更新指 Curator 仅生成 “增量条目”(而非重写全量上下文),将这些 Delta 条目追加到现有上下文,避免全量重写导致的信息丢失。

(2)Grow-and-Refine 机制设计

  • 生长(Grow):新生成的 Delta 条目(含唯一 ID)直接追加到上下文,确保领域知识持续积累;
  • 优化(Refine):通过语义嵌入对比条目内容,移除冗余条目;同时,对现有条目仅更新元数据(如递增有用计数器),不修改内容本身,避免因重写导致的信息侵蚀。

(3)对 “上下文坍缩” 的解决逻辑

“上下文坍缩” 的根源是全量重写时 LLM 倾向于压缩信息,而 ACE 的设计从两方面规避这一问题:

  • 增量 Delta 更新避免全量重写,仅追加新条目,确保历史知识不被覆盖或压缩;
  • Grow-and-Refine 机制通过 “追加 + 去重” 而非 “压缩 + 重写” 管理上下文,使上下文随迭代稳步扩展(而非坍缩),同时通过去重控制冗余,维持上下文有效性。

三、AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

更多推荐