放弃微调，斯坦福联合发布智能体上下文工程（ACE），模型性能提高10%，token成本降低83%

斯坦福、桑巴诺瓦系统公司（SambaNova Systems）和伯克利联手搞了个新框架，叫“智能体上下文工程”（Agentic Context Engineering, ACE），让模型像人一样，通过复盘和迭代来自我进化。关键是，这个过程不动模型权重，成本还暴降。看看这性能提升：这事儿挺颠覆的。

SuaniCommunity · 2025-10-14 12:11:30 发布

斯坦福、桑巴诺瓦系统公司（SambaNova Systems）和伯克利联手搞了个新框架，叫“智能体上下文工程”（Agentic Context Engineering, ACE），让模型像人一样，通过复盘和迭代来自我进化。关键是，这个过程不动模型权重，成本还暴降。

看看这性能提升：

这事儿挺颠覆的。

大模型训练好后，想让它在特定领域干活干得更漂亮，传统手艺是微调。

就是拿一堆特定领域的数据，去重新训练模型的一部分参数。这法子有效，但缺点跟优点一样突出。

微调一次，计算资源烧消耗大，迭代周期也长。对于需要快速响应市场变化的企业来说，这节奏太慢。

它像个黑箱，参数调完，模型为什么表现变好了，或者为什么在某个地方搞砸了，你很难说清楚。这种不可解释性在金融、医疗这些高风险领域是要命的。

微调过的模型容易“灾难性遗忘”，学了新知识，忘了老本行。

所以，圈内人一直在找新出路。

“上下文适应”（context adaptation）技术就这么出现了：别去动模型那几千亿个参数了，咱们直接在给模型的输入（也就是“上下文”）上做文章。

跟人沟通，想让对方更好地理解任务，最好要把任务要求、背景资料、注意事项写得清清楚楚递给他，并进行多轮沟通。

这个上下文也类似，可以是系统提示（system prompt），可以是一些成功的案例（证据），也可以是模型之前犯错后总结的经验（记忆体）。

它的好处显而易见：内容看得懂，能修改，能调试，还能在不同模型之间共享。加上现在LLM的上下文窗口越来越长，像打了激素一样能塞进几十万甚至上百万个词，再配合KV缓存复用（KV cache reuse）这种让长文本推理变快的技术，上下文适应俨然成了新时代的宠儿。

当然，通往成功的路总是坑坑洼洼。

之前的上下文适应方法，虽然方向对了，但普遍走进了两个死胡同。

第一个叫“简洁性偏见”（brevity bias）。很多自动优化上下文的方法，总想着把指令写得越短越好，越通用越好。比如一个叫GEPA的框架就觉得简洁是优点。

这在一些简单任务上没问题，但在需要大量领域知识和细节操作的复杂场景，比如让一个智能代理（Agent）去调用各种工具完成一个多步骤任务，这种“少即是多”的哲学就行不通了。

第二个叫“上下文坍塌”（context collapse）。这个问题发生在让LLM自己去迭代和重写整个上下文的时候。你想让它总结经验，变得更好，结果它总结一次，信息就丢一点，像复印机一样，越复印越模糊。几轮迭代下来，模型的表现断崖式下跌。

在高可靠性、高细节要求的场景里，我们需要的是知识的积累和丰富，而不是无休止的压缩。

面对这两个大坑，斯坦福、SambaNova和伯克利的联合团队提出的ACE框架，给出了一个全新的解法。

ACE的核心思想，是把上下文从一张静态的“说明书”，变成一本动态演进的“战术手册”（playbook）。这本手册不是每次都重写，而是采用增量更新的方式，不断把新的经验教训补充进去。

这个过程被巧妙地设计成了一个由三个角色协同工作的流水线，而且这三个角色都由同一个基础LLM（实验用的是非推理增强版的DeepSeek-V3.1）扮演，这样就能确保性能的提升完全来自于上下文的优化，而不是模型本身的能力差异。

这三个角色分别是：

生成器（Generator）：它的任务就是干活。像一个初出茅庐的代理，去执行具体的任务，比如调用工具、进行推理。它会生成一串完整的操作记录，这里面有成功的操作，也有失败的踩坑记录。
反思器（Reflector）：这是个事后诸葛亮。它会分析生成器留下的操作记录，从中提炼出具体、可操作的经验教训。比如，“在处理A类文件时，用B工具总是会报错，应该改用C工具”，或者“当遇到X情况时，直接执行Y步骤比先问询更高效”。它把这些零散的感悟，变成结构化的文本。
策展人（Curator）：这是战术手册的总编辑。它接收反思器提炼出的经验，把它转换成标准格式的“增量项”（delta items），然后用一种确定性的方式合并到现有的战术手册里。这个合并过程包括了去重、修剪和整理，确保手册内容越来越丰富、有针对性，同时又保持清晰和可管理。

这个“生成-反思-策展”的循环，有点像一个顶级的运动队。

生成器是场上比赛的球员，负责打比赛，所有的成功和失误都被录像记录下来。反思器是赛后看录像的教练组，逐帧分析，找出问题所在，总结出战术要点。策展人是负责更新战术板的助理教练，把教练组的新战术清晰、准确地画到板上，供下一场比赛使用。

通过这种增量更新的“增长-精炼”（Grow-and-Refine）原则，ACE彻底避免了上下文坍塌。知识只会被积累和优化，不会被遗忘和简化。而且整个过程是无监督的，它不需要人工标注的数据，只需要任务本身的执行反馈（比如成功或失败的信号）就能自我驱动。