Agentic RL in Agent——Search-R1 与Memory-R1详解

摘要： SEARCH-R1与Memory-R1通过强化学习（RL）推动智能体自主能力进化。SEARCH-R1实现"边思考边检索"，模型自主决策检索时机与策略，结合效率奖励优化多轮搜索-推理流程。Memory-R1构建动态长时记忆系统，通过RL联合优化记忆管理（增删改）与回答生成，实现跨会话经验积累。两者互补：前者增强外部知识获取，后者提升内部记忆复用。其RL框架突破了监督学习的

还有你Y

493人浏览 · 2025-10-09 22:09:22

还有你Y · 2025-10-09 22:09:22 发布

SEARCH-R1与Memory-R1代表了推理型Agent技术向自主能力进化的两大方向。它们的核心创新分别解决了Agent在与外部世界交互时的两大关键挑战：如何高效、深入地获取信息，以及如何有效、长期地利用经验。

SEARCH-R1

关于SEARCH-R1的核心创新点，传统基于RAG的Agent在面对复杂问题时，其检索过程通常是“一次性”的、较为浅层的。Search-R1 解决“边思考边检索”的问题：让模型在推理过程中主动调用搜索引擎，完成多轮检索 + 推理的流程。

首先，Search-R1 不再依赖人工提示模型“现在该搜索”，而是通过强化学习让模型自己在推理过程中学会：什么时候触发搜索动作；如何生成高质量的检索查询（query formulation）；何时停止继续检索、转向生成最终答案。这种策略不是通过监督学习显式标注出来的，而是通过奖励信号（最终答案的正确性、搜索次数、推理长度等）自动学到的。
其次，Search-R1 的强化学习目标通常结合了“正确性奖励”和“效率惩罚”，例如：

如果模型在不必要时过多调用搜索，会被惩罚；
如果模型能少次检索却得到正确答案，则获得更高回报。

最后，仅以最终答案的精确匹配度（EM 分数）作为奖励信号，避免了复杂的过程监督。这种极简设计不仅降低了标注成本，更让模型专注于探索真正导向正确答案的搜索策略。

Memory-R1

Memory-R1的核心创新点在于构建了一个统一、显式且可控的长期记忆系统。过去的Agent要么受限于有限的上下文窗口，要么依赖于外部向量数据库进行简单的相似度检索，这使得它们难以形成持续的、连贯的“自我意识”和经验积累。Memory-R1解决了“长时记忆 + 多回合 / 跨会话”的问题：让模型能管理、更新、检索它与用户／环境交互中积累的历史和事实

Memory-R1 的 Memory Manager 需要决定是否新增一条记忆（ADD）；否更新已有内容（UPDATE）；是否删除冗余信息（DELETE）；或在当前不做任何操作（NOOP）。这些决策没有人工监督信号，而是通过强化学习，让模型根据任务结果（下游回答的正确性和连贯性）反向推导出哪些记忆操作有益。
Memory-R1联合训练两个 Agent 的协同策略，Memory-R1 的两个模块（Memory Manager 与 Answer Agent）并非独立训练，而是通过共享的 RL 奖励信号进行联合优化，使得两者的行为对齐：

Memory Manager 学习保存对未来回答真正有帮助的内容；
Answer Agent 学会高效检索与使用记忆，从而最大化整体回报。

总结：Search-R1 和 Memory-R1 提供了互补的能力：一个专注于“外部／即时知识 + 检索 +推理”的增强，一个专注于“历史/长期上下文 + 记忆管理 +跨回合持续一致性”。未来 Agent 的设计理想可能是把两者结合起来：既能在当前推理中主动检索外界知识，也能持续管理、更新和利用长期记忆，以支持更复杂、更持久、更可靠的任务。

强化学习对 Agent 后训练（Post-Training）的启发意义

从“模仿式学习”到“目标导向式学习”：RL 使 Agent 不再依赖人工标注的理想行为，而是通过“任务成败”反馈来自主学习策略。这让后训练阶段能更贴近最终目标（如任务完成率、效率、稳定性），突破传统监督微调的局限。
赋予模型真正的决策能力：在 Search-R1 和 Memory-R1 中，RL 让模型具备了“行动选择”的能力，而不仅仅是语言生成能力。Agent 可以根据情境、上下文和历史经验选择合适的行动（检索、记忆操作等），从而体现出智能体的本质。
支持多模块协同优化：现代 Agent 不再是单一模型，而是包含多个交互模块（Planner、Tool-Caller、Memory、Retriever 等）。强化学习提供了统一的优化信号，使得这些模块可以在共同的目标下协同演化，形成系统性智能。
启发未来 Agent 的持续自我进化机制：Memory-R1 展示的 “RL + Long-Term Memory” 思路为未来的自我改进型 Agent 提供了方向——Agent 能不断从经验中总结规律、更新行为策略，形成闭环的自我强化学习系统（Self-Improving Agent）。

强化学习是塑造自主能力的通用引擎。Search-R1 和 Memory-R1 均表明：用 RL让 agent 学习何时调用搜索、何时存储历史这些决策。并且采用结果驱动的奖励使系统能更灵活、更适应不同场景。因此，针对未来 Agent 构建，对于具有决策点（如检索时机、记忆操作）的场景的垂类Agent，非常适合先把结构化决策点，将其作为 policy 可学习的部分，用强化学习来后训练。其次，SEARCH-R1证明仅需最终答案的EM分数作为奖励，模型就能自主涌现"检索-验证-再检索"的推理链；Memory-R1则通过结果驱动的奖励设计，使记忆管理器学会识别信息冲突（如DELETE过时记录）。

最后，未来Agent开发可遵循"能力模块化+策略强化学习"的路径：将SEARCH-R1的外部检索与Memory-R1的内部记忆结合，构建"动态知识+持久记忆"双循环系统；针对不同工具设计专用掩码策略；探索多模态记忆管理，如让Memory-R1处理图像/语音信息。

北京朝阳AI社区

更多推荐

【愚公系列】《人工智能70年》071-自动驾驶的梦想与现实（自动驾驶的概念与无人车的历史）

北京朝阳AI社区

LangChain之Agent

Agent是动态协调大语言模型(LLM)与工具(Tools)的智能系统，通过LLM决策大脑自主调用工具完成复杂任务。其核心组件包括LLM、记忆(Memory)、工具(Tools)等，支持任务拆解与动态规划。Agent与AgentExecutor分工明确，前者决策，后者执行。实现方式分为Function Call模式（高效调用固定工具）和ReAct模式（自主决策+工具链式调用），两者可结合使用。通过

北京朝阳AI社区

AI智能体赋能社会科学研究领域之仿真：心智疆域的重塑与伦理韧性机制的建立

我们基于“价值固化剂、加速器、催化剂”这三重机制，来精确定位AI所引发的“地质断层”——那些正在撕裂或隐性重塑我们核心价值观的区域。在对抗潜伏的结构性危机时，仅凭技术力量无异于扬汤止沸，唯有自上而下的制度与自下而上的文化之力，方能铸成长治久安之基。奠基阶段的核心，是为我们的战略框架绘制出坚实的“地基”与“边界”。，它在不声不响中，将我们对“善”的定义偷梁换柱，最终导致我们的文明以高效且无可指责的方