Agentic RL in Agent——Search-R1 与Memory-R1详解
摘要: SEARCH-R1与Memory-R1通过强化学习(RL)推动智能体自主能力进化。SEARCH-R1实现"边思考边检索",模型自主决策检索时机与策略,结合效率奖励优化多轮搜索-推理流程。Memory-R1构建动态长时记忆系统,通过RL联合优化记忆管理(增删改)与回答生成,实现跨会话经验积累。两者互补:前者增强外部知识获取,后者提升内部记忆复用。其RL框架突破了监督学习的
SEARCH-R1与Memory-R1代表了推理型Agent技术向自主能力进化的两大方向。它们的核心创新分别解决了Agent在与外部世界交互时的两大关键挑战:如何高效、深入地获取信息,以及如何有效、长期地利用经验。
SEARCH-R1
关于SEARCH-R1的核心创新点, 传统基于RAG的Agent在面对复杂问题时,其检索过程通常是“一次性”的、较为浅层的。Search-R1 解决“边思考边检索”的问题:让模型在推理过程中主动调用搜索引擎,完成多轮检索 + 推理的流程。
- 首先,Search-R1 不再依赖人工提示模型“现在该搜索”,而是通过强化学习让模型自己在推理过程中学会:什么时候触发搜索动作;如何生成高质量的检索查询(query formulation);何时停止继续检索、转向生成最终答案。这种策略不是通过监督学习显式标注出来的,而是通过奖励信号(最终答案的正确性、搜索次数、推理长度等)自动学到的。
- 其次,Search-R1 的强化学习目标通常结合了“正确性奖励”和“效率惩罚”,例如:
- 如果模型在不必要时过多调用搜索,会被惩罚;
- 如果模型能少次检索却得到正确答案,则获得更高回报。
- 最后,仅以最终答案的精确匹配度(EM 分数)作为奖励信号,避免了复杂的过程监督。这种极简设计不仅降低了标注成本,更让模型专注于探索真正导向正确答案的搜索策略。
Memory-R1
Memory-R1的核心创新点在于构建了一个统一、显式且可控的长期记忆系统。 过去的Agent要么受限于有限的上下文窗口,要么依赖于外部向量数据库进行简单的相似度检索,这使得它们难以形成持续的、连贯的“自我意识”和经验积累。Memory-R1解决了“长时记忆 + 多回合 / 跨会话”的问题:让模型能管理、更新、检索它与用户/环境交互中积累的历史和事实
- Memory-R1 的 Memory Manager 需要决定是否新增一条记忆(ADD);否更新已有内容(UPDATE);是否删除冗余信息(DELETE);或在当前不做任何操作(NOOP)。这些决策没有人工监督信号,而是通过强化学习,让模型根据任务结果(下游回答的正确性和连贯性)反向推导出哪些记忆操作有益。
- Memory-R1联合训练两个 Agent 的协同策略,Memory-R1 的两个模块(Memory Manager 与 Answer Agent)并非独立训练,而是通过共享的 RL 奖励信号进行联合优化,使得两者的行为对齐:
- Memory Manager 学习保存对未来回答真正有帮助的内容;
- Answer Agent 学会高效检索与使用记忆,从而最大化整体回报。
总结:Search-R1 和 Memory-R1 提供了互补的能力:一个专注于“外部/即时知识 + 检索 +推理”的增强,一个专注于“历史/长期上下文 + 记忆管理 +跨回合持续一致性”。未来 Agent 的设计理想可能是把两者结合起来:既能在当前推理中主动检索外界知识,也能持续管理、更新和利用长期记忆,以支持更复杂、更持久、更可靠的任务。
强化学习对 Agent 后训练(Post-Training)的启发意义
- 从“模仿式学习”到“目标导向式学习”:RL 使 Agent 不再依赖人工标注的理想行为,而是通过“任务成败”反馈来自主学习策略。这让后训练阶段能更贴近最终目标(如任务完成率、效率、稳定性),突破传统监督微调的局限。
- 赋予模型真正的决策能力:在 Search-R1 和 Memory-R1 中,RL 让模型具备了“行动选择”的能力,而不仅仅是语言生成能力。Agent 可以根据情境、上下文和历史经验选择合适的行动(检索、记忆操作等),从而体现出智能体的本质。
- 支持多模块协同优化:现代 Agent 不再是单一模型,而是包含多个交互模块(Planner、Tool-Caller、Memory、Retriever 等)。强化学习提供了统一的优化信号,使得这些模块可以在共同的目标下协同演化,形成系统性智能。
- 启发未来 Agent 的持续自我进化机制:Memory-R1 展示的 “RL + Long-Term Memory” 思路为未来的自我改进型 Agent 提供了方向——Agent 能不断从经验中总结规律、更新行为策略,形成闭环的自我强化学习系统(Self-Improving Agent)。
强化学习是塑造自主能力的通用引擎。Search-R1 和 Memory-R1 均表明:用 RL让 agent 学习何时调用搜索、何时存储历史这些决策。并且采用结果驱动的奖励使系统能更灵活、更适应不同场景。因此,针对未来 Agent 构建,对于具有决策点(如检索时机、记忆操作)的场景的垂类Agent,非常适合先把结构化决策点,将其作为 policy 可学习的部分,用强化学习来后训练。其次,SEARCH-R1证明仅需最终答案的EM分数作为奖励,模型就能自主涌现"检索-验证-再检索"的推理链;Memory-R1则通过结果驱动的奖励设计,使记忆管理器学会识别信息冲突(如DELETE过时记录)。
最后,未来Agent开发可遵循"能力模块化+策略强化学习"的路径:将SEARCH-R1的外部检索与Memory-R1的内部记忆结合,构建"动态知识+持久记忆"双循环系统;针对不同工具设计专用掩码策略;探索多模态记忆管理,如让Memory-R1处理图像/语音信息。
更多推荐
所有评论(0)