Meta：无金标训练搜索智能体

如何在缺乏标准答案（金标监督）的情况下，有效训练能够进行复杂多步检索的搜索智能体？提出了循环一致搜索（CCS）框架，利用搜索轨迹重构原始问题的质量作为代理奖励，实现了无需金标监督的高效智能体训练。

大模型任我行

216人浏览 · 2026-05-03 10:00:00

大模型任我行 · 2026-05-03 10:00:00 发布

在这里插入图片描述

📖标题：Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training
🌐来源：arXiv, 2604.12967v1

🛎️文章简介
🔸研究问题：如何在缺乏标准答案（金标监督）的情况下，有效训练能够进行复杂多步检索的搜索智能体？
🔸主要贡献：论文提出了循环一致搜索（CCS）框架，利用搜索轨迹重构原始问题的质量作为代理奖励，实现了无需金标监督的高效智能体训练。

📝重点思路
🔸核心假设：优质的搜索轨迹是原始问题意图的无损编码，因此可以通过从轨迹中准确重构原始问题来衡量轨迹质量。
🔸循环一致性机制：将搜索过程视为从问题到轨迹的映射，通过训练一个重构器尝试从轨迹还原问题，重构相似度即为奖励信号。
🔸防止信息泄露：针对直接复制词汇导致虚假重构的问题，设计了信息瓶颈策略，包括剔除最终回答环节以及对搜索查询中的命名实体进行掩码处理。
🔸强化学习优化：采用组相对策略优化（GRPO）算法，基于重构后的问题与原始问题的语义相似度计算奖励，引导智能体学习保留关键信息的搜索路径。

🔎分析总结
🔸在七个问答基准测试中，CCS 的性能与使用金标监督的最强基线相当，且显著优于其他无监督方法。
🔸消融实验证明，移除最终回答和实体掩码这两个瓶颈组件会导致性能下降，证实了它们能有效防止模型走捷径而非真正学习检索。
🔸定性分析显示，CCS 能自动给信息缺失或搜索深度不足的轨迹低分，仅对结构完整且证据充分的轨迹给予高分奖励。
🔸在开放式的深度研究任务中，CCS 的表现甚至超过了依赖金标答案训练的模型，展现了其在复杂场景下的泛化能力。

💡个人观点
论文通过“能否复原问题”这一内在逻辑构建自监督信号，迫使模型真正关注检索到的观测信息与搜索结构的逻辑关联。

在这里插入图片描述