Meta:无金标训练搜索智能体
如何在缺乏标准答案(金标监督)的情况下,有效训练能够进行复杂多步检索的搜索智能体?提出了循环一致搜索(CCS)框架,利用搜索轨迹重构原始问题的质量作为代理奖励,实现了无需金标监督的高效智能体训练。

📖标题:Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training
🌐来源:arXiv, 2604.12967v1
🛎️文章简介
🔸研究问题:如何在缺乏标准答案(金标监督)的情况下,有效训练能够进行复杂多步检索的搜索智能体?
🔸主要贡献:论文提出了循环一致搜索(CCS)框架,利用搜索轨迹重构原始问题的质量作为代理奖励,实现了无需金标监督的高效智能体训练。
📝重点思路
🔸核心假设:优质的搜索轨迹是原始问题意图的无损编码,因此可以通过从轨迹中准确重构原始问题来衡量轨迹质量。
🔸循环一致性机制:将搜索过程视为从问题到轨迹的映射,通过训练一个重构器尝试从轨迹还原问题,重构相似度即为奖励信号。
🔸防止信息泄露:针对直接复制词汇导致虚假重构的问题,设计了信息瓶颈策略,包括剔除最终回答环节以及对搜索查询中的命名实体进行掩码处理。
🔸强化学习优化:采用组相对策略优化(GRPO)算法,基于重构后的问题与原始问题的语义相似度计算奖励,引导智能体学习保留关键信息的搜索路径。
🔎分析总结
🔸在七个问答基准测试中,CCS 的性能与使用金标监督的最强基线相当,且显著优于其他无监督方法。
🔸消融实验证明,移除最终回答和实体掩码这两个瓶颈组件会导致性能下降,证实了它们能有效防止模型走捷径而非真正学习检索。
🔸定性分析显示,CCS 能自动给信息缺失或搜索深度不足的轨迹低分,仅对结构完整且证据充分的轨迹给予高分奖励。
🔸在开放式的深度研究任务中,CCS 的表现甚至超过了依赖金标答案训练的模型,展现了其在复杂场景下的泛化能力。
💡个人观点
论文通过“能否复原问题”这一内在逻辑构建自监督信号,迫使模型真正关注检索到的观测信息与搜索结构的逻辑关联。

更多推荐




所有评论(0)