RS-EoT:让大模型在遥感图像中像专家一样逐步验证每个细节

提出了一个面向遥感图像理解的“证据驱动推理”范式 RS-EoT(Evidence-of-Thought),用苏格拉底式自博弈Agent合成数据(SFT 冷启动)+ 两阶段渐进 RL(先定位再问答)

一、问题背景

将多模态Deepseek-R1 风格长链推理(SFT+RL)方法直接搬到遥感 VLM 上,经常出现 pseudo reasoning(伪推理)。

核心问题:

  • 遥感图像:范围大、尺度跨度大、目标小而稀疏、背景复杂

  • 但很多推理式 VLM:只做一次粗略全局感知,然后语言开始自洽展开 → 容易把“叙述流程”当“推理”

提出方法:

RS-EoT = Remote Sensing Evidence-of-Thought(遥感证据-思维)

  • CoT(Chain-of-Thought) 强调“把推理过程写出来”

  • RS-EoT 强调“推理过程中每一步都要回到图像取证”,即 语言推理 ↔ 视觉核验 的动态循环

二、总体框架

整体方法训练路线分为两段式:

  1. SFT 冷启动:用 SocraticAgent 合成 RS-EoT 多轮迭代取证轨迹

  2. Progressive RL

  • Stage 1 RL-Grounding:用 IoU 可验证奖励,先把“找证据/定位”练扎实

  • Stage 2 RL-VQA:再把能力泛化到遥感 VQA,但通过“多选重构 + 对称奖励”避免 reward hacking

SocraticAgent

现成遥感 VQA 数据大多只有“问题-答案”,缺少EoT需要的“中间如何取证”的过程;直接 RL 很容易奖励投机(reward hacking)。因此设计SocraticAgent用于生成EoT训练数据,合成一种“像苏格拉底一样逐步发问”的轨迹,让模型推理变成由粗到细的证据收集过程。 SocraticAgent分为Reasoner、Perceiver、Verifier三个部分。

Reasoner(文本推理):只看文本 query 和元信息,不看图;负责拆解问题、提出下一步“可感知的原子问题”。论文使用 GPT-5-mini

Perceiver(视觉感知):只看图 + Reasoner 的问题,不看原始任务问题;只回答“能从图中直接读出的事实”。论文用 Gemini-2.5-flash

Verifier(质量门控):检查 Reasoner 最终答案是否和 GT 一致,只保留答对的记录。论文用 doubao-seed-1.6-thinking

Self-play prompt 约束:
  • 告诉 Reasoner:“Perceiver 看不懂复杂问题” → 约束它把问题拆成简单增量问题

  • 告诉 Perceiver:“Reasoner 推理很弱” → 约束它回答更短、更直接、不输出高层推理

最终合成一个多模态数据集 RS-EoT-4K(RGB/红外/SAR),并把多轮对话按模板拼接成 self-QA 风格的 <think> ... </think> 轨迹,用来 SFT 训练Qwen2.5-VL-7B。

强化学习

Stage 1:RL-Grounding(IoU 直接做奖励)

强化模型对局部目标与证据的理解与定位能力

Stage 2:把 VQA 重构成 MCQ

把简单 QA 变成必须逐条核验的任务

  1. 对每张图收集一个 QA 集合 {(Qi, Ai)}m,通常 10 < m < 15

  2. 随机挑 n 条把答案“翻转/扰动”制造错误选项(Yes↔No 或数值±随机整数)

  3. 构造多选题:“Which of the following QA pairs match this remote sensing image?”

奖励函数:option-level 对称准确率(symmetric accuracy reward)

  • 选对正确选项、正确拒绝错误选项,都给正向信号

  • 选错或漏选不给分

  • 它提供稳定、细粒度的训练信号,并迫使模型逐项对照图像证据

推理时输出的token对于图像内容的注意力分析

Agent生成训练数据时的一些指令细节:

Logo

中科创新烁智(CSCITech)

更多推荐