在这里插入图片描述

📖标题:Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
🌐来源:arXiv, 2509.25541

🌟摘要

尽管强化学习 (RL) 可以有效地增强视觉语言模型 (VLM) 的推理能力,但目前的方法仍然严重依赖于需要大量手动构建和验证的劳动密集型数据集,导致训练成本极高,从而限制了 VLM 的实际部署。为了应对这一挑战,我们提出了 Vision-Zero,这是一个与领域无关的框架,可以通过从任意图像对生成的竞争视觉游戏来实现 VLM 自我改进。具体来说,Vision-Zero 包含三个主要属性:(1)战略自我扮演框架:Vision-Zero 在“谁是 Spy”风格的游戏中训练 VLM,其中模型跨多个角色参与战略推理和行动。通过交互式游戏玩法,模型在没有人工注释的情况下自主生成他们的训练数据。(2)任意图像的游戏玩:与现有的游戏化框架不同,Vision-Zero可以从任意图像生成游戏,从而增强模型对不同领域的推理能力,并对不同的任务表现出很强的泛化能力。我们使用三种不同类型的图像数据集演示了这种多功能性:基于CLEVR的合成场景、图表和真实世界的图像。(3)可持续的性能增益:我们引入了迭代自玩策略优化(Iterative-SPO),这是一种新的训练算法,在自我玩和强化学习之间交替,具有可验证奖励(RLVR),缓解了自玩训练中常见的性能平台,实现了持续的长期改进。尽管使用了无标签数据,但 Vision-Zero 在推理、图表问答和以视觉为中心的理解任务上实现了最先进的性能,超过了其他基于注释的方法。模型和代码已在此处发布。项目在https://github.com/wangqinsi1/Vision-Zero

🛎️文章简介

🔸研究问题:这篇论文试图解决如何在没有人工标注的情况下,通过游戏化的自我训练框架实现视觉语言模型(VLM)的可扩展自我提升?
🔸主要贡献:提出了Vision-Zero,一个首创的无人干预训练范式,利用游戏化的自我玩法和标签自由的数据输入实现VLM的高效训练。

📝重点思路

🔸设计了“谁是间谍”这一视觉推理游戏,促使模型通过交互式游戏反复学习并提高其推理能力。
🔸提出了迭代自我玩法策略优化(Iterative-SPO),在训练中交替进行自我玩法和可验证奖励(RLVR),以稳定训练过程并避免模型过早收敛。
🔸支持标签自由和领域无关的数据输入,降低数据构建成本,并能够广泛应用于不同领域。

🔎分析总结

🔸通过大量实验验证,Vision-Zero在各类任务中均显著提升模型性能,尤其在推理和数学任务上,相较于传统基于人工标注数据的模型提高了3%。
🔸模型在训练过程中,胜率和平均token长度持续增加,表明推理能力得到了明显增强。
🔸模型展示了良好的任务迁移能力,能够在未明确训练数学任务的情况下,提升在数学和推理任务上的表现,并超越训练于大量特定任务数据的基线模型。
🔸数据构建成本显著低于传统RLVR方法,仅需数十个GPU小时,显示出高效和经济的优势。

💡个人观点

论文提出了无人干预的训练范式,通过游戏化的自我玩法有效解决了传统训练方法中对人工标注的依赖。

🧩附录

在这里插入图片描述

Logo

更多推荐