Agent相关

  • WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning (https://arxiv.org/abs/2509.22644): 提出了一种新的网站生成 Agent 框架 WebGen-Agent,该框架利用多层次的视觉反馈来迭代生成和改进网站代码库。通过视觉语言模型生成关于网站截图和GUI Agent测试的详细文本描述和建议,并结合回溯和最佳选择机制,提高 Agent 的性能。此外,还引入了基于截图和 GUI Agent 分数的 Step-GRPO 训练方法,以提高 LLM 作为推理引擎的能力。
  • LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision (https://arxiv.org/abs/2509.22631): 介绍了 Labeling Copilot,第一个用于计算机视觉的数据管理深度研究 Agent。该 Agent 由大型多模态语言模型驱动,使用多步骤推理来执行跨三个核心功能的专门工具:(1) 校准发现从大型存储库中获取相关的数据;(2) 可控合成生成具有鲁棒过滤的稀有场景的新数据;(3) 共识注释通过结合非极大值抑制和投票的新共识机制来协调多个基础模型,从而生成准确的标签。

训练数据相关

  • DeeptraceReward: Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs (https://arxiv.org/abs/2509.22646): 提出了 DeeptraceReward,这是一个细粒度的、空间和时间感知的基准,用于注释视频生成奖励的人类感知的伪造痕迹。该数据集包含对3.3K个高质量生成视频的4.3K个详细注释。每个注释都提供了一个自然语言解释,精确定位了包含感知痕迹的边界框区域,并标记了精确的开始和结束时间戳。
  • MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning (https://arxiv.org/abs/2509.22281): 提出了一个新的任务,即面向任务的桌面场景生成,并引入 MesaTask-10K,这是一个大规模数据集,包含约 10,700 个合成桌面场景,具有手动制作的布局,确保真实的布局和复杂的对象间关系。提出了一个空间推理链,将生成过程分解为对象推理、空间相互关系推理和场景图构建,用于最终的 3D 布局。
  • Geo-CoT: Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models (https://arxiv.org/abs/2509.22221): 提出了感知基础地理空间思维链 (Geo-CoT),该框架将遥感分析建模为可验证的多步骤过程。 通过两阶段对齐策略灌输这种分析过程,利用 Geo-CoT380k,这是第一个大规模结构化 Geo-CoT 基本原理数据集。
  • MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training (https://arxiv.org/abs/2509.22199): 提出了MimicDreamer,一个框架,通过共同对齐视觉、视点和动作来将快速、低成本的人工演示转化为机器人可用的监督,以直接支持策略训练。对于视觉对齐,提出了 H2R Aligner,一个视频扩散模型,通过从人类操作镜头传输运动来生成高保真机器人演示视频。提出了 EgoStabilizer 用于视点稳定,它通过单应性变换规范化自我中心视频,并修复由扭曲引起的遮挡和失真。
  • EgoInstruct: An Egocentric Video Dataset of Face-to-face Instructional Interactions with Multi-modal LLM Benchmarking (https://arxiv.org/abs/2509.22019): 提出了一个新的以自我为中心的面对面教学互动视频数据集,并为两个基本任务提供ground-truth注释,这两个任务是全面理解教学互动的第一步:程序步骤分割和对话状态分类。
  • InfiMed-Foundation: Pioneering Advanced Multimodal Medical Models with Compute-Efficient Pre-Training and Multi-Stage Fine-Tuning (https://arxiv.org/abs/2509.22261): 提出了 InfiMed-Foundation-1.7B 和 InfiMed-Foundation-4B,两种医学专用 MLLM,旨在提供最先进的医学应用性能。结合了高质量的通用和医学多模态数据,并提出了一个新颖的五维质量评估框架来管理高质量的多模态医学数据集。采用从低到高的图像分辨率和多模态序列打包来提高训练效率,从而能够整合广泛的医学数据。

训练策略

  • SPARK: Synergistic Policy And Reward Co-Evolving Framework (https://arxiv.org/abs/2509.22624): 介绍了协同策略与奖励共同进化框架(SPARK),这是一种高效、在线和稳定的方法,建立在具有可验证奖励的强化学习(RLVR)之上。SPARK 重复利用这些有价值的信息,同时训练模型本身作为生成奖励模型,而不是丢弃rollout和正确性数据。
  • GCPO: Group Critical-token Policy Optimization for Autoregressive Image Generation (https://arxiv.org/abs/2509.22485): 提出了 Group Critical-token Policy Optimization (GCPO),促进了对关键令牌的有效策略优化。从三个角度识别了基于 RLVR 的 AR 生成中的关键令牌,具体来说:(1) 因果依赖:由于单向依赖性,早期令牌从根本上决定了后来的令牌和最终图像效果;(2) 熵引起的空间结构:具有高熵梯度的令牌对应于图像结构并桥接不同的视觉区域;(3) 侧重于 RLVR 的令牌多样性:一组采样图像中视觉相似度低的令牌有助于更丰富的令牌级多样性。
  • Balanced Position Assignment: From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs (https://arxiv.org/abs/2509.21984): 介绍了平衡位置分配 (BaPA),这是一种简单而有效的机制,可将相同的位置嵌入分配给所有图像令牌,从而促进视觉信息的更平衡整合。

大模型的行业应用

  • TrueGradeAI: Retrieval-Augmented and Bias-Resistant AI for Transparent and Explainable Digital Assessments (https://arxiv.org/abs/2509.22516): 介绍了一种 AI 驱动的数字考试框架 TrueGradeAI,旨在克服传统纸质评估的缺点,包括过多的纸张使用、后勤复杂性、评分延迟和评估者偏见。该系统通过捕获安全平板电脑上的笔输入并应用基于 Transformer 的光学字符识别进行转录来保留自然手写。评估通过检索增强管道进行,该管道集成了教师解决方案、缓存层和外部参考,使大型语言模型能够分配具有明确的、与证据相关的推理的分数。
  • HyCoVAD: A Hybrid SSL-LLM Model for Complex Video Anomaly Detection (https://arxiv.org/abs/2509.22544): 介绍了混合复杂视频异常检测 HyCoVAD,这是一种混合 SSL-LLM 模型,它将多任务 SSL 时间分析器与 LLM 验证器相结合。SSL 模块建立在 nnFormer 主干上,nnFormer 是一种用于图像分割的基于 Transformer 的模型。它通过多个代理任务进行训练,从视频帧中学习以识别那些疑似异常的帧。然后将选定的帧转发到 LLM,LLM 通过应用结构化的、基于规则的推理来验证异常的存在,从而丰富了分析的语义上下文。
  • UniMapGen: A Generative Framework for Large-Scale Map Construction from Multi-modal Data (https://arxiv.org/abs/2509.22262): 提出了 UniMapGen,一种用于大规模地图构建的新型生成框架,提供了三个关键创新:(1) 将车道线表示为离散序列,并建立迭代策略以生成比传统基于感知的算法更完整和更平滑的地图向量。(2) 提出了一种灵活的架构,支持多模态输入,可以在 BEV、PV 和文本提示之间动态选择,以克服卫星数据的缺点。(3) 开发了一种状态更新策略,用于构建的大规模地图的全局连续性和一致性。
  • UnderwaterVLA: Dual-brain Vision-Language-Action architecture for Autonomous Underwater Navigation (https://arxiv.org/abs/2509.22441): 提出了一种用于自主水下导航的新型框架 UnderwaterVLA,该框架将多模态基础模型与具身智能系统集成在一起。引入了三项创新。首先,双脑架构将高层次任务推理与低层次反应控制分离,从而在通信和计算受限的情况下实现稳健运行。其次,首次将视觉-语言-动作 (VLA) 模型应用于水下机器人技术,结合结构化的思维链推理来实现可解释的决策。第三,一种流体动力学信息模型预测控制 (MPC) 方案实时补偿流体效应,而无需昂贵的特定于任务的训练。
  • RAU: Reference-based Anatomical Understanding with Vision Language Models (https://arxiv.org/abs/2509.22404): 介绍了 RAU,一个用于基于参考的解剖学理解与 VLM 的框架。首先表明,VLM 学习通过参考图像和目标图像之间的相对空间推理来识别解剖区域,该模型在适度大小的数据集上进行训练。通过视觉问题解答 (VQA) 和边界框预测验证了这种能力。接下来,证明了 VLM 衍生的空间线索可以与 SAM2 的精细分割能力无缝集成,从而实现小解剖区域(如血管段)的定位和像素级分割。
  • GRAM-TDI: adaptive multimodal representation learning for drug target interaction prediction (https://arxiv.org/abs/2509.21971): 介绍了 GRAMDTI,一个预训练框架,可将多模态分子和蛋白质输入集成到统一的表示中。GRAMDTI 将基于体积的对比学习扩展到四种模态,捕获超出传统成对方法的高阶语义对齐。为了处理模态信息量,提出了自适应模态 dropout,动态调节预训练期间每种模态的贡献。此外,IC50 活性测量值(如果可用)将作为弱监督纳入,以将表示固定在具有生物学意义的相互作用强度中。

Benchmark

  • VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing (https://arxiv.org/abs/2509.22651): 介绍了 VoiceAssistant-Eval,一个综合基准,旨在评估 AI 助手在听、说、看方面的能力。VoiceAssistant-Eval 包含 10,497 个跨越 13 个任务类别的精选示例。
  • MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark (https://arxiv.org/abs/2509.22461): 提出了 MDAR,一个用于评估模型在复杂、多场景和动态演进的音频推理任务中的基准。MDAR 包含 3,000 个精心策划的问题-答案对,这些问题-答案对链接到不同的音频剪辑,涵盖五个类别的复杂推理,并跨越三种问题类型。
  • CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process (https://arxiv.org/abs/2509.22339): 提出了 CircuitSense,一个全面的基准,通过 8,006 多个问题评估电路理解能力,涵盖从组件级原理图到系统级框图的层次结构。该基准独特地检查了完整的工程工作流程:感知、分析和设计,特别强调从视觉输入中推导符号方程的关键但未被充分探索的能力。
  • UrbanFeel: A Comprehensive Benchmark for Temporal and Perceptual Understanding of City Scenes through Human Perspective (https://arxiv.org/abs/2509.22228): 提出了 UrbanFeel,这是一个综合基准,旨在评估 MLLM 在城市发展理解和主观环境感知方面的性能。UrbanFeel 包含 1.43 万个精心构建的视觉问题,涵盖三个认知渐进维度:静态场景感知、时间变化理解和主观环境感知。从全球 11 个具有代表性的城市收集多时相单视图和全景街景图像,并通过空间聚类、基于规则的生成、模型辅助提示和人工注释的混合流程生成高质量的问题-答案对。
  • Neural-MedBench: Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks (https://arxiv.org/abs/2509.22258): 提出了 Neural-MedBench,这是一个紧凑但推理密集的基准,专门用于探测神经学中多模式临床推理的极限。 Neural-MedBench 整合了多序列 MRI 扫描、结构化电子健康记录和临床笔记,包含三个核心任务系列:鉴别诊断、病灶识别和理由生成。

文生图/文生视频

  • Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach (https://arxiv.org/abs/2509.22378): 提出了第一个基于视觉语言模型 (VLM) 的 I2M 框架,该框架提供高可解释性和低计算成本。利用 ABC 符号来桥接文本和音乐模态,使 VLM 能够使用自然语言生成音乐。然后应用多模态检索增强生成 (RAG) 和自我完善技术,使 VLM 能够生成高质量的音乐而无需外部训练。
  • TDEdit: A Unified Diffusion Framework for Text-Drag Guided Image Manipulation (https://arxiv.org/abs/2509.21905): 提出了一个统一的基于扩散的框架,用于联合拖动文本图像编辑,集成了两种范例的优势。该框架引入了两项关键创新:(1) 通过 3D 特征映射增强潜在空间布局控制的点云确定性拖动,以及 (2) 在去噪期间动态平衡拖动和文本条件影响的拖动文本引导去噪。
  • StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing (https://arxiv.org/abs/2509.21887): 提出了 StableDub,一个新颖而简洁的框架,集成了唇部习惯感知建模与遮挡稳健合成。具体来说,在 Stable-Diffusion 主干的基础上,开发了一种唇部习惯调制机制,该机制联合建模语音音视频同步和说话者特定的口面部动态。为了在遮挡下实现合理的唇部几何形状和物体外观,通过明确地将遮挡物体暴露给修复过程,引入了遮挡感知训练策略。

底层模型架构

  • Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation (https://arxiv.org/abs/2509.22093): 提出了动作感知动态修剪 (ADP),一种多模态修剪框架,它将文本驱动的令牌选择与动作感知轨迹门控集成在一起。该方法引入了一种门控机制,该机制根据最近的动作轨迹调节修剪信号,使用过去的运动窗口来根据动态自适应地调整令牌保留率,从而平衡不同操作阶段的计算效率和感知精度。
  • ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models (https://arxiv.org/abs/2509.21991): 提出了 ERGO(高效推理和引导观察),它执行推理驱动的感知,利用多模态上下文来确定在哪里关注。该模型可以考虑感知不确定性,扩大裁剪区域以覆盖视觉上模棱两可的区域以回答问题。为此,在强化学习框架中开发了简单但有效的奖励组件,用于从粗到细的感知。
  • From Watch to Imagine: Steering Long-horizon Manipulation via Human Demonstration and Future Envisionment (https://arxiv.org/abs/2509.22205): 介绍了 Super-Mimic,一个分层框架,通过直接从非脚本化的人工演示视频中推断程序意图来实现零样本机器人模仿。该框架由两个顺序模块组成。首先,人类意图翻译器 (HIT) 使用多模态推理来解析输入视频,以生成一系列以语言为基础的子任务。然后,这些子任务调节未来动力学预测器 (FDP),FDP 采用生成模型为每个步骤合成物理上合理的视频rollout。

其他

  • WoW: Towards a World omniscient World model Through Embodied Interaction (https://arxiv.org/abs/2509.22642): 提出了 WoW,一个拥有 140 亿参数的生成世界模型,该模型在 200 万个机器人交互轨迹上进行训练。结果表明,该模型对物理的理解是合理结果的概率分布,从而导致随机不稳定性和物理幻觉。此外,该模型的新兴能力可以通过 SOPHIA 主动约束为物理现实,SOPHIA 是视觉语言模型 Agent,可以评估 DiT 生成的输出,并通过迭代演化语言指令来指导其改进。
  • Polysemous Language Gaussian Splatting via Matching-based Mask Lifting (https://arxiv.org/abs/2509.22225): 提出了 MUSplat,一个完全放弃特征优化的免训练框架。利用预训练的 2D 分割模型,该流程生成并将多粒度 2D 掩码提升到 3D,其中估计每个高斯点的景物概率以形成初始对象组。然后使用语义熵和几何不透明度优化这些初始组的模糊边界。
  • Resolving Ambiguity in Gaze-Facilitated Visual Assistant Interaction Paradigm (https://arxiv.org/abs/2509.21980): 介绍了 GLARIFY,一种利用时空凝视信息来增强模型在真实世界应用中有效性的新方法。首先,分析数百个具有注视模态的查询样本,以证明用户注视模式的嘈杂性。然后,利用 GPT-4o 设计一个自动数据合成流程,以生成 GLARIFY-Ambi 数据集,该数据集包括一个专用的思维链 (CoT) 流程来处理嘈杂的注视模式。
  • Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors (https://arxiv.org/abs/2509.21997): 提出了一个无训练的自监督方法,用于减少幻觉。该方法引入了一种新颖的幻觉放大机制:通过文本到图像模型将标题投影到视觉空间中以揭示隐含的幻觉信号,作为负锚,而原始图像提供正锚。利用这些双锚,通过将表示拉向忠实的语义并将其从幻觉方向推开来编辑解码器隐藏状态。
  • MultiCrafter: High-Fidelity Multi-Subject Generation via Spatially Disentangled Attention and Identity-Aware Reinforcement Learning (https://arxiv.org/abs/2509.21953): 提出了一种框架 MultiCrafter,它确保高保真、偏好对齐的生成。首先,发现属性泄漏的根本原因是生成过程中不同主题之间的注意力存在显着的纠缠。因此,引入显式位置监督来显式地分离每个主题的注意区域,从而有效地减轻属性泄漏。为了使模型能够在各种场景中准确地规划不同主题的注意区域,采用混合专家架构来增强模型的能力,从而允许不同的专家专注于不同的场景。
  • SemanticControl: A Training-Free Approach for Handling Loosely Aligned Visual Conditions in ControlNet (https://arxiv.org/abs/2509.21938): 提出了一种训练自由的方法 SemanticControl,用于有效利用未对齐但语义相关的视觉条件。该方法自适应地抑制视觉条件的影响,在该视觉条件与提示冲突的地方,同时加强来自文本的指导。
  • Spatial Reasoning in Foundation Models: Benchmarking Object-Centric Spatial Understanding (https://arxiv.org/abs/2509.21922): 提出了一个用于基础模型中以对象为中心的空间推理的系统基准。使用受控的合成数据集,评估了三个任务中的最先进的视觉模型(例如,GroundingDINO、Florence-2、OWLv2)和大型 VLM(例如,InternVL、LLaVA、GPT-4o):空间定位、空间推理和下游检索任务。
  • GPT-4 for Occlusion Order Recovery (https://arxiv.org/abs/2509.22383): 提出利用预训练的 GPT-4 模型的先进能力来推断顺序,以解决遮挡仍然是当前视觉模型鲁棒地解释复杂和密集的真实世界图像和场景的重大挑战这一局限性。通过提供专门设计的提示以及输入图像,GPT-4 可以分析图像并生成顺序预测。

编辑精选

以下是几篇值得重点关注的论文:

  1. LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision (https://arxiv.org/abs/2509.22631):数据是AI的基石,而高质量的领域数据尤其重要。这篇文章提出了一个自动数据管理Agent,能够高效地从海量数据中筛选、合成和标注数据,解决计算机视觉领域数据匮乏的问题。

  2. WoW: Towards a World omniscient World model Through Embodied Interaction (https://arxiv.org/abs/2509.22642): 提出了 WoW,一个拥有 140 亿参数的生成世界模型,该模型在 200 万个机器人交互轨迹上进行训练。 强调了具身交互对于世界模型的重要性,这与当前视频模型依赖被动观察形成对比,并提出了一种通过与环境交互来提升模型物理直觉的方法。

  3. HyCoVAD: A Hybrid SSL-LLM Model for Complex Video Anomaly Detection (https://arxiv.org/abs/2509.22544):LLM在视频分析中面临计算量大的问题,而这篇文章提出了一种混合模型,将SSL的效率和LLM的推理能力结合起来,提高了视频异常检测的准确性和效率。

  4. SPARK: Synergistic Policy And Reward Co-Evolving Framework (https://arxiv.org/abs/2509.22624):RLHF 成本高昂且可能存在奖励策略不匹配,而 RLVR 仍然浪费了监督。SPARK 框架重用这些有价值的信息,同时训练模型本身作为生成奖励模型,消除了对单独奖励模型和昂贵的人类偏好数据的需求。

Logo

更多推荐