大模型的行业应用

  • Investigating Traffic Accident Detection Using Multimodal Large Language Models (https://arxiv.org/abs/2509.19096)
    该研究调查了多模态大型语言模型(MLLM)在零样本情况下,利用基础设施摄像头图像检测和描述交通事故的能力,旨在最大限度地减少对大量标注数据集的依赖。研究结果表明,将MLLM与先进的视觉分析技术相结合具有巨大潜力,可以增强其在实际自动交通监控系统中的适用性。

  • Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning (https://arxiv.org/abs/2509.19090)
    该论文介绍了Citrus-V,一个多模态医学基础模型,它结合了图像分析和文本推理。该模型集成了检测、分割和多模态链式推理,从而能够在单个框架中实现像素级病灶定位、结构化报告生成和类似医生的诊断推断。

  • OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery (https://arxiv.org/abs/2509.18693)
    该论文介绍了一个集成的三阶段框架OSDA,用于免注释的开放集土地覆盖发现、分割和描述。该管道包括:(1)使用可提示的微调分割模型(SAM)进行精确发现和掩模提取,(2)通过两阶段微调的多模态大型语言模型(MLLM)进行语义属性和上下文描述,以及(3)MLLM评估的LLM-as-judge和手动评分。

  • Harnessing Multimodal Large Language Models for Personalized Product Search with Query-aware Refinement (https://arxiv.org/abs/2509.18682)
    该论文提出了一个新颖的框架HMPPS,用于利用多模态大型语言模型(MLLM)处理基于多模态内容的个性化产品搜索。此外,该论文还设计了两个查询感知细化模块:1)一个透视图引导的总结模块,生成围绕与搜索查询相关的核心透视图的精炼产品描述,减少文本内容中的噪声和冗余;2)一个两阶段训练范式,引入搜索查询以进行基于多模态表示的用户历史过滤,捕获精确的用户偏好并降低推理成本。

  • NaviSense: A Multimodal Assistive Mobile application for Object Retrieval by Persons with Visual Impairment (https://arxiv.org/abs/2509.18672)
    该论文介绍了一种名为 "NaviSense "的移动辅助系统,该系统结合了会话式人工智能、视觉语言模型、增强现实(AR)和激光雷达技术,以支持具有实时音频-触觉指导的开放世界物体检测。

  • When Ads Become Profiles: Large-Scale Audit of Algorithmic Biases and LLM Profiling Risks (https://arxiv.org/abs/2509.18874)
    该论文介绍了一个多阶段审计框架来调查这些风险。首先,对交付给 891 名澳大利亚 Facebook 用户的超过 435,000 次广告展示进行的大规模审计揭示了算法偏差,包括向社会经济弱势群体和政治结盟群体不成比例地展示赌博和政治广告。其次,多模态 LLM 可以从广告流中重建用户的统计资料,胜过基于人口普查的基线并匹配或超过人类的表现。

Benchmark

  • DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models’ Understanding on Indian Culture (https://arxiv.org/abs/2509.19274)
    该论文介绍了一种名为DRISHTIKON的多模态多语言基准,专门用于测试语言模型对印度文化的理解。DRISHTIKON与现有基准不同,它提供了对印度不同地区的深度、细粒度覆盖,跨越15种语言,覆盖所有邦和联邦属地,并包含超过64,000个对齐的文本-图像对。

  • ConViS-Bench: Estimating Video Similarity Through Semantic Concepts (https://arxiv.org/abs/2509.19245)
    该论文介绍了一种名为ConViS-Bench的基准,用于评估基于概念的视频相似度估计。该基准包含仔细注释的视频对,这些视频对跨越多个领域。每对视频都带有概念级别的相似度评分以及差异和相似度的文本描述。

  • ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests? (https://arxiv.org/abs/2509.19070)
    该论文提出了一种名为ColorBlindnessEval的新基准,旨在评估视觉语言模型(VLM)在受Ishihara色盲测试启发的视觉对抗场景中的鲁棒性。

  • How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective (https://arxiv.org/abs/2509.18905)
    论文对VLM中的VSR进行了系统研究,包括对输入模态、模型架构、训练策略和推理机制的现有方法的回顾。此外,论文将空间智能分为三个能力等级,即基本感知、空间理解、空间规划,并整理了SIBench,这是一个包含近20个开源数据集的空间智能基准,涵盖23个任务设置。

  • RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing (https://arxiv.org/abs/2509.18897)
    论文介绍了一种新颖的基准,旨在推动用于遥感图像的通用、大规模3D视觉模型的发展。RS3DBench包含54,951对遥感图像和像素级对齐的深度图,以及相应的文本描述,跨越广泛的地理环境。

  • VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction (https://arxiv.org/abs/2509.19002)
    该论文提出了VIR-Bench,一种由 200 个旅游视频组成的新基准,它将行程重建构建为一个具有挑战性的任务,旨在评估和推进 MLLM 的地理空间-时间智能。

  • Eva-VLA: Evaluating Vision-Language-Action Models’ Robustness Under Real-World Physical Variations (https://arxiv.org/abs/2509.18953)
    该论文提出了 Eva-VLA,这是第一个统一框架,它通过将离散物理变化转化为连续优化问题,系统地评估 VLA 模型在真实物理变化下的鲁棒性。

文生图/文生视频

  • Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation (https://arxiv.org/abs/2509.19296)
    本文提出了一种自蒸馏框架,旨在将视频扩散模型中的隐式3D知识提炼为显式3D高斯溅射(3DGS)表示,从而消除了对多视角训练数据的需求。具体来说,作者使用3DGS解码器增强了典型的RGB解码器,该解码器由RGB解码器的输出监督。

训练数据相关

  • Pre-training CLIP against Data Poisoning with Optimal Transport-based Matching and Alignment (https://arxiv.org/abs/2509.18717)

    该论文提出了一种基于最佳传输的框架来重建图像-字幕对,命名为 OTCCLIP。该论文提出了一种新的基于最佳传输的细粒度视觉和文本特征集之间的距离度量,并根据提出的最佳传输距离重新分配新的字幕。此外,为了进一步减少不匹配对的负面影响,该论文通过采用基于最佳传输的目标函数来鼓励模态间和模态内细粒度对齐。

训练策略

  • Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation (https://arxiv.org/abs/2509.18824)
    论文提出了一种统一的加速框架Hyper-Bagel,旨在同时加速多模态理解和生成任务。方法采用分而治之的策略,采用投机解码进行下一个token预测,并采用多阶段蒸馏过程进行扩散去噪。

  • No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning (https://arxiv.org/abs/2509.18938)
    该论文提出了一种新颖的零样本图像分类框架,该框架在自学习周期内结合了 VLM 和预训练的视觉模型。该方法仅需要类名称的集合,不需要标记的训练数据,利用基于置信度的伪标记策略直接在测试数据上训练轻量级分类器,从而实现动态适应。

其他

  • OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment (https://arxiv.org/abs/2509.19018)
    该论文提出了OmniBridge,一种统一且模块化的多模态框架,支持在统一架构中进行视觉语言理解、生成和检索。OmniBridge 采用以语言为中心的设计,重用预训练的 LLM,并引入轻量级双向潜在对齐模块。为了解决任务干扰的挑战,论文提出了一种两阶段解耦训练策略:监督微调和潜在空间对齐,用于将 LLM 行为与多模态推理对齐,以及语义引导的扩散训练,用于通过可学习的查询嵌入对齐跨模态潜在空间。

  • Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards (https://arxiv.org/abs/2509.19003)
    论文深入研究了视觉语言模型的链式步骤推理,从而能够准确评估推理步骤的质量,并使用细粒度的奖励进行有效的强化学习和推理时缩放。论文提出了一个简单、有效且完全透明的框架,包括步骤级推理数据、过程奖励模型 (PRM) 和强化学习训练。

  • MECap-R1: Emotion-aware Policy with Reinforcement Learning for Multimodal Emotion Captioning (https://arxiv.org/abs/2509.18729)
    该论文提出了一种开创性的情感感知策略,采用强化学习进行多模态情感字幕生成。通过采用基于情感感知奖励(Emo-GRPO)的群体相对策略优化,该框架可以精确地捕获情感和语义特征,从而解决刚性规则在处理字幕动态和灵活性质方面的缺点。

  • Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models (https://arxiv.org/abs/2509.18816)
    该论文提出了一种新的免训练方法 Mata,它在自注意力机制中动态地推动 LALM 更多地关注音频令牌。具体来说,Mata 在原始注意力评分后进行干预,仅以中间层中的最后一个令牌为目标,而无需引入额外的参数或计算开销。

编辑精选

以下是今日值得重点关注的论文:

  1. Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning (https://arxiv.org/abs/2509.19090):该论文提出的 Citrus-V 模型,将图像分析和文本推理结合,为医学影像领域提供了一个强大的多模态解决方案,具有很高的应用价值。

  2. RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing (https://arxiv.org/abs/2509.18897):该论文提出的 RS3DBench 基准,为遥感图像的 3D 视觉模型提供了一个全面的评估工具,有助于推动地理人工智能领域的发展。

  3. OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment (https://arxiv.org/abs/2509.19018):该论文提出的框架,支持在统一架构中进行视觉语言理解、生成和检索。对于LLM 行为与多模态推理对齐的方式具有借鉴意义。

Logo

更多推荐