训练数据相关

  • GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning (https://arxiv.org/abs/2509.15738): 该研究提出GUI-ReWalk,一个多阶段框架,用于合成现实且多样化的GUI轨迹数据。该框架结合随机探索和推理引导,生成更贴近人机交互的数据,提升GUI Agent的性能。
  • UNIV: Unified Foundation Model for Infrared and Visible Modalities (https://arxiv.org/abs/2509.15642): 提出了一个统一的红外和可见光模态基础模型(UNIV),它具有两个关键创新点。首先,引入了逐块跨模态对比学习(PCCL),模仿视网膜水平细胞的横向抑制,这使得有效的跨模态特征对齐成为可能,同时保持与任何基于transformer的架构的兼容性。其次,双重知识保留机制模仿视网膜的双极细胞信号路由——将LoRA适配器(增加2%的参数)与同步蒸馏相结合,以防止灾难性遗忘,从而复制视网膜的光敏(锥体驱动)和暗光(杆驱动)功能。为了支持跨模态学习,作者推出了MVIP数据集,这是迄今为止最全面的可见-红外基准数据集。它包含了98992个精确对齐的图像对,涵盖了不同的场景。

Agent相关

  • Agentic Aerial Cinematography: From Dialogue Cues to Cinematic Trajectories (https://arxiv.org/abs/2509.16176): 该论文介绍了一种自主无人机电影摄影系统ACDC,它可以通过人类导演和无人机之间的自然语言交流来驱动。该系统利用LLM和视觉基础模型将自然语言提示转换为可执行的室内无人机视频。
  • MicroRCA-Agent: Microservice Root Cause Analysis Method Based on Large Language Model Agents (https://arxiv.org/abs/2509.15635): 提出了一种基于大型语言模型代理的微服务根因分析创新解决方案MicroRCA-Agent,构建了一个具有多模态数据融合的智能故障根因定位系统。

模型预训练相关

  • MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer (https://arxiv.org/abs/2509.16197): 该论文提出了Manzano,一个简单且可扩展的统一框架,通过将混合图像分词器与精心策划的训练方法相结合,显著减少了理解和生成视觉内容之间的性能权衡。
  • VOX-KRIKRI: Unifying Speech and Language through Continuous Fusion (https://arxiv.org/abs/2509.15667): 该研究提出了一种多模态融合框架,连接了预训练的基于解码器的大型语言模型(LLM)和诸如Whisper的声学编码器-解码器架构,旨在构建支持语音的LLM。
  • SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models (https://arxiv.org/abs/2509.15661): 提出了一种跨模态蒸馏框架SightSound-R1,该框架将更强大的LVLM教师的高级推理能力转移到同一音频-视觉问答(AVQA)数据集上较弱的LALM学生。

训练策略

  • Dynamic Classifier-Free Diffusion Guidance via Online Feedback (https://arxiv.org/abs/2509.16131): 该论文提出了一种动态CFG调度框架,利用来自通用和专用小规模潜在空间评估的在线反馈,在反向扩散过程的每一步评估生成质量,并选择最佳CFG比例。

  • Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning (https://arxiv.org/abs/2509.16136): 提出了一种双层框架RE-GoT,它使用结构化的基于图的推理来增强LLM,并集成VLM进行自动rollout评估,以迭代地改进奖励。

  • Direct Simultaneous Translation Activation for Large Audio-Language Models (https://arxiv.org/abs/2509.15692): 提出SimulSA策略,利用LALM的内在能力,通过随机截断语音并构建部分对齐的翻译来获取同步数据。

  • Towards Robust Visual Continual Learning with Multi-Prototype Supervision (https://arxiv.org/abs/2509.16011): 提出MuproCL,用多个上下文感知的原型替换单个目标。使用LLM agent执行类别消歧和视觉模态扩展,生成一组鲁棒的语义原型。

大模型的行业应用

  • Optimizing Product Deduplication in E-Commerce with Multimodal Embeddings (https://arxiv.org/abs/2509.15858): 针对电商平台商品重复问题,提出了一种可扩展的多模态商品去重方案,结合领域特定的文本模型和图像表示,实现高效高精度的相似度搜索。
    • SolarCrossFormer: Improving day-ahead Solar Irradiance Forecasting by Integrating Satellite Imagery and Ground Sensors (https://arxiv.org/abs/2509.15827): 介绍SolarCrossFormer,一种用于日前辐照度预测的新型深度学习模型,该模型结合了卫星图像和来自地面气象站网络的时间序列。

Benchmark

  • AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models (https://arxiv.org/abs/2509.16141): 该论文提出了AcT2I,一个旨在评估T2I模型从以动作为中心的提示生成图像的性能的基准。实验验证了领先的T2I模型在AcT2I上的表现不佳。
  • Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems (https://arxiv.org/abs/2509.15839): 作者推出了一个全面的中文物理推理基准,\textbf {Multi-Physics},其中包括5个难度级别,包含1412道图像关联的选择题,涵盖11个高中物理科目。
  • ORIC: Benchmarking Object Recognition in Incongruous Context for Large Vision-Language Models (https://arxiv.org/abs/2509.15695): 引入了不协调上下文对象识别基准(ORIC),这是一个新颖的基准,用于评估对象-上下文关系与预期不符的场景中的LVLM。
  • Jamendo-QA: A Large-Scale Music Question Answering Dataset (https://arxiv.org/abs/2509.15662): 该论文介绍Jamendo-QA,一个用于音乐问答(Music-QA)的大规模数据集。
  • TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies? (https://arxiv.org/abs/2509.15602): 提出了TennisTV,是第一个也是最全面的网球视频理解基准。

文生图/文生视频

  • AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models (https://arxiv.org/abs/2509.16141): 针对文本生成图像任务中动作描述不准确的问题,提出了AcT2I benchmark,并通过知识蒸馏方法,利用LLM来增强prompt,提升生成图像的准确性。
  • Structured Information for Improving Spatial Relationships in Text-to-Image Generation (https://arxiv.org/abs/2509.15962): 提出了一种轻量级方法,通过使用微调的语言模型进行自动转换,并将其无缝集成到T2I管道中,从而利用基于元组的结构化信息来增强提示。
  • CIDER: A Causal Cure for Brand-Obsessed Text-to-Image Models (https://arxiv.org/abs/2509.15803): 该论文提出CIDER,一种新颖的、模型无关的框架,通过提示优化来减轻推理时的偏差,从而避免了代价高昂的重新训练。
  • Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation (https://arxiv.org/abs/2509.15772): 提出了一种新的文本到3D生成框架VLM3D,该框架将大型视觉语言模型(VLM)集成到SDS管道中,作为可微语义和空间先验。

底层模型架构

  • Mamba-2 audio captioning: design space exploration and analysis (https://arxiv.org/abs/2509.15680): 提出了一个建立在Mamba-2大型语言模型骨干上的音频字幕模型,这是一个最先进的状态空间模型(SSM)。
  • SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features (https://arxiv.org/abs/2509.16098): 提出了一种新的Transformer编码器-解码器框架SegDINO3D,用于3D实例分割。

安全

  • Randomized Smoothing Meets Vision-Language Models (https://arxiv.org/abs/2509.16088): 该论文将随机平滑技术应用于视觉语言模型,以提高其鲁棒性,并针对对抗性攻击进行验证。
    • Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks (https://arxiv.org/abs/2509.16163): 提出了一种轻量级防御方法,使用张量分解,适用于任何预训练的VLM,无需重新训练。

其他

  • See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model (https://arxiv.org/abs/2509.16087): 提出了SEE&TREK,第一个专门用于增强多模态大型语言模型(MLLMS)在纯视觉约束下的空间理解的免训练提示框架。
  • I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models (https://arxiv.org/abs/2509.16072): 提出了一种构建针对语义未对准失败检测的数据集的方法,并提出了一个专门为失败检测设计的开源VLM框架I-FailSense。
  • DistillMatch: Leveraging Knowledge Distillation from Vision Foundation Model for Multimodal Image Matching (https://arxiv.org/abs/2509.16017): 提出了一种利用来自VFM的知识蒸馏的多模态图像匹配方法DistillMatch。DistillMatch采用知识蒸馏来构建一个轻量级的学生模型,该模型从VFM(包括DINOv2和DINOv3)中提取高级语义特征,以辅助跨模态匹配。
  • CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine (https://arxiv.org/abs/2509.15968): 提出了CoReVLA,一个持续学习端到端自动驾驶框架,通过数据收集和行为改进的双阶段过程,提高了长尾场景中的性能。
  • A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning (https://arxiv.org/abs/2509.15937): 引入VLAC,一个基于InternVL构建的通用过程奖励模型,并在大规模异构数据集上进行训练。
  • RACap: Relation-Aware Prompting for Lightweight Retrieval-Augmented Image Captioning (https://arxiv.org/abs/2509.15883): 提出了一种关系感知检索增强模型RACap,用于图像字幕,它不仅从检索字幕中挖掘结构化的关系语义,而且还识别图像中的异构对象。
  • EmoQ: Speech Emotion Recognition via Speech-Aware Q-Former and Large Language Model (https://arxiv.org/abs/2509.15775): 提出了一种基于MLLM的框架,称为EmoQ,它生成通过EmoQ-Former融合多模态信息的查询嵌入,并使用多目标情感学习(MAL)来实现协同优化。
  • Thinking in cocktail party: Chain-of-Thought and reinforcement learning for target speaker automatic speech recognition (https://arxiv.org/abs/2509.15612): 提出了一种新颖的框架,该框架将CoT和RL训练纳入TS-ASR中以提高性能。
  • PRIMT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Synthesis from Foundation Models (https://arxiv.org/abs/2509.15607): 提出PRIMT,一个PbRL框架,旨在通过利用基础模型(FM)进行多模态合成反馈和轨迹合成来克服这些挑战。

编辑精选

  1. MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer (https://arxiv.org/abs/2509.16197): 该论文提出了一个简单有效的多模态模型,重点在于架构的简洁性和可扩展性,对统一多模态模型的研究具有参考价值。
  2. Agentic Aerial Cinematography: From Dialogue Cues to Cinematic Trajectories (https://arxiv.org/abs/2509.16176): 该论文将LLM应用于无人机电影摄影,实现通过自然语言控制无人机拍摄,是Agent在机器人领域的有趣应用。
  3. Reward Evolution with Graph-of-Thoughts: A Bi-Level Language Model Framework for Reinforcement Learning (https://arxiv.org/abs/2509.16136): 该论文提出了一种新颖的强化学习框架,使用图结构来辅助LLM进行奖励函数的设计,有效地解决了复杂任务中奖励函数设计的难题,具有较高的创新性。
  4. GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning (https://arxiv.org/abs/2509.15738): 针对GUI Agent数据稀缺问题,提出了GUI-ReWalk框架,能合成高质量、多样化的数据,有效提升Agent的性能。
  5. UNIV: Unified Foundation Model for Infrared and Visible Modalities (https://arxiv.org/abs/2509.15642): 提出了一个统一的红外和可见光模态基础模型(UNIV),并且推出了迄今为止最全面的可见-红外基准数据集MVIP。
Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐