
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文确定了稳健多模态 RoPE 的三个关键设计考量:位置连贯性、全频带利用和保持预训练 LLM 的文本先验。基于这些见解,本文提出了两种即插即用的 RoPE 变体:多头 RoPE 和交错 MRoPE。两种方法均遵循本文确定的准则,有效解决了常见失败模式,并在通用及细粒度多模态理解任务上取得了显著性能。

本文提出用于多模态检索 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker。通过结合多阶段训练流水线、高质量多模态数据,并充分利用Qwen3-VL基础模型的多模态知识和通用理解能力,该系列在广泛的多模态检索基准上取得了前所未有的性能,同时保持了强大的纯文本能力。此外,通过嵌套表示学习和量化感知训练,该系列具备优异的实际部署特性,能在保持高性能的同时显著降低下游任务的计算成

本文分析最新的具有视觉功能的模型 GPT-4V,重点关注其可以执行的有趣任务,包括测试样本来探究其功能的质量和通用性、其支持的输入和工作模式,以及提示模型的有效方法,并深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。

本文分析了多模态模型少样本适应的三种主要技术:基于提示、适配器和外部知识。还推导了泛化误差界限,揭示了多模态基础模型的泛化误差受领域差异、模型容量和样本大小的约束。基于此,提出解决方案:自适应域泛化、自适应模型选择、自适应知识利用

为提高视觉语言模型的可解释性,本文提出多模态信息瓶颈,该方法学习潜在表示,压缩无关信息同时保留相关的视觉和文本特征。与通常使用的单模态归因方法不同,M2IB 不需要地面真实标签。

本文探索替代主流参数化拟合的异常检测方法,即直接利用辅助数据的经验分布。基于这一思想,本文提出了 MRAD,一个统一的记忆驱动的检索框架。基础模型 MRAD-TF 在冻结的视觉骨干网络上构建两级记忆库,并通过相似度检索解决分类和分割问题。

本文提出基于多模态提示的无监督连续异常检测框架。通过引入连续多模态提示记忆库,模型能够逐步提炼并保留跨视觉与文本领域的正常模式,有效缓解灾难性遗忘。缺陷语义引导的自适应融合机制通过自适应归一化与动态融合策略,提升了异常检测精度与定位能力。

本文回顾视频分割的两条基本研究路线:视频目标分割(object segmentation)和视频语义分割(semantic segmentation)。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代表性文献。本文在一些知名的数据集上对这些方法检测(benchmark)。最后,指出这些领域的opne issue以及未来的研究方

本文提出的 UCAD,一种面向任务不可知持续学习的无监督异常检测与分割方法,依赖持续提示模块和基于结构的对比学习,显著提升了持续异常检测性能。

TRACE 证明了文本到图像扩散模型天然编码了可恢复的实例结构。通过定位实例涌现点、利用自注意力提取边界、并将其压缩为快速的单步解码器,TRACE 能够实时生成锐利且连续的实例边缘,无需任何提示、点、框或掩码标注。








