logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2026|ICLR|阿里,多模态 RoPE/MRoPE,交错 MRoPE/MRoPE-I,全频带分配,空间重置解耦时空维度)重新审视 VLM 中的多模态位置编码

本文确定了稳健多模态 RoPE 的三个关键设计考量:位置连贯性、全频带利用和保持预训练 LLM 的文本先验。基于这些见解,本文提出了两种即插即用的 RoPE 变体:多头 RoPE 和交错 MRoPE。两种方法均遵循本文确定的准则,有效解决了常见失败模式,并在通用及细粒度多模态理解任务上取得了显著性能。

文章图片
#计算机视觉
(2026|阿里,三阶段训练,对比学习,蒸馏,嵌套表示,量化感知)Qwen3-VL-Embedding和Qwen3-VL-Reranker:统一的多模态检索和排序框架

本文提出用于多模态检索 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker。通过结合多阶段训练流水线、高质量多模态数据,并充分利用Qwen3-VL基础模型的多模态知识和通用理解能力,该系列在广泛的多模态检索基准上取得了前所未有的性能,同时保持了强大的纯文本能力。此外,通过嵌套表示学习和量化感知训练,该系列具备优异的实际部署特性,能在保持高性能的同时显著降低下游任务的计算成

文章图片
#计算机视觉
(2023,GPT-4V,LLM,LMM,功能和应用)大型多模态模型的黎明:GPT-4V(ision) 的初步探索

本文分析最新的具有视觉功能的模型 GPT-4V,重点关注其可以执行的有趣任务,包括测试样本来探究其功能的质量和通用性、其支持的输入和工作模式,以及提示模型的有效方法,并深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。

文章图片
#人工智能
(2024,少样本微调自适应,泛化误差界限,减小泛化误差的措施)多模态基础模型的少样本自适应:综述

本文分析了多模态模型少样本适应的三种主要技术:基于提示、适配器和外部知识。还推导了泛化误差界限,揭示了多模态基础模型的泛化误差受领域差异、模型容量和样本大小的约束。基于此,提出解决方案:自适应域泛化、自适应模型选择、自适应知识利用

文章图片
#机器学习#人工智能#计算机视觉
(2023|AABI,多模态信息瓶颈,变分近似,视觉语言模型可解释性)通过多模态信息瓶颈归因对图像文本表示的视觉解释

为提高视觉语言模型的可解释性,本文提出多模态信息瓶颈,该方法学习潜在表示,压缩无关信息同时保留相关的视觉和文本特征。与通常使用的单模态归因方法不同,M2IB 不需要地面真实标签。

文章图片
#人工智能#深度学习#机器学习
(2026|ICLR|中科院自动化所,CLIP,特征记忆库/检索,使用动态提示扩展 CLIP 提示)MRAD:基于记忆驱动检索的零样本异常检测

本文探索替代主流参数化拟合的异常检测方法,即直接利用辅助数据的经验分布。基于这一思想,本文提出了 MRAD,一个统一的记忆驱动的检索框架。基础模型 MRAD-TF 在冻结的视觉骨干网络上构建两级记忆库,并通过相似度检索解决分类和分割问题。

文章图片
#计算机视觉#深度学习
(2025|ACM MM|齐鲁工大,持续学习,无监督异常检测,多模态记忆库,多模态融合,动态 Sigmoid)探索无监督连续异常检测的多模态提示方法

本文提出基于多模态提示的无监督连续异常检测框架。通过引入连续多模态提示记忆库,模型能够逐步提炼并保留跨视觉与文本领域的正常模式,有效缓解灾难性遗忘。缺陷语义引导的自适应融合机制通过自适应归一化与动态融合策略,提升了异常检测精度与定位能力。

文章图片
#计算机视觉#视觉检测
【未完待续】综述:用于视频分割(Video Segmentation)的深度学习

本文回顾视频分割的两条基本研究路线:视频目标分割(object segmentation)和视频语义分割(semantic segmentation)。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代表性文献。本文在一些知名的数据集上对这些方法检测(benchmark)。最后,指出这些领域的opne issue以及未来的研究方

文章图片
#深度学习#人工智能
(2024|AAAI|南科大&腾讯,UCAD,持续学习,记忆库,无监督异常检测和分割,对比学习,ViT)基于对比学习提示的无监督持续异常检测

本文提出的 UCAD,一种面向任务不可知持续学习的无监督异常检测与分割方法,依赖持续提示模块和基于结构的对比学习,显著提升了持续异常检测性能。

文章图片
#目标检测#计算机视觉
(2026|ICLR Oral|首尔大学,扩散模型,扩散线索转实例边缘,实例涌现点,自注意力边界散度,单步自蒸馏)TRACE:扩散模型是实例边缘检测器

TRACE 证明了文本到图像扩散模型天然编码了可恢复的实例结构。通过定位实例涌现点、利用自注意力提取边界、并将其压缩为快速的单步解码器,TRACE 能够实时生成锐利且连续的实例边缘,无需任何提示、点、框或掩码标注。

文章图片
#计算机视觉
    共 157 条
  • 1
  • 2
  • 3
  • 16
  • 请选择