
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
统一多模态模型 TUNA-2 直接在像素空间中执行多模态理解和视觉生成,无需依赖 VAE 编码器或潜在扩散。通过将统一的视觉语言主干与像素空间流匹配头相结合,TUNA-2 在单一框架内支持图像理解、文生图和图像编辑。

D^24FAD 是一种用于医学影像少样本异常检测的新型双蒸馏框架。通过利用预训练编码器作为教师网络,并采用一个在查询图像上蒸馏教师知识、同时在支持图像上进行自蒸馏的学生解码器,本文方法仅使用少量正常参考图像即可有效识别新任务中的异常。

本文提出 dino.txt,它成功地将一个从零训练的文本编码器与冻结的自监督视觉模型 DINOv2 对齐,从而解锁了开放词汇能力。该方法结合了无需人工标注的自监督数据筛选技术,实现了快速训练,并在零样本分类和开放词汇分割上取得了顶尖性能。

本文探索替代主流参数化拟合的异常检测方法,即直接利用辅助数据的经验分布。基于这一思想,本文提出了 MRAD,一个统一的记忆驱动的检索框架。基础模型 MRAD-TF 在冻结的视觉骨干网络上构建两级记忆库,并通过相似度检索解决分类和分割问题。

本文提出基于多模态提示的无监督连续异常检测框架。通过引入连续多模态提示记忆库,模型能够逐步提炼并保留跨视觉与文本领域的正常模式,有效缓解灾难性遗忘。缺陷语义引导的自适应融合机制通过自适应归一化与动态融合策略,提升了异常检测精度与定位能力。

TRACE 证明了文本到图像扩散模型天然编码了可恢复的实例结构。通过定位实例涌现点、利用自注意力提取边界、并将其压缩为快速的单步解码器,TRACE 能够实时生成锐利且连续的实例边缘,无需任何提示、点、框或掩码标注。

开放集目标检测正从一个 “学术任务” 逐步走向 “工业级基础能力”。从 Grounding DINO 到 DINO-X 的演进,展现了 开创性架构 + 数据驱动 + 多任务融合的清晰路径,这一系列工作为开放集目标检测领域提供了完整的技术演进范本。

本文提出的 UCAD,一种面向任务不可知持续学习的无监督异常检测与分割方法,依赖持续提示模块和基于结构的对比学习,显著提升了持续异常检测性能。

本文将 Segment Anything 自然地演进到视频领域,这基于三个关键方面:将可提示分割任务扩展到视频;为SAM架构配备应用于视频时的记忆能力;用于训练和基准测试的多样化SA-V数据集。

本文回顾视频分割的两条基本研究路线:视频目标分割(object segmentation)和视频语义分割(semantic segmentation)。本文介绍它们各自的task setting、背景概念、感知需求、发展历史以及主要挑战。本文详细概述相关的方法和数据集的代表性文献。本文在一些知名的数据集上对这些方法检测(benchmark)。最后,指出这些领域的opne issue以及未来的研究方








