logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2024|TMLR|Meta,DINOv2,ViT,自蒸馏,iBOT,SwAV 中心化,判别式自监督预训练,分类/分割,分辨率调整)无监督稳健的视觉特征学习

本文展示了 DINOv2,一系列在大型精选数据上预训练的无监督图像编码器,其性能在广泛的基准测试上(无需微调)与弱监督替代方案相当。其成功归因于:改进的训练策略、更大的模型规模、更大的精选数据集以及有效的知识蒸馏。这些模型展现出对物体部件和场景几何的理解能力。

文章图片
#深度学习#计算机视觉
(2023|ICCV|Meta,SAM,可提示(点、框、掩码)分割任务,数据引擎和数据集/SA-1B)分割一切

本文开发一个可提示的模型 SAM,并设计数据引擎构建一个广泛的数据集,通过一个能实现强大泛化能力的任务进行预训练,从而通过提示工程,解决新数据分布上的各种下游分割问题。

文章图片
#计算机视觉
(2026|MBZUAI,构建 PIXAR 基准,像素差异图和基于阈值的掩码,VLM,分类/分割/检测)从 Mask 到像素和意义:VLM 图像篡改的新分类法,基准和度量

本文将 VLM 篡改检测重新定义为基于像素、融合意义与语言的任务,通过逐像素差异图获取可控标签。本文发布了高保真、大规模的 PIXAR 基准,提供原始/篡改图像、丰富元数据、差异图、推荐像素标签及语言描述,引入了一个像素感知的训练框架,用于定位、语义分类和自然语言描述生成。

文章图片
#人工智能#计算机视觉
(2024,强化学习,扩散,奖励函数)扩散模型的大规模强化学习

本文提出了一种有效的可扩展算法,使用强化学习改进扩散模型,涵盖人类偏好、组成性和公平性等多种奖励函数,涉及数百万张图像。该方法显著优于现有方法,使扩散模型与人类偏好保持一致。

文章图片
#计算机视觉#人工智能#深度学习
(2024,KAN,MLP,可训练激活函数,样条函数,分层函数)Kolmogorov–Arnold 网络

MLP具有固定的激活函数和可学习的权重,而KAN没有线性权重,而是使用双层的、由样条函数组合的、可学习的激活函数。相比于MLP,KAN具有更好的可解释性,且使用更少的参数打到与MLP相同或超越的精度​。但KAN的训练缓慢,扩展应用有待探索

文章图片
#人工智能#神经网络
(2023,LLM,扩散,标记对齐,两阶段训练)MiniGPT-5:通过生成式 Voken 进行交错视觉和语言生成

本文提出 MiniGPT-5,它以 “生成式 Voken” 的概念为基础,通过将 LLM 与预训练的文本到图像生成模型对齐,来生成带有连贯文本叙述的图像。介绍了一种用于无描述多模态生成的两阶段训练策略。

文章图片
#深度学习#计算机视觉
(2024,MambaOut,Mamba 适合长序列,区分指标,不适合分类,适合检测和分割)视觉真的需要 Mamba 吗?

Mamba 非常适合具有长序列和自回归特征的任务。本文提出了一个指标来判别序列是否是长序列本文。它通过堆叠 Mamba 块并移除 SSM,构建了 MambaOut 模型,来验证 Mamba 在分类、检测和分割等视觉任务​中的适用性。

文章图片
#cnn#人工智能#神经网络
(2024,RWKV-CLIP,VLM,表示学习,通道混合和空间混合,基于 LLM 的标题精练):强大的视觉语言表示学习器

RWKV-CLIP 是 RWKV 驱动的视觉语言表示学习模型。它采用了双塔架构,具有类似于 Transformer 的块堆叠编码器,每个块由一个空间混合模块和一个通道混合模块组成。此外,它使用LLM来获得精炼的图像描述。

文章图片
#计算机视觉#深度学习
(2022|TMLR,Parti,ViT-VQGAN,P2,樱桃树)扩展自回归模型以进行内容丰富的文本到图像生成

​本文提出了 Pathways 自回归文本到图像(Parti)模型,将文本到图像的生成视为序列到序列的建模问题。还提出了 P2 基准以及种植樱桃树的新概念。

文章图片
#人工智能#计算机视觉
(2021|CVPR,XMC-GAN,对比学习,注意力自调制)用于文本到图像生成的跨模态对比学习

为改进本文到图像对齐,本文提出 XMC-GAN。它通过多个对比损失来捕捉模态间和模态内的对应关系。它使用注意力自调制生成器,强化文本与图像的对应关系,以及一种对比鉴别器,既进行评判又作为对比学习的特征编码器。

文章图片
#生成对抗网络#学习#深度学习
    共 142 条
  • 1
  • 2
  • 3
  • 15
  • 请选择