简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
对视觉语言多模态的模型进行介绍,涉及CLIP、GLIP、VLMo、Flamingo、BLIP等等。VLMs的分类:根据VLM的输入处理和输出生成能力将其分为三个不同的组:视觉语言理解模型:专门为视觉信息与语言的解释和理解而设计的模型多模态输入文本生成模型:擅长利用多模态输入(如图像、视频和文本)来生成文本内容多模态输入多模态输出模型:不仅接受多模态输入,还能产生多模态的输出
输入token在前向传播过程中的贡献会出现波动,可能导致输出token的混合比例与预期不同,从而使得原始数据混合策略计算出的训练目标不准确,影响训练效果。为了解决这个问题,论文提出了一种名为Token-Label Alignment (TL-Align) 的方法,通过追踪变换后的token与原始token之间的对应关系,为每个token保持标签。TL-Align方法通过重用每层计算出的注意力来高效
这项工作集中在训练单一的视觉关系检测器(VRD),该检测器可以预测来自多个数据集的标签空间的并集。由于不同数据集的标签体系不一致,合并标签是一个挑战。作者提出了 UniVRD,一种新颖的自下而上的方法,利用视觉和语言模型(VLMs)来统一视觉关系检测。VLMs 提供了对齐良好的图像和文本嵌入,其中相似的关系被优化以在语义上统一。UniVRD 在 HICO-DET 上达到了 38.07 mAP,比当
本文提出了一种基于token提前退出的动态token剪枝(Dynamic Token Pruning, DToP)方法,用于语义分割。该方法受到人类从粗糙到精细的分割过程的启发,将广泛采用的辅助损失网络架构自然地分成几个阶段,每个辅助块为每个token的难度等级进行分级。我们可以提前完成简单token的预测,而无需完成整个前向传播。此外,我们为每个语义类别保留k个最高置信度的token,以维持代表
这篇论文介绍了一种新型的变换器模型,名为SeTformer,它针对视觉和语言任务进行了优化。SeTformer的核心创新是将传统的点积自注意力(DPSA)替换为一种基于自我最优传输(Self-optimal Transport,简称SeT)的机制。这种替换旨在解决传统变换器在处理长序列时面临的计算效率低下的问题,同时保持或提升性能。SeT基于两个关键的softmax属性:维持非负的注意力矩阵和使用
这篇论文探讨了将Retentive Network(RetNet)的概念引入到计算机视觉领域,并与Vision Transformer结合,提出了一种新的模型RMT(Retentive Networks Meet Vision Transformers)。RetNet最初在自然语言处理(NLP)领域展现出色性能,作者们提出疑问,是否将RetNet的思想迁移到视觉领域也能带来卓越的性能。RMT通过引
自动医学图像分割技术有潜力加速病理诊断,提高病人护理的效率。然而,医学图像通常具有复杂的纹理和结构,模型在处理这些图像时常面临由于下采样导致的图像分辨率降低和信息丢失的问题。为了解决这一问题,作者提出了HC-Mamba,这是一种基于现代状态空间模型Mamba的新型医学图像分割模型。具体来说,HC-Mamba模型引入了扩张卷积技术,以不增加计算成本的方式捕获更广泛的上下文信息。此外,HC-Mamba
这篇论文提出了一种新型的视觉Transformer,名为BiFormer,它采用了双层路由注意力(Bi-Level Routing Attention, BRA)机制。注意力机制是视觉变换器的核心构建模块,能够捕获数据中的长期依赖性。然而,这种能力的代价是计算量大和内存占用高。为了解决这个问题,作者提出了一种动态稀疏注意力机制,通过双层路由来实现计算的灵活分配,并具有内容意识。
我们提出了一种具有高分辨率输入(即HIRI-ViT)的新型混合主干网,将流行的四级ViT升级为针对高分辨率输入量身定制的五级ViT。HIRI-ViT是建立在将典型的CNN操作以经济高效的方式分解为两个并行CNN分支的开创性思想之上的。一个高分辨率分支直接将主要高分辨率特征作为输入,但使用较少的卷积操作。另一个低分辨率分支首先执行下采样,然后在这些低分辨率特征上使用更多的卷积操作。
RemoteCLIP是首个针对遥感领域的视觉-语言基础模型,旨在学习具有丰富语义的视觉特征和与文本嵌入对齐的鲁棒特征,以实现无缝的下游应用。该模型通过数据扩展解决了预训练数据稀缺的问题,将异构注释转换为统一的图像-标题数据格式。RemoteCLIP在多种下游任务上进行了评估,包括零样本图像分类、线性探测、k-NN分类、少样本分类、图像-文本检索和遥感图像中的对象计数。在16个数据集上的评估显示,R