logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MobileNetsV1、MobileNetsV2、MobileNetsV3

这种更有效的最后一个阶段能够在网络末尾删除三个昂贵的层,而不会损失准确性。

文章图片
#深度学习#人工智能
《Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale

深度神经网络的通用性在医学图像分割中起着至关重要的作用。然而,基于深度学习的医学图像分析往往忽略了频率方差的重要性,这是实现模态不可知性和域泛化模型的关键因素。此外,各种模型没有考虑到深度监督下多任务学习可能产生的潜在信息丢失,这是一个会损害模型表示能力的因素。为了应对这些挑战,我们提出了一种用于医学图像分割的模态不可知域可泛化网络 (MADGNet),它由两个关键组件组成:多尺度注意力 (MFM

文章图片
#人工智能#transformer#计算机视觉 +2
《Token-Label Alignment for Vision Transformers》ICCV2023

输入token在前向传播过程中的贡献会出现波动,可能导致输出token的混合比例与预期不同,从而使得原始数据混合策略计算出的训练目标不准确,影响训练效果。为了解决这个问题,论文提出了一种名为Token-Label Alignment (TL-Align) 的方法,通过追踪变换后的token与原始token之间的对应关系,为每个token保持标签。TL-Align方法通过重用每层计算出的注意力来高效

文章图片
#人工智能#深度学习#目标检测
《Unified Visual Relationship Detection with Vision and Language Models》ICCV2023

这项工作集中在训练单一的视觉关系检测器(VRD),该检测器可以预测来自多个数据集的标签空间的并集。由于不同数据集的标签体系不一致,合并标签是一个挑战。作者提出了 UniVRD,一种新颖的自下而上的方法,利用视觉和语言模型(VLMs)来统一视觉关系检测。VLMs 提供了对齐良好的图像和文本嵌入,其中相似的关系被优化以在语义上统一。UniVRD 在 HICO-DET 上达到了 38.07 mAP,比当

文章图片
#语言模型#人工智能#自然语言处理 +2
《Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation》ICCV2023

本文提出了一种基于token提前退出的动态token剪枝(Dynamic Token Pruning, DToP)方法,用于语义分割。该方法受到人类从粗糙到精细的分割过程的启发,将广泛采用的辅助损失网络架构自然地分成几个阶段,每个辅助块为每个token的难度等级进行分级。我们可以提前完成简单token的预测,而无需完成整个前向传播。此外,我们为每个语义类别保留k个最高置信度的token,以维持代表

文章图片
#剪枝#算法#机器学习 +3
《SeTformer Is What You Need for Vision and Language》

这篇论文介绍了一种新型的变换器模型,名为SeTformer,它针对视觉和语言任务进行了优化。SeTformer的核心创新是将传统的点积自注意力(DPSA)替换为一种基于自我最优传输(Self-optimal Transport,简称SeT)的机制。这种替换旨在解决传统变换器在处理长序列时面临的计算效率低下的问题,同时保持或提升性能。SeT基于两个关键的softmax属性:维持非负的注意力矩阵和使用

文章图片
#人工智能#神经网络#深度学习 +3
《RMT: Retentive Networks Meet Vision Transformers》CVPR2024

这篇论文探讨了将Retentive Network(RetNet)的概念引入到计算机视觉领域,并与Vision Transformer结合,提出了一种新的模型RMT(Retentive Networks Meet Vision Transformers)。RetNet最初在自然语言处理(NLP)领域展现出色性能,作者们提出疑问,是否将RetNet的思想迁移到视觉领域也能带来卓越的性能。RMT通过引

文章图片
#人工智能#计算机视觉#深度学习
《HC-Mamba: Vision MAMBA with Hybrid Convolutional Techniques for Medical Image Segmentation》

自动医学图像分割技术有潜力加速病理诊断,提高病人护理的效率。然而,医学图像通常具有复杂的纹理和结构,模型在处理这些图像时常面临由于下采样导致的图像分辨率降低和信息丢失的问题。为了解决这一问题,作者提出了HC-Mamba,这是一种基于现代状态空间模型Mamba的新型医学图像分割模型。具体来说,HC-Mamba模型引入了扩张卷积技术,以不增加计算成本的方式捕获更广泛的上下文信息。此外,HC-Mamba

文章图片
#人工智能#深度学习#神经网络 +1
《BiFormer: Vision Transformer with Bi-Level Routing Attention》CVPR2023

这篇论文提出了一种新型的视觉Transformer,名为BiFormer,它采用了双层路由注意力(Bi-Level Routing Attention, BRA)机制。注意力机制是视觉变换器的核心构建模块,能够捕获数据中的长期依赖性。然而,这种能力的代价是计算量大和内存占用高。为了解决这个问题,作者提出了一种动态稀疏注意力机制,通过双层路由来实现计算的灵活分配,并具有内容意识。

文章图片
#transformer#深度学习#人工智能 +2
《HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs》解读

我们提出了一种具有高分辨率输入(即HIRI-ViT)的新型混合主干网,将流行的四级ViT升级为针对高分辨率输入量身定制的五级ViT。HIRI-ViT是建立在将典型的CNN操作以经济高效的方式分解为两个并行CNN分支的开创性思想之上的。一个高分辨率分支直接将主要高分辨率特征作为输入,但使用较少的卷积操作。另一个低分辨率分支首先执行下采样,然后在这些低分辨率特征上使用更多的卷积操作。

文章图片
#transformer#深度学习#人工智能 +1
    共 12 条
  • 1
  • 2
  • 请选择