
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Transformer 在一些自然语言处理(NLP)任务和图像处理任务中都取得了显著的成就。在此,我们提出了一个深度学习(DL)模型,它能够通过两种方式改进语义分割网络。首先,该模型利用视觉变压器(ViT)下的预训练好的Swin Transformer(SwinTF)作为骨干,该模型通过在预先训练好的编码器上连接任务层来赋予下游任务的权重。其次,将解码器设计应用于我们的DL网络,采用U-Net、金

扩散模型已成为视觉领域基础模型的重要支柱之一。其关键应用之一是通过单一的扩散先验,不用为每个任务重新训练,就能普遍解决不同的下游逆任务。大多数逆任务可以表述为给定测量(例如,掩码图像)推断数据(例如,完整图像)的后验分布。然而,由于扩散过程的非线性和迭代性质,这在扩散模型中是具有挑战性的,因为后验分布是不可处理的。为应对这一挑战,我们提出了一种变分方法,旨在设计上逼近真实的后验分布。

我们提出了一种新的基于频率的自监督学习(SSL)方法,显著提高了预训练的效果。以往在这一方向上的工作会屏蔽输入图像中的预定义频率,并采用重建损失来进行模型预训练。虽然取得了一些有希望的结果,但这种实现方式在我们的论文中指出了两个基本局限。首先,使用预定义频率忽略了图像频率响应的可变性。其次,通过频率过滤后的图像进行预训练后,所得模型在微调时需要相对更多的数据来适应自然图像。为了克服这些缺点,我们提

在图像生成扩散模型中,主要关注的轴心是图像质量、结果的变化量以及结果与给定条件(例如类别标签或文本提示)的对齐程度。流行的无分类器指导方法使用无条件模型来指导条件模型,从而在提高提示对齐和图像质量的同时,减少了变化量。这些效果似乎本质上是纠缠在一起的,因此难以控制。

近年来,参考图像分割(Referring Image Segmentation)引起了人们的广泛关注。以往的方法都是在网络解码端实现语言和视觉的多模态融合。语言特征分别与各尺度的视觉特征相互作用,忽视了语言对多尺度视觉特征的连续引导。本文提出了一种编码器融合网络(EFN),该网络将视觉编码器转化为多模态特征学习网络,并利用语言逐步细化多模态特征。此外,EFN中还嵌入了一种协同注意机制,实现了多模态

遥感图像分割