简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
多任务学习(Multi-Task Learning,MTL)同时训练多个相关的任务,从而能够提高单个任务的性能。通常,一个多任务网络架构包含共享backbone和任务特定的解码器。然而,解码器的复杂度随着任务数量的增加而增加。为了应对以上挑战,本文集成了无解码器的视觉语言模型CLIP,该模型具有鲁棒性的零样本泛化能力。最近,参数高效的迁移学习的方法已经在CLIP上进行了广泛的探索,以适应下游任务,
在无监督域适应中,为了减轻域偏移的影响,许多方法通过对抗学习或者显示对齐统计数据来在特征空间中对齐源域和目标域。无论如何,这种域对齐的优化目标与目标分类任务的优化目标不协调,因此他们的优化下降方向可能不一致。这就会降低域对齐在提高无监督域适应性能方面的性能。在本文中研究和缓解域对齐和分类任务之间的优化不一致的问题。本文提出了一种基于元优化的策略,称为MetaAlign,分别将领域对齐目标和分类目标
深层神经网络往往更难训练,我们提出了一种残差学习框架,使得网络深度可以大幅度增加,同时降低了训练难度。我们明确地将每一层改造成相对于输入进行学习的残差函数,而不是学习无参考函数。大量的实证证据表明,这种残差网络更容易优化,并且可以通过显著增加网络深度来提高准确率。我们在ImageNet数据集上评估了最大深度达到152层的残差网络——比VGG网络深8倍,但复杂度更低。这些残差网络的集成在ImageN
测试自适应 (TTA) 是无监督域自适应(UDA)中一种特殊且实用的设置,它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程,因此利用预训练视觉语言模型(例CLIP、CoOp)zero-shot的泛化潜力,仅对未见测试域的运行时提示进行调整。然而,现有的解决方案尚未充分利用预训练模型的表征能力,因为它们只关注基于熵的优化,其性能远低于监督提示适应方法
首段讲述本文工作对GPT和ELMo做出怎样的改进,第二段是BERT结果怎样好,讲述BERT在NLP(自然语言处理方面)取得了先进的成果,包括绝对精度和相对精度。BERT、GPT和ELMo的区别:GPT使用新的Transformer架构,使用左侧信息来预测未来信息。单项模型的缺点主要是不能获得好的词表示。ELMo通过使用从左到右(LTR)、从右到左(RTL)两个模型的输出拼接获得词的表示,双向信息融
详细解读mPLUG,一招就搞定,分模块仔细解读
提示微调是最近一种新兴的范式,通过学习“软提示”来调节冻结的预训练模型,使强大的视觉-语言预训练模型以参数和数据高效的方式适应下游任务。尽管提示微调表现出有效性,但是在few-shot场景中提示微调的性能对初始化非常敏感,需要很耗时的过程才能收敛到一个好的解,从而限制了预训练模型快速适应的能力。此时,提示微调可能会破坏预训练模型的泛化能力,因为可学习的提示标记很容易对有限的训练样本产生过拟合。
随着预训练的视觉语言模型(如 CLIP)的兴起,研究使这些模型适应下游数据集的方法变得至关重要。最近CoOp方法将NLP领域中的提示学习引入到视觉领域中,来调整预训练的视觉语言模型。具体来说,CoOp 将提示中的上下文转换为一组可学习的向量,并且只需少量带有标签的图像进行学习,就实现比手动修改提示更大的提升。本文发现 CoOp 的一个关键问题:学习的上下文提示无法扩展到同一数据集中更广泛的未见的类
本文主要介绍了掩码自编码器( MAE, Masked autoencoders)是视觉领域中可扩展的自监督学习算法。MAE具体操作为随机屏蔽输入image中的patchs,再重建丢失的像素。其基于两个核心操作。第一个是建立不对称的编码器-解码器架构,编码器只对没有屏蔽掉的patchs操作,轻量化的解码器通过潜在表示和屏蔽令牌重建原始图像。第二是发现了一种屏蔽图像patchs的高比例,比如75%。结