logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文解读Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation

大多数现有的无监督域适应( UDA )方法依赖于共享网络来提取领域不变特征。无论如何,当面对多个源域时,优化这样的网络涉及更新整个网络的参数,这样既昂贵又有挑战性,特别是与最小最大策略耦合时。受到提示学习的最新进展的启发,即以计算经济的方式为下游任务适配高容量模型,本文引入了多提示对齐( Multi-Prompt Alignment,MPA ),一种简单而有效的多源UDA框架。给定一个源域和目标域

文章图片
#论文阅读#人工智能#计算机视觉 +2
MaPLe(论文解读): Multi-modal Prompt Learning

预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。受到NLP领域的启发,最近的CLIP的自适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支(语言或图像分支)中使用提示来调整表示的效果是次优的,因为它不具备在下游任务中动态调整两个表示

文章图片
#论文阅读#人工智能#深度学习
MoCo(论文阅读):Momentum Contrast for Unsupervised Visual Representation Learning

另一方面,字典中的key要保持一致,也就是说key需要使用相同或相似的编码器产生得到,由于字典的键来自于前面的几个小批量,而之前的key都是用不同时刻的编码去抽取的特征,导致不能一致,所以提出了动量编码器,一种缓慢推进的键编码器,作为查询编码器的基于动量的移动平均来实现,保证字典中的K使用相似编码器来生成的,最大可能保持一致性。如果要学好一个特征,字典必须有两个特点,一个是字典得足够大(一个大的字

文章图片
#论文阅读#人工智能#深度学习 +1
Prompt SRC(论文解读)Self-regulating Prompts: Foundational Model Adaptation without Forgetting

提示学习已经成为微调基础模型(CLIP)适应下游任务的有效替代方法。传统的方法使用任务特定的目标,即交叉熵损失进行训练,提示往往会过拟合到下游数据分布上,并且很难从冻结的CLIP中捕捉到任务无关的通用特征。这就导致了模型原本泛化能力的损失。为了解决这个问题,本文引入了一个自正则化的提示框架,称为Prompt SRC(带有自我调节约束的提示)。

文章图片
#论文阅读#深度学习#语言模型
(论文解读)Domain Adaptation via Prompt Learning

无监督域适应( UDA )旨在将从带有标签的源域数据中学习到的模型适应到未标注的目标域数据集。现有的UDA方法通过对齐源域和目标域特征空间来学习领域不变特征。这种对齐是通过约束实现的,例如统计差异最小化或对抗学习。然而,这些约束会导致语义特征结构的扭曲和类别判别性的丧失。本文提出一种新的UDA提示学习范式,命名为基于提示学习的领域自适应( Domain Adaptation via Prompt

文章图片
#人工智能#深度学习#生成对抗网络 +2
TPT(论文解读):Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

预训练的视觉语言模型在许多具有恰当文本提示的下游任务中表现出不错的zero-shot泛化。最近的研究并非使用手动设计的提示,而是使用下游任务中的训练数据来学习提示。虽然这种方法是有效的,但是对于特定领域的数据进行训练,当面对不可见的新领域时,模型的泛化能力会下降。本文提出了TPT(Test-time prompt tuning),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,

文章图片
#语言模型#人工智能#深度学习
MaPLe论文解读: Multi-modal Prompt Learning

预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。受到NLP领域的启发,最近的CLIP的适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支中使用提示来调整表示的效果是次优的,因为它不具备在下游任务中动态调整两个表示空间的灵活性。

文章图片
#人工智能#深度学习#计算机视觉
注意力机制(论文阅读):Attention Is All You Need

主要序列转录模型通常采用复杂的循环或卷积神经网络,包含编码器和解码器,并通过注意机制连接两者。我们提出了一个全新、简化的网络架构,名为transformer,它完全基于注意力机制,摒弃了传统的递归和卷积方法。实验表明,在两个机器翻译任务中,transformer模型在性能上更出色,具有更好的并行性和更短的训练时间。

文章图片
#论文阅读#人工智能#深度学习
CoOp(论文解读):Learning to Prompt for Vision-Language Models

像CLIP这样大规模预训练的视觉语言模型在学习表征方面表现出巨大的潜力,并且这些表征可以迁移到广泛的下游任务中。与那些传统的基于离散标签的的表征学习不同,视觉语言预训练模型将图像和文本特征在一个共同的特征空间中对齐,这就允许了可以通过提示的方式将zero-shot迁移到下游任务中,即分类权重从类别的描述性语言中合成。在这项工作中,本文发现部署这类模型最主要的挑战就是Prompt Engineeri

文章图片
#语言模型#人工智能#计算机视觉 +2
BERT(论文阅读):Pre-training of deep Bidirectional Transformers For Language Understanding

首段讲述本文工作对GPT和ELMo做出怎样的改进,第二段是BERT结果怎样好,讲述BERT在NLP(自然语言处理方面)取得了先进的成果,包括绝对精度和相对精度。BERT、GPT和ELMo的区别:GPT使用新的Transformer架构,使用左侧信息来预测未来信息。单项模型的缺点主要是不能获得好的词表示。ELMo通过使用从左到右(LTR)、从右到左(RTL)两个模型的输出拼接获得词的表示,双向信息融

文章图片
#bert#论文阅读#人工智能
    共 14 条
  • 1
  • 2
  • 请选择