logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TPT(论文解读):Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

预训练的视觉语言模型在许多具有恰当文本提示的下游任务中表现出不错的zero-shot泛化。最近的研究并非使用手动设计的提示,而是使用下游任务中的训练数据来学习提示。虽然这种方法是有效的,但是对于特定领域的数据进行训练,当面对不可见的新领域时,模型的泛化能力会下降。本文提出了TPT(Test-time prompt tuning),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,

文章图片
#语言模型#人工智能#深度学习
注意力机制(论文阅读):Attention Is All You Need

主要序列转录模型通常采用复杂的循环或卷积神经网络,包含编码器和解码器,并通过注意机制连接两者。我们提出了一个全新、简化的网络架构,名为transformer,它完全基于注意力机制,摒弃了传统的递归和卷积方法。实验表明,在两个机器翻译任务中,transformer模型在性能上更出色,具有更好的并行性和更短的训练时间。

文章图片
#论文阅读#人工智能#深度学习
TPT(论文解读):Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

预训练的视觉语言模型在许多具有恰当文本提示的下游任务中表现出不错的zero-shot泛化。最近的研究并非使用手动设计的提示,而是使用下游任务中的训练数据来学习提示。虽然这种方法是有效的,但是对于特定领域的数据进行训练,当面对不可见的新领域时,模型的泛化能力会下降。本文提出了TPT(Test-time prompt tuning),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,

文章图片
#语言模型#人工智能#深度学习
注意力机制(论文阅读):Attention Is All You Need

主要序列转录模型通常采用复杂的循环或卷积神经网络,包含编码器和解码器,并通过注意机制连接两者。我们提出了一个全新、简化的网络架构,名为transformer,它完全基于注意力机制,摒弃了传统的递归和卷积方法。实验表明,在两个机器翻译任务中,transformer模型在性能上更出色,具有更好的并行性和更短的训练时间。

文章图片
#论文阅读#人工智能#深度学习
到底了