
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
注意力在人类视觉体验中起着关键作用。近期研究表明,注意力机制在人工神经网络应用于计算机视觉和自然语言处理(NLP)等领域的多种任务时同样至关重要。本工作中,我们证明:通过合理定义卷积神经网络(CNN)的注意力,可以强制学生CNN模仿强大教师网络的注意力图(attention maps),从而显著提升其性能。为此,我们提出了几种新颖的注意力迁移方法,在多种数据集和CNN架构上均实现了稳定改进。
由于大规模模型的端到端训练,视觉与语言预训练的成本已变得日益昂贵。本文提出了 BLIP-2,这是一种通用且高效的预训练策略,它从现成的冻结预训练图像编码器和冻结的大语言模型中引导出视觉-语言预训练。BLIP-2 通过一个轻量级的查询 Transformer(Querying Transformer)来桥接模态鸿沟,该 Transformer 分两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视
基于 Transformer 的大语言模型(LLMs)正呈现出明显的规模扩张趋势,这导致了训练和推理阶段的成本大幅上升。然而,现有的方法如模型量化、知识蒸馏和模型剪枝各自存在限制,包括硬件支持受限、对大量训练的依赖以及对模型内部结构的修改等问题。本文提出了一种简洁的逐层结构化剪枝方法,称为层折叠(Layer Collapse, LaCo)。该方法通过将模型的后续层“折叠”进前面的某一层,实现了在保
大型语言模型(Large Language Models, LLMs)已成为自然语言处理的基石,但其使用伴随着在计算和内存资源方面的高昂代价。稀疏化(sparsification)提供了一种缓解这些资源限制的解决方案,近期的研究表明,训练好的模型可以在训练后进行稀疏化。然而,现有的稀疏化技术面临一些挑战:它们通常需要额外的数据结构,并且在现有硬件上只能带来有限的加速效果。在本文中,我们提出了一种新
鉴于大型预训练语言模型在情境学习方面取得的成功,我们提出情境学习蒸馏方法,将大模型的少样本情境学习能力迁移至小模型。该方法通过结合情境学习目标与语言建模目标,使小模型既能理解上下文示例又能掌握任务知识。我们在两种少样本学习范式下实施蒸馏:元情境微调(Meta-ICT)和多任务情境微调(Multitask-ICT)。实验表明,Multitask-ICT在多任务少样本学习中表现更优,但计算开销大于Me
尽管增加网络深度通常能提升性能,但更深层的网络往往非线性更强,这使得基于梯度的训练变得更加困难。近期提出的知识蒸馏(knowledge distillation)方法旨在获得更小、执行更快的模型,其研究表明,学生网络可以模仿大型教师网络或集成网络的软输出(soft output)。本文中,我们扩展了这一思想:不仅使用教师网络的输出,还利用其学习到的中间表征(intermediate represe








