
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
指一个较小且较简单的模型(学生)被训练来模仿一个较大且较复杂的模型(教师)的行为或预测。教师网络通常是一个在大型数据集上并在特定任务上表现良好的模型。而学生网络被设计成的模型。其目标是在减少计算资源需求和提高推理速度的同时,尽可能地接近教师网络的性能。主要思想是利用教师网络的知识和经验来指导学生网络的学习过程。训练Student and Teacher network的过程被称为"它涉及使用教师网
回顾自注意力机制多头自注意力机制多头自注意力机制可以理解为由多个自注意力模块,也就是自注意力头(head)组成。每个head都有自己的QKV矩阵来进行自注意力计算。计算过程① 得到各个head所需的QKV:计算过程中会将原本的qi,ki,viq_i,k_i,v_iqi,ki,vi分为多份,分配到对应的head中,一般会均分QKV的向量,这样每个head有了所需的QKV数据,以此每个head都

可以容纳多份数据的数据类型,每份数据称为元素。元素可以为任意数据类型,不同元素可以为不同类型。列表使用可以修改的,允许重复元素的出现列表类似数组,可以有多维。使用中括号来定义,元素之间用逗号隔开。变量 = [元素1,,元素2,...]变量 =list() # 空列表可以嵌套列表,类似多维数组。使用小括号来定义,元素可以为任意数据类型。注意:若元组只有一个数据,则要在后面加上逗号,否则不是元组类型(

在一张图像中,包含了各种信息,而我们会自动关注重要的信息。下图是注意力热力图,可以发现人们会注意兔子的脸这些重要信息。而在深度学习中,输入数据包含了重要的数据与不重要的数据,但对于一个模型来说,它不知道哪些数据是重要的。因此提出了注意力机制,如何在深度学习模型上使用注意力,让模型关注于重要的数据。

自注意力机制是规定了数据自身来作为查询对象与被查询对象。










