Life1213 个人主页

@Life1213

Life1213

2024-03-18 15:22:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

学生-教师模型与知识蒸馏

指一个较小且较简单的模型（学生）被训练来模仿一个较大且较复杂的模型（教师）的行为或预测。教师网络通常是一个在大型数据集上并在特定任务上表现良好的模型。而学生网络被设计成的模型。其目标是在减少计算资源需求和提高推理速度的同时，尽可能地接近教师网络的性能。主要思想是利用教师网络的知识和经验来指导学生网络的学习过程。训练Student and Teacher network的过程被称为"它涉及使用教师网

#深度学习

Transformer学习（3）：多头自注意力机制Multi-Head Self-Attention

回顾自注意力机制多头自注意力机制多头自注意力机制可以理解为由多个自注意力模块，也就是自注意力头（head）组成。每个head都有自己的QKV矩阵来进行自注意力计算。计算过程① 得到各个head所需的QKV：计算过程中会将原本的qi,ki,viq_i,k_i,v_iqi,ki,vi分为多份，分配到对应的head中，一般会均分QKV的向量，这样每个head有了所需的QKV数据，以此每个head都

#transformer #学习 #深度学习

Python数据容器

可以容纳多份数据的数据类型，每份数据称为元素。元素可以为任意数据类型，不同元素可以为不同类型。列表使用可以修改的，允许重复元素的出现列表类似数组，可以有多维。使用中括号来定义，元素之间用逗号隔开。变量 = [元素1,,元素2,...]变量 =list() # 空列表可以嵌套列表，类似多维数组。使用小括号来定义，元素可以为任意数据类型。注意：若元组只有一个数据，则要在后面加上逗号，否则不是元组类型(