logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型轻量化技术调研

量化蒸馏该部分在深度方面进行复合压缩,提炼出一个较浅的student-model,使其精度和较深的teacher-model相似利用蒸馏损失来训练一个量化的学生网络。它的目标是利用蒸馏损失在训练过程中,通过将蒸馏损失(相对于教师网络)结合到一个较小的学生网络的训练中,来压缩学生网络的权重。这种方法使用投影梯度下降,在全精度训练中进行梯度下降步骤,然后将新参数投影到有效解集合中。在每次投影步骤中,累

文章图片
#人工智能
大模型轻量化技术调研

量化蒸馏该部分在深度方面进行复合压缩,提炼出一个较浅的student-model,使其精度和较深的teacher-model相似利用蒸馏损失来训练一个量化的学生网络。它的目标是利用蒸馏损失在训练过程中,通过将蒸馏损失(相对于教师网络)结合到一个较小的学生网络的训练中,来压缩学生网络的权重。这种方法使用投影梯度下降,在全精度训练中进行梯度下降步骤,然后将新参数投影到有效解集合中。在每次投影步骤中,累

文章图片
#人工智能
到底了