logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文笔记:UA-MT

有标签数据和无标签数据都会输入到student和teacher model中,教师模型和学生模型的架构完全一致(神经网络层数之类的),学生模型利用lable data和预测值计算交叉熵L1,教师模型的预测值和学生模型的预测值计算一致性损失L2,最后L1+L2梯度下降更新学生模型的参数θ,教师模型的参数通过EMA的方式来更新。因此,认知不确定性测量的是训练过程本身所估计的模型参数的不确定性,这种不确

#论文阅读
到底了