
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
模型蒸馏,以及softmax-T
模型蒸馏通过教师模型向学生模型传递知识,核心在于两种损失函数的协同作用。学生损失(Lhard)确保学生模型学习真实标签,保持基础准确性;蒸馏损失(Lsoft)则让学生模仿教师模型的概率分布,学习类别间隐含关系。关键创新是引入温度参数T的Softmax-T函数:高温软化概率分布,使教师模型能传递"猫与老虎相似"等暗知识,而标准Softmax会丢失这类信息。训练时两者加权结合(如0
Bert两个核心训练策略MLM和NSP详细说明
BERT通过两个核心预训练任务学习语言知识:1)掩码语言模型(MLM),通过随机掩盖15%的词元(80%替换为[MASK],10%随机替换,10%保留原词),迫使模型利用双向上下文预测被掩盖的词,解决传统单向模型的局限性;2)下一句预测(NSP),通过判断两个句子是否连续(50%正例,50%负例),让模型理解句子间逻辑关系。MLM聚焦词语级别语义,NSP关注句子级别关联,二者协同使BERT成为强大
到底了







