logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型蒸馏,以及softmax-T

模型蒸馏通过教师模型向学生模型传递知识,核心在于两种损失函数的协同作用。学生损失(Lhard)确保学生模型学习真实标签,保持基础准确性;蒸馏损失(Lsoft)则让学生模仿教师模型的概率分布,学习类别间隐含关系。关键创新是引入温度参数T的Softmax-T函数:高温软化概率分布,使教师模型能传递"猫与老虎相似"等暗知识,而标准Softmax会丢失这类信息。训练时两者加权结合(如0

#人工智能#深度学习#机器学习
Bert两个核心训练策略MLM和NSP详细说明

BERT通过两个核心预训练任务学习语言知识:1)掩码语言模型(MLM),通过随机掩盖15%的词元(80%替换为[MASK],10%随机替换,10%保留原词),迫使模型利用双向上下文预测被掩盖的词,解决传统单向模型的局限性;2)下一句预测(NSP),通过判断两个句子是否连续(50%正例,50%负例),让模型理解句子间逻辑关系。MLM聚焦词语级别语义,NSP关注句子级别关联,二者协同使BERT成为强大

#人工智能#自然语言处理#深度学习
集成学习详解

集成学习的本质是通过构建并结合多个学习器来完成学习任务。它利用模型之间的差异性和互补性,在工业界和 Kaggle 竞赛中被广泛应用,通常是取得最优性能的关键技术。

#集成学习#机器学习#人工智能
到底了