KonaKent 个人主页

@KonaKent

KonaKent

2026-03-18 12:00:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

模型蒸馏,以及softmax-T

模型蒸馏通过教师模型向学生模型传递知识，核心在于两种损失函数的协同作用。学生损失（Lhard）确保学生模型学习真实标签，保持基础准确性；蒸馏损失（Lsoft）则让学生模仿教师模型的概率分布，学习类别间隐含关系。关键创新是引入温度参数T的Softmax-T函数：高温软化概率分布，使教师模型能传递"猫与老虎相似"等暗知识，而标准Softmax会丢失这类信息。训练时两者加权结合（如0

#人工智能 #深度学习 #机器学习

Bert两个核心训练策略MLM和NSP详细说明

BERT通过两个核心预训练任务学习语言知识：1）掩码语言模型（MLM），通过随机掩盖15%的词元（80%替换为[MASK]，10%随机替换，10%保留原词），迫使模型利用双向上下文预测被掩盖的词，解决传统单向模型的局限性；2）下一句预测（NSP），通过判断两个句子是否连续（50%正例，50%负例），让模型理解句子间逻辑关系。MLM聚焦词语级别语义，NSP关注句子级别关联，二者协同使BERT成为强大

#人工智能 #自然语言处理 #深度学习

集成学习详解

集成学习的本质是通过构建并结合多个学习器来完成学习任务。它利用模型之间的差异性和互补性，在工业界和 Kaggle 竞赛中被广泛应用，通常是取得最优性能的关键技术。

#集成学习 #机器学习 #人工智能

到底了