logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

通俗易懂学习“知识蒸馏”(Knowledge Distillation, KD)

知识蒸馏 = 让小模型学大模型的“解题思路”(软标签),而不是只背“答案”(硬标签),最终实现“又小又准又快”。是不是像极了好老师教学生:不逼你死记硬背,而是教你思考逻辑——学生既学得轻松,又能举一反三。找老师(性能好的大模型)和学生(轻巧的小模型);老师写“详细解题思路”(软标签,用温度T调整);学生既学思路(蒸馏损失),又对答案(分类损失);学生反复练习(训练优化),直到损失变小;考试检验(评

#人工智能#机器学习
到底了