
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
通俗易懂学习“知识蒸馏”(Knowledge Distillation, KD)
知识蒸馏 = 让小模型学大模型的“解题思路”(软标签),而不是只背“答案”(硬标签),最终实现“又小又准又快”。是不是像极了好老师教学生:不逼你死记硬背,而是教你思考逻辑——学生既学得轻松,又能举一反三。找老师(性能好的大模型)和学生(轻巧的小模型);老师写“详细解题思路”(软标签,用温度T调整);学生既学思路(蒸馏损失),又对答案(分类损失);学生反复练习(训练优化),直到损失变小;考试检验(评
到底了