logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

为什么在模型训练的过程中有时候引入教师模型用于蒸馏?

知识蒸馏是一种通过大模型(教师模型)指导小模型(学生模型)训练的模型压缩技术。教师模型提供预测概率(soft label),学生模型结合真实标签和教师输出进行训练,利用KL散度损失和交叉熵损失优化性能。相比直接训练,蒸馏能传递更丰富的知识结构(如类间关系),使小模型获得接近大模型的效果,同时保持轻量化优势,适用于边缘设备部署等场景。核心流程是教师模型传授知识,学生模型吸收知识,最终实现高性能轻量化

#人工智能
GAN生成对抗网络小记

生成对抗网络(Generative Adversarial Network, GAN)是一个。GAN 训练是一个交替优化的过程,通常采用**梯度下降(SGD, Adam)**来更新。GAN 目前广泛用于图像生成、风格转换、语音合成等领域,是最重要的生成模型之一。生成的数据与真实数据无法区分。

文章图片
#生成对抗网络#人工智能#神经网络
00初窥网络模型量化-梦开始的地方

摘要: 本文介绍了网络模型量化技术,旨在通过降低数值精度(如FP32→INT8)优化深度学习模型在边缘设备的部署。量化可减少存储、加速推理并降低功耗,适用于移动、嵌入式及边缘计算场景。核心方法包括后量化(PTQ)和量化感知训练(QAT),前者直接量化预训练模型,后者通过模拟量化误差提升精度。文章还探讨了量化原理、技术细节(如对称/非对称量化)及实现步骤,并提供了PyTorch代码示例。量化是模型工

文章图片
#人工智能#神经网络
euler角与旋转变换矩阵

选定一个旋转轴序列,比如Z→Y→XZ→Y→X,或者Z→X→ZZ→X→Z等;按照这个固定顺序,依次绕这些轴旋转三个角度;合成后的总旋转就是一个旋转矩阵RRR;这三个角度就是欧拉角。Proper Euler 角:三个旋转中,头尾绕的是“同一个轴”(比如Z!−!X!−!ZZ!X!ZZ!−!X!−!ZTait–Bryan 角:三个轴互不相同(比如Z!−!Y!−!XZ!Y!XZ!−!Y!−!X。

#矩阵#线性代数
关于多卡训练和单卡推理

模型训练时使用多GPU(多卡)可以加速计算,因为训练需要处理海量数据,通过数据并行或模型并行可以显著提高效率。而推理时一般不推荐多卡,因为推理计算量小、批量处理少,多卡通信开销反而会增加延迟。此外,单GPU经过优化(如量化、剪枝)已能满足实时性需求,多卡会带来资源浪费和成本上升。只有在超大模型或高吞吐量场景下,推理才可能需要多卡支持。

#人工智能
    共 30 条
  • 1
  • 2
  • 3
  • 请选择