文弱_书生个人主页

@qq_45670407

文弱_书生

2023-01-26 12:35:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

为什么在模型训练的过程中有时候引入教师模型用于蒸馏？

知识蒸馏是一种通过大模型（教师模型）指导小模型（学生模型）训练的模型压缩技术。教师模型提供预测概率（soft label），学生模型结合真实标签和教师输出进行训练，利用KL散度损失和交叉熵损失优化性能。相比直接训练，蒸馏能传递更丰富的知识结构（如类间关系），使小模型获得接近大模型的效果，同时保持轻量化优势，适用于边缘设备部署等场景。核心流程是教师模型传授知识，学生模型吸收知识，最终实现高性能轻量化

数字图像处理专栏

生成对抗网络（Generative Adversarial Network, GAN）是一个。GAN 训练是一个交替优化的过程，通常采用**梯度下降（SGD, Adam）**来更新。GAN 目前广泛用于图像生成、风格转换、语音合成等领域，是最重要的生成模型之一。生成的数据与真实数据无法区分。

数字图像处理专栏

我们常说的Token到底是啥

什么是大模型中的Prompt

摘要：本文介绍了网络模型量化技术，旨在通过降低数值精度（如FP32→INT8）优化深度学习模型在边缘设备的部署。量化可减少存储、加速推理并降低功耗，适用于移动、嵌入式及边缘计算场景。核心方法包括后量化（PTQ）和量化感知训练（QAT），前者直接量化预训练模型，后者通过模拟量化误差提升精度。文章还探讨了量化原理、技术细节（如对称/非对称量化）及实现步骤，并提供了PyTorch代码示例。量化是模型工

#人工智能 #神经网络

euler角与旋转变换矩阵

选定一个旋转轴序列，比如Z→Y→XZ→Y→X，或者Z→X→ZZ→X→Z等；按照这个固定顺序，依次绕这些轴旋转三个角度；合成后的总旋转就是一个旋转矩阵RRR；这三个角度就是欧拉角。Proper Euler 角：三个旋转中，头尾绕的是“同一个轴”（比如Z!−!X!−!ZZ!X!ZZ!−!X!−!ZTait–Bryan 角：三个轴互不相同（比如Z!−!Y!−!XZ!Y!XZ!−!Y!−!X。

#矩阵 #线性代数

关于多卡训练和单卡推理

模型训练时使用多GPU（多卡）可以加速计算，因为训练需要处理海量数据，通过数据并行或模型并行可以显著提高效率。而推理时一般不推荐多卡，因为推理计算量小、批量处理少，多卡通信开销反而会增加延迟。此外，单GPU经过优化（如量化、剪枝）已能满足实时性需求，多卡会带来资源浪费和成本上升。只有在超大模型或高吞吐量场景下，推理才可能需要多卡支持。

#人工智能

共 30 条

请选择