全息数据个人主页

@qq_23022733

全息数据

2022-08-29 10:29:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习训练之学习率LR系统总结

文章目录1、StepLR2、MultiStepLR3、ExponentialLR4、CosineAnnealingLR5、CyclicLR6、ReduceLROnPlateau1、StepLR先上API：# optimizer：优化器# step_size：每隔多少epoch改变学习率lr# gamma=0.1：训练到这一部分epoch×上一epoch的lrtorch.optim.lr_sched

#深度学习 #图像处理

QAT（Quantization Aware Training）量化感知训练（二）【详解】

...

#深度学习 #目标检测

TSM动作识别模型【详解】

然后需要等大概十多分钟，就解压完成，得到一个包含所有SSv2视频数据的文件夹，将文件夹名字改为20bn-something-something-v2-frames方便之后的数据集划分。由于该压缩数据进行了分卷操作，需要合并后才能进行解压。本文使用的是somethingv2数据集，解压后是如下形式；

使用gdb调试python程序

当 Python 代码调用底层 C 扩展（例如，numpy 或 torch 等）时，GDB 可以帮助你跟踪到 C 扩展的代码。如果 Python 崩溃或抛出错误，你可以使用 GDB 跟踪并分析调用栈，找出问题发生的底层 C/C++ 代码。通过 GDB 调试 Python 代码时，你可以设置断点、查看栈帧、分析崩溃，并跟踪底层的 C/C++ 代码。GDB 主要用于调试 C/C++ 代码，但也可以调试

#python

Facenet人脸识别网络【详解】

Facenet人脸识别网络

#深度学习 #pytorch #cnn +1

Transformer代码从零解读【Pytorch官方版本】

输入经过词向量层和位置编码层，得到最终的输入，通过掩码注意力机制，然后交互注意力机制与Encoder的输出做交互，Encoder的输出做K矩阵、V矩阵，Decoder的值做Q矩阵，再经过前馈神经网络层，得到Decoder的输出，解码端是没法并行的，因为输入【S】，输出【I】，然后输出的【I】作为下一阶段的输入，这一次的输入取决于上一次的输出，所以解码端无法并行，如果当前输入为【S】，则后面的【卷起

#transformer #pytorch #深度学习 +1

一文解答Swin Transformer + 代码【详解】

下面是Swin Transformer论文的Abstract，

#transformer #深度学习

Vision Transformer (ViT) + 代码【详解】

虽然 Transformer 架构已成为自然语言处理任务的事实标准，但它在计算机视觉领域的应用仍然有限。在 Vision 中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯 Transformer 可以在图像分类任务中表现良好。

#transformer #深度学习

DDPM | 扩散模型代码详解【较为详细细致！！！】

左图是Transformer的Positional Embedding，行索引代表第几个单词，列索引代表每个单词的特征向量，右图是DDPM的Positional Embedding，DDPM的Positional Embedding和Transformer的Positional Embedding的。另一个区别是DDPM的Positional Embedding并没有按照奇数位和偶数位进行拼接，而

#AIGC #深度学习

Stable Diffusion扩散模型【详解】小白也能看懂！！

2、因为每一个像素都有自己的分布，都要预测出一个均值和方差，所以网络输出的尺寸需要和图像尺寸一致，所以我们选用 Unet 网络，假设数据集中有100张图片，每张图片的shape是4x4x3，假设每张图片的每个channel的每个像素点都服从正态分布，图像加噪不是在原有图像上进行加噪的，而是通过把图片的每个像素的值转换为-1到1之间，比如像素的值是。去噪是加噪的逆过程，由时间T时刻的图像逐渐去噪到时

#AIGC #深度学习

共 75 条

请选择