
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
0. 前言对于一些特殊的算子, 我们需要进行定制其前向和反向的过程, 从而使得其能够获得更快的速度, 加速模型的训练. 这样, 我们自然会想到使用PyTorch的cuda扩展来实现, 这里, 我将以一个简单且易于理解的例子出发, 详细的介绍如何构造一个属于你的cuda扩展.1. 为什么需要写cuda扩展?由于我们的一些特殊结构可以由基础的pytorch提供的算子进行组合而形成, 但是, 其问...
首先, 在进行具体的技术性展开之前,需要回顾下Diffusion Model是什么:如下图所示,可以简单将MidJourney, Stable Diffusion, ImageGen, DALLE-2这种Diffusion Model理解为从噪声中生成图像(generate images from noise)的一种模型。生成的数据和训练的数据类似(从概率论的角度上来说,就是生成模型的重点是模拟训

最近需要设计一个机器翻译相关的试验, 其中好多东西都不同, 先从基础的评价指标来吧. 本文翻译自Jason Brownlee的博客[1].可能会简化一部分内容, 如有需要请读者直接读原文.0. 前言BLEU (其全称为Bilingual Evaluation Understudy), 其意思是双语评估替补。所谓Understudy (替补),意思是代替人进行翻译结果的评估。尽管这项指标...
最近需要用到voxceleb2的视频数据集做点东西, 但是发现从官网下载实在太过于费劲, 好不容易下载下来, 将将近300GB的文件切片上传至百度云. 希望能对需要这个数据集做事情的童鞋有点帮助. ^.^1. 写在前面我们使用的是牛津大学Zisserman大神率领的团队做的 <Voxceleb2: Deep Speaker Recognition>[1] 数据集的视频部分(因为...
0. 写在前面前一段时间调研AI芯片在尽量保证准确率的情况下,如何快速训练大规模数据集并分析其可行性。UC Berkeley的大佬尤洋[1]的这篇<LARS:LARGE BATCH TRAINING OF CONVOLUTIONAL NETWORKS> 提供了一个很好的保证在大Batch Size的分布式训练情况下,精度损失很小的策略。下面, 让我们开始~1. 摘要 (Abstra..
0. 前言波兰小哥Adam Paszke从15年的Torch开始,到现在发表了关于PyTorch的Neurips2019论文。中间经历了漫长的过程。这里,把原文进行翻译放出来,以供读者了解这几个问题:为什么要设计PyTorch?PyTorch与之前的深度学习framework的区别是什么?PyTorch有什么设计准则?是什么导致了PyTorch在研究者社区的流行?相信读者在看完下面...
最近在准备学习PyTorch源代码,在看到网上的一些博文和分析后,发现他们发的PyTorch的Tensor源码剖析基本上是0.4.0版本以前的。比如说:在0.4.0版本中,你是无法找到a = torch.FloatTensor()中FloatTensor的usage的,只能找到a = torch.FloatStorage()。这是因为在PyTorch中,将基本的底层THTensor.h TH...
本文翻译自OpenAI官方博客[1], 于2021年1月5日发布.0. 前言本博客是openAI的大佬们的全新作品,其提出了可以用于从自然语言监督信号中有效提取视觉信息的,名为CLIP的神经网络. CLIP可以被用于任何视觉分类的benchmark(仅需提供其对应的视觉类别即可), 同GPT-2/3类似,有着强大的"zero-shot"能力。我认为,CLIP和DALLE这2篇论文,核心是将万能的预
0. 前言众所周知,反向传播(back propagation)算法 (Rumelhart et al., 1986c),经常简称为backprop,它允许来自代价函数的信息通过网络向后流动,以便计算梯度。它是神经网络之所以可以进行学习的最根本因素。在如PyTorch、Tensorflow等深度学习框架中,都广泛的使用了自动微分(Autograd)的机制,主要也就是从哈佛的智能概率系统组(Har.
0. 前言在对比stylegan2的D_stylegan2的时候, 我需要校对我的Minibatch_stddev_layer和作者的tf版本的区别,其中,有一个算子f.tile, 网上已经介绍的很清楚了,将其翻译为pytorch版本的时候其对应的算子没有清晰的解释,因此我将torch.repeat和tf.tile进行了简单比较(下面),基本结论是2者是一致的,可以等效替换.1. 测试比较①...







