logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

pytorch notes

DataLoadertorch.utils.data.DataLoader参数worker_init_fn创建DataLoader需要传入Dataset对象,如果在Dataset中实现了worker_init_fn成员函数,则把这个函数也一并传给DataLoader。不管传给DataLoader的num_workers等于几,Dataset的构造函数都只会被创建一次,即不同的worker是使用同一

#pytorch
pytorch LayerNorm参数详解,计算过程

说明LayerNorm中不会像BatchNorm那样跟踪统计全局的均值方差,因此train()和eval()对LayerNorm没有影响。LayerNorm参数torch.nn.LayerNorm(normalized_shape: Union[int, List[int], torch.Size],eps: float = 1e-05,elementwise_affine: bool = Tru

#python#深度学习
Transformer(self attention)超详解&示例代码

说明attention机制(注意力机制)有效解决了RNN网络对长序列编码效果差的问题。但是attention机制是对RNN网络编码后的特征序列进行打分,如果输入序列长度是30(即输入30个连续的原始特征),则RNN网络会编码出30个编码后的特征。在解码时,每解码一次,都会对这30个编码后的特征进行打分求和,结果作为输入传给解码器。既然每次都是对全部编码后的特征进行打分,即每次解码都使用了全部信息,

#深度学习#python
pytorch LayerNorm参数详解,计算过程

说明LayerNorm中不会像BatchNorm那样跟踪统计全局的均值方差,因此train()和eval()对LayerNorm没有影响。LayerNorm参数torch.nn.LayerNorm(normalized_shape: Union[int, List[int], torch.Size],eps: float = 1e-05,elementwise_affine: bool = Tru

#python#深度学习
pytorch转置卷积(ConvTranspose)详解

说明由于最开始接触卷积是通过滑窗的方式了解卷积的计算过程,所以在接触转置卷积时很蒙圈。实际上抛开滑窗的计算过程,用矩阵乘法实现卷积,则理解转置卷积就极其简单了。用矩阵乘法实现卷积这里用二维卷积来举例,为方便观察,把batch size和输入输出通道数都设为1。首先从最简单的情况开始,stride=[1, 1],padding=[0, 0]。此时,如果我们输入4*4的图片,则显然输出尺寸是2*2,如

#pytorch
pytorch优化器详解:SGD

说明模型每次反向传导都会给各个可学习的参数p计算出一个偏导数,用于更新对应的参数p。通常偏导数不会直接作用到对应的参数p上,而是通过优化器做一下处理,得到一个新的值,计算过程用函数F表示(不同的优化器对应的F的内容不同),即,然后和学习率lr一起作用于可学习参数p,即。SGD参数SGD是随机梯度下降(stochastic gradient descent)的首字母。torch.optim.SGD(

#深度学习#python
pytorch LayerNorm参数详解,计算过程

说明LayerNorm中不会像BatchNorm那样跟踪统计全局的均值方差,因此train()和eval()对LayerNorm没有影响。LayerNorm参数torch.nn.LayerNorm(normalized_shape: Union[int, List[int], torch.Size],eps: float = 1e-05,elementwise_affine: bool = Tru

#python#深度学习
pytorch优化器详解:Adam

说明模型每次反向传导都会给各个可学习参数p计算出一个偏导数,用于更新对应的参数p。通常偏导数不会直接作用到对应的可学习参数p上,而是通过优化器做一下处理,得到一个新的值,处理过程用函数F表示(不同的优化器对应的F的内容不同),即,然后和学习率lr一起用于更新可学习参数p,即。Adam是在RMSProp和AdaGrad的基础上改进的。...

#深度学习
pytorch优化器详解:RMSProp

说明模型每次反向传导都会给各个可学习参数p计算出一个偏导数,用于更新对应的参数p。通常偏导数不会直接作用到对应的可学习参数p上,而是通过优化器做一下处理,得到一个新的值,处理过程用函数F表示(不同的优化器对应的F的内容不同),即,然后和学习率lr一起用于更新可学习参数p,即。RMSProp原理假设损失函数是,即我们的目标是学习x和y的值,让Loss尽可能小。如下是绘制损失函数的代码以及绘制出的结果

#深度学习#pytorch
pytorch优化器详解:Adam

说明模型每次反向传导都会给各个可学习参数p计算出一个偏导数,用于更新对应的参数p。通常偏导数不会直接作用到对应的可学习参数p上,而是通过优化器做一下处理,得到一个新的值,处理过程用函数F表示(不同的优化器对应的F的内容不同),即,然后和学习率lr一起用于更新可学习参数p,即。Adam是在RMSProp和AdaGrad的基础上改进的。...

#深度学习
    共 15 条
  • 1
  • 2
  • 请选择