logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【动手学习pytorch笔记】21.语言模型

语言模型理论基础给定文本序列x1,...,xTx_1,...,x_Tx1​,...,xT​,语言模型的目标是估计联合概率p(x1,...,xT)p(x_1,...,x_T)p(x1​,...,xT​)它的应用包括做预训练模型(BERT,GPT)生成文本,给定前面几个词,不断使用前面给的词预测下面的词,和前面预测sin函数一样给定多个序列,判断哪个序列更常见使用计数来建模​p(x,x′)=p(x)p

#pytorch#rnn#学习 +1
【动手学习pytorch笔记】27.双向循环神经网络

双向循环神经网络两个隐藏状态,分别计算输出,然后concat起来最后丢到输出层虽然原理上是这样,但实际实现上:正常和RNN同样的操作得到H1我们把输入反过来在丢进网络就好了,得到的输出也反过来H2把H1和H2 concat起来,得到最后的输出。import torchfrom torch import nnfrom d2l import torch as d2l# 加载数据batch_size,

#pytorch#rnn#学习 +1
【动手学习pytorch笔记】15.批量归一化 BatchNorm(BN)

BatchNorm(BN)遇到了问题损失函数在最后,后面的层训练较快数据输入在最底部前面的层训练的慢前面的层一变,所有都得跟着变最后的层需要重新学习多次导致收敛变慢我们可以在学习底部层的时候避免变化顶部层吗?所以提出了批量归一化BatchNorm(BN)固定小批量里的均值和方差μB=1∣B∣∑i∈BxiσB2=1∣B∣∑i∈B(xi−μB)2+ϵ\mu_B = \frac{1}{|B|}\sum_

#深度学习#pytorch#cnn
【动手学习pytorch笔记】35.2.多头注意力机制

多头注意力机制import mathimport torchfrom torch import nnfrom d2l import torch as d2l实现类#@saveclass MultiHeadAttention(nn.Module):"""多头注意力"""def __init__(self, key_size, query_size, value_size, num_hiddens,n

#学习#pytorch#深度学习 +2
【动手学习pytorch笔记】4.处理过拟合之——L2正则化(权重衰减)

L2正则化%matplotlib inlineimport torchfrom torch import nnfrom d2l import torch as d2l生成数据y=0.05+∑i=1d0.01xi+ϵ  where ϵ∼N(0,0.012)y = 0.05 + \sum_{i=1}^{d}{0.01x_i} + \epsilon \;where \ \epsilon \si

#pytorch#深度学习#机器学习
【动手学习pytorch笔记】19.序列模型

序列模型%matplotlib inlineimport torchfrom torch import nnfrom d2l import torch as d2lT = 1000# 总共产生1000个点time = torch.arange(1, T + 1, dtype=torch.float32)x = torch.sin(0.01 * time) + torch.normal(0, 0.2

#pytorch#深度学习#rnn +1
【动手学习pytorch笔记】30.seq2seq

seq2seq理论编码器是一个RNN,因为任务是机器翻译,所以是双向的解码器用另外一个RNN输出之前看过Transformer对这个很熟悉需要注意的一点是,在做训练和做推理的时候是有区别的在训练时,我们是有正确的翻译的,所以解码器的每次输入都是正确的翻译而在推理时,智能用我们预测的词当作解码器RNN下一个时间步的输入那么现在我实在预测一个句子序列,而不是和之前一样预测一个词了,那么怎么衡量一个句子

#rnn#pytorch#深度学习
【动手学习pytorch笔记】37.5 BERT微调

BERT微调import jsonimport multiprocessingimport osimport torchfrom torch import nnfrom d2l import torch as d2lbert.base和bert.small地址d2l.DATA_HUB['bert.base'] = (d2l.DATA_URL + 'bert.base.torch.zip','225

#pytorch#学习#bert +2
【动手学习pytorch笔记】24.门控循环单元GRU

GRU序列中并不是所有信息都同等重要,为了记住重要的信息和遗忘不重要的信息,最早的方法是”长短期记忆”(long-short-term memory,LSTM),这节门控循环单元(gated recurrent unit,GRU)是一个稍微简化的变体,通常能够提供同等的效果, 并且计算的速度明显更快。理论两个门(和隐藏状态类似)重置门(虫豸们~)​Rt=σ(XtWxr+Ht−1Whr+br)R_t

#pytorch#深度学习#rnn +2
【动手学习pytorch笔记】35.自注意力和位置编码

自注意力机制和位置编码理论自注意力的自不是自己和自己做Attention,之前理解的有问题,是query,key,value都是自己。yi=f(xi,(x1,x1),...,(xn,xn))∈Rdy_i=f(x_i,(x_1,x_1),...,(x_n,x_n))\in\mathbb{R}^dyi​=f(xi​,(x1​,x1​),...,(xn​,xn​))∈RdCNN,RNN,Attentio

#pytorch#深度学习#学习 +1
    共 15 条
  • 1
  • 2
  • 请选择