logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习优化算法:RMSProp算法

原文链接:动手学深度学习pytorch版:7.6 RMSProp算法github:https://github.com/ShusenTang/Dive-into-DL-PyTorch原论文:[1] Tieleman, T., & Hinton, G. (2012). Lecture 6.5-rmsprop: Divide the gradient by a running average

#深度学习#pytorch
pytorch关于多块gpu使用总结,报错AssertionError: Invalid device id

————————————————版权声明:本文为CSDN博主「kongkongqixi」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/kongkongqixi/article/details/100521590————————————————pytorch默认使用gpu编号为device:0的设备,可以使用t

#pytorch#人工智能#python
ELMo:Deep contextualized word representations

文章目录1. 从Word Embedding到ELMo2. ELMo2.1 ELMo原理2.2 双向语言模型(Bidirectionbbal language models, BiLM)ELMo向量的计算ELMo向量与具体NLP任务结合总结常见问题ELMo的模型结构是怎样的?ELMo解决了一个什么样的问题?ELMo是怎么进行预训练的?如何使用它?为什么ELMo用两个单向的LSTM代替一个双向的LS

#nlp
BERT 模型压缩 —— 知识蒸馏

知识蒸馏,可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。做法是先训练一个teacher网络,然后使用这个teacher网络的输出和数据的真实标签去训练student网络。知识蒸馏,可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能;也可以将多个网络的学到的知识转移到一个网络中,使得单个网络的性能接近emsemble的结果。参考资料:知识蒸馏(Knowledge D

AlexNet 模型原理及 pytorch 代码

1. 模型原理AlexNet包含8层变换,其中有5层卷积(中间另外有3层池化层)和2层全连接隐藏层,以及1个全连接输出层。2. 代码import timeimport torchfrom torch import nn, optimimport torchvisionimport syssys.path.append("..")import d2lzh_pytorch as d2ldevice =

#pytorch#深度学习#神经网络
LeNet 模型原理及pytorch代码

1. 概述LeNet-5[1] 诞生于1994年,是最早的深层卷积神经网络之一,推动了深度学习的发展。从1988年开始,在多次成功的迭代后,这项由Yann LeCun完成的开拓性成果被命名为LeNet-5。最初被用于手写数字识别,当年美国大多数银行就是用它来识别支票上面的手写数字的,它是早期卷积神经网络中最有代表性的实验系统之一。2. 算法基本思想2.1 LeNet-5的网络结构LeNet-5中主

#pytorch#深度学习#python
大BERT —— RoBERTa

【关于 大 Bert 模型系列算法】大BERT模型总结名称介绍动机预训练方法微调问题BertTransformer的双向编码器多义词问题 && GPT 单向 TransformerTask 1:Masked LM && Task 2:Next Sentence Prediction直接利用 特定任务数据 微调1. [MASK]预训练和微调之间的不匹配2. Max L

匹配网络 Matching Network

匹配网络 Matching Network匹配网络其实就是引入注意力机制,通过对 embedding 后的特征计算注意力,利用注意力得分进行分析:首先也是对支持集和查询集进行 embedding,然后用查询集样本对每个支持集样本计算注意力:a(x^,xi)=ec(f(x^),g(xi))/∑j=1kec(f(x^),g(xj))a\left(\hat{x}, x_{i}\right)=e^{c\l

BERT结构及原理

文章目录BERT 结构BERT 输入输出特征BERT 预训练任务任务一、Masked LM 掩码语言模型1. BERT 为什么需要预训练任务 Masked LM ?2. masked LM 怎么做?任务二、Next Sentence Prediction 下一句预测1. 为什么要进行下一句预测?2. 下一句预测怎么做?BERT fine-turning 微调1. 为什么 BERT 需要 fine-

#bert#自然语言处理#深度学习
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择