
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
第五周-5.19
本文介绍了循环神经网络(RNN)及其改进模型LSTM和GRU在序列数据处理中的应用。RNN通过隐藏状态传递时序信息,但存在梯度消失问题。LSTM通过门控机制解决了长距离依赖问题,GRU则简化了结构。文章以IMDB情感分类为例,展示了双向LSTM模型的实现过程,包括数据预处理、模型构建、训练评估等步骤。实验使用PyTorch框架,在5个epoch内达到约87%的测试准确率。此外还提及了LSTM在时间

第三周+第四周-5.12
一般在全连接层中使用,在卷积层中也会见到,在卷积层中有时候并不是将神经元置零,而是将某些特征映射整体置零,比如讲颜色通道中的某几个整体置零。因为反向传播使用链式求导法则chainrule,所以求梯度的计算是通过一些导函数的值连乘得到,如果导函数的值越接近0,那么连乘在一起就会更加接近0。又因为反向传播求导是从后往前的,所以越靠近输入层的参数求导时,连乘在一起的项越多,越有可能一堆接近0的数值不断连

第三周+第四周-5.12
一般在全连接层中使用,在卷积层中也会见到,在卷积层中有时候并不是将神经元置零,而是将某些特征映射整体置零,比如讲颜色通道中的某几个整体置零。因为反向传播使用链式求导法则chainrule,所以求梯度的计算是通过一些导函数的值连乘得到,如果导函数的值越接近0,那么连乘在一起就会更加接近0。又因为反向传播求导是从后往前的,所以越靠近输入层的参数求导时,连乘在一起的项越多,越有可能一堆接近0的数值不断连

到底了








