logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【动手学深度学习】第九课 具体的卷积神经网络

将pooling层换成MaxPooling,激活函数换成ReLU,结果会发现,损失完全不收敛...然后发现应该是学习率的原因,我们的lr设为了0.9,但开始使用的是sigmoid,梯度变化比较平缓,而ReLU的梯度变化比较大,配合大学习率导致梯度爆炸了。(暂退法,随机失活神经元)来控制全连接层的模型复杂度,因为后面的全连接层参数非常多、输出数量也是LeNet的好几倍,所以使用dropout减轻过拟

#深度学习#计算机视觉#神经网络
【动手学深度学习】第八课 卷积神经网络

假如我们采用一个12M像素的相机采集图片,那么RGB图片就有36M像素,我们使用100大小的单隐藏层MLP(已经很小了),这样算下来模型至少有3.6B个参数,=14GB,也就是你光存这些参数就花了14个G的内存,更何况这只是单层、并且我们还没做运算!(1)我们注意到,卷积核移动的时候,输入图像二维矩阵的中间位置每次都被计算了,而边缘却只计算了一次,这样我们得到的特征图就会丢失。(2)并且,一个图片

#深度学习#cnn#人工智能
【动手学深度学习】第七课 不知道取什么标题

这里,原始训练数据被分成个不重叠的子集。然后执行次模型训练和验证,每次在个子集上进行训练, 并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。梯度消失(gradient vanishing): 参数更新过小,在每次更新时几乎不会移动,导致模型无法学习。当训练数据稀缺时,我们甚至可能无法提供足够的数据来构成一个合适的验证集。梯度爆炸(gradient exploding): 参数更新过大,

#深度学习#人工智能#机器学习
【动手学深度学习】第六课 多层感知机

这里我用自己的话解释一下,现实中大部分任务都是无法用简单的线性模型来预测或分类的,所以输入到输出层之间无法用简单的一层线性模型来进行链接,于是我们可以在中间加入若干隐藏层。由于我们已经从零实现过softmax函数, 因此在这里我们直接使用高级API中的内置函数来计算softmax和交叉熵损失。多层感知机的训练过程与softmax回归的训练过程完全相同。这个图自行理解一下吧,大概是1、4是一组,2、

#深度学习#人工智能
到底了