iwEternal. 个人主页

@PPofficer

iwEternal.

2026-01-31 22:15:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【动手学深度学习】第九课具体的卷积神经网络

将pooling层换成MaxPooling，激活函数换成ReLU，结果会发现，损失完全不收敛...然后发现应该是学习率的原因，我们的lr设为了0.9，但开始使用的是sigmoid，梯度变化比较平缓，而ReLU的梯度变化比较大，配合大学习率导致梯度爆炸了。（暂退法，随机失活神经元）来控制全连接层的模型复杂度，因为后面的全连接层参数非常多、输出数量也是LeNet的好几倍，所以使用dropout减轻过拟

#深度学习 #计算机视觉 #神经网络

【动手学深度学习】第八课卷积神经网络

假如我们采用一个12M像素的相机采集图片，那么RGB图片就有36M像素，我们使用100大小的单隐藏层MLP（已经很小了），这样算下来模型至少有3.6B个参数，=14GB，也就是你光存这些参数就花了14个G的内存，更何况这只是单层、并且我们还没做运算！（1）我们注意到，卷积核移动的时候，输入图像二维矩阵的中间位置每次都被计算了，而边缘却只计算了一次，这样我们得到的特征图就会丢失。（2）并且，一个图片

#深度学习 #cnn #人工智能

【动手学深度学习】第七课不知道取什么标题

这里，原始训练数据被分成个不重叠的子集。然后执行次模型训练和验证，每次在个子集上进行训练，并在剩余的一个子集（在该轮中没有用于训练的子集）上进行验证。梯度消失（gradient vanishing）：参数更新过小，在每次更新时几乎不会移动，导致模型无法学习。当训练数据稀缺时，我们甚至可能无法提供足够的数据来构成一个合适的验证集。梯度爆炸（gradient exploding）：参数更新过大，

#深度学习 #人工智能 #机器学习

【动手学深度学习】第六课多层感知机

这里我用自己的话解释一下，现实中大部分任务都是无法用简单的线性模型来预测或分类的，所以输入到输出层之间无法用简单的一层线性模型来进行链接，于是我们可以在中间加入若干隐藏层。由于我们已经从零实现过softmax函数，因此在这里我们直接使用高级API中的内置函数来计算softmax和交叉熵损失。多层感知机的训练过程与softmax回归的训练过程完全相同。这个图自行理解一下吧，大概是1、4是一组，2、

#深度学习 #人工智能

到底了