
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如果学习率太大,梯度下降可能会反复横跳,无法到达最低点。如果学习率太小,则下降到最低点的进度缓慢,影响算法性能。如果成本函数的值已经是局部最小值,那么继续使用梯度下降也不会最小化成本函数。学习率是调整步幅的,但是如果学习率固定,越接近最小值,更新幅度却会发生变化,变得越来越小。因为越接近最小值,参数点切线的斜率越小,导数项越小,因此参数更新的幅度也会越来越缓慢。

计算图是深度学习中的关键概念,通过分解计算步骤来自动计算神经网络的导数。下图是由节点和边或箭头连接组成的计算图。展示如何使用计算图从输入 x 和参数 w、b 计算输出 a,并进一步计算成本函数 j。通过将计算过程分解成多个小步骤,最终得出成本函数的值。这种方法帮助我们理解前向传播和成本计算的过程。首先,确定输入和参数:输入 x 和参数 w、b。计算 w * x,并称其为 c。计算 a = wx +

多元特征回归是线性回归的一种,它由原来的一个输入特征变成多个输入特征,但是最终预测结果还是只有一个。我们可以使用点积法,来简化多元特征回归的函数表达形式。

模型对训练集数据的拟合非常好,但它在新的、未见过的数据上的表现却较差。泛化代表模型对训练集之外的数据的预测能力。给定一个训练集之外的x,如果模型能很好的预测,则代表泛化能力强,反之则代表泛化能力弱。模型过拟合,就会导致模型的泛化能力弱。过拟合是逻辑回归和线性回归都会存在的问题,它虽然能够完美的拟合数据,但也导致模型的泛化能力变弱,无法预测新数据。我们最终的目的是要找到一个既不欠拟合,也不过拟合的模

为了实现正则化的效果,我们可以在成本函数中添加正则化项来约束权重参数w。λ 是正则化项的关键参数,合适的 λ 可以帮助我们找到最佳的w参数,这样得到的模型既能很好地拟合数据,也能有效减少过拟合的风险。

3.5课节展示的倒扣碗状,是线性回归的误差平方成本函数,也叫做凸函数,只有一个最小值。因此对这个函数执行梯度下降,只要学习率选择合适,梯度下降总是在全局最小值的时刻收敛。3.5课节展示的多曲面形状,是其它类型的成本函数,有多个局部最小值,因此梯度下降的收敛情况不同。给线性回归模型的误差平方成本函数执行梯度下降。线性回归下误差成本函数的梯度下降公式。

Tensorflow 中实现 softmax、cross-entropy loss 的两种方法,首先创建数据集,输入样本2个特征,真实标签y也就是分类一共4个0,1,2,3,2000个训练样本。

里面的计算可以形象化为: [w1 - (alpha * dj_dw[0]), w2 - (alpha * dj_dw2[1])…第二张图细化了第一张图的直线部分,注意Y轴,迭代一开始,成本函数696开始缓慢下降,下降幅度变小。这里的w是向量化操作,w的第一个元素减去α乘以dj_dw的第一个元素,然后更新到w的第一个元素。执行梯度下降计算出w,b,使用w,b,通过训练集计算预测,发现与训练集的真实数

神经网络最初的动机是模拟人脑或生物大脑工作,现在的神经网络与初衷的差异很大,主要关注于工程原理而不是生物学,但仍保留一些生物大脑工作方式。神经网络一般由多个神经元组成,这些神经元用于接收数据输入并计算输出结果。由于数字化时代,数据量暴增,传统机器学习模型处理数据的性能变差,因此需要构建更复杂的神经网络处理数据。

房子面积越大,数据点的趋势整体上升,因此面积对价格的影响最大,卧室数量和楼层对价格的影响忽上忽下,房屋年龄对价格的影响是整体下降。回到开始,当学习率为9.9e-7,成本函数一直增加,没有达到最小值。可以自己编写打印结果,更直观的查看。由于设置的迭代次数为10,我们抽取某一次来看看格式。:对每行训练样本的误差求和即可。重启内核并运行全部。
