cover

基于梯度的优化方法（一） ——梯度下降原理浅析

深度学习（deep learning）系列笔记优化通俗来讲其实是求函数的最大值最小值问题，而最大值问题又可以转化为求最小值问题，因此，优化往往聚焦于最小化某个函数的值。我们借助于导数这个工具，用到函数的极限与连续的基本知识，我们可以得到，对一个足够小的，下面的式子恒成立（具体分析用到数学知识）（ sign(x)或者Sign(x)叫做符号函数，在数学和计算机运算中，其功能是取某个数的符号（正或负）

Alpha Auriage

1063人浏览 · 2021-08-06 15:28:49

Alpha Auriage · 2021-08-06 15:28:49 发布

深度学习

（deep learning）系列笔记

优化通俗来讲其实是求函数的最大值最小值问题，而最大值问题又可以转化为求最小值问题，因此，优化往往聚焦于最小化某个函数的值。

我们借助于导数这个工具，用到函数的极限与连续的基本知识，我们可以得到，对一个足够小的 $\varepsilon$ ，下面的式子恒成立（具体分析用到数学知识）

$<$ $f$ $(x)$

（ sign(x)或者Sign(x)叫做符号函数，在数学和计算机运算中，其功能是取某个数的符号（正或负）：

当x>0，sign(x)=1;

当x=0，sign(x)=0;

当x<0， sign(x)=-1；）

因此我们受到启发，通过更改x的大小，来实现改善y目标函数的值，即梯度下降法。

简单来讲，沿着函数的下降方向移动，寻求全局最小点。

我们不可避免地会遇到的问题是，在数学上我们叫极值与最值的问题，在深度学习领域，尤其是在对目标函数进行优化时，我们往往要面对全局最小点无法实现。此时，我们采取局部最小化的办法，只要能达到一个相对较低的水平，我们也可以采用局部最小值来代替全局最小值。

在应对多维的输入时，问题会变得更加有趣。

此时的输入为一个n维向量，梯度相应的变为对向量的求导，得到的也是一个向量。我们用上文讨论的一维梯度下降中的思路，考虑方向导数，这里囿于公式编辑的问题，我直接摘录了书中的原话，我认为已经阐述的非常清晰。

其中会用到标量对多矩阵的链式求导，（这里引用某位大佬的一篇博文）

有了这个公式，上面的推导就一目了然了。

注意我们讨论的都是在连续空间中，在离散空间中的操作成为爬山。感兴趣可以自行搜索，等我学了离散数学再来写。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

Alpha Auriage

已为社区贡献2条内容