基于梯度的优化方法(一) ——梯度下降原理浅析
深度学习(deep learning)系列 笔记优化通俗来讲其实是求函数的最大值最小值问题,而最大值问题又可以转化为求最小值问题,因此,优化往往聚焦于最小化某个函数的值。我们借助于导数这个工具,用到函数的极限与连续的基本知识,我们可以得到,对一个足够小的,下面的式子恒成立(具体分析用到数学知识)( sign(x)或者Sign(x)叫做符号函数,在数学和计算机运算中,其功能是取某个数的符号(正或负)
深度学习
(deep learning)系列 笔记
优化通俗来讲其实是求函数的最大值最小值问题,而最大值问题又可以转化为求最小值问题,因此,优化往往聚焦于最小化某个函数的值。
我们借助于导数这个工具,用到函数的极限与连续的基本知识,我们可以得到,对一个足够小的,下面的式子恒成立(具体分析用到数学知识)
( sign(x)或者Sign(x)叫做符号函数,在数学和计算机运算中,其功能是取某个数的符号(正或负):
当x>0,sign(x)=1;
当x=0,sign(x)=0;
当x<0, sign(x)=-1;)
因此我们受到启发,通过更改x的大小,来实现改善y目标函数的值,即梯度下降法。
简单来讲,沿着函数的下降方向移动,寻求全局最小点。
我们不可避免地会遇到的问题是,在数学上我们叫极值与最值的问题,在深度学习领域,尤其是在对目标函数进行优化时,我们往往要面对全局最小点无法实现。此时,我们采取局部最小化的办法,只要能达到一个相对较低的水平,我们也可以采用局部最小值来代替全局最小值。
在应对多维的输入时,问题会变得更加有趣。
此时的输入为一个n维向量,梯度相应的变为对向量的求导,得到的也是一个向量。我们用上文讨论的一维梯度下降中的思路,考虑方向导数,这里囿于公式编辑的问题,我直接摘录了书中的原话,我认为已经阐述的非常清晰。
其中会用到标量对多矩阵的链式求导,(这里引用某位大佬的一篇博文)
有了这个公式,上面的推导就一目了然了。
注意我们讨论的都是在连续空间中,在离散空间中的操作成为爬山。感兴趣可以自行搜索,等我学了离散数学再来写。
更多推荐
所有评论(0)