深度学习 

(deep learning)系列 笔记

优化通俗来讲其实是求函数的最大值最小值问题,而最大值问题又可以转化为求最小值问题,因此,优化往往聚焦于最小化某个函数的值。

我们借助于导数这个工具,用到函数的极限与连续的基本知识,我们可以得到,对一个足够小的\varepsilon,下面的式子恒成立(具体分析用到数学知识)

<f(x)

( sign(x)或者Sign(x)叫做符号函数,在数学和计算机运算中,其功能是取某个数的符号(正或负):

当x>0,sign(x)=1;

当x=0,sign(x)=0;

当x<0, sign(x)=-1;)

因此我们受到启发,通过更改x的大小,来实现改善y目标函数的值,即梯度下降法。

 简单来讲,沿着函数的下降方向移动,寻求全局最小点。

我们不可避免地会遇到的问题是,在数学上我们叫极值与最值的问题,在深度学习领域,尤其是在对目标函数进行优化时,我们往往要面对全局最小点无法实现。此时,我们采取局部最小化的办法,只要能达到一个相对较低的水平,我们也可以采用局部最小值来代替全局最小值。

在应对多维的输入时,问题会变得更加有趣。

此时的输入为一个n维向量,梯度相应的变为对向量的求导,得到的也是一个向量。我们用上文讨论的一维梯度下降中的思路,考虑方向导数,这里囿于公式编辑的问题,我直接摘录了书中的原话,我认为已经阐述的非常清晰。

 其中会用到标量对多矩阵的链式求导,(这里引用某位大佬的一篇博文)

具体地址

 有了这个公式,上面的推导就一目了然了。

注意我们讨论的都是在连续空间中,在离散空间中的操作成为爬山。感兴趣可以自行搜索,等我学了离散数学再来写。

  

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐