深度学习

几个重要的概念:

人工智能:让机器具备人的思维和意识。
人工智能的三大学派:

  1. 行为主义:基于控制论,构建感知-动作控制系统。
  2. 符号主义:基于算术逻辑表达式,求解问题是先把问题描述为表达式,再求解。
  3. 联结主义:仿生学,模仿神经元连接关系。中心思想:当网络将大量简单的计算单元连接在一起时,
     可以实现智能行为。

机器学习:软件系统需要具备自己获取知识的能力,即从原始数据中提取模式的能力。
表示学习:使用机器学习来发掘表示本身,而不仅仅把表示映射到输出,这种方法称之为表示学习。
深度学习:通过较简单的表示来表达复杂表示,解决了表示学习的核心问题(提取高层次,抽象的特征)。
下图是不同AI学科之间的关系:
在这里插入图片描述

深度学习的发展历程

现在我们认为深度学习经历3次发展浪潮:
第一次浪潮:开始于20世纪40年代-60年代的控制论,随着生物学习理论的发展(McCulloch and Pitts,1943年;Hebb,1949年)和第一个模型的实现(eg. 感知机(Rosenblatt,1958年)),能实现单个神经元的训练。
McCulloch-Pitts 神经元是脑功能的早期模型。该线性模型通过检验函数 f ( x , w ) f(x,w) f(x,w) 的正负来识别两种不同类别的输入。显然,模型的权重需要正确设置后才能使模型的输出对应于期望的类别。这些权重可以由操作人员设定。
在 20 世纪 50 年代,感知机 (Rosenblatt, 1956, 1958) 成为第一个能根据每个类别的输入样本来学习权重的模型。约在同一时期,自适应线性单元 (adaptive linearelement, ADALINE) 简单地返回函数 f ( x ) f(x) f(x) 本身的值来预测一个实数 (Widrow and Hoff, 1960),并且它还可以学习从数据预测这些数。用于调节 ADALINE 权重的训练算法是被称为随机梯度下降(stochastic gradient descent)的一种特例。
基于感知机和 ADALINE 中使用的函数 f ( x , w ) f(x,w) f(x,w) 的模型被称为线性模型(linear model)。
线性模型有很多局限,最著名的就是无法学习异或(XOR)函数。线性模型这个缺陷的批评者对受生物学启发的学习普遍地产生了抵触(Minsky and Papert,1969年),这导致了神经网络热潮的第一次大衰退。
第二次浪潮:开始于1980-1995年见的联结主义方法,可以使用反向传播(Rumelhart et al. ,1986a
)训练具有一两个隐藏层的神经网络。
在20世纪80年代,神经网络研究的第二次浪潮在很大程度上是伴随一个被称为联结主义(connectionism)或并行分布处理 ( parallel distributed processing) 潮流而出现的 (Rumelhart et al., 1986d; McClelland et al., 1995)。联结主义是在认知 科学的背景下出现的。认知科学是理解思维的跨学科途径,即它融合多个不同的分析层次。在 20 世纪 80 年代初期,大多数认知科学家研究符号推理模型。尽管这很流行,但符号模型很难解释大脑如何真正使用神经元实现推理功能。联结主义者开始研究真正基于神经系统实现的认知模型 (Touretzky and Minton, 1985),其中很多复苏的想法可以追溯到心理学家 Donald Hebb。
联结主义的中心思想是,当网络将大量简单的计算单元连接在一起时可以实现 智能行为。这种见解同样适用于生物神经系统中的神经元,因为它和计算模型中隐 藏单元起着类似的作用。
分布式表示(distributed representation)(Hinton et al., 1986)。 其思想是:系统的每一个输入都应该由多个特征表示,并且每一个特征都应该参与 到多个可能输入的表示。
联结主义潮流的另一个重要成就是反向传播在训练具有内部表示的深度神经网络中的成功使用以及反向传播算法的普及 (Rumelhart et al., 1986c; LeCun, 1987)。 这个算法虽然曾黯然失色不再流行,它仍是训练深度模型的主导方法。
在 20 世纪 90 年代,研究人员在使用神经网络进行序列建模的方面取得了重要进展。Hochreiter (1991b) 和 Bengio et al. (1994a) 指出了对长序列进行建模的一 些根本性数学难题,这将在第10.7节中描述。Hochreiter and Schmidhuber (1997) 引入长短期记忆(long short-term memory, LSTM)网络来解决这些难题。
基于神经网络和其他AI技术的创业公司开始寻求投资,其做法野心勃勃但不切实际。当AI研究不能实 现这些不合理的期望时,投资者感到失望。同时,机器学习的其他领域取得了进步。 比如,核方法 (Boser et al., 1992; Cortes and Vapnik, 1995; Schölkopf et al., 1999) 和图模型 (Jordan, 1998) 都在很多重要任务上实现了很好的效果。这两个因素导致 了神经网络热潮的第二次衰退,并一直持续到 2007 年。
第三次浪潮:开始于2006年神经网络研究的突破。Geoffrey Hinton 表明名为深 度信念网络的神经网络可以使用一种称为贪婪逐层预训练的策略来有效地训练 (Hinton et al., 2006a)。神经网络研究的这一次浪潮普及了 “深度学习’’ 这一术语的使用,强调研究者 现在有能力训练以前不可能训练的比较深的神经网络,并着力于深度的理论重要 性上 (Bengio and LeCun, 2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; Montufar et al., 2014)。
下图展示了神经网络的发展时间:
在这里插入图片描述

经典卷积

LeNet(1998年)—> AlexNet(2012年)—> VGGNet(2014年)—> googLeNet(2014年)—> ResNet(2015年)—> DenseNet(2017年,CVPR, Best paper)
LeNet由Yann LeCun于1998年提出,是卷积网络的开篇之作。(论文:Gradient-based learning applied to document recognition)。
AlexNet在2012年ImageNet竞赛中以超过第二名10.9个百分点的绝对优势一举夺冠,从此深度学习和卷积神经网络名声鹊起,深度学习的研究如雨后春笋般出现。
VGG-Net是由牛津大学VGG(Visual Geometry Group)提出,是2014年ImageNet竞赛定位任务的第一名和分类任务的第二名的中的基础网络。VGG可以看成是加深版本的AlexNet。
GoogLeNet在2014的ImageNet分类任务上击败了VGG-Nets夺得冠军。GoogLeNet在加深网络的同时(22层),也在网络结构上做了创新,引入Inception结构代替了单纯的卷积+激活的传统操作(这思路最早由Network in Network提出)。
ResNet是2015年何恺明推出的,在ISLVRC和COCO上横扫所有选手,获得冠军。
DenseNet是CVPR 2017最佳论文DenseNet(Dense Convolutional Network),其主要和ResNet及Inception网络做对比,思想上有借鉴,但却是全新的结构,网络结构并不复杂,却非常有效,在CIFAR指标上全面超越ResNet。可以说DenseNet吸收了ResNet最精华的部分,并在此上做了更加创新的工作,使得网络性能进一步提升。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐