计算机视觉简述

目录1. 为什么要做计算机视觉2. 什么是计算机视觉3. 难点和挑战4. 发展历程5. 行业大牛6. 两大类任务7. state of the art为什么要做计算机视觉如果我们把数据分为结构化数据和非结构化数据，我们可以看到，以图像为代表的非结构化数据以指数级的方式增加，为了能“读懂”海量的非结构化数据，计算机视觉技术尤为重要。在没有计算机视觉之前，我们只能把图像当作是黑盒，我们只能读到图像的文

lanmengyiyu

2108人浏览 · 2020-11-13 10:25:58

lanmengyiyu · 2020-11-13 10:25:58 发布

1. 为什么要做计算机视觉
2. 什么是计算机视觉
3. 难点和挑战
4. 发展历程
5. 行业大牛
6. 两大类任务
7. state of the art

为什么要做计算机视觉

在这里插入图片描述
如果我们把数据分为结构化数据和非结构化数据，我们可以看到，以图像为代表的非结构化数据以指数级的方式增加，为了能“读懂”海量的非结构化数据，计算机视觉技术尤为重要。

在没有计算机视觉之前，我们只能把图像当作是黑盒，我们只能读到图像的文件名、尺寸、大小以及图片格式。对里面的内容我们一无所知。
在这里插入图片描述
当计算机视觉有了初步的发展时，我们打开一张图片，只能看到密密麻麻排列的数字，如上图所示，但是我们无法知道这些数字代表的含义。我们并不能将这些数字与小写字母a对应起来，为了解决这个问题，因此需要计算机视觉技术。

什么是计算机视觉

在这里插入图片描述
狭义上来说，计算机视觉就是要看懂图像的内容，比如上图，我们可以知道有一个人在放牛，并且知道这个人戴着草帽，赤裸着上身，穿了黑色的裤子，并且在打电话，这头牛是黑色的。

那么人是怎么得到的这些信息呢，靠我们的视觉系统。神经学家的研究发现，人的视觉系统主要分为视网膜，v1层、v2层、v4层几部分。那每一部分的作用是什么呢？视网膜主要是将物体投影到视网膜上，然后通过视觉神经，将光信号转换为电信号，传到大脑皮层。v1层主要是对边缘信息比较敏感，作用类似于传统图像处理中的拉普拉斯算子，sobel算子等，目的是提取物体的边缘信息。v2区域的目的是将边缘信息组合成简单的形状，也就是物体的局部信息，而v4区域就是直接得到语义信息。
在这里插入图片描述
计算机为了能跟人一样得到语义信息，因此也希望模仿人的视觉过程提取物体的特征，比如神经网络，通过多层的特征提取也可以生成图像的语义信息，虽然深度学习目前仍然缺乏可解释性，但是我们简单的提取第一层的结果，会发现作用也是提取梯度，只是后续的层我们就无法看出作用了

难点和挑战

在这里插入图片描述
那么计算机视觉的难点在哪里呢？毫无疑问是特征的提取。如果我们要识别物体，我们希望相同类别的物体提取的特征是相近的，不同物体的特征是差别巨大的，但是如上图所示，如果我们对图像仅仅用来l2距离来排列，我们发现，排列在一起的图像是背景颜色相近的图像而不是语义相同的图像。还有一个难点，在于神经网络在处理图像时参数量大，计算量大，因此gpu的发展为推动计算机视觉的发展也贡献巨大。

发展历程

接下来我们说一下计算机视觉的发展历程。
在1959年的时候，神经生理学家David Hubel和Torsten Wiesel通过猫的视觉实验，首次发现了视觉初级皮层神经元对于移动边缘刺激敏感，发现了视功能柱结构，为视觉神经研究奠定了基础——促成了计算机视觉技术40年后的突破性发展，奠定了深度学习之后的核心准则。
1965年， Lawrence Roberts《三维固体的机器感知》描述了从二维图片中推导三维信息的过程。——现代计算机视觉的前导之一，开创了理解三维场景为目的的计算机视觉研究。
70年代中期，麻省理工学院（MIT）人工智能（AI）实验室：CSAIL正式开设计算机视觉课程。
20世纪80年代《视觉》一书的问世，标志着计算机视觉成为了一门独立学科。
1999年， David Lowe 发表《基于局部尺度不变特征（SIFT特征）的物体识别》，标志着研究人员开始停止通过创建三维模型重建对象，而转向基于特征的对象识别。
2005年，由Dalal & Triggs提出来方向梯度直方图，HOG（Histogramof Oriented Gradients）应用到行人检测上。是目前计算机视觉、模式识别领域很常用的一种描述图像局部纹理的特征方法。
在这里插入图片描述
2009年，李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，发布了ImageNet数据集，这是为了检测计算机视觉能否识别自然万物，回归机器学习，克服过拟合问题，经过三年多在筹划组建完成的一个大的数据集。ImageNet是计算机视觉发展的重要推动者，和深度学习热潮的关键推动者，将目标检测算法推向了新的高度
2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”，也即现在众所周知的 AlexNet，赢得了当年的 ILSVRC。这是史上第一次有模型在 ImageNet 数据集表现如此出色。论文“ImageNet Classification with Deep Convolutional Networks”，迄今被引用约 7000 次，被业内普遍视为行业最重要的论文之一，真正展示了 CNN 的优点。机器识别的错误率从25%左右。降低了百分之16%左右，跟人类相比差别不大。是自那时起，CNN 才成了家喻户晓的名字。
2014年，蒙特利尔大学提出生成对抗网络（GAN）：拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据，而另一个网络则试图将假数据区分出来。
2015年，何恺明等人发表了resnet，这个网络为解决梯度消失问题做出了巨大贡献，它之所以可以解决梯度消失问题从数学上说是因为对f(x)+x求到后，始终有个常数1存在，因此梯度不会消失。之后resnet作为backbone大量用于检测、属性分析等等领域。
2016年以yolo/faster rcnn/ssd 为代表的目标检测算法有了质的飞跃，yolo系列让目标检测领域达到了实时的处理效果，虽然最初版本的yolo对于小目标处理失效，但随着fpn的发明，一定程度上解决了小目标的问题。faster rcnn系列则以其鲁棒性著称。ssd更像是两者的结合。
2017年，hinton等人为了解决cnn对于全局位置不敏感的问题，发明了胶囊网络。在此之前由于cnn只对局部位置敏感，因此对于器官错位等假图片的处理是失效的。

行业大牛

在这里插入图片描述
2018年图灵奖颁给了ai领域的三个大牛，如上图所示。
在 1986 年的一篇论文中，Hinton 与 David Rumelhart 和 Ronald Williams 提出了反向传播，这篇论文即著名的《Learning Internal Representations by Error Propagation》。Hinton 等研究者表示反向传播算法允许神经网络探索数据内部的深层表征，因此神经网络才能解决以前被认为无法解决的问题。反向传播目前已经成为训练深度神经网络所必需的算法。
在上个世纪九十年代，Bengio 提出将神经网络与序列的概率建模相结合，例如隐马尔可夫模型这种序列的概率建模方法。这些创新观点被 AT&T/NCR 所接受，并用于阅读手写支票，该系统被认为是九十年代神经网络研究的巅峰之作，现代基于深度学习的语音识别系统都是在这些概念上继续扩展的。
20 世纪 80 年代，LeCun 构建了卷积神经网络，这是该领域的一项重要理论，对于提高深度学习效率至关重要。20 世纪 80 年代后期，LeCun 就职于多伦多大学和贝尔实验室，也是在这一时期，它利用手写数字图像训练了第一个卷积神经网络系统。如今，卷积神经网络已成为计算机视觉、语音识别、语音合成、图像合成和自然语言处理领域的行业标准。卷积神经网络有着广泛的应用，如自动驾驶、医学图像分析、语音助手和信息过滤等。