计算机视觉任务本质:

可以建模为广义的函数拟合问题
即对任意输入图像,需要学习一个以为参数的函数,使得
可能有两大类:
1.为类别标签,对应模式识别或机器学习中的分类问题
如场景分类、图像分类、物体识别、精细物体类识别、人脸识别等
为有限种类的离散型变量
2.为连续变量或向量或矩阵,对应回归问题
如距离估计、目标检测、语义分割等
或是连续变量:距离、年龄、角度
或是向量:物体的横纵坐标位置和长宽
或是每个像素有一个所属物体类别的编号:分割结果

多数视觉模型和方法分类:

一类:2012年以来应用最广泛的深度模型和学习方法
一类:浅层模型和方法

基于浅层模型的方法:

步骤一:图像与处理过程p
用于实现目标对齐(人脸对齐:找面部关键点)、几何归一化(尺寸统一)、亮度或颜色矫正等处理,从而提高数据一致性,该过程一般由人为设定

步骤二:特征设计与提取过程q
其功能是从预处理后的图像中提取描述图像内容的特征
这些特征可能反映图像的低层(如边缘)、中层(如部件)或高层(如场 景)特性,一般依据专家知识进行人工设计

步骤三:特征汇聚或特征变换h
其功能是对前步提取的局部特征(一般是向量)进行统计汇聚或降维处理,从而得到维度更低、更利于后续分类或回归过程的特征
该过程一般通过专家设计的统计建模方法实现:例如,一种常用的模型是线性模型,即,其中为矩阵形式表达的线性变化,一般在训练集合进行学习得到

步骤四:分类器或回归器函数g的设计与训练
其功能是采用机器学习或模式识别的方法,基于一个有导师的训练集学习得到,通过有监督的机器学习方法来实现

1.特征设计与提取方法
人工设计特征本质上是一种专家知识驱动的方法,设计某种流程来提取专家觉得好的特征
多数人工设计的特征有两类:全局特征和局部特征
全局特征:
粒度比较粗,适合于需要高效无需精细分类的任务,比如场景分类或大规模图像检索等
典型的全局特征对颜色、全图结构或形状等进行建模,例如在全图上计算颜色直方图、傅里叶频谱
另一种典型的全局场景特征为GIST特征,主要对图像场景的空间形状属性进行建模,如开放度、自然度、粗糙度、扩张度和崎岖度
局部特征:
提取更为精细的特征,应用更为广泛
数百种局部特征大多数以建模边缘、梯度、纹理等为目标,采用的手 段包括滤波器设计、局部特征量计算、直方图等
典型的局部特征有SIFT、SURF、HOG、LBP、Gabor滤波器、DAISY、 BRIEF、ORB、BRISK等数十种

LBP:
局部二值模式(local binary patterns)
一种简单有效地编码图像局部区域内变化模式(即微纹理)的局部描述子
只关心梯度符号,只关心中心像素与其邻域内像素的明暗关系
顺时针串接,256种模式类型
0	0	00		01	1	170	75	7277	80	7588	84	82

上述256中二值模式出现的概率是差异的,为了获得鲁棒性并减少模 式类别数,LBP的设计者们定义了均衡模式(uniform patterns)和非 等价模式的概念
均衡模式:0/1串中最多包含2次0-1或1-0跳变,共58种
非均衡模式在自然图像中出现的非常少,被归为一类模式
故共59种不同的二值模式,不能直接作为图像描述子,需要对其进 行直方图统计(可以在全图进行,通常在局部子图像进行)才能形成图像描述特征
在这里插入图片描述

128160像素大小分成20个子图像,每个子图像大小3232
按照33邻域LBP计算,每个子图像个模式值3030=900
统计它们中出现59个模式值的频数,即得到一个59维的直方图
在这里插入图片描述

20个子图,LBP算子特征维数为20*59
LBP 最初主要用于纹理图像分类,后被用于人脸识别与人脸检测
考虑旋转不变性的LBP局部三值模式等变种应用于在人脸检测与识 别、行人与车辆检测、目标跟踪等(LFW人脸检测集高维LBP)

2.特征汇聚与特征变换方法
方便把高维特征进一步编码到某个维度更低或者具有更好判别能力的新空间
特征汇聚方法:
典型方法包括词袋模型、Fisher向量和局部聚合向量(VLAD)方法
词袋模型:
Bag-of-words,BOW
最早出现在自然语言处理(NLP)和信息检索(IR)领域
Bag-of-visiual-words,BOVW
图像可以看作文档、图像中的局部视觉特征(visiual feature)可以看 作单词(words)的实例,从而实现大规模图像检索等
特征变换方法(子空间分析法):
典型方法 主成分分析法(PCA)、线性判别分析、核方法、流形学习
PCA:
在最小均方误差意义下最优的线性变换降维方法,CV应用广泛
无监督降维方法
FLDA:
费舍尔线性判别分析方法:类内散度小,类间散度大
核方法:
非线性
核方法不直接构造或学习非线性映射函数本身,而是在原始特征 空间通过核函数(kernel function)来定义目标“高维隐特征空 间”中的內积
无需显式得到映射函数和目标空间,计算模式向量距离或相似度
流形学习:
非线性,manifold learning
寻求将高维的数据映射到低维本征空间的低维嵌入,要求该低 维空间中的数据能够保持原高维数据的某些本质结构特征
流形学习方法:等距映射ISOMAP和局部线性嵌入(LLE)

3.分类器或回归器设计
计算机视觉中的分类器:
最近邻分类器、线性感知机、决策树、随机森林、支持向量机、AdaBoost、 神经网络等都适用

注意:
直方图类特征:面向分布的距离如直方图交、KLD、卡方距离
PCA、FLDA变换后的特征:欧氏距离或Cosine相似度
二值化特征:海明距离

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐