（多模态 / 多维度）特征融合

人生简洁之道

32066人浏览 · 2020-12-02 13:14:32

人生简洁之道 · 2020-12-02 13:14:32 发布

文章目录

多维度是数学上的，即张量
多模态是数据类型上的，比如音频，视频，图像，传感器回传数值

模式分类中的特征融合方法

引入

传统模式识别思路：特征工程（特征提取、特征降维、特征融合等）、分类器设计、训练测试
特征如：颜色特征、SIFT特征、HOG特征、HOF特征、GIST特征等
分类器如：KNN、SVM，Random Forest、CNN等
特征分为：人工设计的特征和深度特征，前者特点鲜明意义明确，后者面向具体问题（即理解为提取的特征是针对CNN训练时侧重的具体问题和场景）
一般特征存在：类内方差小而类间方差大（即不同样本的同种特征的差异小，而不同的特征的差异大），所以从这里就可以知道 多模态的特征 融合不能是简单的相加相减或者拼接就完事了，会导致可能融合的特征会出现被某种特征所主宰的情况。所以特征融合是能好好研究的（即研究有难度、有价值和有意义）
基于两个经验前提：① 不同特征有独立性（即相关性小）② 多特征融合较单一特征可分类性能更好
- 为啥这样说呢？就是三个臭皮匠顶个诸葛亮，每个特征管图像目标的一方面特性，那融合后的特征表示就更加能全面的表示目标/图像，即使不同图像的部分特征的差异小，其他特征仍有区分度，所以整个算法也就更加 rubust（鲁棒性）
信息融合 从处理层次划分为：决策级（分类器级 decision level fusion）、特征级( feature level fusion) 和数据（这里就是图像）级(data level fusion)
- 所以特征融合处于中间层次融合的这种地位
- 本质就是基于已有特征集合生成新的更鲁棒更精确全面的特征

现状 ( < 2017)

贝叶斯决策理论¹：总结了乘法规则、加法规则、最大规则、最小规则、中位数规则、多数票规则等经典的融合规则
基于联合稀疏表示的特征级融合方法²:
稀疏核降秩回归模型³ ( SKRRR, sparse kernel reducedrank regression)
图像检索中的重排序( re-ranking) 问题中⁴
balaba (介绍了视频处理的涉及特征融合的算法雨女无瓜)
总结特征融合的研究现状：
- 基于贝叶斯决策理论的算法，它的基础是统计推断和估计理论，这类算法目的在于求解联合概率密度;
- 基于稀疏表示理论的算法，这类算法通常与最优化理论相结合，将
  特征融合问题转化为优化问题，进而求解联合稀疏表示来达到融合目的;
- 基于深度学习理论的算法，这种算法的主要思想是在深度卷积神经网
  络中加入特征融合过程，以改进网络模型．

算法

基于贝叶斯理论的特征融合算法

决策级水平融合(*)

该理论先从决策级发展出来的，一句话，取后验概率最大的类别标签作为最终类别
x：分类器输出结果；w：分类标签
$\begin{aligned} & x \rightarrow \omega_{j}, \\ \text { if } F\left(\omega_{j}\right) &=\max _{k=1, \cdots, C} P\left(\omega_{k} \mid x\right) \end{aligned} \\ P\left(\omega_{k} \mid \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M}\right)=\frac{p\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M} \mid \omega_{k}\right) p\left(\omega_{k}\right)}{p\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{M}\right)}$
防止除0，直接取对数：
$\begin{array}{c} Z \rightarrow \omega_{j} \\ \text { if } F\left(\omega_{j}\right)= \\ \max _{k=1}\left[(1-M) P\left(\omega_{k}\right)+ \sum_{i=1}^{M} P\left(\omega_{k} \mid x_{i}\right)\right] \end{array}$
先验后验近似相等情况下，认为：
$P\left(\omega_{k} \mid \boldsymbol{x}_{k}\right)=P\left(\omega_{k}\right)\left(1+\delta_{k i}\right)$
搞一堆公式，最后发现，近似取 $P\left(\omega_{k}\right)$ 最大的标签就完事了！

特征级水平融合

由于分类器独立性假设与先验概率和后验概率近似相等假设都有相应的成立条件，在各种应用情景中不一定完全成立，尤其是 分类器独立性假设在许多分类问题中都难以成立．
线性特征依赖模型⁵：该算法将特征量的每个维度都看作一个分类器，致使运算时间复杂度较高，有待改进． 评价：卵用没有

基于稀疏表示理论的特征融合算法

稀疏表示理论是信号处理领域的一种基础理论，它的基本思想是使用数据稀疏性这一先验知识，从一个超完备字典中找到尽可能少的原子对目标信号进行线性表示．
$\begin{array}{l} \min \|\boldsymbol{x}\|_{0} \\ \text { s.t. } \boldsymbol{A x}=\boldsymbol{b} \end{array}$
A是字典，b是特征
学习稀疏表示矩阵x
显然稀疏表达的效果好坏和我们用的字典有着密切的关系。字典分两类，一种是预先给定的分析字典，比如小波基、DCT等，另一种则是针对特定数据集学习出特定的字典。这种学出来的字典能大大提升在特定数据集的效果。

基于深度学习的特征融合算法

偏传统的特征融合方法⁶

下图这种方法，可以作为毕设中 偏机器学习特征融合算法的 补充
直接用全连接层，这种方法需要你手动框选出一些目标区域和(背景/Distractor)作为样本，上述是一种图像分类网络，只不过特征是手动设计的
类似的，可以采用随机森林替代全连接层

一些多模态特征融合的思路方法⁷

基于线性规划模型

线性分类器， $y(\mathbf{x})=w^{T} \cdot \mathbf{x}+c$
建模成为一个具有稀疏性的线性规划模型，并从最大间隔原理、稀疏性和松弛变量三个方面，分别详细地阐述和分析该学习方法的原理和作用。
作者就是在把 SVM写了一遍 … …
这里还是做了一个分类器，直接就是线性分类器，权重w就是在表示改特征的重要性！

基于稀疏高维映射

在这里插入图片描述

乱七八糟，不知所云

Adaboost 算法其实也可以看成是一种特征融合的算法

字典学习系数表示特征融合

多特征联合稀疏表示人脸表情识别方法⁸ Page 34

Kittler J, Hatef M, Duin R P W, et al. On combining classifiers[J]. IEEE transactions on pattern analysis and machine intelligence, 1998, 20(3): 226-239. ↩︎
Shekhar S, Patel V M, Nasrabadi N M, et al. Joint sparse representation for robust multimodal biometrics recognition[J]. IEEE Transactions on pattern analysis and machine intelligence, 2013, 36(1): 113-126. ↩︎
Yan J, Zheng W, Xu Q, et al. Sparse kernel reduced-rank regression for bimodal emotion recognition from facial expression and speech[J]. IEEE Transactions on Multimedia, 2016, 18(7): 1319-1329. ↩︎
Bai S, Bai X. Sparse contextual activation for efficient visual re-ranking[J]. IEEE Transactions on Image Processing, 2016, 25(3): 1056-1069. ↩︎
A. J. Ma, P. C. Yuen and J. Lai, “Linear Dependency Modeling for Classifier Fusion and Feature Combination,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 5, pp. 1135-1148, May 2013, doi: 10.1109/TPAMI.2012.198. ↩︎
面向目标识别的多特征融合研究与实现 ↩︎
基于特征层与分数层的多模态生物特征融合 ↩︎
多特征融合人脸表情识别方法研究_丁泽超 ↩︎