多模态融合

多模态机器学习MultiModal Machine Learning (MMML)，旨在通过机器学习理解并处理多种模态信息。包括多模态表示学习Multimodal Representation，模态转化Translation，对齐Alignment，多模态融合Multimodal Fusion，协同学习Co-learning等。

文章共2,390字 · 阅读需要大约8分钟

一键AI生成摘要，助你高效阅读

问答

Slientsake

25709人浏览 · 2021-06-23 22:03:25

Slientsake · 2021-06-23 22:03:25 发布

多模态融合：
多模态机器学习MultiModal Machine Learning (MMML)，旨在通过机器学习理解并处理多种模态信息。包括多模态表示学习Multimodal Representation，模态转化Translation，对齐Alignment，多模态融合Multimodal Fusion，协同学习Co-learning等。

多模态融合Multimodal Fusion也称多源信息融合(Multi-source Information Fusion)，多传感器融合(Multi-sensor Fusion)。多模态融合是指综合来自两个或多个模态的信息以进行预测的过程。在预测的过程中，单个模态通常不能包含产生精确预测结果所需的全部有效信息，多模态融合过程结合了来自两个或多个模态的信息，实现信息补充，拓宽输入数据所包含信息的覆盖范围，提升预测结果的精度，提高预测模型的鲁棒性。
一、融合方法
在这里插入图片描述
1.1早期融合

为缓解各模态中原始数据间的不一致性问题，可以先从每种模态中分别提取特征的表示，然后在特征级别进行融合，即特征融合。由于深度学习中会涉及从原始数据中学习特征的具体表示，从而导致有时需在未抽取特征之前就进行数据融合，因此数据层面和特征层面的融合均称为早期融合。
特征融合实现过程中，首先提取各输入模态的特征，然后将提取的特征合并到融合特征中，融合特征作为输入数据输入到一个模型中，输出预测结果。早期融合中，各模态特征经转换和缩放处理后产生的融合特征通常具有较高的维度，可以使用主成分分析( PCA) 和线性判别分析( LDA) 对融合特征进行降维处理。
早期融合中模态表示的融合有多种方式，常用的方式有对各模态表示进行相同位置元素的相乘或相加、构建编码器—解码器结构和用 LSTM 神经网络进行信息整合等。

1.2 晚期融合
在这里插入图片描述
晚期融合方法也称决策级融合方法，先用不同模型对不同模态进行训练，再融合多个模型输出的结果。晚期融合方法主要采用规则来确定不同模型输出结果的结合策略，例如最大值结合、平均值结合、贝叶斯规则结合以及集成学习等结合方法。
与早期融合相比，晚期融合可较简单地处理数据的异步性，整个系统可以随模态个数的增加进行扩展，每个模态的专属预测模型能更好地针对该模态进行建模，当模型输入缺少某些模态时也可以进行预测。然而晚期融合也存在一些缺点，如未考虑特征层面的模态相关性、实现难度更高等。

1.3 混合融合
在这里插入图片描述
混合融合方法结合早期和晚期融合，在综合两者优点同时也增加了模型结构复杂度和训练难度。研究表明：各融合方式并无确定的优劣关系，在不同的实验条件下，可以尝试不同的融合方式以获得较好的融合结果。
二、应用实例
2.1基于多模态特征和多分类器融合的前列腺癌放疗中直肠并发症预测
在这里插入图片描述
上述模型首先在分类器层面上进行第一轮融合，然后在模态层面上进行第二轮融合。因此需要为每个分类器以及每个模态（临床参数特征和剂量学特征）分配权重。权重分配后，依次实现分类器决策融合与模态信息融合。

1.分类器决策融合，是对每个分类器的预测概率进行加权求和：
在这里插入图片描述
其中，表示单模态下各个分类器对待预测样本的预测概率值，表示每个分类器的权重，为当前模态下融合多分类器信息后的预测概率。

2.多模态信息融合，是对单模态决策的结果进行加权求和：
在这里插入图片描述
其中，为每个单模态下多分类器融合的预测概率，为分配给该模态的权重。经过以上两次融合，最终得到患者发生并发症的概率P和不发生并发症的概率(1-P)。

2.2基于多模态特征融合的骨质疏松评估
在这里插入图片描述
图像特征包含骨骼结构信息，问卷特征包含骨质疏松影响因素的个体信息，两方面的模态信息存在一定的互补关系，有必要进行适当的特征融合。

目前特征融合方法有以下几种：特征向量按照人工规则线性融合；计算多个向量相似度矩阵，按照相似度进行融合；直接拼接特征向量。
在这里插入图片描述

实验中交叉验证结果表明，多模态特征融合方法与仅单独使用图像数据或问卷数据的机器学习方法相比，分类准确率有了明显提升。

2.3多模态融合下长时程肺部病灶良恶性预测
在这里插入图片描述

针对同一病人从早期到确诊的 CT 影像，分别提取肺结节图像的传统特征与深度特征（双模态），利用一个两层神经网络进行相关性融合；然后选取不同时期的肺结节多模态特征融合向量，利用长短期记忆网络研究各时期特征向量的变化趋势及关系，利用双向长短期记忆模型预测长时程下肺部病灶的演化趋势并确定其良恶性。
通过构建一个双层神经网络实现特征融合：输入层为传统特征与深度特征的串接，通过学习隐藏层的权值得到融合后的特征。隐藏层的节点数为融合特征的维数。
在这里插入图片描述

2.4 基于随机化融合和CNN的多模态肺部肿瘤图像识别
在这里插入图片描述

使用三个不同的医学影像数据集，视为三个不同的模态信息，共同执行肺部肿瘤图像识别：
（１）利用改进的Lenet-5网络模型实现对多模态肺部肿瘤图像并行地特征提取；
（２）利用随机化函数对并联的多模态特征进行融合，重建同一维度的目标特征；
（３）添加全连接层和分类层对网络进行回归训练，从而得到分类结果。
在step3中，采用随机化融合方法实现特征融合：
通过对CNN模型的微调，将构造好的三个单模态CNN全连接层的192维特征向量、相对应的权值和偏置分别提取出来，利用随机函数

将特征向量、对应的权重及偏置分别进行随机化融合，同时遵循对应位置不变的融合规则。
在这里插入图片描述

随机化特征融合过程：分别代表不同模态的特征矩阵，分别表示某一行的特征向量，分别代表对应于的权值，分别表示某一行对应的权值．在随机化融合过程中，根据同一随机化原则，将和进行对应位置融合，随机化融合后得到与之前同样大小的融合矩阵，再将融合后的矩阵与权值输入激活函数中，得到分类结果。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

【目标检测】目标检测的一些常用神经网络模型及方法

我的阶段性总结????文章目录1.概述1.2 目标检测的任务1.3 目标检测的分类2.R-CNN系列2.1 [R-CNN（Region with CNN features）](https://arxiv.org/pdf/1311.2524.pdf)2.2 [Fast R-CNN](https://www.cv-foundation.org/openaccess/content_iccv_2015/