【深度学习】Early fusion vs Late fusion

在机器学习这个领域，尤其是做多媒体（声音、图像、视频）相关的机器学习方法研究，会涉及很多特征、分类模型（分类任务）的选择。以声音识别为例，常见的特征有MFCC、LPCC、spectrogram-like features 等，分类模型就很多了，有传统的分类模型SVM、KNN、Random Forest，还有现在比较火的深度模型DNN、CNN、RNN等。而往往单特征、单模型很难取得理想的性能（per

z小白

19915人浏览 · 2018-03-17 16:10:22

z小白 · 2018-03-17 16:10:22 发布

一个重要的方法就是进行融合（fusion）。典型的fusion方法有early fusion和late fusion。顾名思义，early fusion就是在特征上（feature-level）进行融合，进行不同特征的连接（concatenate），输入到一个模型中进行训练；late fusion指的是在预测分数（score-level）上进行融合，做法就是训练多个模型，每个模型都会有一个预测评分，我们对所有模型的结果进行fusion，得到最后的预测结果。常见的late fusion方法有取分数的平均值（average）、最大值（maximum）、加权平均（weighted average），另外还有采用Logistics Regression的方法进行late fusion。总之，方法很多，可视情况采取。

Fusion是一个提高模型性能的很好的方法，在参加kaggle比赛或者平时做项目上都是一个很常用的方法，尤其是像kaggle比赛这种比赛性质的，基本每一位参赛者的结果都是进行fusion后的结果，这里，模型融合也可以叫做ensemble，理解意思就好。（小插曲：记得一次参加kaggle的关于物体检测的比赛，第一名的大佬train了100个模型最后进行的ensemble，我.....自行脑补我的懵逼脸）