机器学习模型的选择、融合与调优

文章目录一、模型的选择二、模型的优化1.模型状态判断2.模型优化三、模型融合四、参考一、模型的选择模型分为回归模型，分类模型，聚类模型等，在选择模型的时候，具体问题具体分析，将具体的问题划归到实际的模型类别若是实际问题的数据量比较小的话，直接查看数据进行简单模型拟合就能得到，数据的内部关系，没必要选择模型进行机器学习否则采集更多的数据根据数据类型也可以选择相应的模型。例如，音频...

Taylor......

709人浏览 · 2019-06-08 20:49:04

Taylor...... · 2019-06-08 20:49:04 发布

文章目录

一、模型的选择

模型分为回归模型，分类模型，聚类模型等，在选择模型的时候，具体问题具体分析，将具体的问题划归到实际的模型类别
若是实际问题的数据量比较小的话，直接查看数据进行简单模型拟合就能得到，数据的内部关系，没必要选择模型进行机器学习

否则采集更多的数据

根据数据类型也可以选择相应的模型。例如，音频数据，图像数据，数值型，文字型数字等等

二、模型的优化

1.模型状态判断

模型的状态分为过拟合和欠拟合状态，一般判断过拟合和欠拟合可以

绘制模型拟合的曲线直观地观察。如下：

2.可以根据训练样本效果和测试样本效果的对比判断，若训练样本的效果远大于测试样本的效果，就是过拟合；如果两种效果都很差劲则欠拟合

2.模型优化

根据模型的状态对症下药

过拟合是在实际应用中经常出现的问题

最有效最简单的方式就是找更多的数据来学习
增大正则化的惩罚系数
筛选重要有效的特征也是一个比较好的途径
模型融合（增加不同类型模型的融合）

欠拟合

欠拟合一般是模型的表达能力不够，可以考虑换表达效果更好的模型
减小正则化系数（一般作用比较小）
增加挖掘数据中更好的更有效的特征

对于物理意义明显的模型

对其权重尽行分析，细致化做更加多元的特征组合
bad- case 分析看下具体模型在处理哪些数据时出错了，没有达到效果

三、模型融合

上一文中已经提到bagging思想
模型融合的类型：

集成思想主要分为两大流派：Boosting一族通过将弱学习器提升为强学习器的集成方法来提高预测精度（典型算法为AdaBoost）；而另一类则为Bagging，即通过自助采样的方法生成众多并行式的分类器，通过“少数服从多数”的原则来确定最终的结果（典型算法为随机森林）

Bagging（Random Forest）

基本思想：所谓集体的智慧是伟大
图示：
对样本进行有放回的抽样，同时对样本属性也进行抽样的话，就是强大的RF
结果融合的时候，对于分类问题可以应用投票的方式；对于回归问题可以应用求平均的方式

Stacking

基本的思想：站在巨人的肩膀上，应用前面学习器学习得到的结果，再进行下一层学习器的学习
图示：
第二层（Level 1）一般使用线性模型，在Level 0中学习得到的结果送入Level 1 中很容易出现过拟合的现象（如果Level 1 应用拟合效果较强的非线性模型）

Adaboost(GDBT)

基本思想：针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)

通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征，并放在关键的训练数据上面。