模型构建好后,如何判断这个模型好不好?或者说,对于两个模型,如何判断哪个模型更好呢?本文将简单综述模型评价的各种方法。

对于模型的评价,主要分为2个角度:一个是模型的Discrimination(区分度),或称预测精度,评价的指标包括AUC、C指数、NRI等;另一个是Goodness of Fit(拟合优度),或称Calibration(校准度),评价指标包括AIC、BIC、R方、Brier分数等。根据实际问题的不同,对这两方面的重视程度有所不同。一般来说,大多数情景更加注重Discrimination,也就是说,往往先应满足Discrimination的能力较高后,再评价Calibration表现能力。

 

区分度

区分度评价的是模型预测结果准确性(分类问题中就是指分类正确的能力)。

AUC:二分类问题中最常用的指标,详情可参考二分类模型AUC评价法生存模型的AUC

C指数:又称一致性指数(concordance index),生存模型中最常用的指标(二分类问题中指的就是AUC),详情可参考生存模型的C指数

NRI:即净重新分类改善指数,用于比较2个模型孰优孰劣,本质上是两个模型的约登指数之差,详情可参考NRI 净重新分类改善指数

IDI:Integrated Discrimination Improvement,即综合判别改善指数,是2008年Pencina等人提出的一个非常新的指标,是对AUC和NRI的综合改善,详情可参考IDI 综合判别改善指数

其他:约登指数、敏感度、特异度等请自行查找资料理解。

 

拟合优度或校准度

AIC:全称Akaike information criterion,又称赤池信息准则,建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性(可以在参数数量和拟合能力之间权衡分析)。增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。假设在n个模型中做出选择,可一次算出n个模型的AIC值,并找出最小AIC值相对应的模型作为选择对象。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

BIC:与AIC一样是对模型的拟合效果进行评价的一个指标,BIC值越小,则模型对数据的拟合越好。

Hosmer–Lemeshow:The Hosmer–Lemeshow test是评价logistic regression models拟合优度的常用方法,常在风险预测模型中使用。

Brier分数:是probability calibration中常用的评价指标,详情可参考概率校准 Probability Calibration

 

其他:简单的如MSE、R方等,此处不作描述,网上资料很多,而其他较复杂的本人暂时接触较少,请自行查阅学习。

Logo

分享最新、最前沿的AI大模型技术,吸纳国内前几批AI大模型开发者

更多推荐