机器学习中常用的评价指标:分类(准确率、精确率、召回率、F1-score、AUC)、回归(MSE、RMSE、MAE、 R2)、聚类(轮廓系数、SSE、Calinski-Ha)
机器学习常用评价指标,分类问题:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score、ROC 曲线和 AUC 值、Log 损失(Log Loss),回归问题:均方误差(MSE,Mean Squared Error)、均方根误差(RMSE,Root Mean Squared Error)、平均绝对误差(MAE,Mean Absolute Error)、决
我们列举一些在分类问题、回归问题、聚类问题、以及其他常用指标中的评价指标,并且为每个评价指标提供了公式和详细说明。
1. 分类问题的常用评价指标
分类问题是指将样本归类到离散的类别中,常用的评价指标有以下几种:
(1) 准确率(Accuracy)
公式:
Accuracy=TP + TNTP + TN + FP + FN \text{Accuracy} = \frac{\text{TP + TN}}{\text{TP + TN + FP + FN}} Accuracy=TP + TN + FP + FNTP + TN
说明:准确率表示预测正确的样本数占总样本数的比例。适用于类别分布平衡的情况。当类别分布不平衡时,准确率可能误导,因为即使模型大部分时间都预测为多数类,准确率仍然较高。
- TP:真阳性(True Positive),即正类被正确预测为正类的数量。
- TN:真阴性(True Negative),即负类被正确预测为负类的数量。
- FP:假阳性(False Positive),即负类被错误预测为正类的数量。
- FN:假阴性(False Negative),即正类被错误预测为负类的数量。
(2) 精确率(Precision)
公式:
Precision=TPTP + FP \text{Precision} = \frac{\text{TP}}{\text{TP + FP}} Precision=TP + FPTP
说明:精确率表示预测为正类的样本中,实际为正类的比例。它适用于我们关心假阳性 (FP) 的情况,如垃圾邮件检测,过多的假阳性可能导致正常邮件被误判为垃圾邮件。
(3) 召回率(Recall)
公式:
Recall=TPTP + FN \text{Recall} = \frac{\text{TP}}{\text{TP + FN}} Recall=TP + FNTP
说明:召回率表示所有实际为正类的样本中,被正确预测为正类的比例。适用于我们关心假阴性(FN) 的情况,如医疗诊断中我们关心漏诊患者的情况。
(4) F1-score
公式:
F1-score=2×Precision×RecallPrecision+Recall \text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} F1-score=2×Precision+RecallPrecision×Recall
说明:F1-score 是精确率和召回率的调和平均,平衡了精确率和召回率。适用于类别不平衡的问题,因为它考虑了假阳性和假阴性对模型性能的综合影响。
(5) ROC 曲线和 AUC 值
-
ROC 曲线:绘制真正率(True Positive Rate, TPR)和假正率(False Positive Rate, FPR) 在不同阈值下的变化曲线。
- TPR(真正率)或召回率:
TPR=TPTP + FN \text{TPR} = \frac{\text{TP}}{\text{TP + FN}} TPR=TP + FNTP - FPR(假正率):
FPR=FPFP + TN \text{FPR} = \frac{\text{FP}}{\text{FP + TN}} FPR=FP + TNFP
- TPR(真正率)或召回率:
-
AUC 值(Area Under the ROC Curve):ROC 曲线下面的面积,取值范围为 0 到 1,越接近 1 表示模型的分类效果越好。
(6) Log 损失(Log Loss)
公式:
Log Loss=−1N∑i=1N[yilog(pi)+(1−yi)log(1−pi)] \text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right] Log Loss=−N1i=1∑N[yilog(pi)+(1−yi)log(1−pi)]
说明:Log 损失衡量模型给出的概率预测与实际类别标签之间的偏离程度,适用于具有概率输出的分类模型。值越小表示模型预测效果越好。
2. 回归问题的常用评价指标
回归问题中,模型输出的是连续值,常见的评价指标有:
(1) 均方误差(MSE,Mean Squared Error)
公式:
MSE=1n∑i=1n(yi−yi^)2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2 MSE=n1i=1∑n(yi−yi^)2
说明:MSE 衡量模型预测值与真实值之间差值的平方和的均值。它对误差进行了平方,因此对异常值非常敏感。MSE 值越小表示模型性能越好。
- yiy_iyi 是实际值。
- yi^\hat{y_i}yi^ 是预测值。
- nnn 是样本数。
(2) 均方根误差(RMSE,Root Mean Squared Error)
公式:
RMSE=1n∑i=1n(yi−yi^)2 \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2} RMSE=n1i=1∑n(yi−yi^)2
说明:RMSE 是 MSE 的平方根,具有与原始数据相同的单位,更易于解释。RMSE 也对异常值敏感,值越小表示模型性能越好。
(3) 平均绝对误差(MAE,Mean Absolute Error)
公式:
MAE=1n∑i=1n∣yi−yi^∣ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}| MAE=n1i=1∑n∣yi−yi^∣
说明:MAE 衡量的是预测值与实际值之间的绝对误差的平均值。与 MSE 不同,MAE 对异常值不敏感,因此更稳健。
(4) 决定系数(R2R^2R2 或 RRR平方)
公式:
R2=1−∑i=1n(yi−yi^)2∑i=1n(yi−yˉ)2 R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−yi^)2
说明:R2R^2R2 用于衡量模型对数据变异的解释能力。其值介于 0 到 1 之间,越接近 1,表示模型对数据的拟合效果越好。R2=1R^2 = 1R2=1 表示完美拟合。
3. 聚类问题的常用评价指标
聚类问题是无监督学习中的一类任务,模型需要将数据样本进行划分,常见的评价指标有:
(1) 轮廓系数(Silhouette Coefficient)
公式:
SC=b−amax(a,b) \text{SC} = \frac{b - a}{\max(a, b)} SC=max(a,b)b−a
说明:轮廓系数用于衡量聚类结果的紧凑性和分离度,取值范围为 -1 到 1,值越大表示聚类效果越好。
- aaa 是某个样本与其所属簇的平均距离(簇内距离)。
- bbb 是某个样本与最近的其他簇的平均距离(簇间距离)。
(2) SSE(Sum of Squared Errors)
公式:
SSE=∑i=1k∑x∈Ci∣∣x−μi∣∣2 \text{SSE} = \sum_{i=1}^{k} \sum_{x \in C_i} ||x - \mu_i||^2 SSE=i=1∑kx∈Ci∑∣∣x−μi∣∣2
说明:SSE 衡量每个点到其所属簇中心的距离平方和,通常用于 K 均值聚类算法的优化目标。SSE 越小表示聚类效果越好。
- CiC_iCi 表示第 iii 个簇。
- μi\mu_iμi 是第 iii 个簇的质心。
- xxx 是簇中的样本点。
(3) Calinski-Harabasz 指数
公式:
CH=类间方差类内方差×N−kk−1 \text{CH} = \frac{\text{类间方差}}{\text{类内方差}} \times \frac{N - k}{k - 1} CH=类内方差类间方差×k−1N−k
说明:Calinski-Harabasz 指数用于衡量类间方差与类内方差的比值,适用于评估聚类的紧凑性和分离度,值越大表示聚类效果越好。
- NNN 是样本数量。
- kkk 是簇的数量。
4. 其他常用评价指标
(1) AIC 和 BIC(Akaike 信息准则和贝叶斯信息准则)
-
AIC(Akaike Information Criterion):
AIC=2k−2log(L) \text{AIC} = 2k - 2\log(L) AIC=2k−2log(L)
其中,kkk 是模型的参数个数,LLL 是模型的似然函数值。 -
BIC(Bayesian Information Criterion):
BIC=klog(n)−2log(L) \text{BIC}= k \log(n) - 2\log(L) BIC=klog(n)−2log(L)
其中,nnn 是样本数量,kkk 是参数个数,LLL 是似然函数值。
说明:AIC 和 BIC 用于模型选择,考虑模型的拟合效果和复杂度。AIC 和 BIC 值越小,模型越好。
(2) 混淆矩阵(Confusion Matrix)
公式:对于二分类问题,混淆矩阵展示了预测结果的详细信息:
[TPFPFNTN] \begin{bmatrix} \text{TP} & \text{FP} \\ \text{FN} & \text{TN} \end{bmatrix} [TPFNFPTN]
说明:混淆矩阵直观展示了模型预测的正类和负类的正确和错误情况,适用于多分类问题中分类结果的评价。
总结:
- 分类问题常用的评价指标有准确率、精确率、召回率、F1-score、AUC等。
- 回归问题常用的评价指标有 MSE、RMSE、MAE、R2R^2R2 等。
- 聚类问题常用的评价指标有轮廓系数、SSE、Calinski-Harabasz 指数等。
更多推荐




所有评论(0)