机器学习中常用的评价指标：分类(准确率、精确率、召回率、F1-score、AUC)、回归（MSE、RMSE、MAE、 R2）、聚类（轮廓系数、SSE、Calinski-Ha）

机器学习常用评价指标，分类问题：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1-score、ROC 曲线和 AUC 值、Log 损失（Log Loss），回归问题：均方误差（MSE，Mean Squared Error）、均方根误差（RMSE，Root Mean Squared Error）、平均绝对误差（MAE，Mean Absolute Error）、决

正义的彬彬侠

3456人浏览 · 2024-09-27 21:24:26

正义的彬彬侠 · 2024-09-27 21:24:26 发布

我们列举一些在分类问题、回归问题、聚类问题、以及其他常用指标中的评价指标，并且为每个评价指标提供了公式和详细说明。

1. 分类问题的常用评价指标

分类问题是指将样本归类到离散的类别中，常用的评价指标有以下几种：

(1) 准确率（Accuracy）

公式：
$\text{Accuracy} = \frac{\text{TP + TN}}{\text{TP + TN + FP + FN}}$

说明：准确率表示预测正确的样本数占总样本数的比例。适用于类别分布平衡的情况。当类别分布不平衡时，准确率可能误导，因为即使模型大部分时间都预测为多数类，准确率仍然较高。

TP：真阳性（True Positive），即正类被正确预测为正类的数量。
TN：真阴性（True Negative），即负类被正确预测为负类的数量。
FP：假阳性（False Positive），即负类被错误预测为正类的数量。
FN：假阴性（False Negative），即正类被错误预测为负类的数量。

(2) 精确率（Precision）

公式：
$\text{Precision} = \frac{\text{TP}}{\text{TP + FP}}$

说明：精确率表示预测为正类的样本中，实际为正类的比例。它适用于我们关心假阳性（FP） 的情况，如垃圾邮件检测，过多的假阳性可能导致正常邮件被误判为垃圾邮件。

(3) 召回率（Recall）

公式：
$\text{Recall} = \frac{\text{TP}}{\text{TP + FN}}$

说明：召回率表示所有实际为正类的样本中，被正确预测为正类的比例。适用于我们关心假阴性（FN） 的情况，如医疗诊断中我们关心漏诊患者的情况。

(4) F1-score

公式：
$\text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$

说明：F1-score 是精确率和召回率的调和平均，平衡了精确率和召回率。适用于类别不平衡的问题，因为它考虑了假阳性和假阴性对模型性能的综合影响。

(5) ROC 曲线和 AUC 值

ROC 曲线：绘制真正率（True Positive Rate, TPR）和假正率（False Positive Rate, FPR） 在不同阈值下的变化曲线。
- TPR（真正率）或召回率：
  $\text{TPR} = \frac{\text{TP}}{\text{TP + FN}}$
- FPR（假正率）：
  $\text{FPR} = \frac{\text{FP}}{\text{FP + TN}}$
AUC 值（Area Under the ROC Curve）：ROC 曲线下面的面积，取值范围为 0 到 1，越接近 1 表示模型的分类效果越好。

(6) Log 损失（Log Loss）

公式：
$\text{Log Loss} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]$

说明：Log 损失衡量模型给出的概率预测与实际类别标签之间的偏离程度，适用于具有概率输出的分类模型。值越小表示模型预测效果越好。

2. 回归问题的常用评价指标

回归问题中，模型输出的是连续值，常见的评价指标有：

(1) 均方误差（MSE，Mean Squared Error）

公式：
$MSE=1n∑i=1n(yi−yi^)2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$

说明：MSE 衡量模型预测值与真实值之间差值的平方和的均值。它对误差进行了平方，因此对异常值非常敏感。MSE 值越小表示模型性能越好。

$y_i$ 是实际值。
$yi^\hat{y_i}$ 是预测值。
$n$ 是样本数。

(2) 均方根误差（RMSE，Root Mean Squared Error）

公式：
$RMSE=1n∑i=1n(yi−yi^)2 \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2}$

说明：RMSE 是 MSE 的平方根，具有与原始数据相同的单位，更易于解释。RMSE 也对异常值敏感，值越小表示模型性能越好。

(3) 平均绝对误差（MAE，Mean Absolute Error）

公式：
$MAE=1n∑i=1n∣yi−yi^∣ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y_i}|$

说明：MAE 衡量的是预测值与实际值之间的绝对误差的平均值。与 MSE 不同，MAE 对异常值不敏感，因此更稳健。

(4) 决定系数（ $R^2$ 或 $R$ 平方）

公式：
$R2=1−∑i=1n(yi−yi^)2∑i=1n(yi−yˉ)2 R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

说明： $R^2$ 用于衡量模型对数据变异的解释能力。其值介于 0 到 1 之间，越接近 1，表示模型对数据的拟合效果越好。 $R^2 = 1$ 表示完美拟合。

3. 聚类问题的常用评价指标

聚类问题是无监督学习中的一类任务，模型需要将数据样本进行划分，常见的评价指标有：

(1) 轮廓系数（Silhouette Coefficient）

公式：
$\text{SC} = \frac{b - a}{\max(a, b)}$

说明：轮廓系数用于衡量聚类结果的紧凑性和分离度，取值范围为 -1 到 1，值越大表示聚类效果越好。

$a$ 是某个样本与其所属簇的平均距离（簇内距离）。
$b$ 是某个样本与最近的其他簇的平均距离（簇间距离）。

(2) SSE（Sum of Squared Errors）

公式：
$\text{SSE} = \sum_{i=1}^{k} \sum_{x \in C_i} ||x - \mu_i||^2$

说明：SSE 衡量每个点到其所属簇中心的距离平方和，通常用于 K 均值聚类算法的优化目标。SSE 越小表示聚类效果越好。

$C_i$ 表示第 $i$ 个簇。
$μi\mu_i$ 是第 $i$ 个簇的质心。
$x$ 是簇中的样本点。

(3) Calinski-Harabasz 指数

公式：
$\text{CH} = \frac{\text{类间方差}}{\text{类内方差}} \times \frac{N - k}{k - 1}$

说明：Calinski-Harabasz 指数用于衡量类间方差与类内方差的比值，适用于评估聚类的紧凑性和分离度，值越大表示聚类效果越好。

$N$ 是样本数量。
$k$ 是簇的数量。

4. 其他常用评价指标

(1) AIC 和 BIC（Akaike 信息准则和贝叶斯信息准则）

AIC（Akaike Information Criterion）：
$\text{AIC} = 2k - 2\log(L)$
其中， $k$ 是模型的参数个数， $L$ 是模型的似然函数值。
BIC（Bayesian Information Criterion）：
$\text{BIC}= k \log(n) - 2\log(L)$
其中， $n$ 是样本数量， $k$ 是参数个数， $L$ 是似然函数值。