MSE、RMSE、MAE、R方等指标整理

SSESSE（sum squared error，和方差），其公式为：sse=∑i=1m(yi−y^i)2sse=\sum_{i=1}^m(y_i-\hat y_i)^2sse=i=1∑m(yi−y^i)2其中，yiy_iyi是真实值，y^i\hat y_iy^i表示预测值。MSEMSE（mean squared error，均方误差），其公式为：mse=1m∑i=1m(yi−y^i

文章共9,781字 · 阅读需要大约33分钟

一键AI生成摘要，助你高效阅读

问答

superY25

18681人浏览 · 2021-04-02 00:15:37

superY25 · 2021-04-02 00:15:37 发布

SSE

SSE（sum squared error，和方差），其公式为： $sse=\sum_{i=1}^m(y_i-\hat y_i)^2$ 其中， $y_i$ 是真实值， $\hat y_i$ 表示预测值。

MSE

MSE（mean squared error，均方误差），其公式为： $mse=\frac{1}{m}\sum_{i=1}^m(y_i-\hat y_i)^2$ 其中， $y_i$ 是真实值， $\hat y_i$ 表示预测值。

作为模型评估时，MSE简单直白表达了预测误差，但是加了平方扩大了误差值，同时在量纲很大的情况下评估结果不明了，因为这个原因，作为损失函数训练模型时，模型受异常值的影响很大。

MSE通常作为线性回归模型的损失函数（L2 loss）， $J(\theta)=-\frac{1}{m}\sum\limits_{i=1}^m(y_i-h_\theta(x_i))^2$

MAE

MAE（mean absolute error，平均绝对误差），其公式为： $mae=\frac{1}{m}\sum_{i-1}^m|y_i-\hat y_i|$ 其中， $y_i$ 是真实值， $\hat y_i$ 表示预测值。

量纲和原值保持一致，且没有因为加了平方扩大了误差的问题，因此作为损失函数，其对于异常值的鲁棒性要高于MSE。

也被用作回归模型的损失函数（L1 loss）。

对于MSE和MAE：
如果数据的异常值对于业务是有用的，我们希望考虑到这些异常值，那么就用MSE；如果我们相应异常值只是一些无用的数据噪音，那就用MAE。

MAE是L1范数正则化的一个代表，MSE是L2范数正则化的一个代表。总体来说，L1可以克服异值点代来的不利影响。但是它的方程不可导，增大了用L1寻求最优解的困难度。L2对于异常点很敏感，但是通过求导很容易找到最优解。

这一点也可以联想到正则化模型进行特征选择时，虽然L1可以迅速把特征压缩到0，直接选择特征子集，但是如果特征之间存在共线性，L1可以带来不稳定的结果，即随意分配特征的权重。当数据发生细微变化时就会导致很大的模型差异。L2正则化就在系数权重上表现得更稳定，从而让特征更具解释性。

RMSE

RMSE（root mean squared error，均方根误差），其公式为： $rmse=\sqrt {mse}=\sqrt{\frac{1}{m}\sum_{i=1}^m(y_i-\hat y_i)^2}$

RMSE本质是在MSE上作了一个开根号。这样将评估值的量纲和原值的量纲保持一致。

$\textbf{R}^2$

$R^2$ （R squared，R方），其公式为： $R^2=1-\frac{SS_{residual}}{SS_{total}}$ 其中 $SS_{residual}$ 为residual sum of squares， $SS_{total}$ 为total sum of squares。 $R^2=1-\frac{\sum\limits_{i}(\hat y^{(i)}-y^{(i)})^2}{\sum\limits_{i}(\bar y-y^{(i)})^2}$ 其中， $y^{(i)}$ 是真实值， $\hat y^{(i)}$ 表示预测值， $\bar y$ 表示样本均值， $\sum\limits_{i}(\hat y^{(i)}-y^{(i)})^2$ 为预测产生的误差， $\sum\limits_{i}(\bar y-y^{(i)})^2$ 为均值产生的误差。

$R^2 \leqslant1$
$R^2$ 越大越好。当预测模型不犯任何错误时， $R^2$ 得到最大值1
当预测模型等于基准模型时， $R^2=0$
当 $R^2 \lt 0$ ，说明预测模型还不如基准模型。

MAPE

MAPE（mean absolute percentage error，平均绝对百分比误差），其公式为： $mape=\frac{100\%}{n}\sum_{i=1}^n|\frac{\hat y_i - y_i}{y_i}|$ $y_i$ 是真实值， $\hat y_i$ 表示预测值。
范围[0,+∞)，MAPE 为0%表示完美模型，MAPE 大于 100 %则表示劣质模型。可以看到，MAPE跟MAE很像，就是多了个分母。