模式识别与机器学习笔记2018.8.20

线性模型多项式函数 y(x,w) 是 x 的一个非线性函数，它是系数 w 的一个线性函数。类似多项式函数的这种关于未知参数满足线性关系的函数称为线性模型区分是否为线性模型，主要是看一个乘法式子中自变量x前的系数w，x只被一个w影响系数的值可以通过调整多项式函数拟合训练数据的方式确定，通过最小化误差函数（ error function ）的方法实现，常用均方差因子1/2 ...

菜菜君

374人浏览 · 2018-08-21 10:21:56

菜菜君 · 2018-08-21 10:21:56 发布

线性模型

多项式函数 y(x,w) 是 x 的一个非线性函数，它是系数 w 的一个线性函数。

类似多项式函数的这种关于未知参数满足线性关系的函数称为线性模型

区分是否为线性模型，主要是看一个乘法式子中自变量x前的系数w，x只被一个w影响

系数的值可以通过调整多项式函数拟合训练数据的方式确定，通过最小化误差函数（ error function ）的方法实现，常用均方差

因子1/2 是为了后续运算方便

我们可以通过选择使得 E(w) 尽量小的 w 来解决曲线拟合问题。由于误差函数是系数 w 的二次函数，导数是 w 的线性函数，所以误差函数的最小值有一个唯一解

均方根（ RMS ）误差

其中，除以 N 让我们能够以相同的基础对比不同大小的数据集，平方根确保了 E 与目标变量 t 使用相同的规模和单位进行度量。

过拟合

M 值更大，多项式被过分地调参，使得多项式被调节成了与目标值的随机噪声相符。

对于一个给定的模型复杂度，当数据集的规模增加时，过拟合问题变得不那么严重。使用 M = 9 的多项式对 N = 15 个数据点（左图）和 N = 100 个数据点（右图）通过最小化平方和误差函数的方法得到的解。我们看到增加数据集的规模会减小过拟合问题。

根据训练集的规模限制参数的数量不太好。似乎更加合理的是，根据待解决的问题的复杂性来选择模型的复杂性。我们将会看到，寻找模型参数的最小平方方法代表了最大似然的一种特殊情形，并且过拟合问题可以被理解为最大似然的一个通用属性。通过使用贝叶斯的方法可以避免过拟合问题（后续考虑）

经常用来控制过拟合现象的技术是正则化（ regularization ）。这种技术涉及到给误差函数增加一个惩罚项，使得系数不会达到很大的值。这种惩罚项最简单的形式采用所有系数的平方和的形式。这推导出了误差函数的修改后的形式

系数 λ 控制了正则化项相对于平方和误差项的重要性。注意，通常系数 w 0 从正则化项中省略，因为包含 w 0 会使得结果依赖于目标变量原点的选择。上面的误差函数也可以用解析的形式求出最小值。像这样的技术在统计学的文献中被叫做收缩（ shrinkage ）方法，因为这种方法减小了系数的值。二次正则项的一个特殊情况被称为山脊回归（ ridge regression ）（ Hoerl and Kennard, 1970 ）。在神经网络的情形中，这种方法被叫做权值衰减（ weight decay ）

正则化

随着 λ 的增大，系数逐渐变小。