机器学习入门：第三章逻辑(Logistic)回归极大似然估计(2)

回头过来看，可能会觉得最小二乘法跟我们讨论中的芒果酸甜问题，并不是一回事。但从另外一种概括的角度来讲：通过一种模型，预测一种输出就能够分类。在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction)，称为分

go2coding

1447人浏览 · 2022-04-14 10:40:08

go2coding · 2022-04-14 10:40:08 发布

回头过来看，可能会觉得最小二乘法跟我们讨论中的芒果酸甜问题，并不是一回事。但从另外一种概括的角度来讲：通过一种模型，预测一种输出就能够分类。

在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction)，称为分类(classification)。

用同样的思想，继续一个简单的故事：
某位同学与一位猎人一起出去打猎，一只兔子从前方窜过。只听见一声枪响，野兔应声倒下，如果要你来推测，这一发命中的子弹是谁大的？你会怎么想呢过？正常的情况下，猎人的枪法肯定比你的同学的枪法好，也就是说猎人的命中率比你的同学高。而一枪就打死兔子，命中率是100%的，这么高的命中率，应该是谁打中的呢？显然，猎人开的枪比较符合我们观察的想象了吧。

这就是我们要讲的，极大似然法。

如果试验n次，我们得到n个样本，极大似然估计是要是所求的概率，最大限制的符合我们现在所发生的。

这里我们这样定义似然函数：
假设{y1,…,yn}为独立同分布，则样本数据的联合密度函数为f(y1,θ)f(y2,θ)…f(yn,θ)，定义“似然函数”为，

$L(θ;y1,...,yn)=∏f(yi;θ)L(\theta;y_1,...,y_n) = \prod f(y_i;\theta)$

把似然函数取对数，将乘机形式转化为求和形式，

$L(θ;y1,...,yn)=∑lnf(yi;θ)L(\theta;y_1,...,y_n) = \sum ln f(y_i;\theta)$

为最大似然估计法。

从最大似然估计的思想来看和最小二乘法是有些类似的，使模型在观察到的数据中拥有最小的误差。

为了较好的说明，举一个很简单的例子：两点分布的情况，也是0-1分布。
设某工序生产的产品合格率为p，抽n个产品作检验，发现有T个合格，试求p的极大似然估计值。
在这里我们做了n次的试验，我们所求的概率p要符合我们试验的结果，也就是通过极大似然函数来求解。
似然函数为：

$\prod p^{x_i}(1-p)^{1-x_i}$

把它简化一下，它的意思就更加明显了，如果这一次抽到的是不合格的产品，那么xi就为1， $p^{x_i}(1-p)^{1-x_i}$ 也就是不合格率，极大似然把所有的结果相乘，也就是这次试验的总可能性。这里刚好可以知道把这次所有抽到合格的总次数为T，即 $∑xi=T\sum{x_i}=T$ 。
使用极大似然估计可以得出：