机器学习之Logistic回归(逻辑蒂斯回归）

Logistic回归又称Logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率。

qinjianhuang

19675人浏览 · 2017-02-05 17:38:14

qinjianhuang · 2017-02-05 17:38:14 发布

Logistic回归又称Logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。

应用：

一、寻找危险因素，正如上面所说的寻找某一疾病的危险因素等。

二、预测，如果已经建立了Logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。

三、判别，实际上跟预测有些类似，也是根据Logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

这是Logistic回归最常用的三个用途，实际中的Logistic回归用途是极为广泛的，Logistic回归几乎已经成了流行病学和医学中最常用的分析方法，因为它与多重线性回归相比有很多的优势。

首先，我们先来看一下Logistic回归的学习过程：

这里写图片描述

Logistic回归经常应用在病情预测的问题里面。假设给出一位病人的相关信息，那么我们应该如何预测他将来出现心脏病的可能性呢？

如果我们已经能够拥有了一些资料，那么我们就会轻易算出相应的概率：

这里写图片描述

但是实际上，在大多数情况下，我们不能够事先拥有这些数据，于是乎我们必须经过抽样等手段，把对应的圈圈叉叉的资料对应成相应的概率。

这里写图片描述

对应于上面提到的预测心脏病发生概率的例子，我们可以根据对应特征值

X = （ X 0, X 1, X 2, . . . ., X d)

$X=（X_0,X_1,X_2,....,X_d)$ 与其对应权重的乘积之和s，

这里写图片描述

然后将s转化成Logistic函数 $\theta(s)$ ：

这里写图片描述

这里写图片描述

函数图像如图所示：

这里写图片描述

特别地， $\theta(0)=\frac{1}{2},s=w^Tx$ ，函数图像为“S”型曲线。

接下来，我们将会来定义Logistic回归的错误度量。

在线性分类器中，错误的情况不是正确就是错误（0、1）：

这里写图片描述

在线性回归分析中，错误的偏差值是偏离距离的平方值：

这里写图片描述

那么在Logistic回归中，我们该如何定义呢？

因为 $f(x)=P(+1|x)$ ，所以

P (y | x) = {f (x), 1 - f (x), y = + 1 y = - 1

$P(y|x)=\begin {cases} f(x), & y=+1 \\\ 1-f(x), & y=-1 \end {cases}$

这里写图片描述

又由于函数性质可知：

1 - h (x) = h (- x)

$1-h(x)=h(-x)$
⇓
这里写图片描述

这里写图片描述

⇓

这里写图片描述

⇓

这里写图片描述

⇓

这里写图片描述

⇓

这里写图片描述

⇓

这里写图片描述

⇓

这里写图片描述

要想求得 $E_{in}(w)$ 取最小值，那么对应的梯度应该为0，即 $∇Ein(w) = 0$

这里写图片描述

⇓
令

这里写图片描述

=0

初始化 $w_0$ ,t=0,1,2,3,4…..

(1)计算这里写图片描述，然后用
不断更新，代入上式计算，直到 $∇Ein(w_t+1) = 0$ 或者最后返回 $w_{t+1}$ 作为函数g。

在这过程之中， η <script type="math/tex" id="MathJax-Element-48">η</script>的取值也很关键，如果，取值过大，函数图像就会出现震荡。

这里写图片描述

如果，取值过小，迭代过程又会变得漫长。

这里写图片描述

只有取值恰当，才会尽可能快的求出最优解。

这里写图片描述

具体更多资源可前往机器学习专题

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

qinjianhuang

@sinat_35512245

已为社区贡献8条内容