Logistic回归又称Logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。

应用:

一、寻找危险因素,正如上面所说的寻找某一疾病的危险因素等。

二、预测,如果已经建立了Logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。

三、判别,实际上跟预测有些类似,也是根据Logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。

这是Logistic回归最常用的三个用途,实际中的Logistic回归用途是极为广泛的,Logistic回归几乎已经成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势。


首先,我们先来看一下Logistic回归的学习过程:

这里写图片描述

Logistic回归经常应用在病情预测的问题里面。假设给出一位病人的相关信息,那么我们应该如何预测他将来出现心脏病的可能性呢?

如果我们已经能够拥有了一些资料,那么我们就会轻易算出相应的概率:

这里写图片描述

但是实际上,在大多数情况下,我们不能够事先拥有这些数据,于是乎我们必须经过抽样等手段,把对应的圈圈叉叉的资料对应成相应的概率。

这里写图片描述

对应于上面提到的预测心脏病发生概率的例子,我们可以根据对应特征值

X=X0,X1,X2,....,Xd)
与其对应权重的乘积之和s,

这里写图片描述

然后将s转化成Logistic函数 θ(s)

这里写图片描述

这里写图片描述

函数图像如图所示:

这里写图片描述

特别地, θ(0)=12,s=wTx ,函数图像为“S”型曲线。

接下来,我们将会来定义Logistic回归的错误度量。

在线性分类器中,错误的情况不是正确就是错误(0、1):

这里写图片描述

在线性回归分析中,错误的偏差值是偏离距离的平方值:

这里写图片描述

那么在Logistic回归中,我们该如何定义呢?

因为 f(x)=P(+1|x) ,所以

P(y|x)={f(x), 1f(x),y=+1y=1

这里写图片描述

又由于函数性质可知:

1h(x)=h(x)


这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

要想求得 Ein(w) 取最小值,那么对应的梯度应该为0,即 Ein(w)=0

这里写图片描述


这里写图片描述=0

初始化 w0 ,t=0,1,2,3,4…..

(1)计算这里写图片描述,然后用
这里写图片描述不断更新,代入上式计算,直到 Ein(wt+1)=0 或者最后返回 wt+1 作为函数g。


在这过程之中, η <script type="math/tex" id="MathJax-Element-48">η</script>的取值也很关键,如果,取值过大,函数图像就会出现震荡。

这里写图片描述

如果,取值过小,迭代过程又会变得漫长。

这里写图片描述

只有取值恰当,才会尽可能快的求出最优解。

这里写图片描述


具体更多资源可前往机器学习专题

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐