机器学习：多分类的logistic回归

Multi-Class Logistic（多分类的Logistic问题）它适用于那些类别数大于2的分类问题，并且在分类结果中，样本x不是一定只属于某一个类可以得到样本x分别属于多个类的概率（也可以说样本x的估计y符合某一个几何分布），这实际上是属于Generalized Linear Model中讨论的内容。考虑一个结论：如果一个分类问题符合几何分布，那么就可以用Logistic变换来进行

兔子爱读书

20121人浏览 · 2016-03-26 21:41:50

兔子爱读书 · 2016-03-26 21:41:50 发布

Multi-Class Logistic（多分类的Logistic问题）

它适用于那些类别数大于2的分类问题，并且在分类结果中，样本x不是一定只属于某一个类可以得到样本x分别属于多个类的概率（也可以说样本x的估计y符合某一个几何分布），这实际上是属于Generalized Linear Model中讨论的内容。

考虑一个结论：如果一个分类问题符合几何分布，那么就可以用Logistic变换来进行之后的运算。

------------------------------------------------------------------------

公式

假设对于一个样本x，它可能属于K个分类，其估计值分别为F1(x)…FK(x)，Logistic变换如下，logistic变换是一个平滑且将数据规范化（使得向量的长度为1）的过程，结果为属于类别k的概率pk(x)，

对于Logistic变换后的结果，损失函数为：

其中，yk为输入的样本数据的估计值，当一个样本x属于类别k时，yk = 1，否则yk = 0。

将Logistic变换的式子带入损失函数，并且对其求导，可以得到损失函数的梯度：

------------------------------------------------------------------------

上面说的比较抽象，下面举个例子：

假设输入数据x可能属于5个分类（分别为1,2,3,4,5），训练数据中，x属于类别3，则y = (0, 0, 1, 0, 0)，假设模型估计得到的F(x) = (0, 0.3, 0.6, 0, 0)，则经过Logistic变换后的数据p(x) = (0.16,0.21,0.29,0.16,0.16)，y - p得到梯度g：(-0.16, -0.21, 0.71, -0.16, -0.16)。观察这里可以得到一个比较有意思的结论：

假设gk为样本当某一维（某一个分类）上的梯度:

gk>0时，越大表示其在这一维上的概率p(x)越应该提高，比如说上面的第三维的概率为0.29，就应该提高，属于应该往“正确的方向”前进

越小表示这个估计越“准确”

gk<0时，越小，负得越多表示在这一维上的概率应该降低，比如说第二维0.21就应该得到降低。属于应该朝着“错误的反方向”前进

越大，负得越少表示这个估计越“不错误 ”.

总的来说，对于一个样本，最理想的梯度是越接近0的梯度。所以，我们要能够让函数的估计值能够使得梯度往反方向移动（>0的维度上，往负方向移动，<0的维度上，往正方向移动）最终使得梯度尽量=0），并且该算法在会严重关注那些梯度比较大的样本，跟Boost的意思类似。

搬运自：LeftNotEasy博客园

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐