深度学习算法原理——Softmax Regression

一、Logistic回归简介Logistic回归是解决二分类问题的分类算法。假设有mmm个训练样本{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}\left \{ \left ( \mathbf{x}^{(1)},y^{(1)} \right ),\left ( \mathbf{x}^{..

zhiyong_will

18718人浏览 · 2015-11-09 14:46:28

zhiyong_will · 2015-11-09 14:46:28 发布

1. Logistic回归简介

Logistic回归是解决二分类问题的分类算法。假设有 $m$ 个训练样本 $\left \{ \left ( \mathbf{x}^{(1)},y^{(1)} \right ),\left ( \mathbf{x}^{(2)},y^{(2)} \right ),\cdots ,\left ( \mathbf{x}^{(m)},y^{(m)} \right ) \right \}$ ，对于Logistic回归，其输入特征为： $\mathbf{x}^{(i)}\in \Re ^{n+1}$ ，类标记为： $y^{(i)}\in \left \{ 0,1 \right \}$ ，假设函数为Sigmoid函数：

$h_\theta \left ( x \right )=\frac{1}{1+e^{-\theta ^Tx}}$

其中，模型的参数为 $\theta$ ，需要通过最小化损失函数得到，模型的损失函数为：

$J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ y^{(i)}logh_\theta \left ( \mathbf{x}^{(i)} \right )+\left ( 1-y^{(i)} \right )log\left ( 1-h_\theta \left ( \mathbf{x}^{(i)} \right ) \right ) \right ]$

此时，可以通过梯度下降法对其进行求解，其梯度为：

$\begin{matrix} \triangledown _{\theta _j}J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ \frac{y^{(i)}}{h_\theta \left ( \mathbf{x}^{(i)} \right )}\cdot \triangledown _{\theta _j}h_\theta \left ( \mathbf{x}^{(i)} \right )+\frac{1-y^{(i)}}{1-h_\theta \left ( \mathbf{x}^{(i)} \right )}\cdot \triangledown _{\theta _j}\left ( 1-h_\theta \left ( \mathbf{x}^{(i)} \right ) \right )\right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [ \frac{y^{(i)}}{h_\theta \left ( \mathbf{x}^{(i)} \right )}\cdot \triangledown _{\theta _j}h_\theta \left ( \mathbf{x}^{(i)} \right )-\frac{1-y^{(i)}}{1-h_\theta \left ( \mathbf{x}^{(i)} \right )}\cdot \triangledown _{\theta _j}h_\theta \left ( \mathbf{x}^{(i)} \right ) \right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [ \left ( \frac{y^{(i)}}{h_\theta \left ( \mathbf{x}^{(i)} \right )}-\frac{1-y^{(i)}}{1-h_\theta \left ( \mathbf{x}^{(i)} \right )} \right )\cdot \triangledown _{\theta _j}h_\theta \left ( \mathbf{x}^{(i)} \right ) \right ] \end{matrix}$

$\begin{matrix} =-\frac{1}{m}\sum_{i=1}^{m}\left [ \frac{y^{(i)}-h_\theta \left ( \mathbf{x}^{(i)} \right )}{h_\theta \left ( \mathbf{x}^{(i)} \right )\left ( 1-h_\theta \left ( \mathbf{x}^{(i)} \right ) \right )}\cdot \triangledown _{\theta _j}h_\theta \left ( \mathbf{x}^{(i)} \right ) \right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [ \frac{y^{(i)}-h_\theta \left ( \mathbf{x}^{(i)} \right )}{h_\theta \left ( \mathbf{x}^{(i)} \right )\left ( 1-h_\theta \left ( \mathbf{x}^{(i)} \right ) \right )}\cdot \triangledown _{\theta ^T\mathbf{x}^{(i)}}h_\theta \left ( \mathbf{x}^{(i)} \right )\cdot \triangledown _{\theta _j}\left ( \theta ^T\mathbf{x}^{(i)} \right ) \right ] \end{matrix}$

而：

$\triangledown _{\theta ^T\mathbf{x}^{(i)}}h_\theta \left ( \mathbf{x}^{(i)} \right )=h_\theta \left ( \mathbf{x}^{(i)} \right )\left ( 1-h_\theta \left ( \mathbf{x}^{(i)} \right ) \right )$

$\triangledown _{\theta _j}\left ( \theta ^T\mathbf{x}^{(i)} \right )=x^{(i)}_j$

因此，梯度的公式为：

$\triangledown _{\theta _j}J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ \left ( y^{(i)}-h_\theta \left ( \mathbf{x}^{(i)} \right ) \right )\cdot x^{(i)}_j \right ]$

根据梯度下降法，得到如下的更新公式：

$\theta _j:=\theta _j-\alpha \triangledown _{\theta _j}J\left ( \theta \right )$

2. Softmax回归

2.1. Softmax回归简介

Softmax是Logistic回归在多分类上的推广，即类标签 $y$ 的取值大于等于 $2$ 。假设有 $m$ 个训练样本 $\left \{ \left ( \mathbf{x}^{(1)},y^{(1)} \right ),\left ( \mathbf{x}^{(2)},y^{(2)} \right ),\cdots ,\left ( \mathbf{x}^{(m)},y^{(m)} \right ) \right \}$ ，对于Softmax回归，其输入特征为： $\mathbf{x}^{(i)}\in \Re ^{n+1}$ ，类标记为： $y^{(i)}\in \left \{ 0,1,\cdots k \right \}$ 。假设函数为对于每一个样本估计其所属的类别的概率 $p\left ( y=j\mid \mathbf{x} \right )$ ，具体的假设函数为：

$h_\theta \left ( \mathbf{x}^{(i)} \right )=\begin{bmatrix} p\left ( y^{(i)}=1\mid \mathbf{x}^{(i)};\theta \right )\\ p\left ( y^{(i)}=2\mid \mathbf{x}^{(i)};\theta \right )\\ \vdots \\ p\left ( y^{(i)}=k\mid \mathbf{x}^{(i)};\theta \right ) \end{bmatrix}=\frac{1}{\sum_{j=1}^{k}e^{\theta ^T_j\mathbf{x}^{(i)}}}\begin{bmatrix} e^{\theta ^T_1\mathbf{x}^{(i)}}\\ e^{\theta ^T_2\mathbf{x}^{(i)}}\\ \vdots \\ e^{\theta ^T_k\mathbf{x}^{(i)}} \end{bmatrix}$

其中$\theta $表示的向量，且$ \theta _i\in \Re ^{n+1}$。则对于每一个样本估计其所属的类别的概率为：

$p\left ( y^{(i)}=j\mid \mathbf{x}^{(i)};\theta \right )=\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}}$

2.2. Softmax回归的代价函数

类似于Logistic回归，在Softmax的代价函数中引入指示函数 $I\left \{ \cdot \right \}$ ，其具体形式为：

$I\left \{ expression \right \}=\begin{cases} 0 & \text{ if } expression=false \\ 1 & \text{ if } expression=true \end{cases}$

那么，对于Softmax回归的代价函数为：

$J\left ( \theta \right )=-\frac{1}{m}\left [ \sum_{i=1}^{m}\sum_{j=1}^{k}I\left \{ y^{(i)}=j \right \}log\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}} \right ]$

2.3. Softmax回归的求解

对于上述的代价函数，可以使用梯度下降法对其进行求解，首先对其进行求梯度：

$\triangledown _{\theta _j}J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ \triangledown _{\theta _j}\sum_{j=1}^{k}I\left \{ y^{(i)}=j \right \}log\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}} \right ]$

已知，对于一个样本只会属于一个类别：

若$ y^{(i)}=j $，则$ I\left { y^{(i)}=j \right }=1$

$\begin{matrix} \triangledown _{\theta _j}J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ \triangledown _{\theta _j}log\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}} \right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [ \frac{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}}{e^{\theta ^T_j\mathbf{x}^{(i)}}}\cdot \frac{e^{\theta ^T_j\mathbf{x}^{(i)}}\cdot \mathbf{x}^{(i)}\cdot \sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}-e^{\theta ^T_j\mathbf{x}^{(i)}}\cdot \mathbf{x}^{(i)}\cdot e^{\theta ^T_j\mathbf{x}^{(i)}}}{\left ( \sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}} \right )^2} \right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [ \frac{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}-e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}}\cdot \mathbf{x}^{(i)} \right ] \end{matrix}$

若$ y^{(i)}\neq j $，假设$ y^{(i)}\neq {j}‘ $，则$ I\left { y^{(i)}=j \right }=0 $，$ I\left { y^{(i)}={j}’ \right }=1$

$\begin{matrix} \triangledown _{\theta _j}J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ \triangledown _{\theta _j}log\frac{e^{\theta ^T_{{j}'}\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}} \right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [\frac{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}}{e^{\theta ^T_{{j}'}\mathbf{x}^{(i)}}}\cdot \frac{-e^{\theta ^T_{{j}'}\mathbf{x}^{(i)}}\cdot \mathbf{x}^{(i)}\cdot e^{\theta ^T_j\mathbf{x}^{(i)}}}{\left ( \sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}} \right )^2} \right ]\\ =-\frac{1}{m}\sum_{i=1}^{m}\left [ -\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}}\cdot \mathbf{x}^{(i)} \right ] \end{matrix}$

最终的结果为：

$-\frac{1}{m}\sum_{i=1}^{m}\left [ \mathbf{x}^{(i)}\left ( I\left \{ y^{(i)}=j \right \}-p\left ( y^{(i)}=j\mid \mathbf{x}^{(i)};\theta \right ) \right ) \right ]$

注意，此处的 $\theta_j$ 表示的是一个向量。通过梯度下降法的公式可以更新：

$\theta _j:=\theta _j-\alpha \triangledown _{\theta _j}J\left ( \theta \right )$

2.4. Softmax回归中的参数特点

在Softmax回归中存在着参数冗余的问题。简单来讲就是参数中有些参数是没有任何用的，为了证明这点，假设从参数向量 $\theta _j$ 中减去向量$\psi $，假设函数为：

$\begin{matrix} p\left ( y^{(i)}=j\mid \mathbf{x}^{(i)};\theta \right )=\frac{e^{(\theta _j-\psi )^T\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{(\theta _l-\psi )^T\mathbf{x}^{(i)}}}\\ =\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}\cdot e^{-\psi ^T\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}\cdot e^{-\psi ^T\mathbf{x}^{(i)}}}\\ =\frac{e^{\theta ^T_j\mathbf{x}^{(i)}}}{\sum_{l=1}^{k}e^{\theta ^T_l\mathbf{x}^{(i)}}} \end{matrix}$

从上面可以看出从参数向量 $\theta _j$ 中减去向量$\psi $对预测结果并没有任何的影响，也就是说在模型中，存在着多组的最优解。

为了是算法能够尽可能简单，保留所有的参数，但是对代价函数加入权重衰减来解决参数冗余的问题，权重衰减即对参数进行正则化。

如对参数进行L2正则约束，L2正则为：

$\frac{\lambda }{2}\sum_{i=1}^{k}\sum_{j=0}^{n}\theta ^2_{ij}$

此时，代价函数为：

其中， $\lambda >0$ ，此时代价函数是一个严格的凸函数。

对该函数的导数为：

$\triangledown {\theta _j}J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ \mathbf{x}^{(i)}\left ( I\left \{ y^{(i)}=j \right \}-p\left ( y^{(i)}=j\mid \mathbf{x}^{(i)};\theta \right ) \right ) \right ]+\lambda \theta _j$

2.5. Softmax与Logistic回归的关系

Logistic回归算法是Softmax回归的特征情况，即 $k = 2$ 时的情况，当
$k = 2$ 时，Softmax回归为：

$h_\theta \left ( x \right )=\frac{1}{e^{\theta _1^Tx}+e^{\theta _2^Tx}}\begin{bmatrix} e^{\theta _1^Tx}\\ e^{\theta _2^Tx} \end{bmatrix}$

利用Softmax回归参数冗余的特点，令 $\psi =\theta _1$ ，从两个向量中都减去这个向量，得到：

$\begin{matrix} h_\theta \left ( \mathbf{x} \right )=\frac{1}{e^{(\theta _1-\psi )^T\mathbf{x}}+e^{(\theta _2-\psi )^T\mathbf{x}}}\begin{bmatrix} e^{(\theta _1-\psi )^T\mathbf{x}}\\ e^{(\theta _2-\psi )^T\mathbf{x}} \end{bmatrix}\\ =\begin{bmatrix} \frac{1}{1+e^{(\theta _2-\theta _1 )^T\mathbf{x}}}\\ \frac{e^{(\theta _2-\theta _1 )^T\mathbf{x}}}{1+e^{(\theta _2-\theta _1 )^T\mathbf{x}}} \end{bmatrix}\\ =\begin{bmatrix} \frac{1}{1+e^{(\theta _2-\theta _1 )^T\mathbf{x}}}\\ 1-\frac{1}{1+e^{(\theta _2-\theta _1 )^T\mathbf{x}}} \end{bmatrix} \end{matrix}$

上述的表达形式与Logistic回归是一致的。

2.6. 多分类算法和二分类算法的选择

有人会觉得对于一个多分类问题，可以使用多个二分类来完成，对于多分类问题是直接选择多分类的分类器还是选择多个二分类的分类器进行叠加，在UFLDL中，作者给出了这样的解释：取决于类别之间是否互斥。

对于一个多分类的问题，是直接选择多分类器直接计算还是选择多个二分类器进行计算取决于问题中类别之间是否互斥。

是互斥的 --> Softmax回归
不是互斥的 --> 多个独立的Logistic回归

对于Softmax回归更多内容，包括实验可见博客简单易学的机器学习算法——Softmax Regression

参考文献

[1] 英文版：UFLDL Tutorial

[2] 中文版：UFLDL教程

[3] 《Python机器学习算法》第2章 Softmax Regression

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生