斯坦福大学机器学习——高斯判别分析

同朴素贝叶斯一样，高斯判别分析（Gaussian discriminant analysismodel, GDA）也是一种生成学习算法，在该模型中，我们假设y给定的情况下，x服从混合正态分布。通过训练确定参数，新样本通过已建立的模型计算出隶属不同类的概率，选取概率最大为样本所属的类。

linkin1005

21848人浏览 · 2014-09-04 16:01:56

linkin1005 · 2014-09-04 16:01:56 发布

一、混合正态分布（multivariate normal distribution）

混合正态分布也称混合高斯分布。该分布的期望和协方差为多元的：期望 $\mu\in R^{n}$ ,协方差 $\Sigma\in R^{n\times n}$ ，协方差具有对称性和正定性。混合高斯分布： $X\sim N(\mu,\Sigma)$ ，它的的概率密度函数为：

$p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))$

其中， $\mu$ 为混合高斯分布的期望 $E(X)$ ， $\Sigma$ 为其协方差 $Cov(X)$ ， $|\Sigma|$ 表示协方差的行列式。 $Cov(X)=E[(X-E(X))(X-E(X))^{T}]$

下面用图形直观的看一下二维高斯分布的性质：

以上三个图形的期望都为： $\mu=[0,0]^{T}$ ，最左端图形的协方差 $\Sigma=I$ ，中间的 $\Sigma=0.6I$ ，最右端的 $\Sigma=2I$ ，我们可以看出：当 $\Sigma$ 变小时，图像变得更加“瘦长”，而当 $\Sigma$ 增大时，图像变得更加“扁平”。

再看看更多的例子：

以上三个图形的期望都为： $\mu=[0,0]^{T}$ ，从左至右三个图形的协方差分别的：

$\Sigma=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ $\Sigma=\begin{bmatrix} 1 & 0.5 \\ 0.5 & 1 \end{bmatrix}$ $\Sigma=\begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix}$

可以看到随着矩阵的逆对角线数值增加，图形延 $(x_1=x_2)$ 方向，即底部坐标45度角压缩。图形在这个方向更加“扁”。

以上三幅图分别是以上图形的等高线，可以更直观的看到调整逆对角线的数值对图像的压缩程度。

以上三幅图保持协方差不变，期望的值分别为

$\mu=\begin{bmatrix} 1 \\ 0 \end{bmatrix}$ ； $\mu=\begin{bmatrix} -0.5 \\ 0 \end{bmatrix}$ ； $\mu=\begin{bmatrix} -1 \\ -1.5 \end{bmatrix}$

可以看出，随着期望的改变，图形在平面上平移，而其他特性保持不变。

二、高斯判别分析模型

如果特征值x是连续的随机变量，我们可以使用高斯判别分析模型完成特征值的分类。为了简化模型，假设特征值为二分类，分类结果服从0-1分布。（如果为多分类，分类结果就服从二项分布）

模型基于这样的假设：

$y\sim Bernoulli(\phi)$

$x|y=0 \sim N(\mu_0 , \Sigma)$

$x|y=1 \sim N(\mu_1 , \Sigma)$

他们的概率（密度）函数分别为：

$p(y)=\phi^{y}(1-\phi)^{1-y}$

$p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{0})^{T}\Sigma^{-1}(x-\mu_{0}))$

$p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{1})^{T}\Sigma^{-1}(x-\mu_{1}))$

模型的待估计参数为 $\phi,\Sigma,\mu_{0},\mu_{1}$ ，通常模型有两个不同的期望，而有一个相同的协方差。

该模型的极大似然对数方程为：

$l(\phi,\mu_{0},\mu_{1},\Sigma)$

$=log\prod_{i=1}^{m}{p(x^{(i)},y^{(i)};\phi,\mu_{0},\mu_{1},\Sigma)}$

$=log\prod_{i=1}^{m}{p(x^{(i)}|y^{(i)};\mu_{0},\mu_{1},\Sigma)p(y^{(i)};\phi)}$

求解该极大似然方程得：

$\phi=\frac{1}{m}\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}$

$\mu_{0}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=0\}}}$

$\mu_{1}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}}$

$\Sigma=\frac{1}{m}\sum_{i=1}^{m}{(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^{T}}$

在对 $\phi,\Sigma,\mu_{0},\mu_{1}$ 计算完成之后，将新的样本x带入进建立好的模型中，计算出 $p(y=1|x)$ 、 $p(y=0|x)$ ，选取概率更大的结果为正确的分类。

三、GDA和logistic回归

GDA模型和logistic回归模型存在这样有趣的关系：假如我们将 $p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)$ 视作关于x的函数，该函数可以表示成logistic回归形式：

$p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)=\frac{1}{1+exp(-\theta^{T}x)}$

其中， $\theta$ 可以用以 $\phi,\Sigma,\mu_{0},\mu_{1}$ 为变量的函数表示。

前文中已经提到，如果 $p(x|y)$ 为混合高斯分布，那么， $p(y|x)$ 就可以表示成logistic回归函数形式；相反，如果可表示成logistic回归函数形式，并不代表 $p(x|y)$ 服从混合高斯分布。这意味着GDA比logistic回归需要更加严格的模型假设，当然，如果混合高斯模型的假设是正确的，那么，GDA具有更高的拟合度。基于以上原因，在实践中使用logistic回归比使用GDA更普遍。

点击阅读全文

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生