机器学习——线性判别分析原理及python代码实现

《机器学习：公式推导与代码实践》鲁伟著读书笔记。线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的线性分类方法，其基本思想是将数据投影到低维空间，使得同类数据尽可能接近，异类数据尽可能疏远，所以线性判别分析也是一种监督降维算法。LDA公式推导线性判别分析的基本思想是将数据集投影到一条直线上，使得同类样本的投影点尽可能接近，不同类样本的投影点尽可能疏远。按此

Li Changwu

7574人浏览 · 2022-03-08 13:47:55

Li Changwu · 2022-03-08 13:47:55 发布

《机器学习：公式推导与代码实践》鲁伟著读书笔记。
线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的线性分类方法，其基本思想是将数据投影到低维空间，使得同类数据尽可能接近，异类数据尽可能疏远，所以线性判别分析也是一种监督降维算法。

LDA公式推导

线性判别分析的基本思想是将数据集投影到一条直线上，使得同类样本的投影点尽可能接近，不同类样本的投影点尽可能疏远。按此原理训练完成之后，将新样本投影到该直线上，根据投影点的位置来确定新样本点的类别。以二维变量为例，“+”表示正例，“-”表示反例。LDA的优化目标就是使投影后的类内距离小，类间距离大。
在这里插入图片描述
LDA二维图片来源
下面对二分类LDA的基本原理和数学推导，给定数据集 $D={\left \{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})\right \}}$ 其中， $x_{i}$ 为样本的n维特征向量， $y\in (0,1)$ 为样本的类别。令 $N_{j}$ （j为类别,0或1）为第j类样本的数量， $X_{j}$ 为第j类样本的集合， $\mu_{j}$ 为第j类样本的均值向量， $\Sigma_{j}$ 为第j类样本的协方差矩阵。其计算公式为：
$\mu_{j}$ 的表达式为： $\mu_{j}=\frac{1}{N_{j}}\Sigma_{x\in X_{j}}x$ $\Sigma_{j}$ 的表达式为： $\Sigma_{j}=\Sigma_{x\in X_{j}}(x-\mu_{j})(x-\mu_{j})^{T}$ 由于是二分类模型，因此我们只需要将数据投影到一条直线上，假设投影直线为向量 $\omega$ ，对于任意一个样本 $x$ ，他在直线上的投影为 $\omega^{T}x$ 。则投影之后，每类样本的均值向量和协方差的计算如下：
投影之后每类样本的均值向量： $\frac{1}{N_{j}}\Sigma_{x\in X_{j}}\omega^{T}x=\omega^{T}\frac{1}{N_{j}}\Sigma_{x\in X_{j}}x=\omega^{T}\mu_{j}$ 投影之后每类样本的协方差矩阵： $\Sigma_{x\in X_{j}}(\omega^{T}x-\omega^{T}\mu_{j})(\omega^{T}x-\omega^{T}\mu_{j})^{T}=\omega^{T}\Sigma_{x\in X_{j}}(x-\mu_{j})(x-\mu_{j})^{T}\omega=\omega^{T}\Sigma_{j} \omega$ LDA模型的优化目标是使同类样本的投影点尽可能接近，我们可以使同类样本的投影点的协方差尽可能小，即 $\omega^{T}\Sigma_{0} \omega+\omega^{T}\Sigma_{1} \omega$ ；异类样本的投影点尽可能疏远，可以使类中心点之间的距离尽可能远，即 $||\omega^{T}\mu_{0}-\omega^{T}\mu_{1}||^{2}_{2}$ 尽可能大。综合考虑两个优化目标的情况下，目标函数可以定义为： $\text {arg max }J(\omega)=\frac{||\omega^{T}\mu_{0}-\omega^{T}\mu_{1}||^{2}_{2}}{\omega^{T}\Sigma_{0} \omega+\omega^{T}\Sigma_{1} \omega}=\frac{\omega^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}\omega}{\omega^{T}(\Sigma_{0}+\Sigma_{1} )\omega}$ 定义类内散度矩阵为 $S_{\omega}=\Sigma_{0}+\Sigma_{1}$ ，类间散度矩阵为 $S_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}$ 。则目标函数可以改写为： $\text {arg max }J(\omega)=\frac{\omega^{T}S_{b}\omega}{\omega^{T}S_{\omega}\omega}$ 为了对目标函数进行简化，我们令 $\omega^{T}S_{\omega}\omega=1$ ，则可以将其视作目标函数的约束条件。具体如下： $\text {arg max }F(\omega)=\omega^{T}S_{b}\omega$ $\text {s.t. }\omega^{T}S_{\omega}\omega=1$

拉格朗日函数问题

定义（拉格朗日函数）：对于优化问题：
$\text{min }f(u)$ $\text{s.t. }g_{i}(u) \leq 0,i=1,2,3,...,m \\ h_{i}(u)=0,j=1,2,3,...,n$ 定义其拉格朗日函数便为： $\mathcal{L}(\boldsymbol{u}, \boldsymbol{\alpha}, \boldsymbol{\beta}):=f(\boldsymbol{u})+\sum_{i=1}^{m} \alpha_{i} g_{i}(\boldsymbol{u})+\sum_{j=1}^{n} \beta_{j} h_{j}(\boldsymbol{u})$ 其中， $\alpha_{i}>0$ 。

利用拉格朗日函数优化目标函数

利用拉格朗日函数可得： $\mathcal{L}(\omega)=\omega^{T}S_{b}\omega-\lambda(\omega^{T}S_{\omega}\omega-1)$ 取上式对 $\omega$ 求导可得： $\frac{d\mathcal{L}(\omega)}{d\omega}=2S_{b}\omega-2\lambda S_{\omega}\omega=0$ 即： $2S_{b}\omega=2\lambda S_{\omega}\omega$ $S_{b}\omega=\lambda S_{\omega}\omega$ 如果 $S_{\omega}$ 可逆，则： $\lambda \omega=S_{\omega}^{-1}S_{b}\omega$ $\lambda$ 仅仅是一个参数，所以上式等于： $\omega=\lambda S_{\omega}^{-1}S_{b}\omega$ 考虑到 $S_{\omega}$ 矩阵数值解的稳定性，如果矩阵不可逆，则我们可以对矩阵 $S_{\omega}$ 进行奇异值分解，然后再对分解后的矩阵进行求逆操作，即可得到 $S_{\omega}^{-1}$ 。 $S_{\omega}=U\Sigma V^{-1}$ 由于对于二分类模型， $S_{b}\omega=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}\omega$ ，可以看出 $S_{b}\omega$ 和 $(\mu_{0}-\mu_{1})$ 是平行的，所以： $S_{b}\omega=k(\mu_{0}-\mu_{1})$ 所以， $\omega$ 可以表示为： $\omega=\lambda S_{\omega}^{-1}k(\mu_{0}-\mu_{1})$ 去除参数可得： $\omega=S_{\omega}^{-1}(\mu_{0}-\mu_{1})$ 我们只需要求出原始数据集二分类样本的均值和方差就可以确定最佳的投影方向。

LDA算法的具体流程

对训练数据集根据组别进行分组；
分别计算每组样本的均值和协方差；
计算类内散度矩阵 $S_{\omega}=\Sigma_{0}+\Sigma_{1}$ ；
计算两类样本的均值差 $(\mu_{0}-\mu_{1})$ ;
求 $S_{\omega}$ 的逆矩阵 $S_{\omega}^{-1}$ ，若矩阵不可逆，则可用奇异值分解的方式求解；
根据 $S_{\omega}^{-1}(\mu_{0}-\mu_{1})$ 得到 $\omega$ ;
最后计算投影后的数据点 $Y=\omega X$ 。

对数几率回归的NumPy手撕代码

Numpy LDA实现

import numpy as np

class LDA():
    def __init__(self):
        # 初始化权重矩阵
        self.w = None
        
    # 计算协方差矩阵
    def calc_cov(self, X, Y=None):
        m = X.shape[0]
        # 数据标准化
        X = (X - np.mean(X, axis=0))/np.std(X, axis=0)
        Y = X if Y == None else (Y - np.mean(Y, axis=0))/np.std(Y, axis=0)
        return 1 / m * np.matmul(X.T, Y)
    
    # 对数据进行投影
    def project(self, X, y):
        self.fit(X, y)
        X_projection = X.dot(self.w)
        return X_projection
    
    # LDA拟合过程
    def fit(self, X, y):
        # 按类分组
        X0 = X[y == 0]
        X1 = X[y == 1]

        # 分别计算两类数据自变量的协方差矩阵
        sigma0 = self.calc_cov(X0)
        sigma1 = self.calc_cov(X1)
        # 计算类内散度矩阵
        Sw = sigma0 + sigma1

        # 分别计算两类数据自变量的均值和差
        u0, u1 = np.mean(X0, axis=0), np.mean(X1, axis=0)
        mean_diff = np.atleast_1d(u0 - u1)

        # 对类内散度矩阵进行奇异值分解
        U, S, V = np.linalg.svd(Sw)
        # 计算类内散度矩阵的逆
        Sw_ = np.dot(np.dot(V.T, np.linalg.pinv(np.diag(S))), U.T)
        # 计算w
        self.w = Sw_.dot(mean_diff)

    
    # LDA分类预测
    def predict(self, X):
        y_pred = []
        for sample in X:
            h = sample.dot(self.w)
            y = 1 * (h < 0)
            y_pred.append(y)
        return y_pred

LDA算法的数据测试：

from sklearn import datasets
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

#导入数据集
data = datasets.load_iris()
#数据与标签
X = data.data
y = data.target
#仅取标签为0，1的数据
X = X[y != 2]
y = y[y != 2]
#划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=41)
#创建模型
lda = LDA()
#LDA模型拟合
lda.fit(X_train, y_train)
#预测
y_pred = lda.predict(X_test)
#计算准确度
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

accuracy：0.85

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责