模式识别与机器学习之绪论

机器学习的概述

欣儿✪ω✪

284人浏览 · 2022-10-12 22:09:56

欣儿✪ω✪ · 2022-10-12 22:09:56 发布

概述：

模式识别是通过使用计算机算法自动发现数据中的规律性，并利用这些规律采取行动。

机器学习是研究通过经验自动改进的计算机算法，它被视为人工智能的一部分。机器学习算法基于样本数据建立一个模型，成为“训练数据”，进行预测或决策。

进行机器学习，先要有数据，从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中。若预测的是离散值，此类学习任务称为“分类”；若预测的是连续值，此类学习任务称为“回归”。对于仅涉及两个类别的“二分类”任务，一般称其中一个类为“正类”，另一个类为“反类”；当涉及多个类别时，则称为“多分类”任务。

基本分类

学习任务大致可分为：“监督学习”（分类和回归）、“无监督学习”（聚类），也包括强化学习、半监督学习、主动学习等。

监督学习指的是从标注数据中学习预测模型的机器学习问题，分为学习和预测两个过程。

无监督学习指的是从无标注数据中学习预测模型的机器学习问题。

强化学习指的是智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

半监督学习指的是利用标注数据和未标注数据学习预测模型的机器学习问题。

主动学习是指的是机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。

统计学习三要素：模型、准则（策略）、优化（算法）

以监督学习为例：

模型：假设空间用 $\Gamma$ 表示。

①假设空间可以定义为决策函数的集合： $\Gamma=\left \{ f|Y=f(X) \right \}$ （X和Y是定义在输入空间 $\chi$ 和输出空间 $\gamma$ 上的变量）

参数空间： $\Gamma =\left \{ f|Y=f_{\theta } (X),\theta \in R^{n}\right \}$

②假设空间也可以定义为条件概率的集合： $\Gamma =\left \{ P|P(Y|X) \right \}$ （X和Y是定义在输入空间 $\chi$ 和输出空间 $\gamma$ 上的变量）

参数空间： $\Gamma =\left \{ P|P_{\theta }(Y|X),\theta \in R^{n} \right \}$

策略：损失函数度量模型一次预测的好坏，而风险函数度量平均意义下模型预测的好坏。

①0-1损失函数： $L(Y,f(X))=\left\{\begin{matrix} 1 & Y\neq f(X) & \\ 0 & Y= f(X) & \end{matrix}\right.$

②平方损失函数： $L(Y,f(X))=(Y-f(X))^{2}$

③绝对损失函数： $L(Y,f(X))=|Y-f(X)|$

④对数损失函数： $L(Y,P(Y|X))=-logP(Y|X)$

损失函数的期望: $R_{exp}(f)=E_{P}[L(Y,f(X))]=\int_{\chi *\gamma }^{ }L(y,f(x))P(x,y)dxdy$

给定一个训练数据集： $T=\left \{ (x_{1},y_{1}),(x_{2},y_{2}), \cdots ,(x_{N},y_{N})\right \}$ ,

则经验风险为： $R_{emp}(f)=\frac{1}{N}\sum L(y_{i},f(x_{i}))$

算法：梯度下降法、凸优化方法、解析解法、矩阵分解等