机器学习概述

一、关于概率的基本概念离散型随机变量：伯努利分布p(x) = ux(1-u)(1-x)、二项分布P(X=k) = Cnkuk(1-u)n-k、连续型随机变量：∫f(x) dx = 1。高斯分布(正态分布)、指数分累计分布函数CDF: 随机变量X取值小于等于x的概率cdf(x) = P(X≤x)联合概率分布(Joint Probability Distribution)、条件概率(Conditio

律队i

5429人浏览 · 2022-04-25 19:46:17

律队i · 2022-04-25 19:46:17 发布

一、关于概率的基本概念

离散型随机变量：伯努利分布p(x) = ux(1-u)(1-x)、二项分布P(X=k) = Cnkuk(1-u)n-k、
连续型随机变量：∫f(x) dx = 1。高斯分布(正态分布)、指数分
累计分布函数CDF: 随机变量X取值小于等于x的概率cdf(x) = P(X≤x)
联合概率分布(Joint Probability Distribution)、条件概率(Conditional Probability)
采样(Sampling)：给定一个概率分布p(x)生成满足条件的样本。
直接采样：均匀分布Uniform[0,1),xt+1=(axt+c) mod m线性同余发生器
逆变换采样：对[0,1]均匀采样，然后x = cdf-1(y)
期望(Expectation)：均值EX =∫xf(x)dx, EX =1/n Σxp(x)
大数定律(Law of Large Numbers)：样本均值和真实均值充分接近，均值收敛于期望值。

二、机器学习定义

1. 机器学习≈自动构建一个映射函数

在这里插入图片描述

现实世界的问题都比较复杂：构造很多训练样本，让计算机自己找到规则。

2. 如何构建映射函数？从大量数据中学习规律。–function

x(reprentation)  y(label); （注意区别：建立两个两边之间的关系—拟合问题）
y = g(x)关系不知道。服从的Pr(x,y)分布也不知道。
① 采样x(1)y(1); x(2)y(2); …; x(n)y(n). training data。
② 构造假设空间(函数族)，f1(x); f2(x); …; fk(x). 挑选最优的f*(x).
③ f*(x)是希望可以应用到位置的数据上，而拟合是希望可以适合更多的训练数据。

3. 机器学习(Machine Learning, ML)

是指从有限的观测数据中学习（或“猜测”）出具有一般性的规律，并利用这些规律对位置数据进行预测的方法。
在这里插入图片描述

三、机器学习类型

回归问题（Regression）：输出是一个连续值。票房预测、股价预测、房价预测
分类问题（Classification）：手写数字识别、人脸检测、垃圾邮件检测Spam Detection
图像聚类（Clustering Images）:无监督学习问题，只有x没有y。
强化学习：通过与环境进行交互来学习。AlphaGo、
在这里插入图片描述

典型监督学习问题：回归输出连续值，分类输出离散值。
**加粗样式**

典型无监督学习问题：
在这里插入图片描述

四、机器学习的要素

四个基本要素：数据、模型、学习准则、优化算法。

1. 数据

有x, y则是监督问题，y是连续的则是回归问题，y是离散的则是分类问题。只有x则是无监督问题。
从原始数据中怎么抽取特征，就是特征抽取问题。如果自动抽取特征的话就是一个表示学习的问题。

2. 模型

首先要给定一个假设空间，然后选择一个最优的模型。能够建模就是预测x和y之间的关系。

3. 学习准则

有一个准则来判断学习的模型是好是坏。

4. 优化算法

给定一个准则后可以用一些数学优化的算法去学到我们期望的模型。
★模型：（以回归为例）
线性模型f(x;θ) = wTx+b;
非线性模型f(x;θ) = wTΦ(x)+b; 如果Φ(x)为可学习的非线性基函数，f(x,θ)就等价于神经网络。
★学习准则
一个好的模型应该在所有去之上都与真实映射函数一致：|f(x;θ )-y| < ε
① 损失函数（Loss Function）是一个非负实数函数，用来量化模型预测和真实标签之间的差异。L(y, f(x;θ))
比如平方损失函数1/2(y-f(x;θ))2。所以就希望找一个θ能让损失函数更小。
② 期望风险（Expected Risk）：R(θ)=E(x,y)~pr(x,y)[ L(y, f(x;θ))]. pr(x,y)是真实的数据分布，L是损失函数。pr未知，所以R(θ)没法儿算 --> 大数定律来逼近。
③ 经验风险（Empirical Risk）: RDemp (θ)=1/N·Σ L(y(n), f(x(n);θ))。用经验风险来逼近期望风险。
经验风险最小化（Empirical Rick Minimization, ERM）寻找一个参数θ*，使得经验风险函数最小化。
θ* = arg min RDemp (θ). --> 优化问题
★最优化问题min f(x)
凸优化问题（Convex）、非凸优化问题(Non-convex)：极值点导数等于0.
梯度下降法（Gradient Descent）：搜索步长α也叫学习率（Leaning Rate），需要人为选择，与θ不同。
在这里插入图片描述

随机梯度下降法（Stochastic Gradient Descent, SGD）：只选取一个样本，无法利用并行计算的资源。
小批量（Mini-Batch）随机梯度下降法。
在这里插入图片描述

五、泛化与正则化（核心）

在这里插入图片描述

机器学习更关注的不是训练集上的错误率，而是整个数据包括测试集上的错误率。也就是期望风险。
**加粗样式**

1. 泛化误差

期望风险与经验风险的插值。比如一个模型，经验风险特别低，期望风险特别高，那么泛化误差也就特别大。就是出现了过拟合。
所以机器学习的目标就是经验风险比较低的，同时泛化误差也比较低。

2. 优化

经验风险最小。正则化：降低模型复杂度。
正则化（Regualrization）：所有损害优化的方法都是正则化。降低泛化误差的方法。
增加优化约束、干扰优化过程

六、线性回归

1. 回归（Regression）

训练集：{x(n), y(n)}n=1,…, N
回归问题：x(n)∈RD, y(n) ∈R, 求解x, y之间的映射关系。y=f(x;θ)

2. 线性回归（Linear Regression）

在这里插入图片描述

3. 经验风险最小化（ERM）

训练集D上的经验风险
在这里插入图片描述

矩阵微分

4. 结构风险最小化（Structure Risk Minimization, SRM）

特征之间存在共线性，XXT不可逆：特征之间存在冗余性。

经验风险基础上加上一个正则化项：在这里插入图片描述

令其最小化得到： (岭回归方法) 在这里插入图片描述

七、多项式回归

曲线拟合（Curve Fitting）
多项式曲线拟合（Polynomial Curve Fitting）：如何选择多项式的次数。
损失函数
在这里插入图片描述

控制过拟合：正则化（Regularization）、增加训练样本数量
在这里插入图片描述

八、线性回归的概率视角

1. 从概率角度来看线性回归

假设标签y为一个随机变量，其服从以均值为wTx，方差为o2的高斯分布
在这里插入图片描述

2. 似然函数（Likelihood）

似然函数时关于统计模型p(x;w)的参数w的函数
概率p(x;w)是描述固定参数w时随机变量x的分布情况
似然p(x;w)则是描述一直随机变量x时不同个参数w对其分布的影响。
线性回归中的似然函数：参数w在训练集D上的似然函数
在这里插入图片描述

最大似然估计（Maximum Likelihood Estimate, MLE）：找到一组参数w使得似然函数p(y|X;w,o)最大，偏导等于零。（等于经验风险最小解）

3. 贝叶斯的视角

贝叶斯学习：将参数w也看作随机变量。目标：给定一组观测数据X，球参数w的分布p(w|X)，也称为后验分布（Posterior）。
后验、似然、先验的关系：正比。
在这里插入图片描述

九、模型选择与“偏差-方差”分解

如何选择一个合适的模型？模型选择：能力过强容易过拟合，限制模型复杂度容易欠拟合。在模型选择的时候测试集不可见。模型选择（Model Selection）

1. 引入验证集（Validation Set）

将训练集分为两个部分：训练集Training Set和验证集Validation Set。在训练集上训练不同模型，选择在验证集上错误最小的模型。
–> 数据稀疏问题：交叉验证（Cross-Validation），训练集分为S组，每次使用S-1组作为训练集，剩下1组作为验证集。取验证集上平均性能最好的一组。

2. 赤池信息量准则（Akaike Information Criterion, AIC）、贝叶斯信息准则（Bayesian Information Criterion, BIC）

3. 偏差-方差分解（Bias-Variance Decomposition）

模型复杂度与期望风险之间的关系
实际训练一个模型时，不同训练集会得到不同的模型。以平均性能来评价。
在这里插入图片描述

偏差bias,自身方差，噪声
在这里插入图片描述

十、常用定理

① 没有免费午餐定理（NFL）：没有适用于所有问题的算法
② 丑小鸭定理（Ugly Duckling Theorem）：丑小鸭与白天鹅之间区别与两只白天鹅之间区别一样大。（表示特征）
③ 奥卡姆剃刀原理（Occam`s Razor）：如无必要，误增实体。简单的模型能用就不用复杂的。

1. 归纳偏置（Inductive Bias）

：很多学习算法经常会对学习的问题做一些假设，这些假设称为归纳偏置。（不一定成立，但是对学习可能有帮助）
最邻近分类器中，假设特征空间中一个小邻域大部分样本属于同一类。
朴素贝叶斯分类其中，假设每个特征的条件概率是相互独立的。
归纳偏置在贝叶斯学习中也成为先验（Prior）。

2. PAC学习

（Probably Approximately Correct, 可能近似正确）
根据大数定律，当训练集大小|D|趋于无穷大时，泛化误差趋于0，经验风险趋近于期望风险。

3. 样本复杂度

在这里插入图片描述

亚马逊云科技技术品牌专区

更多推荐

企业物联网平台如何选择？

亚马逊云科技技术品牌专区

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

从华为的MQTT到TdEngineRPC，解读物联网时代的分布式

今天中秋节，笔者首先祝各位读者们中秋快乐，之所以在今天这个团圆节来谈分布式的话题，就是要聊聊物联网是如何通过MQTT连接各类终端，如何通过RPC整合各种数据的。下面就通过代码+动图的方式来解读一下华为LiteOS的MQTT与TD的RPC。MQTT协议MQTT是一个客户机服务器发布/订阅消息传输协议。它重量轻、开放、简单、易于实现。这些特性使其非常适合在物联网的低带宽、...

亚马逊云科技技术品牌专区

所有评论(0)

查看更多评论

律队i

@ak201605050122

已为社区贡献1条内容

机器学习概述

律队i

一、 关于概率的基本概念

二、 机器学习定义

1. 机器学习≈自动构建一个映射函数

2. 如何构建映射函数？从大量数据中学习规律。–function

3. 机器学习(Machine Learning, ML)

三、 机器学习类型

四、 机器学习的要素

1. 数据

2. 模型

3. 学习准则

4. 优化算法

五、 泛化与正则化（核心）

1. 泛化误差

2. 优化

六、 线性回归

1. 回归（Regression）

2. 线性回归（Linear Regression）

3. 经验风险最小化（ERM）

4. 结构风险最小化（Structure Risk Minimization, SRM）

七、 多项式回归

八、 线性回归的概率视角

1. 从概率角度来看线性回归

2. 似然函数（Likelihood）

3. 贝叶斯的视角

九、 模型选择与“偏差-方差”分解

1. 引入验证集（Validation Set）

2. 赤池信息量准则（Akaike Information Criterion, AIC）、贝叶斯信息准则（Bayesian Information Criterion, BIC）

3. 偏差-方差分解（Bias-Variance Decomposition）

十、 常用定理

1. 归纳偏置（Inductive Bias）

2. PAC学习

3. 样本复杂度

所有评论(0)

律队i

一、关于概率的基本概念

二、机器学习定义

三、机器学习类型

四、机器学习的要素

五、泛化与正则化（核心）

六、线性回归

七、多项式回归

八、线性回归的概率视角

九、模型选择与“偏差-方差”分解

十、常用定理