统计机器学习（统计学习及监督学习概论）

统计机器学习研究对象：数据。从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。目的：用于对数据的预测与分析分类：监督学习，无监督学习，强化学习。监督学习监督学习的本质是学习输入到输出的映射的统计规律，从标注数据中学习预测模型的机器学习问题。监督学习从训练数据集合学习模型，对测试数据进行预测，训练数据由输入与输出对组成。监督学习分为学习和训练两个过程。无监

Ivan_QAQ

259人浏览 · 2020-10-21 09:49:24

Ivan_QAQ · 2020-10-21 09:49:24 发布

统计机器学习（统计学习及监督学习概论）
研究对象：数据。从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。

目的：用于对数据的预测与分析

分类：监督学习，无监督学习，强化学习。

监督学习
监督学习的本质是学习输入到输出的映射的统计规律，从标注数据中学习预测模型的机器学习问题。

监督学习从训练数据集合学习模型，对测试数据进行预测，训练数据由输入与输出对组成。

监督学习分为学习和训练两个过程。

无监督学习
从无标注数据中学习预测模型的机器学习问题，无标注数据是自然得到的数据。

无监督学习通常使用大量的无标注数据学习或训练。

统计学习方法三要素：
方法=模型+策略+算法

损失函数度量模型一次预测的好坏
风险函数度量平均意义下模型预测的好坏
损失函数值越小，模型就越好

经验风险（经验损失）是模型关于训练样本集的平均损失。
结构风险最小化是为了防止过拟合而提出来的策略。
过拟合：训练过度使泛化能力下降。

在这里插入图片描述

当模型复杂度增大时，训练误差会逐渐减少趋向0，而测试误差会先减小，再增大，当选择模型复杂度过大时，过拟合现象就会发生。

为了解决过拟合的现象，就有两种常用的方法：正则化和交叉验证。
正则化时结构风险最小化策略实现，模型越复杂，正则化值就越大。
交叉验证的基本想法是重复地使用数据：把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复的进行训练，测试以及模型选择。

监督学习任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出，这个模型一般形式为决策函数：Y=F（X）或条件概率分布P（X｜Y）。
监督学习方法又可以分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。
生成方法的学习收敛速度更快，当样本容量增加时，学到的模型可以更快的手链于真实模型，当存在隐变量时，仍可以用生成方法而不能用判别方法。
判别方法直接学习条件概率P（X｜Y）或决策函数F（X），往往学习准确率更高，可以对数据进行各种程度上的抽象，定义特征并使用特征，因此可以简化学习问题。

监督学习应用：分类问题，标注问题和回归问题。

在这里插入图片描述
监督学习从数据中学习一个分类模型或分类决策函数，称为分类器，分类器对新的输入进行输出的预测，称为分类。
评价分类器性能指标一般是分类准确率，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比，也就是损失函数是0-1损失时测试数据集上的准确率。
标注问题是分类问题的一个推广，目的在于学习一个模型，使它能够对观测序列给出标记序列作为预测。
回归模型是表示从输入变量到输出变量之间映射的函数，等价于函数拟合。