统计机器学习(统计学习及监督学习概论)
研究对象:数据。从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

目的:用于对数据的预测与分析

分类:监督学习,无监督学习,强化学习。

监督学习
监督学习的本质是学习输入到输出的映射的统计规律,从标注数据中学习预测模型的机器学习问题。

监督学习从训练数据集合学习模型,对测试数据进行预测,训练数据由输入与输出对组成。

监督学习分为学习和训练两个过程。

无监督学习
从无标注数据中学习预测模型的机器学习问题,无标注数据是自然得到的数据。

无监督学习通常使用大量的无标注数据学习或训练。

统计学习方法三要素:
方法=模型+策略+算法

损失函数度量模型一次预测的好坏
风险函数度量平均意义下模型预测的好坏
损失函数值越小,模型就越好

经验风险(经验损失)是模型关于训练样本集的平均损失。
结构风险最小化是为了防止过拟合而提出来的策略。
过拟合:训练过度使泛化能力下降。

在这里插入图片描述

当模型复杂度增大时,训练误差会逐渐减少趋向0,而测试误差会先减小,再增大,当选择模型复杂度过大时,过拟合现象就会发生。

为了解决过拟合的现象,就有两种常用的方法:正则化和交叉验证。
正则化时结构风险最小化策略实现,模型越复杂,正则化值就越大。
交叉验证的基本想法是重复地使用数据:把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复的进行训练,测试以及模型选择。

监督学习任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出,这个模型一般形式为决策函数:Y=F(X)或条件概率分布P(X|Y)。
监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法的学习收敛速度更快,当样本容量增加时,学到的模型可以更快的手链于真实模型,当存在隐变量时,仍可以用生成方法而不能用判别方法。
判别方法直接学习条件概率P(X|Y)或决策函数F(X),往往学习准确率更高,可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习问题。

监督学习应用:分类问题,标注问题和回归问题。

在这里插入图片描述
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器,分类器对新的输入进行输出的预测,称为分类。
评价分类器性能指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,也就是损失函数是0-1损失时测试数据集上的准确率。
标注问题是分类问题的一个推广,目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
回归模型是表示从输入变量到输出变量之间映射的函数,等价于函数拟合。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐