机器学习在这里插入图片描述

机器学习的方法

1有监督学习
分类问题
回归问题
2无监督学习不能通过对答案的方法进行学习
聚类
3半监督学习通过对少量的有标注的训练数据和大量的未标记的数据进行学习
4增强学习
只对输出的给评价
5多任务的学习
多个相关的任务放在一起进行学习

问题提出

莺尾花分类在这里插入图片描述
1.数据处理
数据清洗
数据的完整性
数据的合法性
数据的权威性
数据的唯一性
数据的一致性

数据采样
对不平衡的数据进行过采样和欠采样的方法,
数据集的拆分
①训练数据
②验证数据
③测试数据
(留出法)一般采用70%为训练,30%测试
在这里插入图片描述
2.特征工程特征编码,特征选择,特征降维,规范化
特征编码
将数据转化为为数值形式
在这里插入图片描述
3.数据建模回归,分类,聚类,其他问题
在这里插入图片描述
4.结果评估拟合度量,查准率,查全率

分类问题

分类问题是监督学习的一种核心问题
二分类

多分类

核心算法
决策树,贝叶斯,SVM,逻辑回归

决策树

在这里插入图片描述
决策树的算法
ID3,C4.5,CART算法

贝叶斯分类

1.计算先验概率
2.为每个数学计算条件概率
3.计算后验概率在这里插入图片描述

在这里插入图片描述

SVM分类

是一种有监督学习。
包括三种情况
在这里插入图片描述
在这里插入图片描述

逻辑回归

logistics回归
使用了sigmoid函数,满足(0,1)的概率分布,满足单调性,具有良好的连续性

集成学习

通过多个弱分类器集成在一起,共同完成学习任务
两大类方法
1.bagging方法

2.boosting方法
在这里插入图片描述

回归问题

预测输入与输出的问题的关系,对已知的数据进行拟合,包括一元回归,多远,线性/非线性,简单/多重回归分析。

线性回归

假设特征和结果是满足线性关系。在这里插入图片描述
线性回归扩展算法
多项式拟合:
当出现过拟合的时候
使用岭回归,加入二范数。
使用lasso回归,压缩系数。适用于样本量小,高维统计。

聚类问题

无监督学习

K-means算法

在这里插入图片描述
最后进行迭代,直到中心点不再变化。

高斯混合模型

单高斯模型(正态分布)

高斯混合模型
em算法与k-mean算法相似

密度聚类在这里插入图片描述

层次聚类

在这里插入图片描述

谱聚类

在这里插入图片描述

其他问题

隐马尔可夫模型

用于语音识别,自然语言处理,生物信息

CRF条件随机场

LDA主题模型

LDA和CRF均与自然语言相关

结果评估

在这里插入图片描述

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐