第一章机器学习概述

定义我们需要分析的目标---收集相关数据---对数据进行处理使得可以使用机器学习的方法对它运用,特征提取、特征降维、特征选择等

整理预处理 对数据集进行清洗---建模-选择合适的机器学习的方法,构造一个模型,对模型进行训练--对模型进行评价(策略)---应用

第二章机器学习基本方法

L1正则化(产生更为稀疏的矩阵)和L2正则化(不会和坐标轴进行相交)区别

L1正则化:

 

L2正则化:

 

两者的区别:

  • L1减少的是一个常量,L2减少的是权重的固定比例
  • L1使权重稀疏,L2使权重平滑
  • L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间
  • L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型

特征工程,特征选择的标准

特征选择的标准:拿到一组数据对数据进行向量化的处理得到若干个高维的数据(时间消耗大),导致产生冗余,对特征进行选择,不是越多越好或者越少越好,挑选的一定最具统计意义的特征组集来代表我们整个样本特征

第三章决策树

决策树:比如判断这是好瓜吗?我们会问,色泽如何?青绿色;然后再问,根蒂状态?蜷缩;再问敲击声响?沉闷。于是我们判断,这是好瓜。

将上述过程画成一个树形结构,一个节点node(包括根节点root)就是一个特征,通过特征的取值不同来判断,到达最终的叶节点(leaf)就是输出的标签值(也就是最终的分类选择)。

https://pic3.zhimg.com/80/v2-f8711a6d5791097f7909ebcd82a244ae_720w.jpg

决策过程就是对每个特征(属性)值的判断。

决策树停止迭代有三种情况

  1. 每一类都属于同一类   
     2. 没有特征可以用了   
     3. 达到算法规定的决策树的最大深度

决策树的构建步骤:

决策树:基尼系数越小,则数据集的纯度越高

决策树的构建是数据逐步分裂的过程,构建的步骤如下:

步骤1:将所有的数据看成是一个节点,进入步骤2

步骤2:从所有的数据特征中挑选一个数据特征对节点进行分割,进入步骤3

步骤3:生成若干孩子节点,对每一个孩子节点进行判断,如果满足停止分裂的条件,进入步骤4;否则,进入步骤2

步骤4:设置该节点是子节点,其输出的结果为该节点数量占比最大的类别。

每一次分支选择的属性的依据,每一个分支属性的计算公式要掌握

信息增益,信息增益率选择数比较大的

基尼系数选择比较小的

基尼系数之前上课讲的例题

决策树的优缺点

决策树列出了决策问题的全部可行方案和可能出现的各种自然状态,以及各可行方法在各种不同状态下的期望值。能直观地显示整个决策问题在时间和决策顺序上不同阶段的决策过程。在应用于复杂的多阶段决策时,阶段明显,层次清楚,便于决策机构集体研究,可以周密地思考各种因素,有利于作出正确的决策。决策树法缺点:使用范围有限,无法适用于一些不能用数量表示的决策;对各种方案的出现概率的确定有时主观性较大,可能导致决策失误;

如何对于整个模型进行评价

  • 混淆矩阵

正确地预测为正例(真正例):TP
正确地预测为反例(真反例):TN
错误地预测为正例(假正例):FP
错误地预测为反例(假反例):FN

https://img-blog.csdnimg.cn/20190520214020764.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkbnV3anc=,size_16,color_FFFFFF,t_70

  • 评价指标

accuracy=TP+TNTP+FN+FP+TN

准确率:分类模型正确分类的样本数(包括正例与反例)与样本总数的比值

精确率:模型正确分类的正例样本数与总的正例样本总数(即正确分类的正例样本数目与错误分类的正确样本数目之和)的比值

precision=TPTP+FP

召回率:模型分类正确的正例样本数与分类正确的样本总数(分类正确的正例和分类正确的反例之和)的比值

recall=TPTP+FN

  • 评价方法构建训练集构建验证

保留法:

交叉验证:固定一个折数,也就是划分,假设折数为3,代表将数据集大致划分为了3等分,然后2/3数据用于训练,1/3数据用于测试,这样此过程循环3次,从而使得每一个实例都可以用来训练和测试。如果同时采用了分层技术,这就是分层3折交叉验证。

留一法:折数为样本的个数,设样本个数为m,需要重复m次,最后取平均值

优点

  1. 每次使用尽可能多的数据进行训练(只有一个1实例用于测试),从而能够得到更准确的分类器。
  2. 这个方法具有确定性,因为采样是确定的,因而最后的误差估计也是确定的。所以没有必要重复留一交叉验证。

缺点

  1. 计算成本较高。需要m次训练和预测,对于大数据集来说,通常不可行(速度太慢了),反而可以在小数据集上得到尽可能正确的估计。
  2. 因为确定了采样方式(每次除去1个),因此不能进行分层(让数据呈现一定的比例),所以对数据集的某算法误差估计可能存在问题。这里举个例子:想象一个完全随机的数据集,含有数量相等的两个类,面对一个随机数据,所能给出的最好的预测方式是预测它属于多数类,其真实误差率为50%。但在留一法中,与测试数据相反的类才是多数类,因此每次预测都是错的,也就是误差率高达100%。

自助法 以上实例都是只能选择一次。而自助法不同它是有放回的抽样

四者之间的区别

④集成学习

装袋法平民之间投票产生的结果

提升数据集进行加权

两者之间的区别原理上的差别

第四章聚类

每一个聚类的类型代表方法

k均值  如何将样本划分到每一个类中,停止迭代的条件

 k-means算法基本步骤

  (1)从数据中选择k个对象作为初始聚类中心;

  (2)计算每个聚类对象到聚类中心的距离来划分;

  (3)再次计算每个聚类中心

  (4)计算标准测度函数,之道达到最大迭代次数,则停止,否则,继续操作。

DBSCAN如何计算每一个样本属于哪一个类的计算方法,优缺点

算法的优缺点

第五章文本分析

文本分析的一般流程

课下作业,回顾整体的流程

一般经过分词、文本特征捷取与表示特征选择、知识或信息挖掘和具体应用等步骤。分词包括了对文本分词、去除停用词、词形归一化等;文本特征提取与表示包括了词性标注、句法分析、语义分析、特征提取与表示等;在特征选择后,通过知识提取和挖掘,具体应用到文本分类、情感分析、信息抽取和问答系统等方面。

文本分析的过程从文本获取开始,一般经过分词、文本特征提取与表示、特征选择、知识或信息挖掘和具体应用等步骤。典型的文本分析过程如图5-1所示。

Word2vec模型 掌握两个小的模型之间的差别

CBOW(Continuous Bag-of-Words Model)和Skip-gram (Continuous Skip-gram Model),是Word2vec 的两种训练模式。

第六章神经网络

常用的激活函数

Sigmoid激活函数

Tanh激活函数:导致梯度消失

ReLU:导致死亡神经元 x<=0时x=0的直线

Leaky ReLU:避免梯度消息和死亡神经元

神经网络构成

输入层 所有数据样本的特征数

隐藏层

输出层 分类的个数

BP神经网络

算法流程

算法优缺点

第七章贝叶斯网络

朴素贝叶斯分类模型

算法原理

算法流程

模型计算

模型优缺点

贝叶斯公式

如何通过贝叶斯公式算出最大的后验概率,根据后验概率,得出归属的分类

拉普拉斯平滑

第八章支持向量机

  1. 支持向量机的基本原理要知道(浅显易懂的论述内容)

了解核函数

选择题2*10

判断题2*10

两个简答

两个计算(决策树 朴素贝叶斯 神经网络)

综合分析 小案例 自行选择算法进行构思

对于机器学习未来发展的思考

虽然AlphaGo战胜人类,但是距离超越人类仍旧有很长的路要走,其中一个重要原因就是其鲁棒性,相对于人类系统相差甚远,当人类犯错时,水平有可能是从九段降到八段;而机器犯错,则可能是从九段直接降到业余水准!

传统机器学习的任务主要是封闭静态环境的,其中数据分布恒定,样本类别恒定,样本属性恒定,而且评价目标恒定,其发展方向一定是转型开放动态环境的!

机器学习的现有形态:算法+数据

机器学习的技术局限性:1)需要大量训练样本;2)难以适应环境变化;2)黑箱模型:黑箱模型在一定程度上导致其模型的不稳定性;

机器学习可能会有寒冬,但是新出现的技术一定是能够更好享受计算机算力提高所带来的福利的技术!

分类算法流程及优缺点重点掌握1~2个就行,要能够把完整流程写下来,但不要求推导

1 贝叶斯分类器

  优点:接受大量数据训练和查询时所具备的高速度,支持增量式训练;对分类器实际学习的解释相对简单

  缺点:无法处理基于特征组合所产生的变化结果

2 决策树分类器

  优点:很容易解释一个受训模型,而且算法将最为重要的判断因素都很好的安排在了靠近树的根部位置;能够同时处理分类数据和数值数据;很容易处理变量之间的相互影响;适合小规模数据

  缺点:不擅长对数值结果进行预测;不支持增量式训练

3 神经网络

  优点:能够处理复杂的非线性函数,并且能发现不同输入间的依赖关系;支持增量式训练

  缺点:黑盒方法,无法确定推导过程;选择训练数据的比率与问题相适应的网络规模方面,没有明确的规则可以遵循,选择过高的训练数据比率有可能导致网络对噪声数据产生过渡归纳的现象,而选择过低的训练比率,则意味着除了已知数据,网络有可能不会再进一步学习了。

4 支持向量机

  优点:通过将分类输入转化成数值输入,可以令支持向量同时支持分类数据和数值数据;适合大规模数据

  缺点:针对每个数据集的最佳核变函数及其相应的参数都是不一样的,而且每当遇到新的数据集都必须重新确定这些函数及其参数;黑盒技术,由于存在高维空间的变换,SVM的分类过程更加难以解释。

5 K-最近邻

  优点:能够利用复杂函数进行数值预测,同时又保持简单易懂的特点;合理的数据缩放量;在线(online)技术,新数据可以随时被添加进来,而不必重新进行训练。

  缺点:要求所有训练数据都必须缺一不可;寻找合理的缩放因子比较乏味

机器学习的一般流程要知道,没有直接考查,但有道大题与它相关

流程:定义分析目标、收集数据、整理预处理、特征选择、数据建模、模型训练、模型评估、模型应用

更多推荐