Python机器学习探索（一）——计算机学习数据的能力

什么是计算机学习数据的能力？智能机器将数据转化为知识——机器学习是一门能够发掘数据价值的算法与应用，机器学习通过自学习算法的开发，从数据中获取知识，对未来预测。与以往通过大数据分析而人工推导出规则构造模型不同，机器学习提供了一种从数据中获取知识的方法，同时提供预测模型的性能，并将模型应用与基于数据驱动的决策中。应用领域：垃圾邮件过滤，文字语音识别，可靠的网络搜索引擎，无人驾驶等。

smhailang

595人浏览 · 2017-06-11 09:42:22

smhailang · 2017-06-11 09:42:22 发布

<body style=`overflow:-Scroll;overflow-x:hidden` >

1.1什么是计算机学习数据的能力
智能机器将数据转化为知识——机器学习是一门能够发掘数据价值的算法与应用，机器学习通过自学习算法的开发，从数据中获取知识，对未来预测。与以往通过大数据分析而人工推导出规则构造模型不同，机器学习提供了一种从数据中获取知识的方法，同时提供预测模型的性能，并将模型应用与基于数据驱动的决策中。
应用领域：垃圾邮件过滤，文字语音识别，可靠的网络搜索引擎，无人驾驶等。
1.2机器学习的三种方法：监督学习（supervised learning）、无监督学习（unsupervised learning）、强化学习（reinforcement learning）。
1.2.1通过监督学习来对未来事件进行预测
监督学习主要目的是使用类标的训练（training）数据构建模型，我们可以使用训练得到的模型对未来数据进行预测。监督（supervised）是指训练数据集中的每个样本均有一个已知的输出项（类标（label））。
监督学习一般使用离散的类标（class label），类似于过滤垃圾邮件的问题也被成为分类（classsification）。监督学习的另一个子类是回归（regression），回归的输出项是连续值。
1利用分类对类标进行预测
分类是监督学习的一个子类，目的是对过往类标已知示例的观察与学习，实现对新样本类标的预测。这些类标是离散的、无序的值可以视为样本的组别信息（group membeiship）。检测垃圾邮件的例子是典型的二类别分类（binary classification）任务。
通过监督学习算法构造的预测模型可以将训练样本库中出现的任何类标赋给一个尚未被标记的新样本。手写字符识别就是一个典型的多类别分类（multi-class classification）的例子。
2使用回归预测连续输出值
分类的任务是将具有类别的、无序类标分配给各个新样本。另一类监督学习针对连续输出变量进行预测，即回归分析（regression analysis）。在回归分析中，数据会给出大量的自变量（解释变量）和相应的连续因变量（输出结果），通过尝试寻找这两种变量之间的关系，就能够预测输出变量。
1.2.2通过强化学习解决交互式问题
强化学习的目标是构建一个系统（Agent），在与环境（environment）交互的过程中提供系统的性能。环境的当前信息中通常包括一个反馈（reward）信号，我们可以将强化学习视为与监督学习相关的领域。然而，在强化学习中，这个反馈不是一个确定的类标或连续的值，而是一个通过反馈函数产生的对当前系统行为的评价。通过与环境交互，Agent 可以通过强化学习来得到一系列行为，通过探索性的试错或者借助精心设计的激励系统使得正向反馈最大化。
一个常用的强化学习的例子就是象棋对弈的游戏。在此，Agent根据棋盘的当前局态（环境）决定落子的位置，而游戏胜负的判定可以作为激励信号。
1.2.3通过无监督学习发现数据本身潜在的结构
在监督学习中，训练模型之前，我们事先获知各训练样本对应的目标值。
在强化学习中，可以由Agent定义反馈函数对特定行为进行判定。
在无监督学习中，我们将处理无类标数据或总体分布不明朗的数据。通过无监督学习，我们可以在没有已知输出变量和反馈函数指导的情况下提取有效信息来探索数据的整体结构。
1.通过聚类发现数据的子群
聚类是一种探索性数据分析技术。在没有任何相关先验信息的情况下，它可以帮助我们将数据划分为有意义的小的组别（即簇（cluster））。对数据进行分析时，生成的每个簇中其内部成员之间具有一定的相似度，而与其他簇中的成员具有较大的不同，这也是为什么聚类有时被称为“无监督分类”。聚类是获取数据的结构信息，以及导出数据间有价值的关系的一种很好的技术，例如，可以使市场人员基于用户兴趣将其分为不同的类别，以分别制定相应的市场营销计划。
2.数据压缩中的降维
数据降维（dimensionality reduction）使无监督学习的另一个子领域。通常，我们面对的数据都是高维的（每次采样都会获取大量样本值），这就对有限的数据存储空间以及机器学习算法性能提出挑战。无监督降维是数据预处理是常用技术，用于清除数据中的噪声，它能够在最大程度保留相关信息的情况下将数据压缩到一个维度较小的子空间，但同时也可能降低算法在准确性方面的性能。
降维技术有时在数据可视化方面也是非常有用。例如，一个具有高维属性的数据集可以映射到一维、二维或者三维的熟悉空间，并通过三维或二维的散点图和直方图对数据进行可视化展示。
1.2.4 基本术语及符号介绍
样本：样例、实际观察到的数据
特征：属性、度量、维度
类标：目标数据
为了保证描述过程中所用符号及推理过程简单、高效，我们将采用线性代数（Linear algebra）中的一些基本知识。主要使用矩阵和向量标识数据。并作如下约定：矩阵 X 中的每一行代表一个样本，而样本中的每个特征都表示单独的列。