Start Machine Learning

1.机器学习基础知识1.1什么是机器学习机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。传统的编程理念：对于一个需要解决的问题，通常是先制定规则，然后根据规则编写代码，最后让计算机去执行。但是，当问题的规则无法制定，或问题的规则在不断的变化时，使用传统的编程理念是不可行的，于是引入了机器学习。例：让计算机去识别一只猫。难点：由于猫的种类多种多样，因此难以制定规...

BingLZg

272人浏览 · 2019-01-27 04:12:59

BingLZg · 2019-01-27 04:12:59 发布

1.机器学习基础知识

1.1什么是机器学习

机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。

传统的编程理念：对于一个需要解决的问题，通常是先制定规则，然后根据规则编写代码，最后让计算机去执行。

但是，当问题的规则无法制定，或问题的规则在不断的变化时，使用传统的编程理念是不可行的，于是引入了机器学习。

例：让计算机去识别一只猫。

难点：由于猫的种类多种多样，因此难以制定规则去识别猫的特征。

人类是如何学习呢？

获取一定的样本资料，如猫的图片；通过学习、归纳和总结来获取一定的经验和知识，如猫的特征；当我们遇到一只动物时，很容易区分出它是不是一只猫。

机器学习同样如此。我们提供数百万张猫的图片来对机器进行培训，机器在这些图片中找到重复的特征，并确定该如何定义猫的外观。当我们向机器提供一个猫的图片时，就会很容易区分这是不是一只猫。

机器学习中监督学习的一般流程如下：

机器学习是目前是实现人工智能的主要方法，其本质是利用数据来回答问题。

1.2基本术语

由于鸢尾花的特征较少，因此使用鸢尾花的数据集来讲解基本术语，如下所示。

花萼长度	花萼宽度	花瓣长度	花瓣宽度	鸢尾花种类
4.9	3.0	1.4	0.2	Setosa
4.7	3.2	1.3	0.2	Setosa
5.5	2.6	4.4	1.2	Versicolour
5.7	2.8	4.5	1.3	Versicolour
6.3	2.5	5.0	1.9	Virginica

(1)一组数据的集合，称为数据集；如表中所包含的5行数据。

(2)关于一个对象的描述，称为样本(或示例)；如表中的每一行数据(除第一行)都是一个样本。

(3)样本在某一方面的性质，称为特征(或属性)；如鸢尾花数据集中有4个特征，花萼长度、花萼宽度、花瓣长度、花瓣宽度。

(4)特征的数量称为维数；鸢尾花数据集的维数为4。

(5)特征(可以2-4个特征)所组成的空间，称为特征空间(或属性空间、样本空间)。

(6)特征空间中，样本对应的点称为特征向量，如X(1) = (4.9; 3.0; 1.4; 0.2)表示第一个样本的特征向量。

(7)训练过程中使用的数据集，称为训练样本(或训练集)；测试过程中使用的数据集，称为测试样本(或测试集)。

(8)通过学习得到的模型，称为学习器或模型。

(9)通过模型得到的结果，称为标记(或标签)；如Setosa、Versicolour、Virginica。

为了书写上的统一，标量使用未加粗的小写字母表示，如x；向量使用加粗的小写字母表示，如x；矩阵使用大写字母表示，如X；行向量使用(a,b,c)的形式表示；列向量使用(a;b;c)的形式来表示(特征向量一般写作列向量)。

由于上述鸢尾花特征值的数据集是矩阵，因此使用X来表示，则第i个样本的特征向量写作X(i)；第i个样本的第j个特征写作X(i)j。若将上述鸢尾花标签值的数据集使用y来表示，则第i个样本的标签值写作y(i)。每个样本由特征向量和标签值组成，可以写作((X(i))T, y(i))。正常情况下，特征向量通常使用列向量来表示，因此X = ( (X(1))T;(X(2))T;(X(3))T;(X(4))T;(X(5))T )。