【每日AI】什么是机器学习（ML)？

机器学习术语“机器学习”或简称ML（Machine Learning），是亚瑟·塞缪尔（Arthur Samuel）在1959年用机器解决跳棋游戏的背景下提出的。该术语指的是一种计算机程序，它可以学习产生一种行为，而这种行为不是由程序的作者明确编程实现的。相反，它能够显示出作者可能完全没有意识到的行为。这种行为的学习基于三个因素：程序消耗的数据；量化当前行为和理想行为之间的误差或某种形式的距离的度

TUSTer_

2899人浏览 · 2022-01-19 22:00:39

TUSTer_ · 2022-01-19 22:00:39 发布

机器学习

术语“机器学习”或简称ML（Machine Learning），是亚瑟·塞缪尔（Arthur Samuel）在1959年用机器解决跳棋游戏的背景下提出的。该术语指的是一种计算机程序，它可以学习产生一种行为，而这种行为不是由程序的作者明确编程实现的。相反，它能够显示出作者可能完全没有意识到的行为。

这种行为的学习基于三个因素：

程序消耗的数据；
量化当前行为和理想行为之间的误差或某种形式的距离的度量；(日常生活中所说的"量化"：指的是目标或任务具体明确，可以清晰度量。)
使用量化误差指导程序在后续事件中产生更好行为的反馈机制。

可以看出，第二个和第三个因素很快使这个概念变得抽象，并强调其深层的数学根源。机器学习理论中的方法对于构建人工智能系统至关重要。

机器学习算法大致分为三种类型：

监督学习算法
无监督学习算法
半监督学习算法
强化学习算法

让我们详细了解每种类型。

监督学习

这里写图片描述

为简单起见，让我们将机器学习系统看作一个黑盒（看不见内部运作），在给定一些输入时会产生些输出。如果我们已经有一个历史数据，该历史数据包含一组输入的一组输出，则基于这些数据的学习称为监督学习。

监督学习的一个经典示例是分类。假设我们已经测量了3种不同类型的花（ Setosa山鸢尾、 Versicolor变色鸢尾、 Virginica弗吉尼亚鸢尾）的4种不同的属性（尊片长度、尊片宽度、花瓣长度和花瓣宽度）。

我们对每种花的25种不同示例进行了测量。然后，这些数据将用作训练数据，其中有可用于训练模型的输入（4个测量的属性）和相应的输出（花的类型）。然后以监督的方式训练合适的机器学习模型。一旦模型被训练好，就可以根据萼片和花瓣的尺寸对任何花（在三种已知类型之间）进行分类。

无监督学习

这里写图片描述

在无监督学习范式中，标记数据是不可用的。无监督学习的一个经典例子是“聚类”。考虑与前面小节中描述的相同示例，在该示例中，我们对三种类型的花的萼片和花瓣尺寸进行了测量。但是，在本例中，我们没有每组测量的花的确切名称。我们所拥有的只是一组测量值。此外，我们被告知这些测量值属于三种不同类型的花。

在这种情况下，可以使用无监督学习技术自动识别三组测量值（所属的）类簇。但是，由于标签未知，我们所能做的就是将每个类簇称为flower-type-1、flower-type-2和flower-type-3。如果给出一组新的测量值，我们可以找到它们最接近的类簇，并将它们归类为其中之一。

半监督学习

在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。