名词解释及含义

机器学习

机器学习最初在达特茅斯会议上被提出,这次会议被认为是人工智能学科诞生的标志性会议。
Arthur Samuel在这次会议上首次提出“机器学习”这一名词,并把它定义成:

不显式编程地赋予计算机能力的研究领域

通俗来讲,机器学习是计算机通过一些特殊的学习算法,在我们的经验数据的基础上,产生相应解决问题模型的学问,是一门研究学习算法的学问。

关于数据

  1. 记录:指的是某个对象的一组特征的具体取值

    例如对这个对象

    (姓名=XXX;性别=男;身高=180)

    就是一个具体取值,称为一条记录

  2. 数据集(data set):记录的集合,有时也称作总体的一个样本(sample)

    数据集中的记录,表示了对某个对象的描述,每一条记录又被称作一个示例(instance),也称作一个样本(sample)

    可以通过上下文判断样本指的是整个数据集还是单条记录。

  3. 属性(attribute):也称特征(feature),指的是事物
    在某一方面的表现或性质。

    例如中的姓名就是一种属性,而具体的姓名,我们通常称为属性值(attribute value)

    通常把属性值作为坐标,将属性张开成空间,形成属性空间(attribute space)或者称为样本空间(sample space)输入空间

    属性值作为坐标值,将能够在属性空间中确定一个唯一的点。

  4. 特征向量(feature vector):指某个点在属性空间中的具体坐标,即数据集中的一个示例(或样本)。

学习或训练

通过某个学习算法从数据中学的模型的过程称为学习训练

注:注意区分模型和模式,模型指的是一种全局性的结果,模式指的是一种局部性的结果。

与数据部分一一对应,在学习或训练过程中使用到的数据被称为训练数据(training data),样本被称为训练样本(training sample),数据集被称为训练集(training set)

学习过程中会产生阶段性的模型,但是这种模型是基于某个样本的可能具有特殊性的模型,它所反映的某种潜在规律通常称为假设(hypothesis),与之对应,真正存在的这种规律被称为真相或者真实(ground-truth)

学习过程就是为了在有限的样本上找到或逐渐逼近真相。

学习任务种类

学习的目的是建立样本的预测模型,获得结果信息
根据训练数据集是否有标记信息,可以将学习任务分为两大类:

  1. 监督学习(supervised learning)
  2. 无监督学习(unsupervised learning)

注意,这里的标记信息指的是训练集中对某条记录结果的人为规定

监督学习

监督学习是有标记的学习任务,有两种代表方法:分类回归

  1. 分类
    指的是对离散值的预测,一般分为二分类多分类任务。

    二分类顾名思义就是指分类结果只涉及到两个类别,通常会将其中一个类别称为正类,另一个称为反类负类,结果一般用{1,0}或者{+1,-1}标定。

    多分类指的是分类结果涉及多个类别,有多个映射关系。

  2. 回归
    指的是对连续值的预测,例如对比例或者概率的预测。

无监督学习

无监督学习是无标记的学习任务,代表方法是聚类(clustering)

聚类指的是通过对相似性的分析,得出我们之前可能不知道的分组,这些分组称为簇(cluster)

其他词汇

  1. 泛化(generalization)
    泛化能力是指由训练集得到的模型对新样本的适用能力,泛化能力强的模型能更好的适用于整个样本空间。

    泛化是从特殊到一般的过程,是通过训练样本寻找数据潜在规律的过程,是数学中归纳的过程。

  2. 特化(specialization)
    特化指的是从一般到特殊的过程,是数学中演绎的过程。

  3. 假设空间版本空间
    假设空间指的是全部可能取值组合的空间,即不含噪声的情况下的总体。
    版本空间指的是正常学习任务中的有限样本训练集中所有假设的集合。

  4. 归纳偏好
    指的是不同学习算法的偏向性不同算法在归纳过程中,对于同一记录可能会产生不同的预测结果,这就是算法的偏向性。
    这种偏向性主要取决于一种算法对记录不同属性的关注程度,称为特征选择(feature selection)

常用原则和定理

奥卡姆剃刀(Occam’s razor)原则

若有多个假设与观察一致,则选择最简单的那个。

这一原则本身就存在不同的解释,我们需要借助其他的机制来帮助我们判定哪种假设是更简单的。

“没有免费的午餐”定理(No Free Lunch Theorem,NFL)

在所有问题出现机会相同,或者所有问题都同等重要时,所有学习算法的期望性能都相同。

NFL定理告诉我们,脱离具体问题,空谈什么算法更好是没有意义的,算法的优劣必须要放到具体问题中具体分析(?马原乱入)。

多释原则(Principle of multiple explanations)

主张保留与经验观察一致的所有假设

这一原则主要在集成学习的研究中得到体现。

参考文献

机器学习 周志华 清华大学出版社 2016版

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐