即使是一个最简单的分类方法都是存在无数的边界,然而,我们很难讲他们当中哪个才是最好的。这是因为,即使针对已知数据我们可以恰当的分类,这也不能保证对未知数据能够达到相同的效果。不过你可以提高模式识别的准确率。每一种机器学习方法都会设置一个标准来进行更好的模式分类,决定最佳可能的边界——决策边界——从而提高识别的准确率。毫无疑问,这些标准使用不同的方法时差异很大。

首先从广义划分当中机器学习可以分为监督学习与无监督学习。这两种分类之间的差异是机器学习使用的数据集实发加入了标签,即有标数据与无标数据。

监督学习

在监督学习当中,机器学习中,机器使用包含输入和输出数据的标签数据,并确定与之相适应的模式方法模式进行分类结合起来完成工作。当机器接收到未知数据时,他会判断可以应用哪一种模式,并依据标签数据——过去的正确答案,对新的数据进行分类。例如 , 在图像识别领域,如果你准备并提供一定数量的猫的图片(并将之标记为猫)和一定数量人的图片(并将之标记为人),之后你输入一些数据让机器学习,他能够自己进行判断这些图片应该被归类到猫或者人的图片当中(或者两者都不属于)。

无监督学习

无监督学习所使用的是没有标记的数据,机器学习的是数据当中隐藏的关系和规律。无监督学习的目标是掌握数据的形态。它包含了一个名叫“聚类”的过程,它将一组具有共同特征的数据划分到一起,或者抽取其中的关联规则。比如我们通过分析可以得到四十岁男性的购物趋势与二十岁女性的购物趋势十分相近,一个经典的例子就是男性在购买纸尿布的时候会购买啤酒。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐