“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”

概述

机器学习的基础设施包括数据、算法和工具;机器学习工具从计算能力上来讲可以分为两种,即单机计算和集群计算。

单机版的机器学习工具包括:SPSS和R;SPSS的操作更方便,R的画图功能比较简洁。

一套完整的机器学习工具的架构包括4层:计算引擎、分布式框架、算法层和业务层。

 

单机版机器学习工具

1.SPSS

统计产品与服务解决方案(Statistical Product and Service Solutions,SPSS) 软件是世界上最早的统计分析软件,SPSS软件的主要特点是操作界面极为友好,它将几乎所有的功能都以统一、规范的界面展示出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。

2.R语言

R是一款集统计计算和绘图功能于一体的软件,它具备这些优点:开源、跨平台、较为完善的资料、可视化;R语言的使用方式是通过命令行的形式来实现的。

在算法支持方面,因为R语言是建立在开源社区之上的,所以有很多算法包可供选择,基本涵盖了特征工程、分类算法、聚类算法、回归算法和神经网络算法等常规机器学习算法,而且在算法扩展性方面,也支持对算法进行更大幅度的自定义改造。

 

开源分布式机器学习工具

1.Spark MLib

MLib是Spark的机器学习算法库,是完全开源的。Spark和Hadoop的MapReduce框架是目前业内最主流的两种开源分布式架构。

MLib作为分布式机器学习算法库,设计的初衷是使机器学习算法更容易使用和扩展,它包含了常规的机器学习算法,并支持本地的一些向量和矩阵数据,同时支持底层的弹性分布式数据集(Resilient Distributed Dataset,RDD)。

2.TensorFlow

TensorFlow是一个开源的机器学习框架,是基于著名的DistBelief开发的;TensorFlow中的Tensor表示张量,是指任意维度的数据;在TensorFlow中,数据是通过数据流的形式在算法节点中流转的。

TensorFlow的一些特性:灵活性、易用性、良好的资源调度能力。

 

企业级云机器学习工具

单机版的机器学习工具和开源的分布式机器学习工具的缺陷主要体现在:性能因素、算法与计算的解耦、下游体系。

1.亚马逊AWS ML

亚马逊机器学习(Amazon Machine Learning),是2015年4月份推出的一款能够帮助开发者使用历史数据开发并部署预测模型的服务。

AWS ML的短板也比较明显,最大的问题是算法过于单一,只支持一个逻辑回归二分类场景算法是远远不够的,而且也没有提供算法调参的选项;第二个就是自由度不高,因为是向导式的操作方法,每一步都需要严格按照规定的方案去做,没办法通过中间的一些脚本或者SQL语句来自定义逻辑。

2.阿里云机器学习PAI

阿里云机器学习PAI是一款几乎涵盖了所有种类机器学习算法的机器学习平台,它的底层计算引擎是阿里云研发的飞天分布式计算引擎,可以处理EB级别的数据。

 

更多推荐