一、            数据挖掘

有这么一个说法:在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而其中至少60%以上的精力和时间花在了数据预处理过程中。

 

数据挖掘通常需要有8个步骤:

l  信息收集

l  数据集成

l  数据规约

l  数据清理

l  数据变换

l  数据挖掘实施过程

l  模式评估

l  知识表示

 

步骤(1)信息收集:抽象数据的特征信息,选择合适的信息收集方法,将信息存入数据库。对于海量数据,选择一个合适的数据仓库是至关重要的。

步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享。

步骤(3)数据规约:数据量往往非常大,数据规约技术用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

步骤(4)数据清理:进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。

步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。

步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。

步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或供其他应用程序使用。

 

据统计,在2012年,被数据挖掘业者使用频率最高的三类算法是决策树、回归和聚类分析。

 

数据挖掘——总结 <wbr>【未完待续】

 

1.1         数据规约

数据描述、特征挑选、归纳、转换,可能是决定挖掘方案质量的最重要的问题。

预处理数据集的3个主要维度:

l  列(特征)

l  行(案例或样本)

l  特征的值

 

数据归纳的目标就是删除不必要的数据来保留原始数据的特征,包括:

l  删除列

l  删除行

l  减少列中值的数量(平整特征)

 

1. 特征规约

通过各个特征间的方差、协方差计算,可以排除多维度特征中,不相关特征和冗余数据。

 

2. 值规约

减少已知特征的离散值的数目。

特征离散化技术是将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。

离散算法。

值规约的难点有两个:

a. 如何找到合适的分割点,将数据分割为个区段。

b. 对于每个区段,如何找到一个代表值。譬如用平均值或者中位数,或者其他算法。

 

3. 案例规约

是最复杂的任务。

消除异常点(主要),有时也要消除有丢失值的样本。

如果已准备的数据集的样本数可通过所选的数据挖掘技术来管理,那么理论上就没有进行案例规约的必要了。

 

二、            中英文翻译

很多书上和论坛上直接用英文或者缩写

估测——Estimation

预测——Prediction

预测分析——Predictive Analysis

回归分析——Regression Analysis

决策树——Decision Tree

神经网络——Neural Net

支持向量机——SVM, Support Vector Machine

三、            分类预测

 

 

KNNK最近邻算法,决策树(Decision Tree),神经网络(Neural Net),支持向量机SVMSupport Vector Machine),

3.1   适用场景

根据用户历史消费数据、信用卡信息等,得出拥有几张信用卡的用户是最优质的客户

根据当天的温度、湿度、气温、风力等级等,得出是否出游

 

 

3.2   KNNK最近邻算法

K最近邻(K-Nearest NeighborKNN)分类算法可以说是整个数据挖掘分类技术中最简单的方法。所谓K最近邻,就是K个最近的邻居,说的是每个样本都可以用它最接近的K个邻居来代表。

对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

KNN算法的核心思想是如果一个样本在特征空间中的K个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

举例

如果您住在一个市中心的住宅内,周围若干个小区的同类大小房子售价都在280万到300万之间,那么我们可以把你的房子和它的近邻们归类到一起,估计也可以售280万到300万之间。同样,您的朋友住在郊区,他周围的同类房子售价都在110万到120万之间,那么他的房子和近邻的同类房子归类之后,售价也在110 万到120万之间。

3.3   决策树

决策树本质上是导致做出某项决策的问题或数据点的流程图。

在决策树算法上我们需要避免的一个问题是把决策树构建得过大,过于复杂。过于复杂的决策树往往会过度拟合(Over-Fitting),不稳定,而且有时候无法诠释。这时我们可以把一棵大的决策树分解成多棵较小的决策树来解决这一问题。

大多数分类算法(如神经网络、支持向量机等)都是一种类似于黑盒子式的输出结果,无法搞清楚具体的分类方式,而决策树让人一目了然,十分方便。决策树按分裂准则的不同可分为基于信息论的方法和最小GINI指标 Gini Index)方法等。

3.4   决策树

相关算法

CLS方法,ID3算法,C4.5算法机器对应的剪枝算法

举例

这个是一个天气数据各特征的决策树分析结果,貌似是各种气象数据与是否选择出游的相互关系:

数据挖掘——总结 <wbr>【未完待续】

 

3.5   神经网络

神经网络就像是一个爱学习的孩子,你教他的知识他不会忘记,而且会学以致用。我们把学习集(Learning Set)中的每个输入加到神经网络中,并告诉神经网络输出应该是什么分类。在全部学习集都运行完成之后,神经网络就根据这些例子总结出他自己的想法,到底他是怎么归纳的就是一个黑盒了。之后我们就可以把测试集(Testing Set)中的测试例子用神经网络来分别作测试,如果测试通过(比如80%90%的正确率),那么神经网络就构建成功了。我们之后就可以用这个神经网络来判断事务的分类。

 

todo

3.6   支持向量机

支持向量机算法的目的是找到一个最优超平面,使分类间隔最大。最优超平面就是要求分类面不但能将两类正确分开,而且使分类间隔最大。

 

todo

 

 

 

四、            聚类分析

所谓聚类,就是类或簇(Cluster)的聚合,而类是一个数据对象的集合。

和分类一样,聚类的目的也是把所有的对象分成不同的群组,但和分类算法的最大不同在于采用聚类算法划分之前并不知道要把数据分成几组,也不知道依赖哪些变量来划分。聚类系统通常能够把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(Subset),这样在同一个子集中的成员对象都有相似的一些属性。

 

在商业中,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或者消费习惯。

4.1         相关算法

分裂算法,凝聚算法,划分聚类,增量聚类

4.2         举例

下图是聚类算法的一种展示。图中的Cluster1Cluster2分别代表聚类算法计算出的两类样本。打“+”号的是Cluster1,而打“○”标记的是Cluster2

数据挖掘——总结 <wbr>【未完待续】

4.3         适用场景

比如,下面几个场景比较适合应用聚类算法,同时又有相应的商业应用:

哪些特定症状的聚集可能预示什么特定的疾病?

租同一类型车的是哪一类客户?

网络游戏上增加什么功能可以吸引哪些人来?

哪些客户是我们想要长期保留的客户?

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐