数据挖掘学习【02】——数据
数据挖掘学习【02】——数据【前言】这是
数据挖掘学习【02】——数据
【前言】这是数据挖掘学习系列文章的第二篇——数据,要想进行数据挖掘,必不可少的就是要对数据有深入的认识和了解,当然我在学习数据挖掘过程中第一步做的当然也是认识数据了。
一、数据挖掘的过程:
这里先补上前面一篇文章没有给出的数据挖掘过程图
二、数据:
1、数据的属性(整体认识):
【注】:这里的英文一定要记住,后面因为会看一些外文文献,经常会看到这些词语
2、数据的属性(详细介绍):
标称属性:标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看作是分类的或枚举的。
如:头发的颜色(黑色、棕色、淡黄色等) 职业(教室、程序员等) 这些都是可以使用数表示这些符号或名称的。如头发的颜色中,用0表示黑色,1表示棕色……)
二元属性(布尔属性):是标称属性的一种,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。
如:对吸烟患者的描述(抽烟或不抽烟)
序数属性:其可能的值之间具有有意义的序或秩评定,但是相继之间的差是未知的。
如:饮料量的多少(大、中、小)同样,序数属性可用数来表示。
这里注意:标称、二元和序数属性都是定性的。它们描述对象的特征,而不给出实际的大小或数量。这种定性属性的值通常是代表类别的词。即使使用整数代表了,这些整数也是不可测量的。
数值属性:是定量的,可度量的量,用整数或实数值表示。
1、 区间标度(interval-scaled)属性
用相等的单位尺度度量。如:温度
2、 比率标度(ratio-scaled)属性
具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。
离散属性与连续属性:
离散属性:具有有限或无线可数个值,可以用或不用整数表示。
三、数据的基本统计:
1、整体认识:
2、陌生的概念介绍:
众数:集合中出现最频繁的值。
中列数:数据集的最大和最小值的平均值
极差:最大值和最小值之差
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(中位数、四分位数、百分位数是最常使用的)
四分位极差:IQR=Q3-Q1
五数概括、盒图与离群点:
分布的五数概括由中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成。
盒图:体现了五数概括:
>盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
>中位数用盒内的线标记
>盒外的两条线延伸到最小和最大观测值
方差和标准差
更多推荐
所有评论(0)