数据挖掘—Autistic Spectrum Disorder Screening Data For Children

简介

研究内容:儿童自闭症谱系障碍的数据挖掘

百度词条:自闭症谱系障碍是一个医学名词,它是一种广泛性发展障碍,现多使用于儿童身上。其病征包括异常的语言能力、异常的交往能力、狭窄的兴趣以及固执的行为模式。在这个谱系障碍中,儿童自闭症是儿童精神类疾病当中最为严重的一种。

自闭症,又称孤独症,是一种较为严重的发育障碍性疾病。它是一种先天精神疾患,不是心理疾患。典型自闭症,其核心症状就是所谓的“三联症”,主要体现为在社会性和交流能力、语言能力、仪式化的刻板行为三个方面同时都具有本质的缺损。其主要症状为:

1、社会交流障碍:一般表现为缺乏与他人的交流或交流技巧,与父母亲之间缺乏安全依恋关系等;

2、语言交流障碍:语言发育落后,或者在正常语言发育后出现语言倒退,或语言缺乏交流性质;

3、重复刻板行为。

不典型自闭症则在前述三个方面不全具有缺陷,只具有其中之一或之二。

自闭症谱系障碍ASD,Autism Spectrum Disorder ),是根据典型自闭症的核心症状进行扩展定义的广泛意义上的自闭症,既包括了典型自闭症,也包括了不典型自闭症,又包括了阿斯伯格综合症、自闭症边缘、自闭症疑似、自闭症倾向、发育迟缓等症状。

1.下载数据集

  • 在UCI上下载数据集和说明文档

在这里插入图片描述

  • 查看数据

    在这里插入图片描述

  • 分析数据集

一共有2个属性

实例数量 292个

2.数据预处理

2.1分析属性的具体含义

  • A1-A10:测试者的十个体态特征
  • age:年龄
  • gender:性别
  • ethnicity:种族
  • jundice:是否先天黄疸病
  • austim:Family member with PDD家庭成员是否患有PDD
  • contry_of_res:国籍
  • used_app_before:用户是否使用过筛选应用程序
  • result:筛查分数
  • class/ASD:是否患有ASD

2.2编号预处理

在这里插入图片描述

  • 数据类型转化——OpenRefine

gender: female——1 male——0

jundice: no——0 yes——1

austim: no——0 yes——1

used_app_before: no——0 yes——1

ethnicity: Others——0 Middle Eastern——1 White-European——2 Black——3 South Asian——4 Pasifika——5 Asian——6 Latino——7 Hispanic——8 Turkish——9

在这里插入图片描述

  • 查看转化结果
    在这里插入图片描述

2.2 缺失值分析

​ 经分析,所有缺失值有ethnicity属性和relation属性,另外与关系无关,二者完全相关。此外还有age。
在这里插入图片描述

2.3.1 删除元组

也就是将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。这种方法简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下非常有效,类标号缺失时通常使用该方法。
然而,这种方法却有很大的局限性。它以减少历史数据来换取信息的完备,会丢弃大量隐藏在这些对象中的信息。在初始数据集包含的对象很少的情况下,删除少量对象足以严重影响信息的客观性和结果的正确性;因此,当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。

说明:删除元组,或者直接删除该列特征,有时候会导致性能下降

删除无关属性

  • 删除无关属性 年龄段——所有人相同

    ​ result——直接影响结果

    ​ 是否以前使用过此app

    ​ 填写人是谁

2.3.2 数据补齐
  1. 人工填写:由于最了解数据的还是用户自己,因此这个方法产生数据偏离最小,可能是填充效果最好的一种。然而一般来说,该方法很费时,当数据规模很大、空值很多的时候,该方法是不可行的。

  2. 特殊值填充:将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念,可能导致严重的数据偏离,一般不推荐使用。

  3. 平均值填充:将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。
    如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值;
    如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。与其相似的另一种方法叫条件平均值填充法(Conditional Mean Completer)。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。 两种数据的补齐方法,其基本的出发点都是一样的,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推测缺失值。

  4. 热卡填充(或就近补齐):对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。

  5. k最近距离邻法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。

  6. 使用所有可能的值填充:用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。

  7. 组合完整化方法:用空缺属性值的所有可能的属性取值来试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法,能够得到好的约简结果;但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。

  8. 回归:基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。

  9. 期望值最大化方法:EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

  10. 多重填补 :多重填补方法分为三个步骤:
    为每个空值产生一套可能的填补值,这些值反映了无响应模型的不确定性;每个值都被用来填补数据集中的缺失值,产生若干个完整数据集合。
    每个填补数据集合都用针对完整数据集的统计方法进行统计分析。来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂

  11. C4.5方法:通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。

    ​ 就几种基于统计的方法而言,删除元组法和平均值法差于热卡填充法、期望值最大化方法和多重填充法;回归是比较好的一种方法,但仍比不上hot deck和EM;EM缺少MI包含的不确定成分。值得注意的是,这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适于处理无监督学习的问题,而对有监督学习来说,情况就不尽相同了。譬如,你可以删除包含空值的对象用完整的数据集来进行训练,但预测时你却不能忽略包含空值的对象。另外,C4.5和使用所有可能的值填充方法也有较好的补齐效果,人工填写和特殊值填充则是一般不推荐使用的

2.2.3缺失值处理方式选择与方法
  • 经分析,种族与国籍相关联,因此选择用国籍和种族相关补充缺失值
  • 使用C4.5方法填充缺失值
  • 年龄选用平均值填充

2.3缺失值填充

2.2.3缺失值处理方式选择与方法
  • 年龄选用平均值填充

利用Average函数求age列平均值进行手动填充

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

输出结果取整数:6

手动填充四个数据

  • 种族缺失值填充方法
  • 经分析,种族与国籍相关联,因此选择用国籍和种族相关补充缺失值

步骤:

1.判断种族n有哪些国籍

​ 例如n1种族有m1国籍2人,m2国籍2人,m3国籍3人

2.取最高频率出现的国籍m3与种族n1匹配关联

3.找出缺失行,用国籍m匹配到的种族填充到缺失值中。

具体操作:待完成

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐