【数据挖掘——第一章绪论】

本文所使用的书籍为《数据挖掘导论》第一章绪论数据挖掘是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。1.1 什么是数据挖掘数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。下面是数据库中知识发现（KDD）过程：数据预处理的目的是将未加工的输入数据转换成适合分析的形式。数据预处理设计的步骤包括融合来自多个数据源的数据，清...

一天雪

447人浏览 · 2019-03-17 21:40:11

一天雪 · 2019-03-17 21:40:11 发布

本文所使用的书籍为《数据挖掘导论》

第一章绪论

数据挖掘是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。

1.1 什么是数据挖掘

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。

下面是数据库中知识发现（KDD）过程：

数据预处理的目的是将未加工的输入数据转换成适合分析的形式。

数据预处理设计的步骤包括融合来自多个数据源的数据，清洗数据以消除噪声和重复的观测值，选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样，数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。

1.2 数据挖掘要解决的问题

可伸缩——数据集越来越大导致算法要具有可伸缩性

高维性——数据的属性越来越多

异种数据和复杂数据——数据对象越来越复杂

数据的所有权与分布——数据资源存储地点多

1.3 数据挖掘的起源

数据挖掘利用了来自如下一些领域的思想：

来自统计学的抽样、估计和假设检验
人工智能、模式识别和机械学习的搜索算法、建模技术和学习理论。

下图展示数据挖掘与其他领域之间的联系：

1.4 数据挖掘任务

通常，数据挖掘任务分为下面两大类：

预测任务。这些任务的目标是根据其他属性的值，预测特定属性的值。被预测的属性一般称目标变量或因变量，而用来做预测的属性称说明变量或自变量。

描述任务。其目标是导出概括数据中潜在联系的模式（相关、趋势、聚类、轨迹和异常）。本质上，描述性数据挖掘人物通常是探查行的，并且常常需要后处理技术验证和解释结果。

四种主要数据挖掘任务：

预测建模涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类，用于预测离散的目标变量；回归，用于预测连续的目标变量。预测建模可以用来确定顾客对产品促销活动的反应，预测地球生态系统的扰动，或根据检查结果判断病人是否患有某种疾病。

关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的 Web 页面、理解地球气候系统不同元素之间的联系等。

聚类分析旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。

异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或立群点。异常检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点。换言之，一个好的异常检测器必须具有高检测率和低误报率。一场检测的应用包括检测欺诈、网络供给、疾病的不寻常模式、生态系统扰动等。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

cover

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

一天雪

@weixin_42149727

已为社区贡献1条内容