logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据挖掘:概念与技术(第三版)之第八章的学习记录

本章讲解分类的一些基本概念什么是分类首先我们要知道的是,分类是一种重要的数据分析形式,它提取和刻画重要数据类的模型。这个模型被称之为分类器(classifer)。通过分类器,我们可以预测分类的类标号。建议不熟悉这个概念的同学们 ,首先看一下这篇文章。贷还是不贷:如何用 Python 和机器学习帮你决策?此外,还需要弄清楚分类和回归的联系和区别,关于这一点,我已经在第一章的部分做了详细

#数据挖掘
贝叶斯信念网络

1.1摘要之前我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们讨论贝叶斯分类中更高级、应用范围更广的一种算法——贝叶斯网络(又称贝

#算法
BIRCH:使用聚类特征树(CF-树)的多阶段聚类算法

BIRCH算法是在凝聚和分裂算法之后发展起来的。它克服了凝聚聚类算法一些存在的劣势。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行有效的聚类。这得益于它采用的一个特殊的树结构,CF-树。该算法笼统的说,执行流程课分为两步:一、BIRCH扫描数据库,建立一棵存放于内存的CF-树,它可以被看作数据的多层压缩,试图保留数据的内在聚类结

数据挖掘:概念与技术(第三版)之第五章的学习记录

完全立方体计算多路数组聚集(Multiway)我们在第四章的时候已经稍微提到过一点,高性能的OLAP操作依赖于多维数据模型及物化和索引技术。其中物化技术分为全部物化和部分物化。这里的多路数据聚集是全部物化的一种算法。我们知道全部物化就是把整个数据立方体进行预计算。那么我们在把整体放入内存中进行计算的时候,为了节约资源或者说提高性能。必须要考虑这么两个东西。(1)尽量减少块反复调入内存的次数。

#数据挖掘
数据挖掘:概念与技术(第三版)之第九章的学习记录

本章学习数据分类的高级技术贝叶斯信念网络书上写的比较笼统,初学者可能会看的倒懂不懂的。因此,可以看看我在本章列出的参考文章。1.1摘要在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是

#数据挖掘
数据挖掘:概念与技术(第三版)之第十章的学习记录

本章主要讲解聚类的基本概念和方法对聚类的浅要分析聚类是什么意思,很好理解,这里不说了。需要注意的是一下这几点1、在相同的数据集上,不同的聚类方法可能产生不同的聚类 。2、聚类可以作为其他算法的预处理步骤。书P289页最上方给出了一个识别手写数字的例子。3、聚类在搜索中也有广泛的应用。4、聚类可以应用与离群点检测。5、聚类被称为无监督学习。KDD对聚类分析的要求是P289,10

#数据挖掘
数据挖掘:概念与技术(第三版)之第六章的学习记录

本章主要对挖掘频繁模式进行讲解。频繁模式是指频繁地出现在数据集中的模式,具体包括频繁项集、频繁序列模式、频繁结构模式。具体的解释书上写得很详细,我们也在第一章的时候进行了讲解,这里就不多提了。前面的诱发例子也不多说了,都很好理解。这里,假设我们分析的是超市的数据仓库。OK,那我们可以把全域想象成商品的集合,而每种商品购买与否就可以用布尔型变量来表示了。比如全域商品是这样的一个集合{西

#数据挖掘
数据挖掘:概念与技术(第三版)之第四章的学习记录

本章主要介绍数据仓库与联机分析处理。本章为KDD中的数据挖掘知识引入进行了铺垫。学习完本章要能够把数据仓库,数据立方体,OLAP,星形、雪花型、和事实星座这些概念进行区分,并有序的组织在一起。数据仓库第一章我就介绍了数据仓库,在那里详细对比了一下数据仓库与数据库。不清楚的同学,可以回过去看看第一章当然,在这里书上也是做了非常详细的解释说明,我就不多说了。这里我着重谈一下数据仓库的价值

#数据挖掘
数据挖掘:概念与技术(第三版)之第七章的学习记录

在第六章我们讲了频繁模式的挖掘,本章主要讲高级模式挖掘。模式挖掘相对于频繁模式挖掘来说,是一个更一般的术语。就是说模式挖掘不仅包括了频繁模式挖掘还包括了如稀有模式,负模式。然后,很多情况下,这两个术语是混用的。所以说,实际上频繁模式在模式挖掘里面占的比重相当相当大。我们首先来理清一下,到底什么是模式?模式就是数据中蕴含的规律或规律性的东西。我们知道KDD分为描述性和预测性,挖掘出一个模式

#数据挖掘
数据挖掘:概念与技术(第三版)之第二章的学习记录

本章主要讲的是数据,具体来说 ,是涉及到考察数据的属性和数据值。本章为第三章的数据预处理做铺垫作用。数据对象和属性类型关于数据对象和属性的定义这里自不多谈,都容易理解。说多了反而复杂 。这里重点介绍的是数据属性的几种类型。标称属性这个属性的概念解释起来不是很好理解,但看实际例子一眼就明白了。头发颜色(黑色,黄色,红色,蓝色,绿色)职业(学生,教师,工人,农民)枪支类型(1,2,3

#数据挖掘
    共 15 条
  • 1
  • 2
  • 请选择