logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据挖掘笔记-特征选择-互信息

互信息(Mutual Information)是一有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为:又可以表示成:其中H(X,Y)是联合熵(JointEntropy),其定义为:H(X|Y)是条件熵(conditionalentropy);x,y互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。    在

#数据挖掘
数据挖掘笔记-关联规则-Apriori-原理与简单实现

在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。非频繁项集的超集可以不用进行测试 ,许多项之间的组合可以去掉(不满足频繁条件)由频繁项集生成满足最小支持度和最小置信度的关联规则。算法核心:逐层搜索的迭代方法,寻找最大频繁集。一个频繁项集中的任一非空子集也应是频繁项集。用于发现隐藏在大型数据集中的有意义的联系。即:任何非频繁项集的超集一定也是

#数据挖掘
数据挖掘笔记-聚类-SpectralClustering-原理与简单实现

谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是MinCut、Nomarlized Cut、Ratio Cut等。谱聚类能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵(拉普

#数据挖掘#聚类
数据挖掘笔记-特征选择-遗传算法

基于遗传策略的特征选取遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解(称为个体)的抽象表示(称为染色体)的种群向更好的解进化。传统上,解用二进制表示(即0和1的串),但也可以用其他表示方法。进化从完全随机个体的种群开始,之后一代一代发生。在每一代中,整个种群的适应度被评价,从当前种群中随机地选择多个个体(基于它们的适应度),通过自然选择和突变产生新的生命种群,该种群..

#数据挖掘
数据挖掘笔记-关联规则-FPGrowth-简单实现

FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,它不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。对于海量数据,FP-growth的时空复杂度仍然很高,可以采用的改进方法包括数据库划分,数据采样等等。Apriori和FP-Tree都是寻找频繁项集的算法,后面根据频繁项集产生关联规则都是一样的,就不再这里重复了。由于Apriori算法需要多次扫描事务数据

数据挖掘笔记-分类-回归算法-梯度上升

基于Logistic回归和Sigmoid函数的分类,首先看下它的优缺点。优点:计算代价不高,易于理解与实现缺点:容易欠拟合,分类精度可能不高使用数据类型:数值型和标称型数据首先,我们想要的函数应该是能够接受所有的输入然后预测出类别。例如输出0或者1.或许你曾今接触过这种性质的函数,该函数称为海维塞德阶跃函数,也可以直接称为单位阶跃函数。

#数据挖掘
数据挖掘笔记-分类-决策树-SLIQ和SPRINT

所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。在C4.5算法中,树的构造是按照深度优先策略完成的,需要对每个属性列表在每个结点处都进行一遍扫描,费时很多,为此,SLIQ采用广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。step1:建立类表和各个属性表,

#数据挖掘#分类#决策树
数据挖掘笔记-聚类-KMeans-原理与简单实现

K-means(k均值)算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。基本算法:1.选择K个点作为初始质心。2.Repeat3.将每个点指派到最近的质心,形成K个簇。4.重新计算每个簇的质心。

#数据挖掘#聚类
数据挖掘笔记-分类-回归算法-最小二乘法

我们在研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1、x2,y2... xm, ym);将这些数据描绘在x -y直角座标系中(如图1), 若发现这些点在一条直线附近,可以令这条直线方程如(式1-1)。Y计= a0+ a1X                (式1-1)其中:a0、a1是任意实数为建立这直线方程就要确定a0

#数据挖掘#最小二乘法
数据挖掘笔记-聚类-SpectralClustering-原理与简单实现

谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是MinCut、Nomarlized Cut、Ratio Cut等。谱聚类能够识别任意形状的样本空间且收敛于全局最优解,其基本思想是利用样本数据的相似矩阵(拉普

#数据挖掘#聚类
    共 24 条
  • 1
  • 2
  • 3
  • 请选择