yiweis 个人主页

@yiweis

yiweis

2023-12-26 15:28:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

使用Orange进行数据挖掘之聚类分析(1)------层次聚类

一、层次聚类1 层次聚类的基本概念层次聚类方法是古老而且常用的聚类方法。层次聚类方法又有两种产生层次聚类的基本方法。凝聚的：该方法是自底向上的方法，初始每个对象看做一个簇，每一步合并最相近的簇，最终形成一个簇。分类的：该方法是自顶向下的方法，从包含的所有点的簇开始，每一步分裂一个簇，知道仅剩下单点的簇。本文主要关注凝聚的层次聚类方法。2 簇之间的邻近性在凝

#python #数据挖掘

使用Orange进行数据挖掘之聚类分析(2)------K-means

一、基本k均值算法1 根据用户指定的参数K，首先选择K个初始化质心；2 然后每个点指派到最近的质心，指派到一个质心的点形成一个簇。3 更新每个簇的质心4重复步骤2、3，直到簇不在发生变化。伪代码描述如下：选择K个点作为初始质心repeat将每个质心指派到最近的质心，形成K个簇重新计算每个簇的质心until 质心不在发生变化二、Orange中K

#python #数据挖掘

使用Orange进行数据挖掘之关联------Apriori

关联基本定义关联规则：形如 X -> Y的蕴涵表达式，其中X和Y是不相交的项集。关联规则的强度可以用支持度和置信度度量支持度：确定规则可以用于给定数据集的频繁程度，用s表示 s=(x并y的长度)/数据集的长度置信度：确定Y在包含X的事物中出现的频繁程度。用c表示 c=(x并Y的长度)/(X的长度)例如有购物蓝事物的例子1{面包，牛奶}

#python #数据挖掘

使用Orange进行数据挖掘之分类(2)------KNN分类

knn基本概念knn把每个样例看做是空间上的一个点，给定一个测试样例，使用适当的邻近性度量算法，计算出该点与训练集中其他点的邻近度。选择K个最相近的点。在选择出的K个样例中，比例最好的类就是测试样例的类。从以上描述中可以看出，如果k选择的太小，该算法容易受到噪声的影响，而产生过度拟合的影响，然而如果选择的过大，可能造成误分类。算法描述：k是最近邻数目，D是训练样例的

#python #数据挖掘

使用Orange进行数据挖掘之关联------Apriori

#python #数据挖掘

使用Orange进行数据挖掘之分类(3)------决策树

决策树决策树基本决策树类似流程图，内部节点表示在一个属性的上的测试，比如age属性是否大于30等，每个分支代表一个属性测试的输出，最下层的叶子节点代表具体的类。下面是《数据挖掘：概念与技术》上的例子，数据为：根据ID3算法生成的决策树如下：生成据测树的基本算法在这一算法步骤(6)中计算信息增益我们对每个分布计算期望信息。对于age= ”I(s11

#python #数据挖掘

到底了