聚类分析（K-means、系统聚类和二阶聚类）的原理、实例及在SPSS中的实现（一）

银河初升

116063人浏览 · 2022-02-12 18:23:23

银河初升 · 2022-02-12 18:23:23 发布

聚类分析的定义及原理

聚类方法及其在SPSS中的实现

总结及拓展

聚类分析的定义及原理

1.定义

所谓物以类聚、人以群分。聚类分析，即是基于研究对象的特征，将他们分门别类，以让同类别的个体之间差异相对小、相似度相对大，不同类别之间的个体差异大、相似度小。

聚类分析是一种探索性分析方法，与判别分析不同，聚类分析事先并不知道分类的标准，甚至不知道应该分成几类，而是会根据样本数据的特征，自动进行分类。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

聚类与分类的不同在于，聚类所要求划分的类是未知的

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

2.原理

假定研究对象均用所谓的“点”来表示。
在聚类分析中，一般的规则是将“距离”较小的点归为同一类，将“距离”较大的点归为不同的类。
常见的是对个案分类，也可以对变量分类，但对于变量分类此时一般使用相似系数作为“距离”测量指标。

一般的规则：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_10,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

聚类方法及其在SPSS中的实现

1.主要的聚类方法：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

2.方法详解：

（1）：K-means聚类

又称为快速聚类（K-Means Cluster），是在聚类的类别数已确定的情况下，快速将其他个案归类到相应的类别，适合大样本数据的聚类。

具体步骤如下：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

距离计算规则（欧几里得距离公式）：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

图解：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

K-means的优缺点：

优势：

（1）原理比较简单，实现也很容易，收敛速度快。

（2）在对大规模数据集进行聚类分析时，算法聚类较高效且聚类效果较好。

（3）簇与簇之间区别明显时，它的聚类效果很好。

不足：

（1）分类数从初始分类开始就确定不变了，所以要求事先要对样本有足够的了解。

（2）仅限于个案间的聚类（Q型聚类），不能对变量进行聚类。

（3）个案间的距离的测量方法使用的是欧式距离的平方，因此只能对连续变量进行聚类。

案例分析（SPSS）：
通过查询整理出了2018年我国各省份的20项基本情况，根据这些指标把这31个省市或地区分成3类。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

分析步骤：分析>>分类>>K-均值聚类>>迭代>>次数>>选项>>勾选统计>>确认

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_10,color_FFFFFF,t_70,g_se,x_16

结果分析：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_16,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_12,color_FFFFFF,t_70,g_se,x_16

若不收敛则调大迭代次数

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_16,color_FFFFFF,t_70,g_se,x_16

方差分析表：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_20,color_FFFFFF,t_70,g_se,x_16

其中聚类均方对应组间均方差，误差均方对应组内均方差，显著性p<0.05时说明此变量分类效果好。由表可知，大部分变量的p<0.05,且组间均方差大于组内均方差，说明各变量在三个类别中的差异大，分类结果可信度高。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_13,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6ZO25rKz5Yid5Y2H,size_9,color_FFFFFF,t_70,g_se,x_16

聚类结果解读：

第一类：1个省份（广东省，经济发达）

第二类：19个省份（云南、西藏等地区，经济一般）

第三类：11个省份（上海、北京等地区，经济较发达）

（后续会继续更新系统聚类和二阶聚类）

上海城市开发者社区

加入「COC·上海城市开发者社区」，成就更好的自己！

更多推荐

Agent 场景下，谁才是真正好用的 Flash 模型

上海城市开发者社区

别只盯着最强模型了，Agent 场景更该看这类 Flash 档模型

上海城市开发者社区

鸿蒙游戏 System Runtime：AI 时代的新引擎内核

上海城市开发者社区

所有评论(0)

查看更多评论

银河初升

@m0_58024423

已为社区贡献1条内容

聚类分析（K-means、系统聚类和二阶聚类）的原理、实例及在SPSS中的实现（一）

银河初升

聚类分析的定义及原理

1.定义

2.原理

聚类方法及其在SPSS中的实现

1.主要的聚类方法：

2.方法详解：

（1）：K-means聚类

所有评论(0)

温馨提示：您尚未绑定手机号

银河初升