均值算法算法 K均值聚类分析流程

编程语言python入门人工智能 2024-01-01 15 0

K均值聚类分析流程

一、案例背景

在某体育赛事中，意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯七个国家的裁判对300名运动员进行评分，现在想要通过评分上的差异将300名选手进行分类，计划将选手分为高水平、中水平、低水平三个类别。因为评分均为定量数据，所以通过K均值聚类进行聚类分析，部分数据如下：

二、异常值检查

异常值对于聚类分析的结果影响比较大，所以在分析之前要先进行异常值的检查。异常值检查的方法有很多种，比如可以使用描述统计法，查看是否有三倍标准差外的数据，或者使用箱线图，直观查看是否存在异常值，本案例使用SPSSAU箱线图进行异常值检查，输出结果如下：

从箱线图分析结果来看，7个裁判的评分均没有异常值出现，都在规定范围之内（最低7分，最高10分），可以进行接下来的K均值聚类分析。

三、K均值聚类分析

K均值聚类是现在比较常用的聚类算法之一，接下来分别对该方法的原理和操作进行简单的说明，帮助大家更好的理解聚类分析的过程。

（1）基本说明

K均值聚类也称K-means聚类，是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。因为需要计算距离，所以决定了K-means算法只能处理数值型数据，而不能处理分类属性型数据。

K均值聚类分析算法步骤：

① K-means算法首先需要选择K个初始化聚类中心

② 计算每个数据对象到K个初始化聚类中心的距离，将数据对象分到距离聚类中心最近的那个数据集中，当所有数据对象都划分以后，就形成了K个数据集（即K个簇）

③ 接下来重新计算每个簇的数据对象的均值，将均值作为新的聚类中心

④ 最后计算每个数据对象到新的K个初始化聚类中心的距离，重新划分

⑤ 每次划分以后，都需要重新计算初始化聚类中心，一直重复这个过程，直到所有的数据对象无法更新到其他的数据集中。

（2）操作

在SPSSAU系统中，以上算法步骤都自动进行，只需要分析人员将数据拖拽到分析框中，选择聚类数量即可，如下图：

通常情况下，建议聚类个数为3~6个比较好，SPSSAU默认聚类个数为3，本案例，预设将300名选手分为高、中、低3个类别，所以选择默认聚类个数3即可。因为K均值聚类是根据距离进行类别判断，所以需要消除量纲（单位）的影响，SPSSAU系统默认对聚类数据进行【标准化】处理，如果不需要进行标准化处理，可以选择取消勾选。同时SPSSAU默认【保存类别】，将聚类结束后，聚类的类别变量自动保存下来，用于后续分析。

四、聚类分析结果解读

K均值聚类分析（以下简称聚类分析）结果可以从以下几个方面进行分析：聚类基本情况、聚类类别命名、聚类中心、聚类效果图示化；接下来将逐个进行说明。

（1）聚类基本情况

SPSSAU输出聚类类别基本情况汇总表如下：

上表描述了聚类分析的基本情况，展示了本次聚类分析共得出3类，SPSSAU自动命名为cluster_1、cluster_2、cluster_3；同时展示每个类别人群数量和比例情况。这3类群体的占比分别是34.00%,、36.00%、 30.00%。整体来看，3类人群分布较为均匀，整体说明聚类效果较好。SPSSAU同时会输出聚类类别汇总图，方便分析人员更加直观的展示聚类类别占比情况。

（2）聚类类别命名

得到聚类结果后，需要根据各个聚类类别的特征进行类别命名。

为了得到各个类别之间的差异，使用方差分析进行聚类类别的差异对比分析，然后根据各个类别的差异性特征进行聚类类别的命名。

从上表聚类类别方差分析差异对比结果来看，7个裁判对于3个类别的评分之间均存在差异性（p<0.05），说明聚类分析得到的3个群体他们在研究的特征上具有明显的差异性，也能从一定程度上说明本次聚类分析效果较好。3个聚类类别的具体差异性可通过评分的平均值进行对比，并对聚类类别进行命名。

从3个类别的评分平均值来看，结合前面预设将300名选手分为高水平、中水平、低水平3类，故将cluster_1命名为低水平、cluster_2命名为中水平、cluster_3命名为高水平。SPSSAU可使用数据处理中的【数据标签】功能，进行命名，操作如下：

（3）聚类中心

前面我们通俗介绍了K均值聚类分析的聚类过程，提到初始聚类中心，在迭代过程中最后会成为最终聚类中心点，这个结果SPSSAU也为大家提供了，见下表：

聚类中心是聚类算法的数学理论或中间过程指标，针对分析来看其实际意义较小。一般来讲相较于聚类中心，K均值聚类更关注误差平方和SSE值。该值可用于测量各点与中心点的距离情况，理论上是希望越小越好，通常用于辅助判断聚类个数。如果在开始分析之初，不确定聚类个数，那么可以多次分析选择不同聚类个数，对比分析SSE值，比如发现从3个聚类个数到4个聚类个数时SSE值减少幅度明显很大，那么此时选择4个聚类类个数较好。但聚类类别并不是越多越好，还需要结合专业知识进行判断。

（4）聚类效果可视化

除了使用表格展示聚类分析的结果，还可以通过图示化展示聚类项重要性，如下图：

聚类分析以多个研究指标作为基准，对样本进行分类。每个指标对于聚类的贡献不一样，具体贡献大小对比可见上图。如果某项的贡献明显非常低，可考虑将该项移除后重新进行聚类分析。

可以通过使用散点图直观展示聚类效果，使用任意两个聚类指标进行散点图绘制，并且在颜色区分(定类)框中放入“聚类类别”项（SPSSAU自动保存的聚类类别），以查看不同类别时，两两指标的散点效果。SPSSAU操作如下：

比如使用罗纳尼亚和韩国进行散点图绘制，在颜色区分框中放入聚类类别，SPSSAU输出散点图如下：

从上图来看，3个类别之间虽然有些部分存在交叉，但是绝大部分类别的划分都有明显的区别，说明本次聚类分析效果较好。

五、总结

首先使用箱线图对数据进行异常值检查，确保不存在异常数据后，进行K均值聚类分析。通过7位裁判的打分，将300位选手最终划分为高水平、中水平、低水平3类。从聚类分析基本情况、聚类类别方差分析差异对比结果以及聚类效果散点图分析来看，本次聚类分析效果较好，聚类结果比较可靠。

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

均值算法聚类算法

本文由用户于 2024-01-01 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/15782229.html

金钥匙

均值算法算法 K均值聚类分析流程

机器学习实战：Python基于K均值K-means进行聚类（九）

自然语言处理人工智能语言模型编程实践开发语言架构设计用多样性指标来评估聚类的公平性

发表评论取消回复

金钥匙

均值算法 算法 K均值聚类分析流程

机器学习实战：Python基于K均值K-means进行聚类（九）

自然语言处理 人工智能 语言模型 编程实践 开发语言 架构设计 用多样性指标来评估聚类的公平性

相关文章

发表评论取消回复

均值算法算法 K均值聚类分析流程

自然语言处理人工智能语言模型编程实践开发语言架构设计用多样性指标来评估聚类的公平性