基本思想:

        聚类就是将样本划分为由类似的对象组成的多个类的过程。

具体实操:

一、K-means聚类

算法流程图

 将相似程度量化为可以用数字表示的距离。

优点:

        1、算法简单,快速。

        2、处理大数据集非常高效。

缺点:

        1、必须事先给出类的个数。

        2、对初值敏感。

        3、对于孤立点数据敏感。

二、K-means++算法(初始的聚类中心之间的相互距离要尽可能地远,用于解决缺点2、3)

        K-mans++算法是对前一种算法的优化,主要体现在“初始化K个聚类中心”这一步。

        首先随机选取一个样本作为第一个聚类中心。

        然后计算每个样本与当前已有聚类中心的最短距离,这个值越大,表示该样本被选为下一个聚类中心的概率越大。

        最后,用轮盘法选出下一个聚类中心。

        重复此法,直到选出K个聚类中心。

好文推荐

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: