基本思想:
聚类就是将样本划分为由类似的对象组成的多个类的过程。
具体实操:
一、K-means聚类
算法流程图
将相似程度量化为可以用数字表示的距离。
优点:
1、算法简单,快速。
2、处理大数据集非常高效。
缺点:
1、必须事先给出类的个数。
2、对初值敏感。
3、对于孤立点数据敏感。
二、K-means++算法(初始的聚类中心之间的相互距离要尽可能地远,用于解决缺点2、3)
K-mans++算法是对前一种算法的优化,主要体现在“初始化K个聚类中心”这一步。
首先随机选取一个样本作为第一个聚类中心。
然后计算每个样本与当前已有聚类中心的最短距离,这个值越大,表示该样本被选为下一个聚类中心的概率越大。
最后,用轮盘法选出下一个聚类中心。
重复此法,直到选出K个聚类中心。
好文推荐
发表评论