网站首页 > 人工智能 > 正文

数据挖掘机器学习数模笔记：聚类模型

大数据的定义和特点人工智能 2024-02-18 15 0

基本思想：

聚类就是将样本划分为由类似的对象组成的多个类的过程。

具体实操：

一、K-means聚类

算法流程图

将相似程度量化为可以用数字表示的距离。

优点：

1、算法简单，快速。

2、处理大数据集非常高效。

缺点：

1、必须事先给出类的个数。

2、对初值敏感。

3、对于孤立点数据敏感。

二、K-means++算法（初始的聚类中心之间的相互距离要尽可能地远，用于解决缺点2、3）

K-mans++算法是对前一种算法的优化，主要体现在“初始化K个聚类中心”这一步。

首先随机选取一个样本作为第一个聚类中心。

然后计算每个样本与当前已有聚类中心的最短距离，这个值越大，表示该样本被选为下一个聚类中心的概率越大。

最后，用轮盘法选出下一个聚类中心。

重复此法，直到选出K个聚类中心。

好文推荐

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

聚类数据挖掘机器学习

本文由用户于 2024-02-18 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18565436.html

上一篇

数据挖掘机器学习聚类(Clustering)

下一篇

模型评价指标---分类，聚类，回归

发表评论取消回复

返回顶部暗黑模式