Density-Based Spatial Clustering of Applications with Noise 基于密度的噪声空间聚类算法 DBSCAN目的是找到密度相连对象的最大集合。 由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个簇。

DBSCAN算法流程: 输入:数据集,邻域半径 Eps,邻域中数据对象数目阈值 MinPts; 输出:密度联通簇。

在数据集中随机选择一个数据对象点p;如果对于参数 Eps 和 MinPts,所选取的数据对象点 p 为核心点,则找出所有从 p 密度可达的数据对象点,形成一个簇;如果选取的数据对象点 p 是边缘点,选取另一个数据对象点;重复2和3,直到所有的数据点被处理; DBSCAN 算法的计算复杂度为 O(n²),n 为数据对象的数目。这种算法对于输入参数 Eps 和 MinPts 是敏感的。

传统的 k-means 算法(基于欧式距离): k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是:

预将数据分为K组,随机选取K个对象作为初始的聚类中心;计算数据集中每个样本与各个种子聚类中心之间的距离,把每个样本点分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。新的聚类中心即该类的所有样本的质心这个过程将不断重复直到满足某个终止条件。

终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

推荐链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: