python 机器学习：基于Kmeans聚类算法对银行客户进行分类

软件开发人工智能 2024-04-30 17 0

机器学习：基于Kmeans聚类算法对银行客户进行分类

作者：i阿极

作者简介：Python领域新星作者、多项比赛获奖者：博主个人首页

如果觉得文章不错或能帮助到你学习，可以点赞收藏评论+关注哦！

如果有小伙伴需要数据集和学习交流，文章下方有交流学习区！一起学习进步！

大家好，我i阿极。喜欢本专栏的小伙伴，请多多支持

专栏案例：机器学习案例机器学习(一)：线性回归之最小二乘法机器学习(二)：线性回归之梯度下降法机器学习(三)：基于线性回归对波士顿房价预测机器学习(四)：基于KNN算法对鸢尾花类别进行分类预测机器学习(五)：基于KNN模型对高炉发电量进行回归预测分析机器学习(六)：基于高斯贝叶斯对面部皮肤进行预测分析机器学习(七)：基于多项式贝叶斯对蘑菇毒性分类预测分析机器学习(八)：基于PCA对人脸识别数据降维并建立KNN模型检验机器学习(十四)：基于逻辑回归对超市销售活动预测分析机器学习(十五)：基于神经网络对用户评论情感分析预测机器学习(十六)：线性回归分析女性身高与体重之间的关系机器学习(十七)：基于支持向量机（SVM）进行人脸识别预测机器学习(十八)：基于逻辑回归对优惠券使用情况预测分析机器学习(十九）：基于逻辑回归对某银行客户违约预测分析机器学习(二十)：LightGBM算法原理（附案例实战）机器学习(二十一)：基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测机器学习(二十二)：基于逻辑回归（Logistic Regression）对股票客户流失预测分析

文章目录

机器学习：基于Kmeans聚类算法对银行客户进行分类1、Kmeans原理2、实验环境3、Kmeans简单代码实现3.1构造数据3.2可视化展示3.3聚类成二分类3.4获取结果3.5结果可视化3.6聚类成3类3.7结果可视化

4、Kmeans案例实战4.1案例背景4.2读取数据4.2可视化展示4.3数据建模4.4建模效果可视化展示

1、Kmeans原理

K-means算法是一种常用的聚类算法，用于将数据集划分成k个不重叠的簇。其主要思想是通过迭代的方式将样本点划分到不同的簇中，使得同一簇内的样本点相似度较高，不同簇之间的相似度较低。下面我们以一个简单案例对KMeans算法的原理进行解释，该案例目的是将样本点聚成3个类别（K=3）

下面是K-means算法的详细步骤：

初始化：选择k个初始聚类中心，可以是随机选择或根据某种启发式方法选择。聚类中心通常是从数据集中选取的k个样本点。分配样本点：对于每个样本点，计算其与各个聚类中心的距离（如欧氏距离），将样本点分配给距离最近的聚类中心所在的簇。更新聚类中心：对于每个簇，计算其所有样本点的均值，将该均值作为新的聚类中心。重复步骤2和3，直到聚类中心不再发生变化或达到预定的迭代次数。输出结果：最终得到k个聚类簇，每个簇包含一组样本点。

K-means算法的特点：

K-means算法是一种迭代算法，通过多次迭代来优化聚类结果。K-means算法基于距离度量来进行样本点的分配和聚类中心的更新。K-means算法对离群点敏感，离群点可能会影响聚类结果。K-means算法要求事先指定聚类的个数k。

K-means算法的优化方法：

通过增加迭代次数或设置收敛条件来控制算法的迭代次数。使用更好的初始化方法，如K-means++算法，可以更好地选择初始聚类中心。对于离群点的处理，可以使用基于距离的异常值检测方法，或者采用基于密度的聚类算法。

2、实验环境

Python 3.9

Jupyter Notebook

Anaconda

3、Kmeans简单代码实现

3.1构造数据

import numpy as np

data = np.array([[3, 2], [4, 1], [3, 6], [4, 7], [3, 9], [6, 8], [6, 6], [7, 7]])

3.2可视化展示

import matplotlib.pyplot as plt

plt.scatter(data[:, 0], data[:, 1], c="red", marker='o', label='samples') # 以红色圆圈样式绘制散点图并加上标签

plt.legend() # 设置图例，图例内容为上面设置的label参数

plt.show()

3.3聚类成二分类

from sklearn.cluster import KMeans

kms = KMeans(n_clusters=2)

kms.fit(data)

3.4获取结果

label = kms.labels_

print(label)

3.5结果可视化

plt.scatter(data[label == 0][:, 0], data[label == 0][:, 1], c="red", marker='o', label='class0') # 以红色圆圈样式绘制散点图并加上标签

plt.scatter(data[label == 1][:, 0], data[label == 1][:, 1], c="green", marker='*', label='class1') # 以绿色星星样式绘制散点图并加上标签

plt.legend() # 设置图例

3.6聚类成3类

kms_3 = KMeans(n_clusters=3)

kms_3.fit(data)

label_3 = kms_3.labels_

print(label_3)

3.7结果可视化

plt.scatter(data[label_3 == 0][:, 0], data[label_3 == 0][:, 1], c="red", marker='o', label='class0') # 以红色圆圈样式绘制散点图并加上标签

plt.scatter(data[label_3 == 1][:, 0], data[label_3 == 1][:, 1], c="green", marker='*', label='class1') # 以绿色星星样式绘制散点图并加上标签

plt.scatter(data[label_3 == 2][:, 0], data[label_3 == 2][:, 1], c="blue", marker='+', label='class2') # 以蓝色加号样式绘制散点图并加上标签

plt.legend() # 设置图例

4、Kmeans案例实战

4.1案例背景

银行通常拥有海量的客户，对于不同的客户，银行需要进行不同的营销与工作开展策略，例如对于高收入且风险承受能力强的客户，可以进行重点挖掘业务机会，例如可以给他推销一些收益率高但周期相对较长的理财产品；而对于低收入且风险承受能力较弱的客户，则需要制定不同的营销与工作策略。因此对于银行来说，通常需要将客户进行分群处理，对于不同分群的客户进行不同的处理。

4.2读取数据

import pandas as pd

data = pd.read_excel('客户信息.xlsx')

data.head(10)

4.2可视化展示

import matplotlib.pyplot as plt

plt.scatter(data.iloc[:, 0], data.iloc[:, 1], c="green", marker='*') # 以绿色星星样式绘制散点图

plt.xlabel('age') # 添加x轴名称

plt.ylabel('salary') # 添加y轴名称

plt.show()

4.3数据建模

from sklearn.cluster import KMeans

kms = KMeans(n_clusters=3, random_state=123)

kms.fit(data)

label = kms.labels_

label = kms.fit_predict(data)

print(label)

4.4建模效果可视化展示

plt.scatter(data[label == 0].iloc[:, 0], data[label == 0].iloc[:, 1], c="red", marker='o', label='class0') # 以红色圆圈样式绘制散点图并加上标签

plt.scatter(data[label == 1].iloc[:, 0], data[label == 1].iloc[:, 1], c="green", marker='*', label='class1') # 以绿色星星样式绘制散点图并加上标签

plt.scatter(data[label == 2].iloc[:, 0], data[label == 2].iloc[:, 1], c="blue", marker='+', label='class2') # 以蓝色加号样式绘制散点图并加上标签

plt.xlabel('age') # 添加x轴名称

plt.ylabel('salary') # 添加y轴名称

plt.legend() # 设置图例

文章下方有交流学习区！一起学习进步！ 首发CSDN博客，创作不易，如果觉得文章不错，可以点赞收藏评论 你的支持和鼓励是我创作的动力❗❗❗

精彩文章

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

机器学习聚类 kmeans python

本文由用户于 2024-04-30 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/15778998.html

金钥匙

python 机器学习：基于Kmeans聚类算法对银行客户进行分类

tensorflow 深度学习 tensorboard报错：ValueError Duplicate plugins for name projector 问题的出现及解决过程

均值算法 C语言【模式识别】探秘聚类奥秘：K-均值聚类算法解密与实战

发表评论取消回复

金钥匙

python 机器学习：基于Kmeans聚类算法对银行客户进行分类

tensorflow 深度学习 tensorboard报错：ValueError Duplicate plugins for name projector 问题的出现及解决过程

均值算法 C语言 【模式识别】探秘聚类奥秘：K-均值聚类算法解密与实战

相关文章

发表评论取消回复

均值算法 C语言【模式识别】探秘聚类奥秘：K-均值聚类算法解密与实战