当前位置：移动技术网 > IT编程>脚本编程>Python > 聚类算法—K-means python实现

聚类算法—K-means python实现

2020年07月26日 | 移动技术网IT编程 | 我要评论

k-means

k-means是一种最流行的聚类算法，属于无监督学习
k-means可以将数据集分为相似的组（簇），使得组内数据的相似度较高，组间数据相似度较低
k-means算法步骤：
1. 从样本中选择k个点作为k个初始簇中心。
2. 计算每个样本到各个簇中心的距离，将样本划分到距离最近的簇中心所对应的簇中
3. 根据每个簇中的所有样本，重新计算簇中心，并更新
4. 重复步骤2与3，直到簇中心的位置变化小雨指定的阀值或者达到最大的迭代次数为止

import numpy as np
import pandas as pd

data=pd.read_csv(r"F:\数据集\machine_learning_notebook-master\dataset\order.csv")
#筛选必要的列
data
t=data.iloc[:,-8:]
#t

k-means类的实现

class KMeans:
    """
    使用python语言实现聚类算法
    
    """
    def __init__(self,k,times):
        """
        初始化方法
        Parameters：
        -------------
        k;int
          聚类的个数
        times: int
           聚类迭代的次数
        """
        self.k=k
        self.times=times
        
    def fit(self,X):
        """
        根据提供的训练数据，对模型进行训练
        
        Parameters:
        ----------------
        X：类数组类型，形状：[样本数量，特征数量]
           待训练的样本特征属性
        """
        X=np.asarray(X)
        #设置随机种子，以便于可以产生相同的随机序列。(随机的结果可以重现)
        np.random.seed(0)
        #随机选取k个点作为聚类中心
        self.cluster_centers_=X[np.random.randint(0,len(X),self.k)]
        self.labels_=np.zeros(len(X))
        
        for t in range(self.times):
            for index,x in enumerate(X):
                #计算每个样本与聚类中心的距离
                dis=np.sqrt(np.sum((x-self.cluster_centers_)**2,axis=1))
                #将最小距离的索引赋值给标签数组，索引的值就是当前点所属的簇，范围为[0，k-1]
                self.labels_[index]=dis.argmin()
            #循环遍历每一个簇
            for i in range(self.k):
                #计算每个簇内所有点的均值，更新聚类中心
                self.cluster_centers_[i]=np.mean(X[self.labels_==i],axis=0)
                
    def predict(self,X):
        """
        根据参数传递的样本，对样本数据进行预测。（预测样本属于哪一个簇中）
        
        Parameters:
        --------------
        X:类数组类型。形状为：[样本数量，特征数量]
          待预测的特征属性。
          
        Returns:
        ----------------
        result:数组类型
            预测的结果，每一个x所属的类别
        """
        X=np.asarray(X)
        result=np.zeros(len(X))
        for index,x in enumerate(X):
            #计算样本到每个聚类中心的距离
            dis=np.sqrt(np.sum((x-self.cluster_centers_)**2,axis=1))
            #找到距离最近的聚类中心，划分类别
            result[index]=dis.argmin()
            return result

测试k-means 类

kmeans=KMeans(k=3,times=50)
#对样本t进行训练
kmeans.fit(t)

#输出训练后的聚类中心
kmeans.cluster_centers_

array([[46.33977936,  8.93380516, 23.19047005, 13.11741633,  4.8107557 ,
         1.17283735,  1.35704647,  0.95392773],
       [19.5308009 , 50.42856608, 14.70652695,  7.89437019,  3.69829234,
         0.91000428,  1.92515077,  0.82113238],
       [ 7.93541008,  4.56182052, 30.65583437, 18.57726789,  8.61597195,
         1.28482514, 26.81950293,  1.30158264]])

#查看属于各个簇下面的所有样本，比如查看簇为0的所有样本
t[kmeans.labels_==0]

	Food%	Fresh%	Drinks%	Home%	Beauty%	Health%	Baby%	Pets%
15	48.23	20.37	15.38	8.29	7.73	0.0	0.0	0.0
23	24.10	22.29	38.69	14.92	0.00	0.0	0.0	0.0
24	36.51	31.93	27.18	4.38	0.00	0.0	0.0	0.0
40	22.76	0.00	0.00	77.24	0.00	0.0	0.0	0.0
43	65.64	12.36	21.99	0.00	0.00	0.0	0.0	0.0
...	...	...	...	...	...	...	...	...
29974	33.93	0.00	17.46	41.46	7.15	0.0	0.0	0.0
29977	45.10	0.00	26.68	28.22	0.00	0.0	0.0	0.0
29988	28.21	0.00	48.34	23.44	0.00	0.0	0.0	0.0
29989	61.32	0.00	23.34	15.34	0.00	0.0	0.0	0.0
29990	29.74	28.72	19.52	22.02	0.00	0.0	0.0	0.0

9382 rows × 8 columns

#预测
kmeans.predict([[30,30,40,0,0,0,0,0],[0,0,0,0,0,0,0,0],[30,30,0,0,80,80,20,20]])

array([0., 0., 0.])

可视化展示（只选取Food%和Freash%这两个特征）

#注意，按标签选择时，标签两端都包含（这里的Food%和Freash%都包含）。这和按照索引选择是不一样的（索引不包含后端）
t2=data.loc[:,"Food%":"Fresh%"]
kmeans=KMeans(k=3,times=50)
kmeans.fit(t2)

#导入可视化库
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rcParams["font.family"]="SimHei"
mpl.rcParams["axes.unicode_minus"]=False

plt.figure(figsize=(10,10))
#绘制每个类别的散点图
plt.scatter(t2[kmeans.labels_==0].iloc[:,0],t2[kmeans.labels_==0].iloc[:,1],label="类别1")
plt.scatter(t2[kmeans.labels_==1].iloc[:,0],t2[kmeans.labels_==1].iloc[:,1],label="类别2")
plt.scatter(t2[kmeans.labels_==2].iloc[:,0],t2[kmeans.labels_==2].iloc[:,1],label="类别3")
#绘制聚类中心
plt.scatter(kmeans.cluster_centers_[:,0],kmeans.cluster_centers_[:,1],marker="+",s=300)
plt.title("食物与肉类聚类分析")
plt.xlabel("食物")
plt.ylabel("肉类") 
plt.legend()
plt.show()

在这里插入图片描述

本文地址：https://blog.csdn.net/qq_38026089/article/details/107558625

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

动态规划_leetcode.64.最小路径和

题目给定一个包含非负整数的 m x n 网格，请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。说明... [阅读全文]
Flask学习笔记（十六）Flask—Mail

Flask—Mail在开发过程中，很多应用程序都需要通过邮件提醒用户，Flask的扩展包Flask-Mail通过... [阅读全文]
python 05异常处理

python 05 异常处理练习题：题目描述:电脑产生一个零到100之间的随机数字，然后让用户来猜，如果用户猜的... [阅读全文]
Python基础打卡第一天

python打卡第一天变量变量名需要注意的点：①不能是关键字，比如：and、if、else等②变量名不能以数字开... [阅读全文]
Django入门实战——实现个人博客

慕课网Django三小时入门，视频链接鸭~个人学习笔记，如有错误，欢迎指正。在python web开发领域有三个... [阅读全文]
[机器学习] Yellowbrick使用笔记1-快速入门

Yellowbrick是一个机器学习可视化库,主要依赖于sklearn机器学习库，能够提供多种机器学习算法的可视... [阅读全文]
win10+python+zed相机

文章目录win10+Python+ZED相机环境配置sdk下载安装相应的库文件编译sdk中的文件demo演示wi... [阅读全文]
异常处理的笔记以及课后

笔记1.phython标准异常总结：BaseException：所有异常的基类Exception：常规异常的 ... [阅读全文]
[AI数据]数据增强之路

1.维度位置增强(包括Scaling/Cropping/Flipping/Padding/Rotation/Tr... [阅读全文]
Python之Pandas and Numpy 吐血整理（持续更新！！！）

文章目录Pandas基本用法Numpy基本用法介绍不多说，用法全部写在代码里了！！！欢迎收藏，持续更新！！！Pa... [阅读全文]