当前位置：移动技术网 > IT编程>脚本编程>Python > numpy手写kmeans

numpy手写kmeans

2020年07月22日 | 移动技术网IT编程 | 我要评论

numpy手写kmeans，并可视化。
由于可视化限制，拿二维数据进行示范。但该代码可适用于任意维的数据，同时可根据三种的计算距离公式（欧式距离，曼哈顿距离，余弦距离），提供不同的聚类结果。

import numpy as np
import matplotlib.pyplot as plt

def distance_cal(x, y): #计算距离
    if cal_type == "eclud":
        dis = np.sqrt(np.sum(np.square(x - y))) #欧氏距离
    elif cal_type == "manhattan": 
        dis = np.sum(np.abs(x - y)) #Manhattan距离
    elif cal_type == "cosin":
        dis = np.dot(x, y) / (np.linalg.norm(x) * np.linalg.norm(y)) #余弦距离
    return dis

def rand_cent(data, k): #初始化聚类中心点
    '''
    data: 聚类的数据集
    k: 聚类的个数
    '''
    num_features = data.shape[1] #数据集的特征数，也就是列数
    init_centers = np.zeros((k, num_features)) #确定聚类中心点的形状， 其可以理解成将数据压缩成k行数据，列数保持不变
    for i in range(num_features): #遍历每列数据，来初始化聚类中心点
        min_data = min(data[:, i]) #获得当前列的最小值，为一个数值
        max_data = max(data[:, i])
        range_data = max_data - min_data #获得该列数值的变动范围
        init_centers[:, i] = min_data + range_data * np.random.rand(k) #一次性获得k个数值，作为当前列初始中心点
    return init_centers

def kmeans(data, k): #进行kmeans聚类
    num = data.shape[0] #获得数据量
    cluster_centers = rand_cent(data, k) #获取初始化的聚类中心点，也可以完全随机初始化。只是该方法将初始点定位数据内部
    cluster_assign = np.zeros((num, ))#创建数组，用于存放所属类别
    change = True
    while change:
        change = False
        for i in range(num): #遍历每行数据，来计算其与k个聚类中心点的距离，并判定其所属类别
            min_dis = np.inf #初始化一个极大值作为最小距离
            index = 0 #初始化所属类别
            for j in range(k):
                dis = distance_cal(data[i], cluster_centers[j]) #计算当前行与每个距离中心点的距离
                if dis < min_dis:
                    min_dis = dis #重新给最小距离赋值
                    index = j #确定其所属类别
            if cluster_assign[i] != index: #如果计算的类别与所属类别不符，则需重新训练，以计算距离
                change = True
            cluster_assign[i] = index
        
        for j in range(k): #更新聚类中心点
            cluster_data = data[np.nonzero(cluster_assign == j)] #提取同属一个类别的数据
            if len(cluster_data): #确保该数组的数据非空
                cluster_centers[j] = np.mean(cluster_data, axis = 0)#将该数组的均值作为聚类中心点
    return cluster_centers, cluster_assign

if  __name__ == "__main__":
    data1 = np.random.uniform(0, 3, (100, 2))
    data2 = np.random.uniform(4, 7, (100, 2))
    data3 = np.random.uniform(8, 10, (100, 2))
    data = np.r_[data1, data2, data3] #将数组进行纵向合并
    k = 3
    cal_type = "eclud" #计算距离的类别， ["eclud", "manhattan", "cosin"]
    cluster_centers, cluster_assign = kmeans(data, k) #获得聚类中心点，及每行数据的所属类别
    
    #可视化
    plt.figure()
    for j in range(k):
        x = data[np.nonzero(cluster_assign == j), 0]
        y = data[np.nonzero(cluster_assign == j), 1]
        plt.scatter(x, y, s = 10 * (j+1), label = j)
        
    plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], s = 150, marker = "x", c = 'm')
    plt.legend()
    plt.show()

本文地址：https://blog.csdn.net/lmw0320/article/details/107462413

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

用python实现学生管理系统

学生管理系统相信大家学各种语言的时候，练习总是会写各种管理系统吧，管理系统主要有对数据的增删查改操作，原理不难，适合作为练手的小程序数据的结构要保存数据就需要数... [阅读全文]
Python按照先后顺序，对列表进行多条件自定义排序

需求：对指定的列表，按照以下顺序排序：①先按照【编号】从小到大进行排序②再按照列表中包含【方案、扩初、施工图、后... [阅读全文]
Python经典入门100题 (21-30题)

Python入门练手，有这100题就够了！ [阅读全文]
python实现LRU算法

LRU算法python实现学习mysql数据库时，了解了一下ib_buffer_pool的存储机制，使用LRU... [阅读全文]
Python学习笔记——主要函数及基本使用（与C的对比）

实时更新中…文章目录实时更新中...1.函数1.1 title()函数-以首字母大写的方式显示每个单词1.2 合... [阅读全文]
线性回归—梯度下降python实现

import numpy as npimport pandas as pd导入数据data=pd.read_cs... [阅读全文]
python中 if语句（分支结构）使用方式

python中if语句有三种使用形式：if单分支结构（if），if双分支结构（if-else），if多分支结构（... [阅读全文]
KNN算法的理解以及Python实现

参考大佬文章https://blog.csdn.net/c406495762/article/details/7... [阅读全文]
Day03_数据类型介绍&Python运算符&IF分支

一. 数据类型数值类型: int, float, complex字符串: str布尔类型: bool只有2个值:... [阅读全文]
10. 说说Python的某些有意思的库（下）

嘿各位，上次说的那些库是不是不过瘾？那是，真正好玩的还没给你看呢！ [阅读全文]

网友评论


验证码：

numpy手写kmeans

2020年07月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论