Pandas聚类分组处理(Grouping)_Python

Pandas聚类分组处理(Grouping)

分组(Group)的理解

处理数据时，在一个数据列表中会以某一列的元素作为参考基点，统计该列中每个不重复元素对应其他列的相关数据，这里可能我描述的比较复杂，可以通过下面两张表格数据处理前后帮助理解：

源数据为5列，分别为 age、gender、occupation、zip_code;

下面我需要对 occupation (职业)这一列进行分组分析、统计一下每类职业对应 gender、age 的最大、最小、平均值，处理结果如下：

以上就是聚类分组的简单介绍，Pandas 包里提供了函数 goupby 进行日常操作，本文将基于 Pandas 的 groupby 的用法做一个简单了解

1，库导入，数据读取

import pandas as pd

users = pd.read_table("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",sep ="|",index_col = 'user_id')
users.head()

数据以 age，gender，occupation ，zip_code 作为一条样本存入数据集中，接下来的处理将围绕 age，gender，occupation 三列作为分析对象；

2，把 gender 转化为编码形式

def gender_to_numric(x):
    if x=='M':
        return 1
    if x =="F":
        return 0

# 利用新的函数创建新的列；
users['gender_n'] = users['gender'].apply(gender_to_numric)
users

F 变为 0，M 设为 1

3，在2 的前提下，统计每类职业中的男性比例

value_counts() 统计某一列样本总数

a = users.groupby("occupation").gender_n.sum()/users.occupation.value_counts()*100
a.sort_values(ascending =False)

然后从大到小进行排序

4，以 occupation 作为分组基点，统计每类职业年龄最大、最小、平均值

这里用到 agg() 函数，起到数据管道聚类效果

users.groupby("occupation").age.agg(["min","max","mean"])

对多列数据同时进行统计时，也是用 agg() 函数，区别是这里用的是字典形式(dict)：键名为列名，键值为需要统计的数据类别例如 max、min、mean、count 等关键字，以列表形式写入；

users.agg({列名:[“mean”,“max”,“min”]})

以本文数据为准，想同时查看年龄，性别的统计数据，可用下面命令；

users.groupby("occupation").agg({"age":['mean','max','min'],'gender_n':['sum','count']})

5，多列分组聚类

上面我们对 occupation 这一列进行了分组聚类分析，这里在 occupation 分组中再对性别进行分组聚类，并统计各个职业中各性别占比总数

groupby([‘列名1’,‘列名2’…]) # 列名的先后顺序代表的分组聚类的先后顺序:

# 求在每个职业中男女各占比例
gender_occp = users.groupby(["occupation","gender"]).agg({"gender":"count"})
gender_occp

6，在 5 的基础上，统计每个职业中性别占比比例

统计每个职业中性别占比基本思路如下：

1，统计每个职业中各性别数；
2，统计每个职业中总样本数；
1 和 2 基于 occupation 这一列进行除法运算；

代码部分

# 求在每个职业中男女各占比例
gender_occp = users.groupby(["occupation","gender"]).agg({"gender":"count"})

# 为每一个职业计算 count
occup_count = users.groupby(['occupation']).agg("count")

# gender_occp

# 进行除法运算
occup_gender = gender_occp.div(occup_count,level = "occupation")*100


# 只筛选出 gender列
occup_gender.loc[:,'gender']

这里用到 DataFram.div 函数，对两个 DataFrame 基于某一列作为参照列做除法，最终得到的数据类型为 float ；level 参数用于指定参考列；除了 div 之外，Pandas 还提供 add、sub、mul、pow 等运算操作函数，用法与 div 方法相似

最终结果如下：

以上就是本篇基本内容啦，最后感谢阅读！

本文地址：https://blog.csdn.net/weixin_42512684/article/details/107081916

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

使用py-spy解决scrapy卡死的问题方法

背景在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程... [阅读全文]

Python 串口通信的实现

串口通信是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传... [阅读全文]

python如何调用百度识图api

一.先去百度识别官网注册开通服务且获得ak和sk链接:https://cloud.baidu.com/doc/reference/s/9jwvz2egb二.代码... [阅读全文]

如何使用python写截屏小工具

前言今天我看了一下自己的文件夹，发现了自己写了许多似乎很无聊的代码。于是乎，一个想法油然而生：“生活已经很无聊了，不如再无聊一点叭”。说干就干，那就开一个专题，... [阅读全文]

详解用python -m http.server搭一个简易的本地局域网

工作时同事间几mb小文件的传输，一般使用qq或者微信就足够了，但当传输文件几百mb或者几十g时，这种方法的效率就显得不足了。本篇就是简单说明一个python小功... [阅读全文]

Python爬取网页信息的示例

python爬取网页信息的步骤以爬取英文名字网站（）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。1、确认网址在浏览器中输入初始网址，逐... [阅读全文]

python 绘制正态曲线的示例

import numpy as npimport matplotlib.pyplot as pltimport math# python实现正态分布# 绘制正态... [阅读全文]

python实现人性化显示金额数字实例详解

我们在开发过程中，有时候需要把float，int型等数字作为金额类型数字显示会出现很多问题，比如float会显示成 965868.4599999，int型没有小... [阅读全文]

matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)

matplotlib 是 python 的绘图库。它可与 numpy 一起使用，提供了一种有效的 matlab 开源替代方案。它也可以和图形工具包一起使用，... [阅读全文]

如何基于pandas读取csv后合并两个股票

最近在研究螺纹钢与铁矿石的比价变化，所以用python写个代码分析一下。数据文件：数据下载自网络。代码：中间有些没用的，看官们请忽略，那是我从另一个文件直接复制... [阅读全文]


验证码：

验证码：

Pandas聚类分组处理(Grouping)

2020年07月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论