当前位置：移动技术网 > IT编程>脚本编程>Python > 详解Python数据分析--Pandas知识点

详解Python数据分析--Pandas知识点

2019年06月11日 | 移动技术网IT编程 | 我要评论

一生一世美人骨txt,跟往事干杯吉他谱,pps vip破解版

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘

1. 重复值的处理

利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的id.

 import pandas as pd
 df = pd.dataframe({"id": ["a1000","a1001","a1002", "a1002"],
         "departmentid": [60001,60001, 60001, 60001]})
 df.drop_duplicates()

2. 缺失值的处理

缺失值是数据中因缺少信息而造成的数据聚类, 分组, 截断等

2.1 缺失值产生的原因

主要原因可以分为两种: 人为原因和机械原因.

1) 人为原因: 由于人的主观失误造成数据的缺失, 比如数据录入人员的疏漏;

2) 机械原因: 由于机械故障导致的数据收集或者数据保存失败从而造成数据的缺失.

2.2 缺失值的处理方式

缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值.

1) 补齐缺失值: 使用计算出来的值去填充缺失值, 例如样本平均值.

使用fillna()函数对缺失值进行填充, 使用mean()函数计算样本平均值.

import pandas as pd
import numpy as np
df = pd.dataframe({'id':['a10001', 'a10002', 'a10003', 'a10004'], 
          "salary":[11560, np.nan, 12988,12080]})
#用salary字段的样本均值填充缺失值
df["salary"] = df["salary"].fillna(df["salary"].mean())
df

2) 删除缺失值: 当数据量大时且缺失值占比较小可选用删除缺失值的记录.

示例: 删除entrytime中缺失的值,采用dropna函数对缺失值进行删除:

 import pandas as pd
df = pd.dataframe({"id": ["a1000","a1001","a1002"],
         "entrytime": ["2015-05-06",pd.nat,"2016-07-01" ]})
df.dropna()

3) 保留缺失值.

3. 删除前后空格

使用strip()函数删除前后空格.

 import pandas as pd
 df = pd.dataframe({"id": ["a1000","a1001","a1002"],
         "surname": [" zhao ","qian"," sun " ]})
 df["surname"] = df["surname"].str.strip()
 df

4. 查看数据类型

查看所有列的数据类型使用dtypes, 查看单列使用dtype, 具体用法如下:

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname": [" zhao ","qian"," sun " ]})
#查看所有列的数据类型
df.dtypes
#查看单列的数据类型
df["id"].dtype

5. 修改数据类型

使用astype()函数对数据类型进行修改, 用法如下

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname": [" zhao ","qian"," sun " ]})
#将id列的类型转化为字符串的格式
df["id"].astype(str)

6. 字段的抽取

使用slice(start, end)函数可完成字段的抽取, 注意start是从0开始且不包含end. 比如抽取前两位slice(0, 2).

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname": [" zhao ","qian"," sun " ]})
#需要将id列的类型转换为字符串, 否则无法使用slice()函数
 df["id"]= df["id"].astype(str)
#抽取id前两位
df["id"].str.slice(0,2)

7. 字段的拆分

使用split()函数进行字段的拆分, split(pat=none, n = -1, expand=true)函数包含三个参数:

第一个参数则是分隔的字符串, 默认是以空格分隔

第二个参数则是分隔符使用的次数, 默认分隔所有

第三个参数若是true, 则在不同的列展开, 否则以序列的形式显示.

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28" ]})
#对surname_age字段进行拆分
df_new = df["surname_age"].str.split("_", expand =true)
df_new

8. 字段的命名

有两种方式一种是使用rename()函数, 另一种是直接设置columns参数

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28" ]})
#第一种方法使用rename()函数
# df_new = df["surname_age"].str.split("_", expand =true).rename(columns={0: "surname", 1: "age"})
# df_new
#第二种方法直接设置columns参数
df_new = df["surname_age"].str.split("_", expand =true)
df_new.columns = ["surname","age"]
df_new

两种方式同样的结果:

9. 字段的合并

使用merge()函数对字段进行合并操作.

 import pandas as pd
 df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28" ]})
 df_new = df["surname_age"].str.split("_", expand =true)
 df_new.columns = ["surname","age"]
 #使用merge函数对两表的字段进行合并操作.
pd.merge(df, df_new, left_index =true, right_index=true)

10. 字段的删除

利用drop()函数对字段进行删除.

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28" ]})
df_new = df["surname_age"].str.split("_", expand =true)
df_new.columns = ["surname","age"]
df_mer= pd.merge(df, df_new, left_index =true, right_index=true)
#drop()删除字段,第一个参数指要删除的字段,axis=1表示字段所在列,inplace为true表示在当前表执行删除.
df_mer.drop("surname_age", axis = 1, inplace =true)
df_mer

删除surname_age字段成功:

11. 记录的抽取

1) 关系运算: df[df.字段名关系运算符数值], 比如抽取年龄大于30岁的记录.

import pandas as pd
df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28" ]})
df_new = df["surname_age"].str.split("_", expand =true)
df_new.columns = ["surname","age"]
df_mer= pd.merge(df, df_new, left_index =true, right_index=true)
df_mer.drop("surname_age", axis = 1, inplace =true)
#将age字段数据类型转化为整型
df_mer["age"] = df_mer["age"].astype(int)
#抽取age中大于30的记录
df_mer[df_mer.age > 30]

2) 范围运算: df[df.字段名.between(s1, s2)], 注意既包含s1又包含s2, 比如抽取年龄大于等于23小于等于28的记录.

df_mer[df_mer.age.between(23,28)]

3) 逻辑运算: 与(&) 或(|) 非(not)

比如上面的范围运算df_mer[df_mer.age.between(23,28)]就等同于df_mer[(df_mer.age >= 23) & (df_mer.age <= 28)]

df_mer[(df_mer.age >= 23 ) & (df_mer.age <= 28)]

4) 字符匹配: df[df.字段名.str.contains("字符", case = true, na =false)] contains()函数中case=true表示区分大小写, 默认为true; na = false表示不匹配缺失值.

import pandas as pd
import numpy as np
df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28"],"spouseage":[np.nan,"32",np.nan]})
#匹配spouseage中包含2的记录
df[df.spouseage.str.contains("2",na = false)]

当na改为true时, 结果为:

5) 缺失值匹配:df[pd.isnull(df.字段名)]表示匹配该字段中有缺失值的记录.

import pandas as pd
import numpy as np
df = pd.dataframe({"id": [100000,100101,100201],"surname_age": ["zhao_23","qian_33","sun_28"],"spouseage":[np.nan,"32",np.nan]})
 #匹配spouseage中有缺失值的记录
df[pd.isnull(df.spouseage)]

12.记录的合并

使用concat()函数可以将两个或者多个数据表的记录合并一起, 用法: pandas.concat([df1, df2, df3.....])

import pandas as pd
df1 = pd.dataframe({"id": ["a10006","a10001"],"salary": [12000, 20000]})
df2 = pd.dataframe({"id": ["a10008"], "salary": [10000]})
#使用concat()函数将df1与df2的记录进行合并
pd.concat([df1, df2])

以上是部分内容, 还会持续总结更新....

以上所述是小编给大家介绍的python数据分析--pandas知识点详解整合，希望对大家有所帮助

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

详解Python数据分析--Pandas知识点

2019年06月11日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论