电脑报价表,营口新闻,ca1882
pandas 是一个基于 Numpy 构建, 强大的数据分析工具包
主要功能
Series 是一种类似于一维数组的对象, 由一组数据和一组与之相关的数据标签(索引)组成
创建方式
pd.Series([4, 7 ,5, -3]) pd.Series([4, 7 ,5, -3], index=['a', 'b', 'c', 'd']) pd.Series({'a':1, 'b', 2}) pd.Series(0, index=['a', 'b', 'c', 'd']) # 获取值数组 sr = pd.Series([4, 7 ,5, -3]) sr.value # 获取索引数组 sr = pd.Series([4, 7 ,5, -3]) sr.index
整数索引
如果索引是整数, 则根据下标取值时总是面向标签的.
此时可通过 loc方法(将索引解释为标签)和iloc方法(将索引解释为下标)
sr1 = pd.Series([12,23,34], index=['c', 'a', 'd']) sr2 = pd.Series([11,20,10], index=['d', 'c', 'a']) print(sr1 + sr2) # 相关计算方法 add, sub, div, mul
pandas 在进行两个 Series 对象运算时, 会按索引进行对齐然后计算.
数据对齐
若两个 Series 对象的索引不完全相同, 则结果的索引是两个操作数索引的并集. 如果只有一个对象在某索引下有值, 则结果中该索引的值为NaN.
缺失数据处理办法
sr1.add(sr2, fill_value=0) 填充缺失的值 dropna() 过滤掉值为NaN的行 fillna() 填充缺失数据 isnull() 返回布尔数组, 缺失值对应为True notnull() 返回buer数据, 缺失值对应为False # 过滤缺失数据 sr.dropna() sr[data.notnull()]
DataFrame 是一个表格型的数据结构, 含有一组有序的列. 可以看做是 Series 组成的字典, 并且公用一个索引.
创建 DataFrame 的方法有很多种
# 手动创建 pd.DataFrame({'one':[1,2,3,4], 'two':[4,3,2,1]}) pd.DataFrame({'one':pd.Series([1,2,3], index=['a','b', 'c']), 'two':pd.Series([1,2,3,4], index=['a','b','c','d']) # 从csv文件读取与写入 df.read_csv('filename.csv') df.to_csv()
DataFrame 是一个二维数据类型, 所以有行索引
和列索引
, 可以通过标签和位置两种方法进行索引和切片
DataFrame 对象在运算时, 同样会进行数据对齐, 其行索引和列索引分别对齐
处理缺失数据的相关方法
pandas基于dateutil
来处理时间对象
dateutil.parser.parse()
dateutil 原生时间处理方法pd.to_datetime()
pandas 成组处理时间对象data_range()
产生时间对象数组
时间序列是以时间对象为索引的Series或DataFrame, datetime对象作为索引时是存储在DatetimeIndex对象中的.
时间序列的特色功能:
read_csv
和 read_table
函数
to_csv
函数
如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复
python求numpy中array按列非零元素的平均值案例
网友评论