当前位置：移动技术网 > IT编程>脚本编程>Python > python数据分析库：numpy与pandas使用讲解

python数据分析库：numpy与pandas使用讲解

2018年03月22日 | 移动技术网IT编程 | 我要评论

喝女王的尿,临汾一中校园网,1马赫等于多少公里

1.简介

Numpy库是进行数据分析的基础库，panda库就是基于Numpy库的，在计算多维数组与大型数组方面使用最广，还提供多个函数操作起来效率也高

2.Numpy库的安装

linux(Ubuntu和debian)下：sudo apt-get install python-numpy

linux(fedora)下：sudo yum install numpy scipy

conda isntall numpy

3.ndarray，numpy的核心

array方法下的几个属性
>>> a=np.array([1,2,3])
>>> a
array([1, 2, 3])
>>> type(a)

>>> a.dtype
dtype('int32')
>>> a.ndim
1
>>> a.size
3
>>> a.shape
(3,)
>>> a.itemsize
4
###如何创建数组
>>> c=np.array([[1,2,3],[4,5,6]])  列表为参数
>>> c
array([[1, 2, 3],
       [4, 5, 6]])
>>> c=np.array(((1,2,3),(4,5,6)))   元组也可以作为参数
>>> c
array([[1, 2, 3],
       [4, 5, 6]])
###在创建数组的时候也可以指定类型，常用 都有int-,int8，int16，int32，int64，float_，float16,32,64，uint8,16,32,64
>>> c=np.array([[1,2,3],[4,5,6]],dtype=complex)
>>> c
array([[ 1.+0.j,  2.+0.j,  3.+0.j],
       [ 4.+0.j,  5.+0.j,  6.+0.j]])
>>> c.dtype
dtype('complex128')
>>> c.dtype.name
'complex128'

自带数组创建方法

>>> np.zeros((3,3))
array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])
>>> np.ones((3,3))
array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])
>>> np.arange(0,10)
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> np.arange(0,12,3)
array([0, 3, 6, 9])
>>> np.arange(0,4,0.6)
array([ 0. ,  0.6,  1.2,  1.8,  2.4,  3. ,  3.6])
>>> np.arange(0,12).reshape(3,4)
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>> np.linspace(0,10,5)
array([  0. ,   2.5,   5. ,   7.5,  10. ])
>>> np.random.random(6)
array([ 0.90252601,  0.85271104,  0.17201238,  0.9884257 ,  0.74112411,
        0.28453949])
>>> np.random.random((3,3))
array([[ 0.98041444,  0.40374122,  0.1174572 ],
       [ 0.8121098 ,  0.24770467,  0.9823125 ],
       [ 0.22909469,  0.96560959,  0.47319287]])

4.说完了数组的创建方法，下面讲下数组的计算方法

>>> a=np.arange(4)
>>> a
array([0, 1, 2, 3])
算术运算符
>>> a+4
array([4, 5, 6, 7])
>>> a*2
array([0, 2, 4, 6])
>>> a
array([0, 1, 2, 3])
>>> a*a
array([0, 1, 4, 9])
>>> b=np.arange(4,8)
>>> b
array([4, 5, 6, 7])
>>> a*np.sin(b)
array([-0.        , -0.95892427, -0.558831  ,  1.9709598 ])
>>> a*np.sqrt(b)
array([ 0.        ,  2.23606798,  4.89897949,  7.93725393])
矩阵相乘
>>> A=np.arange(9).reshape(3,3)
>>> A
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
>>> B=np.ones((3,3))
>>> B
array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])
>>> A*B
array([[ 0.,  1.,  2.],
       [ 3.,  4.,  5.],
       [ 6.,  7.,  8.]])
>>> np.dot(A,B)
array([[  3.,   3.,   3.],
       [ 12.,  12.,  12.],
       [ 21.,  21.,  21.]])
>>> A
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
>>> a
array([0, 1, 2, 3])
自增自减运算符
>>> a+=4
>>> a
array([4, 5, 6, 7])
>>> a*=2
>>> a
array([ 8, 10, 12, 14])
通用函数
>>> np.sin(a)
array([ 0.98935825, -0.54402111, -0.53657292,  0.99060736])
>>> np.sqrt(a)
array([ 2.82842712,  3.16227766,  3.46410162,  3.74165739])
>>> np.log(a)
array([ 2.07944154,  2.30258509,  2.48490665,  2.63905733])

聚合函数
>>> a.sum()
44
>>> a.min()
8

>>> a.max()
14
>>> a.mean()
11.0
>>> a.std()
2.2360679774997898
>>>

5.索引机制，切片和迭代方法

>>> np.arange(9)
array([0, 1, 2, 3, 4, 5, 6, 7, 8])   一维数组根据索引取数
>>> a=np.arange(9)
>>> a[2]
2
>>> a[[2,3,4]]
array([2, 3, 4])
>>> A=np.arange(10,19).reshape((3,3))
>>> A
array([[10, 11, 12],　　　　　　　　矩阵根据索引取数
       [13, 14, 15],
       [16, 17, 18]])
>>> A[1,2]
15
>>> A[[1,2],[2,2]]
array([15, 18])

2）切片操作（所谓切片，就是用冒号隔开的数字置于方括号里）

>>> a=np.arange(10,16)     一维数组的切片操作
>>> a
array([10, 11, 12, 13, 14, 15])
>>> a[1:5]
array([11, 12, 13, 14])
>>> a[1:5:2]
array([11, 13])
>>> a[::2]
array([10, 12, 14])
>>> a[:5:2]
array([10, 12, 14])
>>> a[:5:]
array([10, 11, 12, 13, 14])

二维数组矩阵的切片

>>> A=np.arange(10,19).reshape((3,3))
>>> A[0,:]
array([10, 11, 12])
>>> A
array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])
>>> A[:,0]
array([10, 13, 16])
>>> A[0:2,0:2]     行列的切片
array([[10, 11],
       [13, 14]])
>>> A[[0,2],0:2]   行，或列的不连续切片
array([[10, 11],
       [16, 17]])

6数组的遍历方法

>>> for  i in a:
    print(i)


10
11
12
13
14
15
>>> for row in A:
    print(row)


[10 11 12]
[13 14 15]
[16 17 18]
>>> for item in A.flat:
    print(item)


10
11
12
13
14
15
16
17
18
>>> np.apply_along_axis(np.mean,axis=0,arr=A)    更优雅的迭代方法，应用自定义函数
array([ 13.,  14.,  15.])
>>> np.apply_along_axis(np.mean,axis=1,arr=A)
array([ 11.,  14.,  17.])
>>> def foo(x):
    return x/2

>>> np.apply_along_axis(foo,axis=1,arr=A)
array([[ 5. ,  5.5,  6. ],
       [ 6.5,  7. ,  7.5],
       [ 8. ,  8.5,  9. ]])

7.对数组的的元素应用条件，返回boolean值

>>> A=np.random.random((4,4))
>>> A
array([[ 0.70709738,  0.80240902,  0.94803025,  0.98312311],
       [ 0.07900716,  0.93118649,  0.75250378,  0.35555096],
       [ 0.66154306,  0.96191193,  0.15286704,  0.44050484],
       [ 0.87358818,  0.23117656,  0.59518599,  0.58695854]])
>>> A<0.5
array([[False, False, False, False],
       [ True, False, False,  True],
       [False, False,  True,  True],
       [False,  True, False, False]], dtype=bool)
>>> A[A<0.5]
array([ 0.07900716,  0.35555096,  0.15286704,  0.44050484,  0.23117656])

8.我们可以通过reape()方法来改变以为数组的形状，也可以通过修改shape这个属性字段来修改

>>> a
array([ 0.70290611,  0.79908059,  0.67798575,  0.67487014,  0.77510071,
        0.87493472,  0.25405607,  0.38421272,  0.05605654,  0.14063901,
        0.11186545,  0.76120191])
>>> a.shape=(3,4)
>>> a
array([[ 0.70290611,  0.79908059,  0.67798575,  0.67487014],
       [ 0.77510071,  0.87493472,  0.25405607,  0.38421272],
       [ 0.05605654,  0.14063901,  0.11186545,  0.76120191]])
>>> a.shape
(3, 4)
>>> a=a.ravel()
>>> a
array([ 0.70290611,  0.79908059,  0.67798575,  0.67487014,  0.77510071,
        0.87493472,  0.25405607,  0.38421272,  0.05605654,  0.14063901,
        0.11186545,  0.76120191])
>>> a.shape=(12)
>>> a
array([ 0.70290611,  0.79908059,  0.67798575,  0.67487014,  0.77510071,
        0.87493472,  0.25405607,  0.38421272,  0.05605654,  0.14063901,
        0.11186545,  0.76120191])
>>> A
array([[ 0.70709738,  0.80240902,  0.94803025,  0.98312311],
       [ 0.07900716,  0.93118649,  0.75250378,  0.35555096],
       [ 0.66154306,  0.96191193,  0.15286704,  0.44050484],
       [ 0.87358818,  0.23117656,  0.59518599,  0.58695854]])
>>> A.transpose()　　　　　　　　　　矩阵的转置函数
array([[ 0.70709738,  0.07900716,  0.66154306,  0.87358818],
       [ 0.80240902,  0.93118649,  0.96191193,  0.23117656],
       [ 0.94803025,  0.75250378,  0.15286704,  0.59518599],
       [ 0.98312311,  0.35555096,  0.44050484,  0.58695854]])
>>>

9.数组的连接，1）上下对接2）左右对接原理是运用了栈这个概念，一个是水平栈，一个是垂直栈，有两种方法，一个是vstack,hstack,另一个是column_stack,row_stack

>>> A=np.zeros((3,3))
>>> B=np.ones((3,3))
>>> np.vstack((A,B))
array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])
>>> np.hstack((A,B))
array([[ 0.,  0.,  0.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  1.,  1.,  1.]])
>>> np.column_stack((A,B))
array([[ 0.,  0.,  0.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  1.,  1.,  1.],
       [ 0.,  0.,  0.,  1.,  1.,  1.]])
>>> np.row_stack ((A,B))
array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

9.数组的切分，数组切分其实是数组连接的逆操作

两种方法：1）hsplist(),vsplist() 2)split（）此方法更强大，能指定参数分割成不对称的两个部分

>>> A=np.arange(16).reshape((4,4))
>>> A
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
>>> [B,C]=np.hsplit(A,2)
>>> B
array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])
>>> C
array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])
>>> [B,C]=np.vsplit(A,2)
>>> B
array([[0, 1, 2, 3],
       [4, 5, 6, 7]])
>>> C
array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])
>>> [A1,A2,A3]=np.split(A,[1,3],axis=1)    split函数指定从1,3开始分割，1代表列，0代表行
>>> A1
array([[ 0],
       [ 4],
       [ 8],
       [12]])
>>> A2
array([[ 1,  2],
       [ 5,  6],
       [ 9, 10],
       [13, 14]])
>>> A3
array([[ 3],
       [ 7],
       [11],
       [15]])
>>> [A1,A2,A3]=np.split(A,[1,3],axis=0)
>>> A1
array([[0, 1, 2, 3]])
>>> A2
array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
>>> A3
array([[12, 13, 14, 15]])

10.对象的副本与视图，在numpy库中我们队数组的操作并不会在原来的数组上创建副本，而是得到原来数组的视图，当我们改变原来的数组时，新的数组也会随之发生改变，包括切片也是，需要区别的是，Python列表操作得到的是副本，如果想要得到numpy中数组的副本，用copy函数

>>> a=np.arange(4)
>>> a
array([0, 1, 2, 3])
>>> b=a
>>> b
array([0, 1, 2, 3])
>>> a[0]=1
>>> b[0]
1
>>> c=a.copy()   用copy（）来得到副本
>>> a
array([1, 1, 2, 3])
>>> c
array([1, 1, 2, 3])
>>> a[0]=0
>>> c
array([1, 1, 2, 3])
>>> a
array([0, 1, 2, 3])

10.numpy数组的广播机制（broadcasting）

当两个数组形状不相同时，我们可以用广播机制进行运算，广播机制会自动将数组进行补全

补全规则：1）应用广播机制也是有条件的，需要两个数组在以为条件下等长，如不是，则会抛出异常

2）为缺失的维度补上一个1，如下，将b变成4*1

3）为缺失元素用已有值进行填充，将b变成4个【0,1,2，3】

>>> A
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
>>> b=np.arange(4)
>>> A+b
array([[ 0,  2,  4,  6],
       [ 4,  6,  8, 10],
       [ 8, 10, 12, 14],
       [12, 14, 16, 18]])
>>>

11。结构化数组

除了一维数组，二维数组，还可以创建更复杂的结构体数组，其中每个元素都是一个结构体，下面阐述下结构体的类型

>>> structued=np.array([(1,'first',0.5,1+2j),(2,'second',1.3,2-2j),(3,'third',8.3,4-2j)],dtype=('i2,a6,f4,c8'))
>>> structued
array([(1, b'first',  0.5       ,  1.+2.j),
       (2, b'second',  1.29999995,  2.-2.j),
       (3, b'third',  8.30000019,  4.-2.j)], 
      dtype=[('f0', '>> structued[1]
(2, b'second',  1.29999995,  2.-2.j)
>>> structued[2]
(3, b'third',  8.30000019,  4.-2.j)
>>> structued['f0']
array([1, 2, 3], dtype=int16)
>>> structued['f1']
array([b'first', b'second', b'third'], 
      dtype='|S6')
>>> structued=np.array([(1,'first',0.5,1+2j),(2,'second',1.3,2-2j),(3,'third',8.3,4-2j)],dtype=[('id','>> structued
array([(1, b'first',  0.5       ,  1.+2.j),
       (2, b'second',  1.29999995,  2.-2.j),
       (3, b'third',  8.30000019,  4.-2.j)], 
      dtype=[('id', '>> structued.dtype.names
('id', 'position', 'value', 'complex')

>>> structued['position']   通过一个关键字来获取所有结构体元素的值
array([b'first', b'second', b'third'], 
      dtype='|S6')

12.numpy文件的数据读与写

两种方式1）二进制文件的读与写 2）从文件中读取数据text，csv

>>> np.save('c:A',A)    保存到文件中
>>> load_data=np.load('c:A.npy')   从文件中读取   ，np模块保存的是二进制数据
>>> load_data
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])
>>> data=np.genfromtxt('c:333.csv',delimiter=',',names=True)    genfromtxt()这个方法只能读取数字，对于字符串类型的则便成为NAN
>>> data
array([( 0.,  nan,  12.,  nan), ( 1.,  nan,  24.,  nan),
       ( 2.,  nan,  25.,  nan)], 
      dtype=[('A', '>> data['A']
array([ 0.,  1.,  2.])
>>> data[0]
( 0.,  nan,  12.,  nan)
>>>

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

python数据分析库：numpy与pandas使用讲解

2018年03月22日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论