当前位置：移动技术网 > IT编程>脚本编程>Python > Python基础学习之Python主要的数据分析工具总结

Python基础学习之Python主要的数据分析工具总结

2019年03月24日 | 移动技术网IT编程 | 我要评论

乒乓网,2255k,预约你的未来

python主要是依靠众多的第三方库来增强它的数据处理能力的。常用的是numpy库，scipy库、matplotlib库、pandas库、scikit-learn库等。

常规版本的python需要在安装完成后另外下载相应的第三方库来安装库文件。而若安装的是anaconda版本的python，则不需要一个一个安装第三方库，可能已经同时安装了这些库。

anaconda是专门应用于科学计算的python版本。

numpy库：表达n维数组的最基本的库。

numpy库是专门为应用于严格的数据处理开发的，它提供了一个非常强大的n维数组对象array和实用的线性代数、傅里叶变换和随机数生成函数，可以存储和处理大型的矩阵，scipy，matplotlib,pandas库等均依赖于它。

①　安装numpy库：pip install numpy ，集成安装方法（anaconda）或者文件安装方法（先从uci页面搜索库，下载对应版本的文件，使用 pip install <文件名>进行安装）

②　多维数组：用array函数创建数组，array函数接收一切序列类型的对象（list，tuple，其他数组） import numpy as np

a=np.array(列表、元组或数组)

创建特殊函数：import numpy as np

b=np.ones(n,m)，c=np.zeros(n,m) ,i=np.eye/identify(n) 等

scipy库：提供了真正的矩阵，以及基于矩运算的对象和函数，scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信息处理和图像处理、常微分方程求解和其他科学和工程常用的计算。

注意：scipy库依赖于numpy库，需先安装numpy库

例：使用scipy求解线性方程组的方法：

import scipy

from scipy import linalg

a=scipy.mat('[2 1 -5 1;1 -3 0 -6;0 2 -1 2;1 4 -7 6]')

b=scipy.mat('[8;9;-5;0]')

solve=linalg.solve(a,b)

print(solve) #运行结果输出值矩阵

[ [3.]

[-4.]

[-1.]

[1.] ]

该方程的另一解为：使用lu求解多个线性方程

from numpy import *

import scipy.linalg as s1

a=array([[2,1,-5,1],[1,-3,0,-6],[0,2,-1,2],[1,4,-7,6]])

b=array([8,9,-5,0])

bi=b.reshape(-1,1)

[lu,piv]=s1.lu_factor(a)

print(lu,piv)

xi=s1.lu_solve((lu,piv),bi)

print(xi)

#得到运行结果：[[ 2. 1. -5. 1. ]

[ 0.5 -3.5 2.5 -6.5 ]

[ 0.5 -1. -2. -1. ]

[ 0. -0.57142857 -0.21428571 -1.92857143]] [0 1 3 3]

[[ 3.]

[-4.]

[-1.]

[ 1.]]

在scipy 中，分解lu的方法有两种：1.标准方法是scipy.linalg.lu 该方法返回三个矩阵l,u,p。

2.方法lu_factor与lu_solve结合起来使用，l和u一起存储在n*n的数组中，存储序列矩阵p的信息只需要一个n整数向量即轴向量来完成。

3.matplotlib库：是python的一个2d绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。应用：使用matplotlib可以实现数据的可视化

例1：使用matplotlib进行画图的一些基本代码：

iimport matplotlib.pyplot as plt

import numpy as np

x=np.linspace(0,10,1000) #设置自变量格式其中linspace(0,10,1000)表示x由平均分布在0—10之间的1000个点所组成

y=np.sin(x)+1 #设置因变量y

z=np.cos(x**2)+1 #设置另一因变量z

plt.figure(figsize=(8,4)) #设置图像大小

plt.plot(x,y,label="sinx+1",color='red',linewidth=2) #作图（x,y）,设置标签格式

plt.plot(x,z,label="cosx^2+1") #作图（x,z）

plt.xlabel('time(s)') #设置x轴名称

plt.ylabel('volt') #设置y轴名称

plt.title('a simple example') #设置表格标题

plt.ylim(0,2.2) #显示的y轴范围

plt.legend() #显示图例

plt.show() #显示作图结果

运行上述代码，可以得到如下图：（注意：该图可以保存为图片格式，保存的图片质量几乎满足各种版本要求）

4.pandas 库：是包含高级的数据结构和精巧的分析工具，支持sql的数据增、删、改、查操作，并包含很多处理函数。

（1）pandas的数据结构series：

series 由一组数据（各种numpy数据类型）以及一组与之有关的数据标签（即索引）组成。它的字符串的表现形式为：索引左边值右边

例1. 创建series对象：

from pandas import series

obj_list=[1,2,3,4,5]

obj_tuple=(1.2,2.5,3.3,4.8,5.4)

obj_dict={'tom':[16,'boy'],'max':[12,'boy'],'julia':[18,'girl']}

series_list=series(obj_list)

series_tuple=series(obj_tuple,index=['a','b','c','d','e'])

series_dict=series(obj_dict)

print("（1）通过list建立series:")

print(series_list)

print('(2)通过tuple建立series：')

print(series_tuple)

print("(3)通过dict建立series:")

print(series_dict)

运行结果为：

（1）通过list建立series:

0 1 #注意：当没有给出索引值得时候，series从0开始自动创建索引

1 2

2 3

3 4

4 5

dtype: int64

(2)通过tuple建立series：

a 1.2

b 2.5

c 3.3

d 4.8

e 5.4 dtype: float64

(3)通过dict建立series:

tom [16, boy]

max [12, boy]

julia [18, girl] dtype: object

（2）pandas的数据结构dataframe

dataframe 是pandas的主要数据结构之一，是一种带有二维标签的二维对象，dataframe结构的数据有一个行索引和列索引，且每一行的数据格式可能是不同的。

例：dataframe的创建和一些基本操作：

from pandas import dataframe #从pandas库中引用dataframe

from pandas import series #从pandas库中引用series

obj={'name':['tom','peter','lucy','max','anna'],'age':['17','23','44','27','36'],

'status':['student','student','doctor','clerk','performer']}

series_dict1=series([1,2,3,4,5],index=['a','b','c','d','e'])

series_dict2=series([6,7,8,9,10],index=['a','b','c','d','e'])

print(series_dict2)

df_obj=dataframe(obj)#创建dataframe对象

print(df_obj)

df_obj2=dataframe([series_dict1,series_dict2])

print(df_obj2)

print('---查看前几行数据，默认5行---')

print(df_obj.head())

print("-----提取一列-----")

print(df_obj.age)

print("------添加列-----")

df_obj['gender']=['m','m','f','m','f'] #直接用键来添加

print(df_obj)

print('-----删除列-----')

del df_obj['status']

print(df_obj)

print("-----转置-----")

print(df_obj2.t)

运行结果：

a 6 #返回series_dict2

b 7

c 8

d 9

e 10

dtype: int64

name age status #dataframe数据结构

0 tom 17 student

1 peter 23 student

2 lucy 44 doctor

3 max 27 clerk

4 anna 36 performer

a b c d e

0 1 2 3 4 5

1 6 7 8 9 10

--查看前几行数据，默认5行---

name age status

0 tom 17 student

1 peter 23 student

2 lucy 44 doctor

3 max 27 clerk

4 anna 36 performer

-----提取一列-----

0 17

1 23

2 44

3 27

4 36

name: age, dtype: object

------添加列-----

name age status gender

0 tom 17 student m

1 peter 23 student m

2 lucy 44 doctor f

3 max 27 clerk m

4 anna 36 performer f

-----删除列-----

name age gender

0 tom 17 m

1 peter 23 m

2 lucy 44 f

3 max 27 m

4 anna 36 f

-----转置-----

0 1

a 1 6

b 2 7

c 3 8

d 4 9

e 5 10

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

Python基础学习之Python主要的数据分析工具总结

2019年03月24日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论