当前位置：移动技术网 > IT编程>脚本编程>Python > 只需四个步骤，彻底上手python爬虫！

只需四个步骤，彻底上手python爬虫！

2018年08月21日 | 移动技术网IT编程 | 我要评论

两天一夜130908,武汉生活网,冲天火迅雷下载

what is 爬虫？

交流群：548377875

网络爬虫(web crawler)，就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现，行为类似一个蜘蛛。蜘蛛在互联网上爬行，一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。

网络爬虫也是获取数据的一个途径。对于大数据行业，数据的价值不言而喻，在这个信息爆炸的年代，互联网上有太多的信息数据，对于中小微公司，合理利用爬虫爬取有价值的数据，是弥补自身先天数据短板的不二选择。

根据上面的分析，我们可以把网络爬虫分为四步：

第一步：获取网页数据

获取网页数据，也就是通过网址（ url：uniform resource locator,统一资源定位符），获得网络的数据，充当搜索引擎。当输入网址，我们就相当于对网址服务器发送了一个请求，网站服务器收到以后，进行处理和解析，进而给我们一个相应的相应。如果网络正确并且网址不错，一般都可以得到网页信息，否则告诉我们一个错误代码，比如404. 整个过程可以称为请求和响应。

常见的请求方法有两种，get和 post。get请求是把参数包含在了url里面，比如在百度里面输入爬虫，得到一个get 请求，链接为 https://www.baidu.com/s?wd=爬虫。而post请求大多是在表单里面进行，也就是让你输入用户名和秘密，在url里面没有体现出来，这样更加安全。post请求的大小没有限制，而get请求有限制，最多1024个字节。

在python程序里面，上述过程可以通过获取网页中的源代码实现，进而获得网页中的数据。首先看一下网址的源代码查看方法，使用google浏览器，右键选择检查，查看需要爬取的网址源代码，具体如下：从图可得知，在network选项卡里面，点击第一个条目，也就是www.baidu.com，看到源代码。

在本图中，第一部分是general，包括了网址的基本信息，比如状态 200等，第二部分是response headers,包括了请求的应答信息,还有body部分，比如set-cookie,server等。第三部分是，request headers，包含了服务器使用的附加信息，比如cookie,user-agent等内容。

上面的网页源代码，在python语言中，我们只需要使用urllib、requests等库实现即可，具体如下。这里特别说明一些，requests比urllib更加方便、快捷。一旦学会requests库，肯定会爱不释手。

第二步：解析网页数据

在第一步，我们获得了网页的源代码，也就是数据。然后就是解析里面的数据，为我们的分析使用。常见的方法有很多，比如正则表达式、xpath解析等。

在python语言中，我们经常使用beautiful soup、pyquery、lxml等库，可以高效的从中获取网页信息，如节点的属性、文本值等。

beautiful soup库是解析、遍历、维护“标签树”的功能库，对应一个html/xml文档的全部内容。安装方法非常简单，如下：

第三步：存储网页数据

解析完数据以后，就可以保存起来。如果不是很多，可以考虑保存在txt 文本、csv文本或者json文本等，如果爬取的数据条数较多，我们可以考虑将其存储到数据库中。因此，我们需要学会 mysql、mongodb、sqllite的用法。更加深入的，可以学习数据库的查询优化。

json(javascript object notation) 是一种轻量级的数据交换格式。它基于ecmascript的一个子集。 json采用完全独立于语言的文本格式，但是也使用了类似于c语言家族的习惯(包括c、c++、java、javascript、perl、python等)。这些特性使json成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成(一般用于提升网络传输速率)。

json在python中分别由list和dict组成。python官方json网址是 https://docs.python.org/3/library/json.html?highlight=json#module-json

具体使用方法如下：

第四步：分析网页数据

爬虫的目的是分析网页数据，进的得到我们想要的结论。在 python数据分析中，我们可以使用使用第三步保存的数据直接分析，主要使用的库如下：numpy、pandas、 matplotlib 三个库。

numpy ：它是高性能科学计算和数据分析的基础包。
pandas : 基于 numpy 的一种工具，该工具是为了解决数据分析任务而创建的。它可以算得上作弊工具。
matplotlib：python中最著名的绘图系统python中最著名的绘图系统。它可以制作出散点图，折线图，条形图，直方图，饼状图，箱形图散点图，折线图，条形图，直方图，饼状图，箱形图等。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

只需四个步骤，彻底上手python爬虫！

2018年08月21日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论