当前位置：移动技术网 > IT编程>脚本编程>Python > 爬虫(一)：爬虫简介

爬虫(一)：爬虫简介

2019年12月16日 | 移动技术网IT编程 | 我要评论

人体艺术绘画,河南地方戏曲,解冻大魔王

1. 爬虫简介

1.1 爬虫是什么？

什么是爬虫，以下是百度百科上的解析：

很多人都将互联网比喻成一张非常大的网，将世界连接起来。如果说互联网是一张网，那么爬虫就像在网上爬的小虫子，通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线，通常从网站的某一个页面开始，读取该网页的内容，找到该网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，就这样一直循环下去，直到将该网站的所有网页全部抓取为止。

1.2 爬虫原理

发起请求：
使用http库向目标站点发起请求，即发送一个request
request包含：请求头、请求体等

接收响应：
如果服务器能正常响应，则会得到一个response
response包含：html，json，图片，视频等

解析网页：
解析html数据：正则表达式，第三方解析库如beautifulsoup，pyquery等
解析json数据：json模块
解析二进制数据:以b的方式写入文件

存储资源：
数据库

1.3 发送请求

爬虫的第一个步骤就是对起始 url 发送请求，以获取其返回的响应

值得注意的是，发送请求实质上是指发送请求报文的过程

请求报文包括以下四个方面：请求行、请求头、空行和请求体。

（1）请求行

请求行由请求方法、请求 url 和 http 协议版本 3 个字段组成，字段间使用空格分隔

请求方法：请求方法是指对目标资源的操作方式，常见的有 get 方法和 post 方法

get：从指定的资源请求数据，查询字符串包含在 url 中发送

post：向指定的资源提交要被处理的数据，查询字符串包含在请求体中发送

请求 url：请求 url 是指目标网站的统一资源定位符 (uniform resource locator，url)

http 协议版本：http 协议是指通信双方在通信流程和内容格式上共同遵守的标准

（2）请求头

请求头被认为是请求的配置信息，以下列举出常用的请求头信息

user-agent：包含发出请求的用户的信息，设置 user-agent 常用于处理反爬虫

cookie：包含先前请求的内容，设置 cookie 常用于模拟登陆

referer：指示请求的来源，用于可以防止链盗以及恶意请求

（3）空行

空行标志着请求头的结束

（4）请求体

请求体根据不同的请求方法包含不同的内容

如果是get方式，请求体没有内容

如果是post方式，请求体是format data

1.4 接收响应

爬虫的第二个步骤就是获取特定 url 返回的响应，以提取包含在其中的数据。

同样的，响应其实是指完整响应报文，它包括四个部分：响应行、响应头、空行和响应体。

（1）响应行

响应行由 http 协议版本、状态码及其描述组成。

http 协议版本：http 协议是指通信双方在通信流程和内容格式上共同遵守的标准。

状态码及其描述：

100~199：信息，服务器收到请求，需要请求者继续执行操作

200~299：成功，操作被成功接收并处理

300~399：重定向，需要进一步的操作以完成请求

400~499：客户端错误，请求包含语法错误或无法完成请求

500~599：服务器错误，服务器在处理请求的过程中发生错误

（2）响应头

响应头用于描述服务器和数据的基本信息，以下列举出常用的响应头信息

set-cookie：设置浏览器 cookie，以后当浏览器访问符合条件的 url 时，会自动带上该 cooike

（3）空行

空行标志着响应头的结束。

（4）响应体

响应体就是网站返回的数据，在下一个步骤中我们需要对其进行分析处理。

1.5 解析网页

解析网页实质上需要完成两件事情，一是提取网页上的链接，二是提取网页上的资源。

（1）提取链接

提取链接实质上是指获取存在于待解析网页上的其他网页的链接。

网络爬虫需要给这些链接发送请求，如此循环，直至把特定网站全部抓取完毕为止。

（2）提取资源

提取数据则是爬虫的目的，常见的数据类型如下：

文本：html，json 等

图片：jpg，gif，png 等

视频：mpeg-1、mpeg-2 和 mpeg4，avi 等

最终，我们可以对所获得的资源作进一步的处理，从而提取出有价值的信息。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]