当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫（1）：基础知识

Python爬虫（1）：基础知识

2019年04月04日 | 移动技术网IT编程 | 我要评论

爬虫基础知识

一、什么是爬虫？

向网站发起请求，获取资源后分析并提取有用数据的程序。

二、爬虫的基本流程

1、发起请求

2、获取内容

3、解析内容

4、保存数据

三、request和response

request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

注：浏览器在接收response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收response后，是要提取其中的有用数据。

四、request中包含什么？

1、请求方式

主要有get、post，还有head、put、delete、potions等。

2、请求url

url，即统一资源定位符，也就是网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的url，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

3、请求头

user-agent、host、cookies

user-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做一个非法用户。

host

cookies：cookie用来保存登录信息。

一般做爬虫都会加上请求头。

4、请求体

请求体是请求时额外携带的数据。如果是get方式，请求体没有内容；如果是post方式，请求体是format data。

五、response中包含什么？

1、响应状态

200：代表成功

301：代表跳转

404：文件不存在

403：权限

502：服务器错误

2、响应头

响应头需要注意的参数：

(1)set-cookie:bdsvrtm=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来；

(2)content-location：服务端响应头中包含location返回浏览器之后，浏览器就会重新访问另一个页面。

3、响应体

六、能抓取什么数据？

1、网页文本（html、json）

2、图片

3、视频

4、其他

七、网页解析的方式

1、直接处理

2、json处理

3、正则表达式

4、beautifulsoup

5、pyquery

6、xpath

八、为什么抓到的和浏览器看到的不一样？

因为爬虫爬取的数据是js没有渲染的数据，而浏览器中看到的是js完成渲染后的数据。

九、怎么用javascript渲染？

当我们进行网页爬虫时，我们会利用一定的规则从返回的 html 数据中提取出有效的信息。但是如果网页中含有 javascript 代码，我们必须经过渲染处理才能获得原始数据。

1、分析ajax请求

2、selenium/webdriver

十、怎么保存数据？

1、文本

2、关系型数据库

3、非关系型

4、图片音频

各位，我回来了，3月的时候自学爬虫，不过资料准备不足，加上拖延症发作，到现在爬虫都还没入门。未来会边学边更新，没有办法保证一天一更了。

文中难免有不足之处，欢迎批评指正。

参考资料：

1、什么是爬虫：http://www.cnblogs.com/935415150wang/p/7793306.html

2、python2爬虫学习系列教程|静觅：https://cuiqingcai.com/1052.html

3、python request库get和post的区别：http://www.cnblogs.com/mango-lee/p/7116425.html

4、爬虫技术:(javascript渲染)动态页面抓取超级指南：https://blog.csdn.net/sqzhao/article/details/50853996

5、python学习之python爬虫原理：http://www.sohu.com/a/251575938_100120307

6、爬虫从头学之爬虫基本原理：https://blog.csdn.net/prospective0821/article/details/80630436

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

python用OpenCV读取视频帧数、高度宽度等

Opencv读取视频帧数、高度宽度等1. 读取视频import cv2video_path = "my_vide... [阅读全文]
超级有用の常用的功能性网站

一、同样汇集一堆功能性网站的网站 ????菜鸟工具菜鸟工具更适合程序员使用在线工具比较适合程序员使用站长工具站长... [阅读全文]
Python+OpenCV对灰度图像进行伪彩色处理

伪彩色处理：根据一定准则给灰度值赋予彩色值的处理。宏观来说就是将黑白图像转化为彩色图像，或者是将单色图像变换成给... [阅读全文]
使用ffmpeg用图片批量合成抖音卡点短视频

技术交流使用ffmpeg用图片批量合成抖音卡点短视频ffmpeg工具准备图片和音乐文件准备ffmpeg命令行合成... [阅读全文]
荐 STC8A基于STC15的双串口中断收发程序的移植

STC官网的STC15系列库函数与例程测试版V2.0例程里包含"05-双串口中断收发",那是基于STC15系列单... [阅读全文]
opencv-python视频处理之视频抖动特效

简单的原理读取原来的视频的每一帧，每隔几帧缩放一次即可 [阅读全文]
opencv-python视频处理之录制视频

cv2.VideoWriter 分别传入的参数是路径格式，帧率，视频尺寸 ... [阅读全文]
PyQt实现一个简单的License系统（二）

1）PyQt、WinPython的安装、配置。2）如何用PyQt编译QDesigner生成的*.ui文件。3）如... [阅读全文]
实现Python简单实现jacobi迭代

def Jacobi(mx,mr,n=100,c=0.0001): if len(mx) == len(m... [阅读全文]
荐新机必装！那些你不知道的实用技软件在这里！

今天，分享一批常用软件，如果自己网盘的大小有限，可以分类提取（注意，所有的软件均以360网盘的形式分享，如果没有... [阅读全文]

网友评论


验证码：