当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫总结

Python爬虫总结

2020年08月10日 | 移动技术网IT编程 | 我要评论

python crawler

文章目录

[python crawler](https://github.com/AnDeltas/PythonCrawlerTutorial)

请求数据: requests库的使用

get与post
反反爬
cookie与session(会话跟踪技术)

cookie
session
用途

数据解析

regex
[bs4 BeatifulSoup](https://www.jianshu.com/p/9254bdc467b2)
XPath

数据持久化
数据可视化

编写一个Python 爬虫一般分为以下三步:
1. 请求数据

2. 数据解析

3. 数据持久化
我们从这三步入手, 开始学习Python爬虫

请求数据: requests库的使用

get与post

# 假如我们现在发送一个post请求
we_got_it = requests.post(url=url, headers=header, params=param, data=data)
# we_got_it 是什么数据由所 content-type 参数决定
# 这个参数包含在响应头中, 我们可以通过抓包工具查看

# 有些时候你得到的text中会含有乱码, 这是由于requests会猜测请求的数据的编码格式
# 但是有些时候会猜错, 这是候就需要你手动设定请求数据的编码格式, 防止乱码
we_got_it.encoding = "utf-8" # 这是候就会得到正确的文本

we_got_it.text # -> 返回str

we_got_it.content # -> 返回bytes, 在对一些图片之类的二进制数据进行请求的时候要用这个attr

we_got_it.json()
# 以上三种都是常用的属性或者函数, 可以自己查阅相关文档学习

# get只是比post少了一个data参数

你需要自己去了解一下post或者get里的这些参数都是干什么用的, 这都很简单, 我就不在这里赘述了.

反反爬

robots.txt 君子协定
您可能感兴趣的文章:
如对本文有疑问，点击进行留言回复！！

基于Python pyecharts实现多种图例代码解析

词云图from pyecharts.charts import wordclouddef word1(): words= [ ("sam s club"... [阅读全文]
Python grequests模块使用场景及代码实例

使用场景：1) 爬虫设置ip代理池时验证ip是否有效2）进行压测时，进行批量请求等等场景grequests 利用 requests和gevent库，做了一个简单... [阅读全文]
基于Python实现下载网易音乐代码实例

代码如下# 爬取网易音乐import requestsfrom bs4 import beautifulsoupimport urllib.requesthea... [阅读全文]
Python如何操作docker redis过程解析

使用操作命令借助subprocess模块进行操作#encoding:utf-8import subprocessdef cmd(command): subp ... [阅读全文]
Python如何测试stdout输出

问题你的程序中有个方法会输出到标准输出中（sys.stdout）。也就是说它会将文本打印到屏幕上面。你想写个测试来证明它，给定一个输入，相应的输出能正常显示出... [阅读全文]
零基础学python应该从哪里入手

零基础学习python的入手方向：1、首先你确定学习python用来做什么方向，爬虫还是……；2、确定方向后，就按照你喜欢的方式找学习资料；喜欢看视频，就上网找... [阅读全文]
python将字典内容写入json文件的实例代码

python将字典内容写入json文件的方法：我们可以先使用json.dumps()函数将字典转换为字符串；然后再将内容写入json即可。json.dumps(... [阅读全文]
Python命名空间及作用域原理实例解析

python命名空间和作用域总结emmm，这一块讲了2个内容，一个是命名空间，一个是作用域。一个一个说吧命名空间a namespace is a mapping... [阅读全文]
Python面向对象实现方法总结

总结类的定义很久以前，语言都是面向过程的，经过计算机科学家的探索，出现了面向对象。面向对象可以解释生活中很多东西。比如人，人就是个对象，有参数，比如器官，身高啥... [阅读全文]
Python如何设置指定窗口为前台活动窗口

python程序运行时，打开了多个窗口，使用win32gui模块可以设置指定的某一个窗口为当前活动窗口。import re, timeimport webbro... [阅读全文]

网友评论


验证码：

Python爬虫总结

2020年08月10日 | 移动技术网IT编程 | 我要评论

python crawler

文章目录

请求数据: requests库的使用

get与post

反反爬

您可能感兴趣的文章:

相关文章:

网友评论