当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫防封ip的一些技巧

Python爬虫防封ip的一些技巧

2020年08月07日 | 移动技术网IT编程 | 我要评论

在编写爬虫爬取数据的时候，因为很多网站都有反爬虫措施，所以很容易被封ip，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担心着下一秒ip可能就被封了。

本文就如何解决这个问题总结出一些应对措施，这些措施可以单独使用，也可以同时使用，效果更好。

伪造user-agent

在请求头中把user-agent设置成浏览器中的user-agent，来伪造浏览器访问。比如：

headers ={'user-agent':'mozilla/5.0 (x11; linux x86_64) applewebkit/537.36 (khtml, like gecko) chrome/52.0.2743.116 safari/537.36'} resp = requests.get(url,headers = headers)

还可以先收集多种浏览器的user-agent，每次发起请求时随机从中选一个使用，可以进一步提高安全性：

把上面随机选择一个user-agent的代码封装成一个函数：

在每次重复爬取之间设置一个随机时间间隔

比如：

time.sleep(random.randint(0,3)) # 暂停0~3秒的整数秒，时间区间：[0,3]

或：

time.sleep(random.random()) # 暂停0~1秒，时间区间：[0,1)

伪造cookies

若从浏览器中可以正常访问一个页面，则可以将浏览器中的cookies复制过来使用，比如：

注：用浏览器cookies发起请求后，如果请求频率过于频繁仍会被封ip，这时可以在浏览器上进行相应的手工验证（比如点击验证图片等），然后就可以继续正常使用该cookies发起请求。

使用代理

可以换着用多个代理ip来进行访问，防止同一个ip发起过多请求而被封ip，比如：

附：github上的一个"反反爬虫"项目

道高一尺魔高一丈，你有反爬虫措施，那我也有各种"反反爬虫"的措施，github上就有一位大神专门整理了一个这样的项目：anti-anti-spider，链接地址为：可以研究一下。

以上就是python爬虫防封ip的一些技巧的详细内容，更多关于python爬虫防封ip的资料请关注移动技术网其它相关文章！

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

英语口语365之每日二十个英语单词

2020/08/08每日二十个英语单词transfer molding 传递模塑法，连续自动送进成型transf... [阅读全文]
MFC屏蔽系统默认信号问题

BOOL TubeFeatureWnd::PreTranslateMessage(MSG* pMsg){if (... [阅读全文]
Arduino编程ESP8266下载报错错误：warning: espcomm_sync failed error: espcomm_open failed error: espcomm_uplo

Arduino IDE 编程ESP8266上传程序是出现报错：“warning: espcomm_sync fa... [阅读全文]
【内存泄漏】- 5. 使用Valgrind工具检测Python内存泄漏

1. 什么是valgrind Valgrind是一套Linux下，开放源代码（GPL V2）的仿真调试工具的... [阅读全文]
Python函数递归调用实现原理实例解析

函数的递归调用:是函数嵌套调用的一种特殊形式具体是指:在调用一个函数的过程中又直接或间接地调用到了本身# 直接调用本身def func(): print('我... [阅读全文]
python+pygame实现坦克大战小游戏的示例代码(可以自定义子弹速度)

python+pygame实现坦克大战小游戏—可以自定义子弹速度：运行环境–python3.7、pycharm；源码需要请：点赞留言邮箱；正常版子弹... [阅读全文]
Python 代码调试技巧示例代码

debug 对于任何开发人员都是一项非常重要的技能，它能够帮助我们准确的定位错误，发现程序中的 bug。python 提供了一系列 debug 的工具和包，可供... [阅读全文]
python中通过pip安装库文件时出现“EnvironmentError: [WinError 5] 拒绝访问”的问题及解决方案

python中通过pip安装库文件时出现“environmenterror: [winerror 5] 拒绝访问”我遇到的问题：电脑上已经有了一个numpy==... [阅读全文]
使用Python pip怎么升级pip

pip是一个python的包管理工具，实际上它也可以被看待为是一个包，pip相当于linux上的yum，对python的开发者来说相当方便。我们再也无需去焦头烂... [阅读全文]
Python3如何使用多线程升程序运行速度

优化前后新老代码如下：from git_tools.git_tool import get_collect_projects, qqnews_gitfrom t... [阅读全文]

网友评论


验证码：

Python爬虫防封ip的一些技巧

2020年08月07日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论