当前位置：移动技术网 > IT编程>脚本编程>Python > 【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验

2019年08月19日 | 移动技术网IT编程 | 我要评论

动听中国下载,大国手之萍水相逢,杨增良

一、写在前面

　　之前写的爬虫都是单机爬虫，还没有尝试过分布式爬虫，这次就是一个分布式爬虫的初体验。所谓分布式爬虫，就是要用多台电脑同时爬取数据，相比于单机爬虫，分布式爬虫的爬取速度更快，也能更好地应对ip的检测。本文介绍的是利用redis数据库实现的分布式爬虫，redis是一种常用的菲关系型数据库，常用数据类型包括string、hash、set、list和sorted set，重要的是redis支持主从复制，主机能将数据同步到从机，也就能够实现读写分离。因此我们可以利用redis的特性，借助requests模块发送请求，再解析网页和提取数据，实现一个简单的分布式爬虫。

二、基本环境

　　python版本：python3

　　redis版本：5.0

　　ide： pycharm

三、环境配置

由于windows下的安装配置比较简单，所以这里只说linux环境下安装和配置redis（以ubuntu为例）。

1.安装redis

1）apt安装：

$ sudo apt-get install redis-server

2）编译安装：

$ wget http://download.redis.io/releases/redis-5.0.0.tar.gz

$ tar -xzvf redis-5.0.0.tar.gz

$ cd redis-5.0.0

$ make

$ make install

2.配置redis

　　首先找到redis.conf文件，然后输入命令sudo vi redis.conf，进行如下操作：

注释掉bind 127.0.0.1 # 为了远程连接，这一步还可以将bind 127.0.0.1改为bind 0.0.0.0

protected-mode yes 改为 protected-mode no

daemonized no 改为 daemonized yes

　　如果6379端口被占用，还需要改一下端口号。除此之外，要远程连接还需要关闭防火墙。

chkconfig firewalld off # 关闭防火墙

systemctl status firewalld # 检查防火墙状态

3.远程连接redis

　　使用的命令为redis-cli -h <ip地址> -p <端口号>

　　注：windows查看ip地址用ipconfig，linux查看ip地址用ifconfig。

四、基本思路

　　这次我爬取的网站为：，在这个网站的首页里有五大分类，分别是性感美女、清纯可爱、明星模特、动漫美女和丝袜美腿，所以要做的第一件事就是获取这几个分类的url。然后，对每个分类下的网页进行爬取，通过查看网页元素可以发现如下信息：

　　可以很明显地看到每一页的url都是符合一定规律的，只要获取到了尾页的url，将其中的页数提取出来，也就能构造每一页的url了，这就比每次去获取下一页的url简单多了。而对于每一个图集下的图片，也是用同样的方法得到每一页图片的url。最后要做的就是从图片网页中将图片的url提取出来，然后下载保存到本地。

　　这次分布式爬虫我使用了两台电脑，一台作为主机master，另一台作为从机slave。主机开启redis服务，爬取每一页图片的url，并将爬取到的url保存到redis的集合中，从机远程连接主机的redis，监听redis中是否有url，如果有url则提取出来进行下载图片，直至所有url都被提取和下载。

五、主要代码

1.第一段代码是爬取每个页面里的美女图集的url，并且把这些url保存到数据库中，这里使用的是redis中的集合，通过使用集合能够达到url去重的目的，代码如下：

 1 def get_page(url):
 2     """
 3     爬取每个页面下的美女图集的url
 4     :param url: 页面url
 5     :return:
 6     """
 7     try:
 8         r = redis(host="localhost", port=6379, db=1)  # 连接redis
 9         time.sleep(random.random())
10         res = requests.get(url, headers=headers)
11         res.encoding = "utf-8"
12         et = etree.html(res.text)
13         href_list = et.xpath('/html/body/div[5]/div[1]/div[1]/div[2]/ul/li/a/@href')
14         for href in href_list:
15             href = "http://www.shu800.com" + href
16             r.sadd("href", href)  # 保存到数据库中
17     except requests.exceptions:
18         headers["user-agent"] = ua.random
19         get_page(url)

2.第二段代码是从机监听redis中是否有url的代码，如果没有url，等待五秒钟再运行，因为如果不稍作等待就直接运行，很容易超过python的递归深度，所以我设置了一个等待五秒钟再运行。反之，如果有url被添加到redis中，就要将url提取出来进行爬取，使用的方法是redis模块里的spop()方法，该方法会从redis的集合中返回一个元素。需要注意的是，url被提取出来后要先转成str。

 1 def get_urls():
 2     """
 3     监听redis中是否有url，如果没有就一直运行，如果有就提取出来进行爬取
 4     :return: 
 5     """
 6     if b"href" in r.keys():
 7         while true:
 8             try:
 9                 url = r.spop("href")
10                 url = url.decode("utf-8")  # unicode转str
11                 print("crawling url: ", url)
12                 get_image(url)
13                 get_img_page(url)
14             except:
15                 if b"href" not in r.keys():  # 爬取结束，退出程序
16                     break
17                 else:
18                     continue
19     else:
20         time.sleep(5)
21         get_urls()

六、运行结果

　　下图是在主机master上运行的截图，这里爬取到的图集总共有9633个：

　　从机slave会不断地从redis数据库中提取url来爬取，下图是运行时的截图：

　　打开文件夹看看爬下来的图片都有什么（都是这种标题，有点难顶啊...）：

完整代码已上传到github！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：