当前位置：移动技术网 > IT编程>脚本编程>Python > [爬虫]一个易用的IP代理池

[爬虫]一个易用的IP代理池

2019年12月18日 | 移动技术网IT编程 | 我要评论

大连星海影院,凡客体生成器,宠物王爷坏坏妃

一个易用的ip代理池 - stand

写爬虫时常常会遇到各种反爬虫手段, 封 ip 就是比较常见的反爬策略

遇到这种情况就需要用到代理 ip, 好用的代理通常需要花钱买, 而免费的代理经常容易失效, 所以就需要自己搭建 ip 代理池, 来获取免费高效的代理 ip. 下面介绍一个自己写的 ip 代理池, 欢迎 star

安装

pip install stand

启动

stand

启动后, 爬虫会从代理网站抓取 ip, 并将数据保存在名为 stand.db 的 sqlite 数据库中, 等待爬虫抓取一定数量 ip 后, 即可使用代理

使用

>>> from stand import get_proxy
>>> proxy = get_proxy()
>>> print(proxy)
'103.133.222.151:8080'

在 scrapy 中使用 stand 作为代理

import scrapy
from scrapy.crawler import crawlerprocess


class testspider(scrapy.spider):
    name = 'test'
    start_urls = ['https://api.ip.sb/ip']

    def parse(self, response):
        print(response.meta['proxy'])
        print(response.text)


downloader_middlewares = {
    'stand.useragentmiddleware': 543,
    'stand.proxymiddleware': 600,
}
settings = dict(
    log_enabled=false,
    download_timeout=30,
    downloader_middlewares=downloader_middlewares,
)


def run():
    process = crawlerprocess(settings)
    process.crawl(testspider)
    process.start()


if __name__ == "__main__":
    run()

项目说明

当启动 stand 时, 首先会运行 crawl 函数从代理网站爬取代理 ip, 并将爬取到的结果存储在名为 stand.db (可通过 stand_dir 环境变量设置保存目录) 的 sqlite 数据库中, 每个 ip 有一个初始分数 2
然后会运行 validate 函数验证代理 ip 的有效性, 验证通过分数设置为最高值 3, 验证失败分数减 1, 当分数为 0 时删除该 ip
之后会定时运行 crawl 和 validate 函数分别爬取和验证 ip, 每20分钟爬取一次 ip, 每60分钟验证一次 ip

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：