当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫设置代理IP

Python爬虫设置代理IP

2020年07月12日 | 移动技术网IT编程 | 我要评论

配置代理ip

from bs4 import BeautifulSoup
import requests
import random

#从ip代理网站获取ip列表
def get_ip_list(url,headers):
    web_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(web_data.text,'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1,len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' +tds[2].text)  #拼接成【ip:端口】的格式
    return ip_list


#在ip列表中随机取出一个ip
def get_random_ip(ip_list):
    proxy_list = []
    for ip im ip_list:
        proxy_list.append('http://' + ip)   #拼接成网址
    proxy_ip = random.choice(proxy_list)    #随机选择一个网址
    poxies = {'http':proxy_ip}  #proxies的格式是一个字典：{‘http’: ‘http://123.123.321.123:808‘}
    return proxies


if __name__ == '__main__':
    proxy_url = 'http://www.xxxxx.com'    #ip代理网站
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1'}

    ip_list = get_ip_list(proxy_url,headers)  #调用函数get_ip_list 传入参数url和headers，返回一个IP列表
    proxies = get_random_ip(ip_list)    #调用函数get_random_ip 传入参数是第一个函数得到的列表，返回一个随机的proxies

    print(proxies)

使用代理ip

运行上面的代码会得到一个随机的proxy_ip，把它直接传入requests的get方法中即可，这样就可以做到每次运行都使用不同的IP访问网站，有效避免了真实IP被封的风险。

import requests

url = 'https://www.baidu.com'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1'}
#proxies = {'http': 'http://61.140.127.13:80'}

res = requests.get(url,headers=user,proxies=proxies)	#使用代理ip进行请求
s = res.status_code
print(s)		#状态码200是正常

本文地址：https://blog.csdn.net/weixin_38946164/article/details/107285745

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

详解C语言和Python中的线程混用

问题你有一个程序需要混合使用c、python和线程，有些线程是在c中创建的，超出了python解释器的控制范围。并且一些线程还使用了python c api... [阅读全文]
Python如何输出警告信息

问题你希望自己的程序能生成警告信息（比如废弃特性或使用问题）。解决方案要输出一个警告消息，可使用 warning.warn() 函数。例如：import war... [阅读全文]
Python如何实现线程间通信

问题你的程序中有多个线程，你需要在这些线程之间安全地交换信息或数据解决方案从一个线程向另一个线程发送数据最安全的方式可能就是使用 queue 库中的队列了。创建... [阅读全文]
Python3以GitHub为例来实现模拟登录和爬取的实例讲解

我们先以一个最简单的实例来了解模拟登录后页面的抓取过程，其原理在于模拟登录后 cookies 的维护。1. 本节目标本节将讲解以 github 为例来实现模拟登... [阅读全文]
Python3爬虫中识别图形验证码的实例讲解

本节我们首先来尝试识别最简单的一种验证码，图形验证码，这种验证码出现的最早，现在也很常见，一般是四位字母或者数字组成的，例如中国知网的注册页面就有类似的验证码，... [阅读全文]
Python3爬虫关于识别检验滑动验证码的实例

上节我们了解了图形验证码的识别，简单的图形验证码我们可以直接利用 tesserocr 来识别，但是近几年又出现了一些新型验证码，如滑动验证码，比较有代表性的就是... [阅读全文]
Python3爬虫关于识别点触点选验证码的实例讲解

上一节我们实现了极验验证码的识别，但是除了极验其实还有另一种常见的且应用广泛的验证码，比较有代表性的就是点触验证码。可能你对这个名字比较陌生，但是肯定见过类似的... [阅读全文]
Python3爬虫里关于识别微博宫格验证码的知识点详解

本节我们来介绍一下新浪微博宫格验证码的识别，此验证码是一种新型交互式验证码，每个宫格之间会有一条指示连线，指示了我们应该的滑动轨迹，我们需要按照滑动轨迹依次从起... [阅读全文]
Python 如何创建一个简单的REST接口

问题你想使用一个简单的rest接口通过网络远程控制或访问你的应用程序，但是你又不想自己去安装一个完整的web框架。解决方案构建一个rest风格的接口最简单的方法... [阅读全文]
Python3爬虫里关于代理的设置总结

在前面我们介绍了多种请求库，如 requests、urllib、selenium 等。我们接下来首先贴近实战，了解一下代理怎么使用，为后面了解代理池、adsl ... [阅读全文]

网友评论


验证码：