当前位置: 移动技术网 > IT编程>脚本编程>Python > Python requests 网页采集器实例

Python requests 网页采集器实例

2020年08月01日  | 移动技术网IT编程  | 我要评论
需求:模拟搜狗网页上输入关键字,所查询到的信息。知识点:UA:User-Agent(请求载体的身份标识)UA检测:门户网站的服务器会检测对应请求的载体身份标识,若检测到请求的载体身份标识为某一款浏览器,则该请求是一个正常的请求。但是,若检测到UA不是基于某一款浏览器的,则认为该请求为不正常的请求,为爬虫操作,该服务器端就很有可能拒绝本次请求。UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器。使用搜狗搜索“波晓张”,获得网址:https://www.sogou.com/web..


requests实战——简易网页采集器


1. 需求

模拟搜狗网页上输入关键字,所查询到的信息。

2. 知识点

UA:User-Agent(请求载体的身份标识)

**UA检测**:门户网站的服务器会检测对应请求的载体身份标识,若检测到请求的载体身份标识为某一款浏览器,则该请求是一个正常的请求。但是,若检测到UA不是基于某一款浏览器的,则认为该请求为不正常的请求,为爬虫操作,该服务器端就很有可能拒绝本次请求。

**UA伪装**:让爬虫对应的请求载体身份标识伪装成某一款浏览器。 

使用搜狗搜索“波晓张”,获得网址:
https://www.sogou.com/web?query=波晓张

注:保留该字段即可,后面的&_ast…可删除。

在这里插入图片描述

使用浏览器自带的网络抓包工具,获取到User-Agent,之后便用该请求载体身份标识进行爬虫。

3. 代码

import requests if __name__ == "__main__": #UA伪装:将对应的User-Agent封装到一个字典中
    headers = { 'User-Agent':'Mozilla/.........'#填写自己浏览器上所对应的标识号 } url = 'https://www.sogou.com/web' # 处理url携带的桉树:封装到字典中
    kw = input('enter a word:') param = { 'query':kw } # 对指定的url发起的请求所对应的url是携带参数的,并且请求过程中处理了参数
    response = requests.get(url=url, params=param, headers=headers) page_text = response.text
    fileName = kw + '.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text) print(fileName,'保存成功!!!') 

4.实现效果

运行结果:
在这里插入图片描述
在这里插入图片描述

本文地址:https://blog.csdn.net/qq_41094332/article/details/108242224

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

相关文章:

验证码:
移动技术网