Python requests 网页采集器实例

requests实战——简易网页采集器

1. 需求
2. 知识点
3. 代码
4.实现效果

1. 需求

模拟搜狗网页上输入关键字，所查询到的信息。

2. 知识点

UA：User-Agent（请求载体的身份标识）

**UA检测**：门户网站的服务器会检测对应请求的载体身份标识，若检测到请求的载体身份标识为某一款浏览器，则该请求是一个正常的请求。但是，若检测到UA不是基于某一款浏览器的，则认为该请求为不正常的请求，为爬虫操作，该服务器端就很有可能拒绝本次请求。

**UA伪装**：让爬虫对应的请求载体身份标识伪装成某一款浏览器。

使用搜狗搜索“波晓张”，获得网址：
https://www.sogou.com/web?query=波晓张

注：保留该字段即可，后面的&_ast…可删除。

在这里插入图片描述

使用浏览器自带的网络抓包工具，获取到User-Agent，之后便用该请求载体身份标识进行爬虫。

3. 代码

import requests if __name__ == "__main__": #UA伪装：将对应的User-Agent封装到一个字典中
    headers = { 'User-Agent':'Mozilla/.........'#填写自己浏览器上所对应的标识号 } url = 'https://www.sogou.com/web' # 处理url携带的桉树：封装到字典中
    kw = input('enter a word:') param = { 'query':kw } # 对指定的url发起的请求所对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url, params=param, headers=headers) page_text = response.text
    fileName = kw + '.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text) print(fileName,'保存成功！！！')

4.实现效果

运行结果：
在这里插入图片描述

本文地址：https://blog.csdn.net/qq_41094332/article/details/108242224

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

使用py-spy解决scrapy卡死的问题方法

背景在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程... [阅读全文]

Python 串口通信的实现

串口通信是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传... [阅读全文]

python如何调用百度识图api

一.先去百度识别官网注册开通服务且获得ak和sk链接:https://cloud.baidu.com/doc/reference/s/9jwvz2egb二.代码... [阅读全文]

如何使用python写截屏小工具

前言今天我看了一下自己的文件夹，发现了自己写了许多似乎很无聊的代码。于是乎，一个想法油然而生：“生活已经很无聊了，不如再无聊一点叭”。说干就干，那就开一个专题，... [阅读全文]

详解用python -m http.server搭一个简易的本地局域网

工作时同事间几mb小文件的传输，一般使用qq或者微信就足够了，但当传输文件几百mb或者几十g时，这种方法的效率就显得不足了。本篇就是简单说明一个python小功... [阅读全文]

Python爬取网页信息的示例

python爬取网页信息的步骤以爬取英文名字网站（）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。1、确认网址在浏览器中输入初始网址，逐... [阅读全文]

python 绘制正态曲线的示例

import numpy as npimport matplotlib.pyplot as pltimport math# python实现正态分布# 绘制正态... [阅读全文]

python实现人性化显示金额数字实例详解

我们在开发过程中，有时候需要把float，int型等数字作为金额类型数字显示会出现很多问题，比如float会显示成 965868.4599999，int型没有小... [阅读全文]

matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)

matplotlib 是 python 的绘图库。它可与 numpy 一起使用，提供了一种有效的 matlab 开源替代方案。它也可以和图形工具包一起使用，... [阅读全文]

如何基于pandas读取csv后合并两个股票

最近在研究螺纹钢与铁矿石的比价变化，所以用python写个代码分析一下。数据文件：数据下载自网络。代码：中间有些没用的，看官们请忽略，那是我从另一个文件直接复制... [阅读全文]


验证码：

验证码：