Python爬虫爬取简易网页采集器应用_Python

Python爬虫爬取简易网页采集器应用

需求

爬取搜狗指定词条对应的搜索结果页面。

分析

四大步：指定url —> 发起请求 —> 获取响应数据 —> 持久化存储
我搜索的词条为“哈利波特”，其url为 “https://www.sogou.com/web?query=哈利波特”（这是简洁处理过的，实际后面的一些参数省略了，不影响）。但为了能实现搜索不同的词条，我设置了动态参数kw，将其分装到字典中。当我们使用get方法发出请求时，请求所对应的url的参数就可以用params赋值。

代码

import requests if __name__ == "__main__": # UA伪装：将对应的User-Agent封装到一个字典中 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'} url = 'https://www.sogou.com/web' # 处理url携带的参数：封装到字典中 kw = input('enter a word:') param = {'query': kw} # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数 response = requests.get(url=url, params=param, headers=headers) page_text = response.text

    fileName = kw + '.html' with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text) print('采集完毕！！！')

本文地址：https://blog.csdn.net/ZD_012/article/details/109036562

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

nuxt 路由、过渡特效、中间件的实现代码

在pages下的文件.vue文件会被自动加载成路由0、声明式导航<nuxt-link to="/">首页</nuxt-link>用法和r... [阅读全文]

用python写一个带有gui界面的密码生成器

需要用到的库：tkinter：构建gui界面pyperclip：复制功能random：生成随机数string：处理字符串代码：from tkinter impo... [阅读全文]

python两种获取剪贴板内容的方法

第一种import win32clipboardimport time#速度快容易出错class niubi(): def lihai(self): whi... [阅读全文]

Selenium结合BeautifulSoup4编写简单的python爬虫

在学会了抓包，接口请求(如requests库）和selenium的一些操作方法后，基本上就可以编写爬虫，爬取绝大多数网站的内容。在爬虫领域，selenium永远... [阅读全文]

如何使用Django Admin管理后台导入CSV

假设你需要允许在hero管理页面上导入csv数据。为此，您需要添加一个指向更改hero列表页面的链接，点击这个链接会跳转到上传页面。你需要编写一个处理post请... [阅读全文]

基于python模拟TCP3次握手连接及发送数据

源码如下from scapy.all import *import logginglogging.getlogger('scapy.runtime').setl... [阅读全文]

Python jieba结巴分词原理及用法解析

1、简要说明结巴分词支持三种分词模式，支持繁体字，支持自定义词典2、三种分词模式全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义精... [阅读全文]

Python Pandas数据分析工具用法实例

1、介绍pandas是基于numpy的专业数据分析工具，可以灵活高效的处理各种数据集，也是我们后期分析案例的神器。它提供了两种类型的数据结构，分别是datafr... [阅读全文]

Python常用外部指令执行代码实例

1、os.system()阻塞屏幕会打印命令的输出返回命令结果码# -*- encoding=utf-8 -*-import osif __name__ == ... [阅读全文]

python实现磁盘日志清理的示例

一、描述：以module的方式组件python代码，在磁盘文件清理上复用性更好二、达到目标：清空过期日志文件，清理掉超过自定大小日志文件三、原码#!/usr... [阅读全文]


验证码：

验证码：

Python爬虫爬取简易网页采集器应用

2020年10月12日 | 移动技术网IT编程 | 我要评论

需求

分析

代码

您可能感兴趣的文章:

相关文章:

网友评论