当前位置: 移动技术网 > IT编程>脚本编程>Python > 荐 听说你想爬点壁(mei)纸图

荐 听说你想爬点壁(mei)纸图

2020年07月13日  | 移动技术网IT编程  | 我要评论

面向小白的基础教程,无法再基础了,里面的原理一些名词,原理写的也比较详细,虽然可能看了还不太懂,但肯定能让你实战应用。

在这里插入图片描述在这里插入图片描述

首先导入我们需要的模块

import requests # requests是python实现的最简单易用的HTTP库
import re  #regular expression,正则表达式,是用来简洁表达一组字符串特征的表达式。最主要应用在字符串匹配中。
import os  #os库提供通用的,基本的操作系统交互功能(windows,mac os,linux)

找网站的网址和User-Agent

为什么要使用User Agent?

因为一些网站不喜欢外界的爬虫消耗自己的服务器的大量资源,因此他自身就写了一个反爬虫程序,不使用代理的话,他们就能识别出你是爬虫,从而给你进行重定向无数次,导致你的爬虫报错.
User-Agent其实就是你的浏览器信息。是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标 识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;

  • 一般网站都有反爬虫机制,所以我们要对我们的爬虫进行伪装,应该先去该网址找到他的请求头,也就是他的User-Agent

  • 请求头:右键单击然后点检查,然后按步骤找请求头

在这里插入图片描述

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.7 Safari/537.36'}
  • 设置我们需要爬取的网页url,也就是这个网址
    在这里插入图片描述

url='https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E5%A3%81%E7%BA%B8'

获取单张图片的url,并保存图片

相关文章:

验证码:
移动技术网