面向小白的基础教程,无法再基础了,里面的原理一些名词,原理写的也比较详细,虽然可能看了还不太懂,但肯定能让你实战应用。
import requests # requests是python实现的最简单易用的HTTP库
import re #regular expression,正则表达式,是用来简洁表达一组字符串特征的表达式。最主要应用在字符串匹配中。
import os #os库提供通用的,基本的操作系统交互功能(windows,mac os,linux)
为什么要使用User Agent?
因为一些网站不喜欢外界的爬虫消耗自己的服务器的大量资源,因此他自身就写了一个反爬虫程序,不使用代理的话,他们就能识别出你是爬虫,从而给你进行重定向无数次,导致你的爬虫报错.
User-Agent其实就是你的浏览器信息。是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标 识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;
一般网站都有反爬虫机制,所以我们要对我们的爬虫进行伪装,应该先去该网址找到他的请求头,也就是他的User-Agent
请求头:右键单击然后点检查,然后按步骤找请求头
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.7 Safari/537.36'}
url='https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E5%A3%81%E7%BA%B8'
如对本文有疑问, 点击进行留言回复!!
HTT-Chain基于区块链3.0的物联网应用生态网络即将全球上线
编程入门必看:带你零基础了解编程和编程语言,入门应该学什么?
Windows汇总 ~命令;相关操作;windows详解等;持续更新
网友评论