python3半自动爬虫，获取风暴英雄官方壁纸

python3半自动爬虫获取风暴英雄官方壁纸

引（废）言（话）
动机与目标

我为什么会写这篇blog
我写这篇blog有什么用

干货

开始之前
导入模块
定义路径和UA
读取本地html文件
解析并提取图片地址
获取地址所指向的图片
参考资料

引（废）言（话）

随便打开一个搜索引擎然后输入“Python”、“爬虫”、“图片”这样的关键词组合，返回结果里必然会出现“X女X图”或者“妹X图X”这样的字眼……
不得不感叹，色批是第一生产力。
当然也不排除某些营销号动了脑筋以后，想出这样的标题吸引流量，真是辛苦他们了呢；不过从结果上看你们还是贩卖焦虑更有效些。

动机与目标

自己动手，丰衣足食。

——辣个蓝棱

我为什么会写这篇blog

女人哪有游戏好玩？.jpg
风暴要火.png
你们难道没有手机吗.gif

我写这篇blog有什么用

记录细节，以备后用
日记
可以直接抄走

干货

开始之前

这一次的目标是网站里的一个栏目，而且这一区域采用了动态加载的机制，你必须亲手点击那个“查看更多”按钮（若干次），才能最终得到所有图片的索引预览。
因此我手动拷贝了有关部分的HTML内容，至本地文件heroes.html；这是我称这个爬虫为“半自动”的原因（本菜鸟认为：一定存在自动化的方法来免除动手操作的麻烦，只是我水平太低，无从寻找和使用。欢迎留言或者以别的方式让我知道，如果确实有用，我会以实际行动向你表达我的感谢）。

导入模块

import time
import random

from bs4 import BeautifulSoup
import urllib.request as ureq
from tqdm import tqdm

定义路径和UA

不管网站是否采取什么严格的反爬措施，这个UA头字串还是加了为好。

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
st="file:///X:/heroes.html"
pic_path = 'pic/'

读取本地html文件

r = ureq.urlopen(st)
hfr = r.read()

解析并提取图片地址

soup = BeautifulSoup(hfr, 'html.parser')
imglist = []
all_index = soup.find_all('ul',{'class':"m-media-download-box clearFix"})
for i in all_index:
    for imglink in i.find_all('a'):
        imglist.append(imglink.get('href'))
    pass

获取地址所指向的图片

# print(len(imglist))
test_dl = imglist[:2]
for el in tqdm(test_dl, ascii=True):
    ureq.urlretrieve(el,pic_path+el.split('/')[-1])
    time.sleep(random.random()*2)
    pass

参考资料

bs4官方中文说明https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

本文地址：https://blog.csdn.net/yongpassby/article/details/107862833

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

python ssh 执行shell命令的示例

# -*- coding: utf-8 -*-import paramikoimport threadingdef run(host_ip, username,... [阅读全文]

Python 如何实现数据库表结构同步

近日，某个qq 群里的一个朋友提出一个问题，如何将一个db 的表结构同步给另一个db。针对这个问题，我进行了思考与实践，具体的实现代码如下所示：# coding... [阅读全文]

python PIL模块的基本使用

pil基本功能介绍from pil import imagefrom pil import imageenhance img = image.open(r'e:... [阅读全文]

详解python对象之间的交互

先看看一般的类定义如下：class 类名: def __init__(self,参数1,参数2): self.对象的属性1 = 参数1 self.... [阅读全文]

使用py-spy解决scrapy卡死的问题方法

背景在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程... [阅读全文]

Python 串口通信的实现

串口通信是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传... [阅读全文]

python如何调用百度识图api

一.先去百度识别官网注册开通服务且获得ak和sk链接:https://cloud.baidu.com/doc/reference/s/9jwvz2egb二.代码... [阅读全文]

如何使用python写截屏小工具

前言今天我看了一下自己的文件夹，发现了自己写了许多似乎很无聊的代码。于是乎，一个想法油然而生：“生活已经很无聊了，不如再无聊一点叭”。说干就干，那就开一个专题，... [阅读全文]

详解用python -m http.server搭一个简易的本地局域网

工作时同事间几mb小文件的传输，一般使用qq或者微信就足够了，但当传输文件几百mb或者几十g时，这种方法的效率就显得不足了。本篇就是简单说明一个python小功... [阅读全文]

Python爬取网页信息的示例

python爬取网页信息的步骤以爬取英文名字网站（）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。1、确认网址在浏览器中输入初始网址，逐... [阅读全文]


验证码：

验证码：