当前位置：移动技术网 > IT编程>脚本编程>Python > 荐 python爬取“堆糖网”小姐姐图片

荐 python爬取“堆糖网”小姐姐图片

2020年07月03日 | 移动技术网IT编程 | 我要评论

在堆糖网官网首页上搜索关键字：小姐姐
在这里插入图片描述
我们往下翻，发现它的图片内容是通过瀑布流来动态加载的。

静态网页中会有24张图片，查看源代码，也仅仅发现只有24张图片。

初步分析，其他图片应该是通过数据包的形式去动态请求的。

打开开发者工具，选择 Network->XHR

鼠标滚轮往下滑，捕获到一个数据包：
在这里插入图片描述
果不其然，它里面包含了我们需要的数据：

该数据包的请求地址，太长了：

我们仅仅需要的是图片，所以有很多参数我们不需要。

所以，我们删减去一部分，只剩下kw和start即可，kw是我们搜索的关键字，start是数据包中所包含数据的起始序号（它是24的倍数）

第一个数据包，是刚开始就加载的，它的start应该是0，第二个数据包的start是24，所以每个数据包包含了24张图片。

我们滑到最下方，点击第二页，再进行数据包的抓取：
在这里插入图片描述
可以看到，它的start是168

可想而知，不管页数怎么变化，我只要更改start参数的值，岂不是可以获取到该关键字（小姐姐）下搜索的全部图片。

那么，每一页究竟有多少个数据包，对应多少张图片呢？（如果我们有分页爬取的需求，就得知道这个）

很简单，回到第一页，再次打开开发者选项，鼠标滚轮滑到该页末尾，发现共获取到5个数据包：
在这里插入图片描述
我们大胆猜测一页共有6个数据包（其中一个是相当于静态加载的）。

那么一页就有6*24 共144张图片。

再看最后一个数据包的start ，它等于120
在这里插入图片描述
120+24 = 144 刚好印证了我们的猜想。

输入爬取几页，就爬取几页，按需爬取。

代码：

import os
import requests
import json
import jsonpath
from urllib.parse import quote
from urllib.request import urlretrieve

# 所请求的url ：https://www.duitang.com/napi/blog/list/by_search/?kw=%E5%B0%8F%E5%A7%90%E5%A7%90&start=24
headers = {'User-Agent': 'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'}
keyword = '小姐姐' #可自行指定
kw = quote(keyword)
page_num = input('您一共要爬取几页图片？（每页144张图片）：')
page_num = int(page_num)

def get_img_data(kw,start):
    savePath = './图片/{}/'.format(keyword)
    if not os.path.exists(savePath):
        os.mkdir(savePath)
    url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'.format(kw,start)
    resp = requests.get(url,headers=headers)
    # 将json数据转化为字典格式
    data_dict = json.loads(resp.text)
    # 从字典中快速得到我们想要的信息($代表根结点下  ..代表任意层次)
    img_pathList = jsonpath.jsonpath(data_dict,'$..path')
    # 通过for循环进行下载
    num = start+1
    for path in img_pathList:
        # 有的图片的jpeg，有的图片是jpg
        img_type = os.path.splitext(path)[-1]#.jpeg   .jpg
        # 有的图片是gif，但是识别到的却是 gif_jpeg，这种图片下载下载就不是动图了，而是10kb左右的低品质图
        if(img_type.find('gif_jpeg')!=-1):
            # 经过细心观察，发现它貌似所有的gif图片的真实路径后面都是thumb.400_0.gif为结尾
            path = path.replace('gif_jpeg','thumb.400_0.gif')
            img_type = '.gif'
        try:
            saveLocation = f'{savePath}{keyword}{num}{img_type}'
            urlretrieve(path,saveLocation)
            print('{}{}{} 下载成功...'.format(keyword,num,img_type) )
            num+=1
        except Exception as e:
            print(e)

def page_download(pageNum):
    offset = 24 #一个数据包24张图片
    onePage = 144 #每页有6个数据包
    for i in range(0,onePage*page_num,offset):
        get_img_data(kw,i)

page_download(page_num)

在这里插入图片描述
看到这里了，点个赞再走呗


                    

                    
                    
                        
                            
                                
                            
                        
                    

                    
                    

                    
                        您可能感兴趣的文章:
                        

                                
                                    用matplotlib中imshow()函数绘图
                                
                                
                                    Python解决鸡兔同笼问题的方法
                                
                                
                                    Python3获取电脑IP、主机名、Mac地址的方法示例
                                
                                
                                    2020年最全python面试题汇总第03期（内附10题及答案）
                                
                                
                                    【B树操作实例】实例讲解插入、删除元素的过程
                                
                                
                                    Python爬取新浪英超曼联文章内页--bs4，json，txt和csv以及编码
                                
                                
                                    1-2 图片批量裁剪
                                
                                
                                    python虚拟环境管理之virtualenv，virtualenvwrapper，pipenv，conda
                                
                        
                    
                    
                        如对本文有疑问，
                        点击进行留言回复！！


                 
                
                    相关文章:
                     
                        

                            
                                
                                    
                                        
                                            opencv-python视频处理之视频抖动特效
                                            
                                                
                        简单的原理读取原来的视频的每一帧，每隔几帧缩放一次即可                                                                    
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                    
                                        
                                            opencv-python视频处理之录制视频
                                            
                                                
                        cv2.VideoWriter 分别传入的参数是路径 格式，帧率，视频尺寸                   ...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                                
                                
                                    
                                        
                                        
                                    
                                
                            
                                
                                        
                                            
                                        
                                    
                                        
                                            PyQt实现一个简单的License系统（二）
                                            
                                                
                        1）PyQt、WinPython的安装、配置。2）如何用PyQt编译QDesigner生成的*.ui文件。3）如...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                    
                                        
                                            实现Python简单实现jacobi迭代
                                            
                                                
                        def Jacobi(mx,mr,n=100,c=0.0001):    if len(mx) == len(m...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                        
                                            
                                        
                                    
                                        
                                            荐
                                                        新机必装！那些你不知道的实用技软件在这里！
                                            
                                                
                        今天，分享一批常用软件，如果自己网盘的大小有限，可以分类提取（注意，所有的软件均以360网盘的形式分享，如果没有...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                    
                                        
                                            字节跳动第四批笔试题
                                            
                                                
                        输入说明：第一行输入n代表队伍中的人数第二行输入队伍中每个人的身高（用空格隔开）比如输入：52 3 1 5 46...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                        
                                            
                                        
                                    
                                        
                                            荐
                                                        听说你想爬点壁（mei）纸图
                                            
                                                
                        面向小白的基础教程，无法再基础了，里面的原理一些名词，原理写的也比较详细，虽然可能看了还不太懂，但肯定能让你实战...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                        
                                            
                                        
                                    
                                        
                                            Anaconda（python3.7）+pytorch（1.5.1）急速安装（2020.7.11日安装教程）
                                            
                                                
                        ps：博主搜索大量教程都以失败告终，有清华镜像不再提供pytorch更新的原因，有pytorch旧版本经常报错原...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                    
                                        
                                            Python爬虫设置代理IP
                                            
                                                
                        配置代理ipfrom bs4 import BeautifulSoupimport requestsimport...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                            
                                
                                    
                                        
                                            Python高效率处理图像显示图像方案
                                            
                                                
                        def Work_thread(self):        # ch:创建显示的窗口 | en:Create t...
                                                
                                                
                                                    [阅读全文]
                                                
                                            
                                        
                                    
                                
                            
                    
                
               
                       
                             

                
                    
                        网友评论
                    
                    
                        
                        
                        

                        
                            
                                
                                    
                                
                                 
                                    
                                
                            
                            
                                验证码：


验证码：


        
         
            
                
                    
                    
                    
                

                
                    
                        
                            最近更新的文章
                            
                                
                                        选择根目录，自动给其他编辑框添加根目录下的文件及文件夹路径
                                        opencv-python视频处理之白闪效果
                                        2018 rundA C Scrambled Words
                                        opencv-python视频处理之图片变成视频，视频切成图片
                                        opencv-python视频处理之多个视频合并
                                        python用OpenCV读取视频帧数、高度宽度等
                                        超级有用の常用的功能性网站
                                        Python+OpenCV对灰度图像进行伪彩色处理
                                        使用ffmpeg用图片批量合成抖音卡点短视频
                                        荐
                                                        STC8A基于STC15的双串口中断收发程序的移植
                                
                            
                        
                    
                

                
                    
                    
                        
                    
                

                
                
                    
                        
                            大家感兴趣的文章
                            
                                

                                        
                                            1
                                            Python的Django框架中的表单处理示例
                                        
                                        
                                            2
                                            荐
                                                        续：如何使用Python爬虫获取offcn上的公考信息及写入Excel表格并发送至指定邮箱
                                        
                                        
                                            3
                                            从零开始的Python学习Episode 15——正则表达式
                                        
                                        
                                            4
                                            django加载本地html的方法
                                        
                                        
                                            5
                                            如何使用Python读取大文件
                                        
                                        
                                            6
                                            django下载Excel，使用django-excel插件
                                        
                                        
                                            7
                                            使用Keras 实现查看model weights .h5 文件的内容
                                        
                                        
                                            8
                                            python day 8: re模块补充，导入模块,hashlib模块，字符串格式化，模块知识拾遗，requests模块初识
                                        
                                        
                                            9
                                            Python ljust rjust center输出
                                        
                                        
                                            10
                                            在python下实现word2vec词向量训练与加载实例

荐 python爬取“堆糖网”小姐姐 图片

2020年07月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论

荐 python爬取“堆糖网”小姐姐图片