当前位置：移动技术网 > IT编程>脚本编程>Python > 爬取妹子图(requests + BeautifulSoup)

爬取妹子图(requests + BeautifulSoup)

2018年03月05日 | 移动技术网IT编程 | 我要评论

超级解霸播放器,黛玉新传半卷舒帘,山东泰安中考成绩查询

---恢复内容开始---

　　刚刚入门爬虫，今天先对于单个图集进行爬取，过几天再进行翻页爬取。

　　使用requests库和BeautifulSoup库

　　目标网站：

今天是对于单个图集的爬取，就选择一个进行爬取，我选择的链接为：http://www.mzitu.com/123114

首先网站的分析，该网站有一定的反爬虫策略，所以应对就是加入headers（目前是小白，目前不知道具体为毛这样做）

Hostreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://www.mzitu.com'
}
Picreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://i.meizitu.net'
}

前一个头作为请求网站，后一个头作为破解盗链使用

获得页面HTML代码

用requests库的get方法，加上Hostreferer

def get_html(url):#获得页面html代码
    req = requests.get(url, headers=Hostreferer)
    html = req.text
    return html

获得图集名称以及图集最大页数

分析网页构成如图所示，图集名称包含在h2标签内，且该标签在整个HTML代码里有唯一的class="main-title",

而最大页数只是被span标签包含，无法通过属性来提取。所以提取图集名称采取标签名+属性名一起提取，而最大页数就采取将span标签全部找出，最大页数在span标签中第11位，

def get_page_name(url):#获得图集最大页数和名称
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    span = soup.findAll('span')
    title = soup.find('h2', class_="main-title")
    return span[10].text, title.text

获得图片url链接

　　分析页面内容，含有图片链接的img标签中有一个alt属性的值是跟图集名称相同，可以用这个来直接找到这个标签，当然也可以先找到div标签中的class属性是main-inage,再找到img的src属性，这里我就采用第一种方法。

def get_img_url(url, name):
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    img_url = soup.find('img', alt= name)
    return img_url['src']

将图片存入本地

　　得到图片url链接之后要讲图片存到本地，在请求图片url的时候要加入Picreferer，否则网站会认为你是一个爬虫，会返还给你一个盗链图

该方法传入的参数有3个，第一个是图片url，第二个当前图片的页数，用作创建文件，第三个是图集名称，在存储之前先创建了一个名称是图集名称的文件夹，这样就能将图片存入指定文件夹

def save_img(img_url, count, name):
    req = requests.get(img_url, headers=Picreferer)
    with open(name+'/'+str(count)+'.jpg', 'wb') as f:
        f.write(req.content)

完整代码

import requests
from bs4 import BeautifulSoup
import os

Hostreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://www.mzitu.com'
}
Picreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://i.meizitu.net'
}

def get_page_name(url):#获得图集最大页数和名称
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    span = soup.findAll('span')
    title = soup.find('h2', class_="main-title")
    return span[10].text, title.text

def get_html(url):#获得页面html代码
    req = requests.get(url, headers=Hostreferer)
    html = req.text
    return html

def get_img_url(url, name):
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    img_url = soup.find('img', alt= name)
    return img_url['src']

def save_img(img_url, count, name):
    req = requests.get(img_url, headers=Picreferer)
    with open(name+'/'+str(count)+'.jpg', 'wb') as f:
        f.write(req.content)

def main():
    old_url = "http://www.mzitu.com/123114"
    page, name = get_page_name(old_url)
    os.mkdir(name)
    for i in range(1, int(page)+1):
        url = old_url + "/" + str(i)
        img_url = get_img_url(url, name)
        #print(img_url)
        save_img(img_url, i, name)
        print('保存第' + str(i) + '张图片成功')
main()

　　在main方法中先请求到图集的名称和最大页数，并且使用名称创建一个文件夹来存储图片。再从1到最大页数做一个for循环，

然后图片的每一页是 图集首页 + / + 当前页数，得到含有图片内容的url链接，后面就可以将得到图片存入本地。

爬取结果

　　文件夹名称即为图集名称，内部图片以页数作为文件名。

#目前就先进行一个图集的爬取，后面爬取多个图集我会尽快更新，有什么问题可以在下方评论，欢迎大家讨论。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：

爬取妹子图(requests + BeautifulSoup)

2018年03月05日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论