当前位置：移动技术网 > IT编程>脚本编程>Python > 【Python爬虫案例学习】下载某图片网站的所有图集

【Python爬虫案例学习】下载某图片网站的所有图集

2019年08月06日 | 移动技术网IT编程 | 我要评论

金玉良缘简谱,超级演说家乐嘉,大都市单身白领联谊会

前言

其实很简短就是利用爬虫的第三方库requests与beautifulsoup。
其实就几行代码，但希望没有开发基础的人也能一下子看明白，所以大神请绕行。

基本环境配置

python 版本：2.7
ide ：pycharm

相关模块

import urllib2
import io
import random
import urllib
from bs4 import beautifulsoup
import re
import os

完整代码

import urllib2
import io
import random
import urllib
from bs4 import beautifulsoup
import re
import os

import sys
reload(sys)
sys.setdefaultencoding('utf8')
'''
遇到不懂的问题？python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！
'''
def gethtml(url):
    #尽可能让爬虫显示为一个正常用户。若不设置，则发送的请求中，user-agent显示为python+版本
    user_agent = [
        'mozilla/5.0 (windows nt 5.2) applewebkit/534.30 (khtml, like gecko) chrome/12.0.742.122 safari/534.30',
        'mozilla/5.0 (windows nt 5.1; rv:5.0) gecko/20100101 firefox/5.0',
        'mozilla/4.0 (compatible; msie 8.0; windows nt 5.2; trident/4.0; .net clr 1.1.4322; .net clr 2.0.50727; .net4.0e; .net clr 3.0.4506.2152; .net clr 3.5.30729; .net4.0c)',
        'opera/9.80 (windows nt 5.1; u; zh-cn) presto/2.9.168 version/11.50',
        'mozilla/5.0 (windows; u; windows nt 5.1; zh-cn) applewebkit/533.21.1 (khtml, like gecko) version/5.0.5 safari/533.21.1',
        'mozilla/4.0 (compatible; msie 8.0; windows nt 5.1; trident/4.0; .net clr 2.0.50727; .net clr 3.0.04506.648; .net clr 3.5.21022; .net4.0e; .net clr 3.0.4506.2152; .net clr 3.5.30729; .net4.0c)'        
    ]
    #设置网页编码格式，解码获取到的中文字符
    encoding = "gb18030"
    #构造http请求头，设置user-agent
    header = {"user-agent":random.choice(user_agent)}
    #构造发送请求
    request = urllib2.request(url,headers=header)
    #发送请求，获取服务器响应回来的html页面
    html = urllib2.urlopen(request).read()
    #使用beautifulsoup处理的html页面，类似dom
    soup = beautifulsoup(html,from_encoding=encoding)
    return soup

# 获取整个站点所有图集的页码
def getpagenum(url):
    soup = gethtml(url)
    # 直接在站点首页获取所有图集的总页码
    nums=soup.find_all('a',class_='page-numbers')
    # 除掉“下一页”的链接，并获取到最后一页
    totlepage = int(nums[-2].text)
    return totlepage

#获取指定页面下图集名称和链接
def getpicnameandlink(url):
    
    soup = gethtml(url)
    meun = []
    #类似html dom对象，直接查找id为“pins”的ul标签，返回的结果是一个dom对象
    targetul = soup.find("ul",id="pins")
    if targetul:    
        #获取该ul下所有的超链接，返回值的类型是list，find_all中第二个参数表示某个指定标签的属性
        pic_list = targetul.find_all("a",target="_blank")
        if pic_list:
           # 遍历所有指定的标签a
            for pic in pic_list:
                #获取图集的链接
                link = pic["href"]
                picturename = ""
                #找到标签a中，“class”为“lazy”的img标签。
                #find中，第二个参数表示某个指定标签的属性。
                #在python中class是保留字，所有标签的class属性的名称为“class_”
                img = pic.find("img",class_='lazy')
                if img:
                    # 保证中文字符能够正常转码。
                    picturename = unicode(str(img["alt"]))
                else:
                    continue
                #插入图集名称和对应的url
                meun.append([picturename,link])    
        
        return meun
    return none

#function获取所有的图集名称
def getallaltls(url):
    totalpage = getpagenum(url)
    #获取首页中所有的图集名称。首页的url和其他页面不同，没有page
    meun = getpicnameandlink(url)
    #循环遍历所有的图集页面，获取图集名称和链接
    for pos in range(2,totalpage):
        currenturl = url + "/page/" + str(pos)
        #getpicnameandlink()返回的值是一个list。
        #当一个list插入到另一个list中时，使用extend。
        #若是插入一个值时，可以用append
        meun.extend(getpicnameandlink(currenturl))
    
    return meun
    
# 获取从首页到指定页面所有的图集名称和链接
def getparaltls(url,page):
    meun = getpicnameandlink(url)
        
    for pos in range(2,page):
        currenturl = url + "/page/" + str(pos)
        meun.extend(getpicnameandlink(currenturl))
        
    return meun

#获取单个相册内图片页码
def getsinglepicnum(url):
    soup = gethtml(url)
    #pagenavi还是一个对象（tag），可以通过find_all找出指定标签出来
    pagenavi = soup.find("div",class_="pagenavi")
    pagelink = pagenavi.find_all("a")
    
    num = int(pagelink[-2].text)
    return num


#下载单个相册中的所有图片
def getsinglepic(url,path):
    totalpagenum = getsinglepicnum(url)
    #从第一页开始，下载单个图集中所有的图片
    #range()第二个参数是范围值的上限，循环时不包括该值
    #需要加1以保证读取到所有页面。
    for i in range(1,totalpagenum + 1):
        currenturl = url + "/" + str(i)
        downloadpic(currenturl,path)
       
#下载单个页面中的图片 
def downloadpic(url,path):
    soup = gethtml(url)
    #找出指定图片所在父容器div
    pageimg = soup.find("div",class_="main-image")
    
    if pageimg:
        #找出该div容器中的img，该容器中只有一个img
        img = pageimg.find("img")
        #获取图片的url
        imgurl = img["src"]
        #获取图片的文件名
        restring = r'[a-za-z0-9]+\.jpg'
        reimgname = re.findall(restring,imgurl)
        
        #将图片保存在指定目录下
        path = str(path)
        if path.strip() == "":
            downloadpath = reimgname[0]
        else:
            downloadpath = path + "/" + reimgname[0]
        #伪装一下下载的http请求，否则有些站点不响应下载请求。
        #不设置的话，下载请求中的user-agent为python+版本号
        urllib.urlopener.version = 'mozilla/5.0 (windows nt 6.1) applewebkit/537.36 (khtml, like gecko) chrome/35.0.1916.153 safari/537.36 se 2.x metasr 1.0'
        #下载图片到指定目录中，保留图片在服务器上的文件名
        urllib.urlretrieve(imgurl,downloadpath)
    
def downimgofsite(url,path = ""):
    
    path = str(path)
    #获取所有图集的名称和链接
    meun_list = getallaltls(url)
    directorypath = ""
    
    for meun in meun_list:
        directoryname = meun[0]
        if path.strip() != "":
            directorypath = path + "/" + directoryname
        else:
            directorypath = os.getcwd + "/" + directoryname
        
        if not os.path.exists(directorypath):
            os.makedirs(directorypath)
        
        getsinglepic(meun[1], directorypath)
        

if __name__ == "__main__":
   
    
   # page = 8
    url = "xxxxx"
    menu = getallaltls(url)
    #menu = getparaltls(url, page)  
    
    f = open("tsts.txt","a")
    for i in menu:
        f.write(str(unicode(i[0]))+"\t"+str(i[1])+"\n")
    f.close()

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

【Python爬虫案例学习】下载某图片网站的所有图集

2019年08月06日 | 移动技术网IT编程 | 我要评论

前言

基本环境配置

相关模块

完整代码

您可能感兴趣的文章:

相关文章:

网友评论