当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫学习之爬取169图片网站

python爬虫学习之爬取169图片网站

2019年08月19日 | 移动技术网IT编程 | 我要评论

spaceos,支付宝卡通怎么办理,sat答案

169美女图片网以健康、美丽、年轻、时尚的审美定位，为广大网友展现美女的外形美，欣赏当代年轻女性一代的美丽与情怀。

源码分享：

 1 '''
 2 在学习过程中有什么不懂得可以加我的
 3 python学习交流扣扣qun，934109170
 4 群里有不错的学习教程、开发工具与电子书籍。
 5 与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容。
 6 '''
 7 import requests
 8 from pyquery import pyquery as pq
 9 import os
10 headers={
11     'user-agent':'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/58.0.3029.110 safari/537.36 se 2.x metasr 1.0'
12 }
13  
14 #下载图片的模块
15 def download_the_module(file,tehurl):
16     count = 1
17     # 进入网站下载图片
18     the_second_request = requests.get(tehurl, headers=headers).text
19     # 下载
20     the_doc = pq(the_second_request)
21     download_the_pictures = the_doc('.big_img')
22     take_out_the=pq(download_the_pictures.html())
23     extract_the=take_out_the.find('img').items()
24     for i in extract_the:
25         save=i.attr('src')
26         #print(save)
27         the_sponse=requests.get(save,headers=headers)
28         the_name='f:/图片/'+file
29         save_the_address = str(the_name)
30         # 检测是否有image目录没有则创建
31         if not os.path.exists(save_the_address):
32  
33  
34             os.makedirs('f:/图片/' + file)
35         else:
36  
37  
38             with open(save_the_address+'/%s.jpg'%count,'wb')as f:
39                 f.write(the_sponse.content)
40                 print('已经下载了%s张'%count)
41             count += 1
42 #爬取地址
43 def climb_to_address(page):
44  
45     url='https://www.169tp.com/gaogensiwa/list_3_%s.html'%page
46     sponse=requests.get(url,headers=headers)
47     sponse.encoding='gbk'
48     encodin=sponse.text
49     doc=pq(encodin)
50     extract=doc('.pic').items()
51     for i in extract:
52         #文件名
53         the_file_name=i.text()
54         #提取到的网站
55         the_url=i.attr('href')
56  
57         download_the_module(the_file_name,the_url)
58  
59 #一共有616页
60 a=int(input('请输入开始爬取的页数:'))
61 b=int(input('请输入结束爬取的页数:'))
62 climb_to_address(a,b)

用python的一个好处就是能代替我们做重复性的工作，释放我们的劳动力，让我们有时间去做我们喜欢的事情(偷懒)。

本次爬虫其实还有两个问题，一个是：爬取的这个网站没有任何的防爬机制，所以你基本不用费什么力气去加header啊，设置session，cookie这些，也为我们提供了极大的便利，代码写起来也简单。第二个问题是：程序不能中断，一但中断了就要重头开始下载，所以应该要有个方法可以来设置爬虫从哪里开始爬取。这个问题其实也不难解决，就当做是家庭作业吧，大家有空可以去试试！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

python爬虫学习之爬取169图片网站

2019年08月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论