当前位置：移动技术网 > IT编程>脚本编程>Python > 教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!

教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!

2018年09月14日 | 移动技术网IT编程 | 我要评论

香港1861图库,石嘴山市公共资源交易中心,与我同眠迅雷

一.出发点：

之前在知乎看到一位大牛（二胖）写的一篇文章：python爬取知乎最受欢迎的妹子（大概题目是这个，具体记不清了），但是这位二胖哥没有给出源码，而我也没用过python,正好顺便学一学,所以我决定自己动手搞一搞.
爬取已经完成,文末有 python的源码和妹子图片的百度云地址

二.准备：

爬虫还是要用python(之前用过一个国人大牛写的java爬虫框架 webmagic)，所以花了点时间看了下网上python的教程，语法什么的（当然什么都没记住~），然后看了看scrapy这个爬虫框架，大概了解了其中各个组件的作用,每个组件的作用和爬取数据的几个步骤.

三.思路分析:

知乎二胖哥的思路大致如下：

1 手动找到部分宅男, 抓取他们关注的女性用户和部分问题的女性回答者
作为 "初始美女"群体
2 抓取 "初始美女" 所有的粉丝, 作为 "宅男群体"
3 再抓取 "宅男群体" 关注的人里面取top 1000, 得到知乎最受欢迎的美女.
我和二胖哥的目的有所不同,
二胖是要找到最受欢迎的妹子,
而我的目的是:
1 学习使用python 的 scrapy框架
2 爬取精彩又性感的文章和图片.
所以我通过两个方面开始爬取:
某些女生回答的多的问题, 比如: 拥有大长腿是怎样的感觉?
收藏夹. 知乎有收藏夹功能,把不同问题下的答案放到一个收藏加下.我关注了一个叫做知乎妹子爆照合集的收藏夹
我大概爬取了12g的图片资源(因为我的服务器只有12g的剩余空间了...)

我存储图片的目录是按照 问题id/回答id的格式存放的.

四.收藏夹里的问题很多,大致目录如下:

五.手动指定了几个问题如下:

指定的问题:
基本上这些问题都是妹子爆照多的话题,有不少妹子照片.

目录结构:

六.成果展示:

七.爬取方法介绍:

爬取网页(知乎)信息大概分为以下几个步骤:

确定爬取的初始页面(url地址)
确定要爬取哪些内容,使用xpath获取爬取内容的html文档路径获取内容.(或者能够从页面找到ajax调用后台的接口,去调接口拿到数据,一般返回的json格式,比使用xpath方便.)
爬取到内容的处理, 存数据库(mysql,mongo,等),落地到文件,等~

八.爬取教程分享

九.福利分享

如果有同学对python的爬虫代码和妹子图片感兴趣，
我已上传，关注微信公众号：程序员灯塔 (code12306)
回复 '知乎源码',获取python源码
回复 '知乎美女',获取12g图片资源的百度网盘地址.
程序员灯塔,关注互联网+大数据技术. 分享面试攻略+技术干货!

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：