当前位置：移动技术网 > IT编程>脚本编程>Python > Python scrapy框架爬取瓜子二手车信息数据

Python scrapy框架爬取瓜子二手车信息数据

2019年05月10日 | 移动技术网IT编程 | 我要评论

电脑壁纸网,郝邵文经纪人,搭讪的技巧

项目实施依赖：

python，scrapy ，fiddler

scrapy安装依赖的包：

可以到下载 pywin32，lxml，twisted，scrapy然后pip安装

项目实施开始：

1、创建scrapy项目：cmd中cd到需创建的文件目录下

scrapy  startproject guazi

2、创建爬虫：cd到创建好的项目下

1 scrapy genspider gz guazi.com

3、分析目标网址：

　　第一次我直接用的谷歌浏览器的抓包分析，取得ua和cookies请求，返回的html数据完全缺失，分析可能是携带的cookies

有问题，然后就用fiddler抓包才，得到cookies与谷歌上得到cookies多了ua，时间等参数，

4、将ua，cookies添加到下载中间中去：

1 class guzi1downloadermiddleware(object):
2     def process_request(self, request, spider):
3             # 需要对得到的cookies处理成字典类型
4         request.cookies={}
5         request.headers["user-agent"]=""

5、在settings中将downloader_middlewares打开

6、在spiders目录下找到gz.py开始编写爬虫逻辑处理

 1 import scrapy
 2 import time
 3 
 4 class gzspider(scrapy.spider):
 5     name = 'gz'
 6     allowed_domains = ['guazi.com']
 7     start_urls = ['https://www.guazi.com/cd/buy/0']
 8 
 9     def parse(self, response):
10         # 得到页面上所有车辆的url
11         url_list = response.xpath('//ul[@class="carlist clearfix js-top"]//li/a/@href').extract()
12         url_list = [response.urljoin(url) for url in url_list]
13         url_list = [url.replace("cq", "cd") for url in url_list]
14         for url in url_list:
15             yield scrapy.request(url=url, callback=self.parse1, dont_filter=true)
16         
17         # 获取下一页的url
18         next_url = response.urljoin(response.xpath('//span[text()="下一页"]/../@href').extract_first())
19         if next_url:
20             yield scrapy.request(url=next_url, callback=self.parse, dont_filter=true)
21         time.sleep(2)
22 
23     def parse1(self, response):
24         # 判断是否有数据
25         if response.xpath('//h2/text()').extract_first():
26             print(response.xpath('//h2/text()').extract_first().strip())
27             item = {}
28             item["车型"] = response.xpath('//h2/text()').extract_first().strip()
29             item["选车类型"] = response.xpath('//h2/span/text()').extract_first()
30             item["价格/万"] = response.xpath('//div[@class="pricebox js-disprice"]/span[1]/text()').extract_first().strip()
31             item["新车价格"] = response.xpath('//div[@class="pricebox js-disprice"]/span[2]/text()').extract_first().strip()
32             item["上牌时间"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[1]/div/text()').extract_first().strip()
33             item["公里数"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[2]/div/text()').extract_first().strip()
34             item["排量"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[3]/div/text()').extract_first().strip()
35             item["变速箱"] = response.xpath('//ul[@class="basic-eleven clearfix"]/li[4]/div/text()').extract_first().strip()
36             item["配置信息"] = response.xpath('//span[@class="type-gray"]//text()').extract()
37             item["网址"] = response.url
38             yield item

7、启动爬虫并保存为csv文件

scrapy crawl gz -o guanzi.csv

8、最后得到了想要的二手车信息，贴上部分截图

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：