当前位置：移动技术网 > IT编程>脚本编程>Python > python3的scrapy基础讲解

python3的scrapy基础讲解

2018年03月18日 | 移动技术网IT编程 | 我要评论

黄忠坤,男发型设计图片,www.9887.cc

scrapy框架是python爬虫应用于系统性快捷处理和管理数据的一个框架，提取结构性数据而编写的应用框架，使用scrapy框架你可以更方便的对你所爬取的数据进行管理，

这是我对scrapy简单的理解。

这里就不介绍具体原理和图片展示了。(你应该对简单爬虫有一定得了解吧，不然怎么会直接学习scrapy)

如果你是刚准备学习scrapy，那么你应该仔细看看。如果你已经学习了一段时间scrapy了，那么这篇文章可能不适合你学习，这里先只讲入门

通过初学者的能力来实现

当然你可能还没有安装scrapy，这里我就不繁琐的讲解的，具体点就是在你直接pip install scrapy之前你需要安装scrapy所依赖的环境

(pip install parsel,pip install Twisted,pip install lxml)还有的环境自己可以去网上查看。

找一个你以后存放scrapy文件的地方执行命令：scrapy startproject get_douban

会生成一个文件夹：

这里面包含了scrapy的一些必要文件，作为一个新手我们先不要管，

现在你需要在get_doubande 的

中新建一个douban.py文件，我们用来写爬虫的文件，以下是douban.py的代码

import scrapy
from scrapy.http import Request

class DoubanSpider(scrapy.Spider):
	name = "douban"  #这个name是你必须给它一个唯一的名字  后面我们执行文件时的名字
	start_urls = ["https://movie.douban.com/top250"]
	#这个列表中的url可以有多个，它会依次都执行，我们这里简单爬取一个
	url = "https://movie.douban.com/top250"
	#因为豆瓣250有翻页操作，我们设置这个url用来翻页

	def parse(self,response):#默认函数parse
		sites = response.xpath('//ol[@class="grid_view"]')   #('匹配你所需信息的路径')
		#xpath是scrapy里面的一种匹配方式，类似于正则表达式，还有其他几种匹配方式
		#这里我们首先获得的是我们需要的信息的那一大块sites。

		print("！！！！！返回信息是：")
		info = sites.xpath('./li')
		#从sites中我们再进一步获取到所有电影的所有信息
		for i in info:   #这里的i是每一部电影的信息
			     #排名
			num = i.xpath('./p//em[@class=""]//text()').extract() #获取到的为列表类型
			#extract()是提取器  将我们匹配到的东西取出来
			print(num[0],end=";")
			     #标题
			title = i.xpath('.//span[@class="title"]/text()').extract()
			print(title[0],end=";")
				 #评论
			remark = i.xpath('.//span[@class="inq"]//text()').extract()
				 #分数
			score = i.xpath('./p//span[@class="rating_num"]//text()').extract()
			print(score[0])

		nextlink = response.xpath('//span[@class="next"]/link/@href').extract()
		#还记得我们之前定义的url吗，由于电影太多网页有翻页显示，这里我们获取到翻页的那个按钮的连接nextlink
		if nextlink: #翻到最后一页是没有连接的，所以这里我们要判断一下
			nextlink = nextlink[0]
			print(nextlink)
			yield Request(self.url+nextlink,callback=self.parse)
			#yield中断返回下一页的连接到parse让它重新从下一页开始爬取，callback返回函数定义返回到哪里

以上便是spiders的douban.py里面的代码，现在应该怎么执行呢?

在get_douban文件里面打开cmd输入执行文件的命令：scrapy crawl douban 回车

你会得到下面的信息：

这样你就实现了使用scrapy简单的爬虫，爬取豆瓣250了，有什么意见都是可以提的。

我们暂时还没有讲解scrapy中的其他功能，例如items.py等等，先熟悉简单的吧!

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

python3的scrapy基础讲解

2018年03月18日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论