当前位置：移动技术网 > IT编程>脚本编程>Python > 我的Python学习笔记：初探网络爬虫scrapy

我的Python学习笔记：初探网络爬虫scrapy

2018年01月07日 | 移动技术网IT编程 | 我要评论

欧洲海军聚会,北京娱乐信报,protel教程

创建工程

可以通过下面的语句来创建工程

cd

cd code/crawler/scrapyProject/

scrapy startproject todayMovie

tree todayMovie

文件树如下图所示：

C:\PROJECTS\PYTHONANDGIS\SCRAPY\TODAYMOIVE
│  scrapy.cfg
│
└─todayMovie
    │  items.py
    │  pipelines.py
    │  settings.py
    │  __init__.py
    │
    └─spiders
            __init__.py

创建spider

cd todayMovie

scrapy genspider wuHanMoiveSpider jycinema.com

scrapy genspider命令创建一个名字为wuHanMoiveSpider的爬虫脚本。这个脚本搜索的域为jycinema.com。

在本次的爬虫项目示例中，需要修改、填空的只有4个文件，它们分别是items.py、settings.py、pipelines.py、wuHanMoiveSpider.py。

其中items.py决定爬取哪些项目， wuHanMoiveSpider.py决定怎么爬， settings.py决定由谁去处理爬取的内容， pipelines.py决定爬取后的内容怎样处理。

文件结构大概如上面所示，第一次通过模板创建了基本的文件结构之后，二周目就可以自己创建文件了。不需要通过模板。
- 创建一个文件夹，叫spiders，里面创建一个自己的spider，从Scrapy.Spider继承，注意需要赋值名字
- 创建一个items.py文件，里面定义一个item类，同样给一个名字
- 创建一个pipelines.py文件，里面顶一个pipeline，从object继承
- 创建一个settings。注意需要定义spider模块和文件夹，和使用的pipelines
- 在外层创建一个cfg，否则识别不了这个文件夹是scrapy的文件，从而就不能一层层的解析出各个spider

爬虫编写

目标：这个爬虫只爬取最近电影名字

PartI: spider
- 在spider的starturl中设置需要爬取的url
- 通过xpath等来获取爬取的内容

xpath的简易结构如下：

表达式 描述
nodename    选取此节点的所有子节点。
/   从根节点选取。
//  从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.   选取当前节点。
..  选取当前节点的父节点。
@   选取属性。

似乎需要yield一下各个item，要不然pipeline不能运行，不知道具体原理是什么

Part II: item

只需告诉它一个名字就行

Part III: pipelines

设置开启关闭爬虫和运行过程中需要做的事情。
大概就是开启爬虫时，调用一次，爬取数据中每个item 调用(yield)的时候运行一次，关闭爬虫的时候运行一次

Part IV: settings
大概就是设置pipeline和优先级

运行

scrapy crawl wuHanMovieSpider

pycharm中调试

我在这儿创建了一个文件，pycharm_debugger.py，里面就是，我们在控制台运行 crawl spider实际运行的语句，在pycharm的config中按代码中设置好，就能调试了。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

我的Python学习笔记：初探网络爬虫scrapy

2018年01月07日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论