当前位置：移动技术网 > IT编程>脚本编程>Python > scrapy 爬虫学习一

scrapy 爬虫学习一

2019年05月30日 | 移动技术网IT编程 | 我要评论

斯洛克,娇娇女神算,cayee

一：创建项目

scrapy startproject 项目名字，例子如下：

代码：scrapy startproject scrapy_test
结果如下：
new scrapy project 'scrapy_test', using template directory 'g:\mytoolsinstall\anaconda2\lib\site-packages\scrapy\templates\project', created in:
    f:\scrapy_test

you can start your first spider with:
    cd scrapy_test
    scrapy genspider example example.com

二：查看项目目录结构

windows 下查看命令：tree /f

# 首先 进入项目：cd scrapy_test
# 然后 tree /f

│  scrapy.cfg
│
└─scrapy_test
    │  items.py
    │  middlewares.py
    │  pipelines.py
    │  settings.py
    │  __init__.py
    │
    └─spiders
            __init__.py

三：生成一个爬虫

scrapy genspider 爬虫名字爬虫的网址，例子如下：

代码：scrapy genspider baidu_sipder www.baidu.com
结果如下：
created spider 'baidu_sipder' using template 'basic' in module:
  scrapy_test.spiders.baidu_sipder

四：命令详细使用

这里的命令分为全局的命令和项目的命令，全局的命令表示可以在任何地方使用，而项目的命令只能在项目目录下使用

4.1：全局的命令有：
startproject、genspider、settings、runspider、shell、fetch、view、version

4.2：项目命令有：
crawl、check、list、edit、parse、bench

4.2：全局命令

4.1.1：startproject命令

这个命令没什么过多的用法，就是在创建爬虫项目的时候用

4.1.2：genspider命令

一：用于生成爬虫，这里scrapy提供给我们不同的几种模板生成spider,默认用的是basic,我们可以通过命令查看所有的模板
代码示例如下：
ps f:\scrapy_test> scrapy genspider -l
available templates:
  basic
  crawl
  csvfeed
  xmlfeed
  
二：当我们创建的时候可以指定模板，不指定默认用的basic,如果想要指定模板则通过 scrapy genspider -t 模板名字
代码示例如下：
ps f:\scrapy_test> scrapy genspider -t crawl zhihu_sipder zhihu.com
created spider 'zhihu_sipder' using template 'crawl' in module:
  scrapy_test.spiders.zhihu_sipder

4.1.3：settings命令

一：示例代码如下
ps f:\scrapy_test> scrapy settings -h
结果如下：
usage
=====
  scrapy settings [options]

get settings values

options
=======
--help, -h              show this help message and exit
--get=setting           print raw setting value
--getbool=setting       print setting value, interpreted as a boolean
--getint=setting        print setting value, interpreted as an integer
--getfloat=setting      print setting value, interpreted as a float
--getlist=setting       print setting value, interpreted as a list

global options
--------------
--logfile=file          log file. if omitted stderr will be used
--loglevel=level, -l level
                        log level (default: debug)
--nolog                 disable logging completely
--profile=file          write python cprofile stats to file
--pidfile=file          write process id to file
--set=name=value, -s name=value
                        set/override setting (may be repeated)
--pdb                   enable pdb on failure

二：拿一个例子进行简单的演示：(这里是我的这个项目的settings配置文件中配置了数据库的相关信息，可以通过这种方式获取，如果没有获取的则为none)
示例代码：
ps f:\scrapy_test> scrapy settings --get=mysql_host
返回结果：
none

4.1.4：runspider命令

这个和通过crawl启动爬虫不同，这里是scrapy runspider 爬虫文件名称
所有的爬虫文件都是在项目目录下的spiders文件夹中

4.1.5：shell命令

4.1.6：fetch命令

scrapy fetch url地址 
该命令会通过scrapy downloader 讲网页的源代码下载下来并显示出来

这里有一些参数：
--nolog 不打印日志
--headers 打印响应头信息
--no-redirect 不做跳转

4.1.7：view命令

scrapy view url地址
该命令会讲网页document内容下载下来，并且在浏览器显示出来

因为现在很多网站的数据都是通过ajax请求来加载的，这个时候直接通过requests请求是无法获取我们想要的数据，
所以这个view命令可以帮助我们很好的判断

4.1.8：version命令

查看版本信息，并查看依赖库的信息

4.2：项目命令有

4.2.1：crawl命令

这个是用去启动spider爬虫格式为：scrapy crawl 爬虫名字
这里需要注意这里的爬虫名字和通过scrapy genspider 生成爬虫的名字是一致的

代码示例如下：
ps f:\scrapy_test> scrapy crawl baidu_sipder
2019-05-29 14:05:51 [scrapy.utils.log] info: scrapy 1.6.0 started (bot: scrapy_test)
2019-05-29 14:05:51 [scrapy.utils.log] info: versions: lxml 4.2.5.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, twisted 18.7.0, python 2.7.15 |anaconda, inc.| (default, may  1 2018, 18:37:09) [msc v.1500 64 bit (amd64)], pyopenssl 18.0.0 (openssl 1.0.2p  14 aug 2018), cryptography 2.3.1, platform windows-10-10.0.16299
2019-05-29 14:05:51 [scrapy.crawler] info: overridden settings: {'newspider_module': 'scrapy_test.spiders', 'spider_modules': ['scrapy_test.spiders'], 'robotstxt_obey': true, 'bot_name': 'scrapy_test'}
2019-05-29 14:05:51 [scrapy.extensions.telnet] info: telnet password: 21038d7992503f4c
2019-05-29 14:05:51 [scrapy.middleware] info: enabled extensions:
['scrapy.extensions.logstats.logstats',
 'scrapy.extensions.telnet.telnetconsole',
 'scrapy.extensions.corestats.corestats']
2019-05-29 14:05:52 [scrapy.middleware] info: enabled downloader middlewares:

4.2.2：check命令

用于检查代码是否有错误，scrapy check

示例代码如下：
ps f:\scrapy_test> scrapy check

----------------------------------------------------------------------
ran 0 contracts in 0.000s

ok

4.2.3：list命令

scrapy list列出所有可用的爬虫

示例代码如下：
ps f:\scrapy_test> scrapy list
baidu_sipder
zhihu_sipder

参考连接：https://www.cnblogs.com/zhaof/p/7183220.html

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

scrapy 爬虫学习一

2019年05月30日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论