使用py-spy解决scrapy卡死的问题方法_Python

使用py-spy解决scrapy卡死的问题方法

背景

在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程都卡死在那，并且会导致数据产出延迟。

问题定位

使用py-spy这个非常好用的python性能分析工具来进行排查，py-spy可以查看一个python进程函数调用用时，类似unix下的top命令。所以我们用这个工具看看是什么函数一直在执行。

首先安装这个工具

pip install py-spy

用py-spy看看scrapy哪个函数执行时间长

# 先找到这个卡死的scrapy进程的pid
ps -ef |grep scrapy 
# 启动 py-spy 观察这进程
py-spy top --pid 53424

首先我们按3，按owntime进行排序，这个表示函数自身执行的时间，可以看到read这个函数执行的时间最长，那看来是io导致的，程序中的io行为就是读写磁盘和网络io，磁盘读写一般不会有问题，所以初步定位是网络io导致的。

在这里插入图片描述

接下来进行进一步确认，再按4，按totaltime 所有子函数执行时间总和进行排序，可以看到是在process_item和download，upload_image这些主流程函数的执行时间比较长，这一步是先把图片下载到本地，然后上传到静床，看来是下载这步从网络中read数据时出现了问题，进一步追踪代码。

在这里插入图片描述

看下download的函数的代码：

if filename == '':
      filename = os.path.basename(url)
    path = path + '/' + filename
    
    try:
      res = request.urlretrieve(url,filename=path)
      print(url,res)
      return path
    except exception as e:
      print('download img failed')
      print(e)
      return false

可以看到用了urllib这个库里面request.urlretrieve函数，这个函数是用来下载文件的，去看看python官网文档的函数说明，发现里面没有超时时间这个参数，所以是由于没有超时时间，导致一直在read，进而使得进程卡死。

urllib.request.urlretrieve(url, filename=none,reporthook=none,data=none)

解决方案

使用另一种方式来下载图片，使用支持超时时间的urlopen函数，封装成一个自定义的url_retrieve，这样就不再会出现没有超时导致的卡死问题了。

def url_retrieve(self,url, path):
    r = request.urlopen(url, timeout=5)
    res = false
    with open(path,"wb") as f:
      res = f.write(r.read())
      f.flush()
      f.close()
    return res

到此这篇关于使用py-spy解决scrapy卡死的问题方法的文章就介绍到这了,更多相关scrapy卡死内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网！

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

使用py-spy解决scrapy卡死的问题方法

背景在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程... [阅读全文]

Python 串口通信的实现

串口通信是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传... [阅读全文]

python如何调用百度识图api

一.先去百度识别官网注册开通服务且获得ak和sk链接:https://cloud.baidu.com/doc/reference/s/9jwvz2egb二.代码... [阅读全文]

如何使用python写截屏小工具

前言今天我看了一下自己的文件夹，发现了自己写了许多似乎很无聊的代码。于是乎，一个想法油然而生：“生活已经很无聊了，不如再无聊一点叭”。说干就干，那就开一个专题，... [阅读全文]

详解用python -m http.server搭一个简易的本地局域网

工作时同事间几mb小文件的传输，一般使用qq或者微信就足够了，但当传输文件几百mb或者几十g时，这种方法的效率就显得不足了。本篇就是简单说明一个python小功... [阅读全文]

Python爬取网页信息的示例

python爬取网页信息的步骤以爬取英文名字网站（）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。1、确认网址在浏览器中输入初始网址，逐... [阅读全文]

python 绘制正态曲线的示例

import numpy as npimport matplotlib.pyplot as pltimport math# python实现正态分布# 绘制正态... [阅读全文]

python实现人性化显示金额数字实例详解

我们在开发过程中，有时候需要把float，int型等数字作为金额类型数字显示会出现很多问题，比如float会显示成 965868.4599999，int型没有小... [阅读全文]

matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)

matplotlib 是 python 的绘图库。它可与 numpy 一起使用，提供了一种有效的 matlab 开源替代方案。它也可以和图形工具包一起使用，... [阅读全文]

如何基于pandas读取csv后合并两个股票

最近在研究螺纹钢与铁矿石的比价变化，所以用python写个代码分析一下。数据文件：数据下载自网络。代码：中间有些没用的，看官们请忽略，那是我从另一个文件直接复制... [阅读全文]


验证码：

验证码：

使用py-spy解决scrapy卡死的问题方法

2020年09月30日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论