当前位置：移动技术网 > IT编程>脚本编程>Python > scrapy urllib.parse 解析含有'/'字符ftp链接时异常的临时处理

scrapy urllib.parse 解析含有'/'字符ftp链接时异常的临时处理

2019年01月04日 | 移动技术网IT编程 | 我要评论

先给出修改部分代码：

urllib.parse

def _splitnetloc(url, start=0):
    # modified by liucheng at 20190103
    at_index = url.find('@', start)
    # modified by liucheng
    delim = len(url)   # position of end of domain part of url, default is end
    for c in '/?#':    # look for delimiters; the order is not important
        wdelim = url.find(c, start)        # find first of this delim
        # modified by liucheng at 20190103
        if at_index > 0:
            wdelim = url.find(c, at_index)
        # modified by liucheng
        if wdelim >= 0:                    # if found
            delim = min(delim, wdelim)     # use earliest delim position
    return url[start:delim], url[delim:]   # return (domain, rest)

今天应产品需求，将天气数据按天获取，并写入ftp，方便交换任务入库或者直接处理。

天气数据直接使用中国天气预报网的页面解析获取。

然而在写ftp时，看到scrapy官方文档表示可以直接使用内置的feed storage搞定。

省事当然ok。

settings.py文件中添加行：

feed_uri = "ftp://xxx/xxx/xxx:password@xxxftp.xxx.com/weather_101020100.text"

按照配置，奈何怎么都报错，显示域名解析不正确。

百度异常信息无果。

debug跟进，发现ftp地址解析严重异常。

问题代码部分：

def _splitnetloc(url, start=0):
    delim = len(url)   # position of end of domain part of url, default is end
    for c in '/?#':    # look for delimiters; the order is not important
        wdelim = url.find(c, start)        # find first of this delim
        if wdelim >= 0:                    # if found
            delim = min(delim, wdelim)     # use earliest delim position
    return url[start:delim], url[delim:]   # return (domain, rest)

　　这边留着一个坑，只要存在'/'，那么就取起始位置start到最新出现的'/'位置delim间的作为域domain。

这导致，当用户名或者密码中存在'/'时，获得的域domain 就是残缺的。

所以对该段逻辑进行了文首的修改。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

单链表反转(python)

反转一个单链表。示例:输入: 1->2->3->4->5->NULL输出: 5-&... [阅读全文]
基于selenium的UI自动化实践（博客文章标题获取）

目录1、需求说明2、实现目的3、特殊说明4、环境搭建5、实现思路6、实现效果1、需求说明实现的需求是：获取某个博... [阅读全文]
Django项目实战1-个人博客首页实现

环境：Windows 10 （64 位），Python 版本为 3.7.6（64 位），django 版本为 2... [阅读全文]
Pycharm安装django失败

报错截图### 详细报错如下：(venv) wh@WHdeMacBook-Pro:~/PycharmProjec... [阅读全文]
pycharm 2020 Error: failed to send plot to http://127.0.0.1:63342

pycharm 2020 发生的一个错误跪求大神指导下面是具体的错误Error: failed to send... [阅读全文]
Python random模块

#random 模块用来生成一个随机数import randomrandom.randint(a,b) ... [阅读全文]
可操作的python——opencv边缘提取的实战

可视化”表姐提取“过程，不同的图片色差不同，效果不一 [阅读全文]
Chipotle数据分析-知识点汇总

原文链接一、数据集信息import pandas as pdimport numpy as npimport m... [阅读全文]
Python中字符串的公共与私有功能

字符串的公共功能1、长度，len()string = "我想成为一名开发工程师！"print(len(strin... [阅读全文]
Python笔记--8 变量那些事（5）set

集合（set)基本知识Python中的set定义：set是一个无序的、没有重复元素的的集合；一个set是由 { ... [阅读全文]

网友评论


验证码：

scrapy urllib.parse 解析含有'/'字符ftp链接时异常的临时处理

2019年01月04日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论