抓取网页用normalize-space出现特殊符号两种方法解决_Python

抓取网页用normalize-space出现特殊符号两种方法解决

xpath抓取数据值有\r\n\t时去掉的方法：https://blog.csdn.net/z564359805/article/details/101597953

抓取网页含\r \t \n时,用normalize-space出现特殊符号有时候并不会成功，例如：['商家 \xa0厦门有限公司']，'\xa0'在网页源码中是' '，可以用如下方法：

方法一：修改response这种方法是修改网页代码里面的数据，'\xa0'在网页源码中是' ',个人觉得毕竟不是筛选后的数据，修改时间会比较长

def parse(self,response):
    # 修改网页代码里面的数据
    response = response.replace(body=response.text.replace('&nbsp;',''))
    order_company = response.xpath('normalize-space(//*[@id="to"]/tbody/tr/td[3]/a/text())').extract()
    item['order_company'] = order_company[0].strip()

方法二：在选择出需要的item数据传递时候直接替换

item['order_company'] = order_company[0].replace("\xa0", "").strip()

本文地址：https://blog.csdn.net/z564359805/article/details/107085872

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

使用py-spy解决scrapy卡死的问题方法

背景在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程... [阅读全文]

Python 串口通信的实现

串口通信是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传... [阅读全文]

python如何调用百度识图api

一.先去百度识别官网注册开通服务且获得ak和sk链接:https://cloud.baidu.com/doc/reference/s/9jwvz2egb二.代码... [阅读全文]

如何使用python写截屏小工具

前言今天我看了一下自己的文件夹，发现了自己写了许多似乎很无聊的代码。于是乎，一个想法油然而生：“生活已经很无聊了，不如再无聊一点叭”。说干就干，那就开一个专题，... [阅读全文]

详解用python -m http.server搭一个简易的本地局域网

工作时同事间几mb小文件的传输，一般使用qq或者微信就足够了，但当传输文件几百mb或者几十g时，这种方法的效率就显得不足了。本篇就是简单说明一个python小功... [阅读全文]

Python爬取网页信息的示例

python爬取网页信息的步骤以爬取英文名字网站（）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。1、确认网址在浏览器中输入初始网址，逐... [阅读全文]

python 绘制正态曲线的示例

import numpy as npimport matplotlib.pyplot as pltimport math# python实现正态分布# 绘制正态... [阅读全文]

python实现人性化显示金额数字实例详解

我们在开发过程中，有时候需要把float，int型等数字作为金额类型数字显示会出现很多问题，比如float会显示成 965868.4599999，int型没有小... [阅读全文]

matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)

matplotlib 是 python 的绘图库。它可与 numpy 一起使用，提供了一种有效的 matlab 开源替代方案。它也可以和图形工具包一起使用，... [阅读全文]

如何基于pandas读取csv后合并两个股票

最近在研究螺纹钢与铁矿石的比价变化，所以用python写个代码分析一下。数据文件：数据下载自网络。代码：中间有些没用的，看官们请忽略，那是我从另一个文件直接复制... [阅读全文]


验证码：

验证码：

抓取网页用normalize-space出现特殊符号两种方法解决

2020年07月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论