当前位置: 移动技术网 > IT编程>脚本编程>Python > Python爬虫10-页面解析数据提取思路方法与简单正则应用

Python爬虫10-页面解析数据提取思路方法与简单正则应用

2019年03月19日  | 移动技术网IT编程  | 我要评论

美高梅娱乐71966 澳门永利平台,遁形窥像,航嘉磐石500

github代码练习地址:正则1:https://github.com/neo-ml/pythonpractice/blob/master/spiderprac15_re1.py

一、页面解析和数据提取

  ①结构化数据: 先有的结构,在谈数据
  json文件
json path
转换成python类型进行操作(json类)
  xml文件
转换成python类型(xmltodict)
xpath
css选择器
正则
   ②非结构化数据:先有数据,再谈结构
    文本
   电话号码
    邮箱地址
通常处理此类数据,使用正则表达式
   html文件
  正则
  xpath
  css选择器

二、正则简单应用
python中正则模块是re
使用大致步骤:
  1. compile函数将正则表达式的字符串编译为一个pattern对象
  2. 通过pattern对象的一些列方法对文本进行匹配,匹配结果是一个match对象
  3. 用match对象的方法,对结果进行操纵

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网