当前位置：移动技术网 > IT编程>开发语言>Java > xpath语法及其使用教程

xpath语法及其使用教程

2020年07月03日 | 移动技术网IT编程 | 我要评论

一. XPATH

1. 什么是xpath？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

2. 常用的xpath开发工具

(1) Chrome插件XPath Helper(推荐使用)。

(2) Firefox插件Try XPath。

3. xpath语法(核心)

(1) 选取节点：XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

表达式	描述	示例	结果
nodename	选取此节点的所有子节点	bookstore	选取bookstore下所有的子节点
/	如果是在最前面，代表从根节点选取。否则选择某节点下的某个节点	/bookstore	选取根元素下所有的bookstore节点
//	从全局节点中选择节点，随便在哪个位置	//book	从全局节点中找到所有的book节点
@	选取某个节点的属性	//book[@price]	选择所有拥有price属性的book节点
.	当前节点	./a	选取当前节点下的a标签

(2) 谓语：谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。

路径表达式	描述
/bookstore/book[1]	选取bookstore下的第一个子元素
/bookstore/book[last()]	选取bookstore下的倒数第二个book元素。
bookstore/book[position()<3]	选取bookstore下前面两个子元素。
//book[@price]	选取拥有price属性的book元素
//book[@price=10]	选取所有属性price等于10的book元素

(3) 通配符 *

通配符	描述	示例	结果
*	匹配任意节点	/bookstore/*	选取bookstore下的所有子元素。
@*	匹配节点中的任何属性	//book[@*]	选取所有带有属性的book元素。

(4) 选取多个路径 |：通过在路径表达式中使用“|”运算符，可以选取若干个路径。

//bookstore/book | //book/title # 选取所有book元素以及book元素下所有的title元素

二. LXML库

1. 什么是lxml？

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档：

需要安装C语言库，可使用 pip 安装：pip install lxml

2. lxml和xpath的结合使用(注意parse函数和HTML函数的用法)

(1) 从外部文件引入html等文档进行解析

 from lxml import etree

 # parse引入外部文档进行解析
 html = etree.parse('hello.html')  
 print type(html)  # 显示etree.parse() 返回类型

 result = html.xpath('//li')

 print(result)  # 打印<li>标签的元素集合

(2) 直接对字符串进行解析(爬虫常用)

# 这里只是打个样，具体的参数填入还需看个人需求
from lxml import etree
# html_str是unicode类型的字符串，通常是爬取下来的text类型数据
html = etree.HTML(html_str) 
# 根据得到的html对象 调用 xpath语法 进行解析
div_list = html.xpath("//div[@class='col1 old-style-col1']/div")

本文地址：https://blog.csdn.net/qq_39504519/article/details/107080785

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

android sdk源码 andoid-21 下的TextUtils.java文本工具类源码赏析

下面这个是android sdk自带的文本工具，比如提供EditText对象的内容是否为空判断，截取字符串啊等等... [阅读全文]
荐计算机组成原理(哈工大)学习笔记

文章目录计算机组成原理一、计算机系统概论1.1计算机系统简介一、计算机的软硬件概念二、计算机系统的层次结构三、计... [阅读全文]
地理坐标（WGS84），投影坐标下（Mercator）切片系统的计算Java类

1、地理坐标下切片系统的计算地理坐标下切片系统的计算，主要适用于google地球中切片系统，以及目标底图参考系统... [阅读全文]
荐 JavaWeb~简单认识以太网、MAC地址、MTU机制、ARP协议、DNS协议

文章目录认识以太网简介以太网帧格式认识MAC地址对比理解IP地址与MAC地址认识MTUMTU对IP数据报进行分组... [阅读全文]
荐【技术流派】教你提高双目立体视觉系统的精度！

双目立体视觉系统，不谈精度几许，未免显得业余！ [阅读全文]
java基础知识整理大全 ------持续更新中

这里写自定义目录标题java的几大特性简单：java省去了对指针的操作，避免了使用指针时的指针异常情况。面向对象... [阅读全文]
HUAWEI MH5000-31 LGA Module Hardware Guide draft

1 IntroductionThis document describes the hardware appli... [阅读全文]
华为电视终于低下高傲的头颅，与小米电视比拼价格

华为旗下的荣耀品牌在昨天发布了一款55英寸智慧屏X1（实际就是电视产品），售价仅为1699元，将55英寸电视的价... [阅读全文]
微信X5浏览器video标签兼容性

实现需求：要求在页面内播放视频，不能弹窗播放，不全屏播放实现方式：<video playsinline="... [阅读全文]
LoRa已经成为了主流物联网络制式之一

近日，物联网产业又爆出猛料。LoRa 联盟（LoRa Alliance）和腾讯日前共同宣布，腾讯已在最高层面加入... [阅读全文]

网友评论


验证码：

xpath语法及其使用教程

2020年07月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论