当前位置：移动技术网 > IT编程>脚本编程>Python > 爬虫2解析HTML页面-第三方库Beautiful Soup

爬虫2解析HTML页面-第三方库Beautiful Soup

2020年07月17日 | 移动技术网IT编程 | 我要评论

1.安装BeautifulSoup–pip install beautifulSoup4
Beautiful Soup库也叫beautifulsoup4或bs4

2.解析demo页面
import requests
r=requests.get(“”)
demo=r.text
from bs4 import BeautifulSoup 从bs4库中引入BeautifulSoup 类型
（也可以直接写import bs4）
soup=BeautifulSoup(demo,“html.parser”)
demo页面内容，html.parser指用的解析器
demo的位置也可以写open("/root/demo.html")
soup为解析后得到页面中所有的标签
soup.title----结果为This is a python demo page
tag=soup.a（获取第一个a标签） —tag结果为
soup.a.name----‘a’
soup.a.parent.name—‘p’
soup.a.parent.parent.name-----‘body’
获取标签内所有属性–soup.a.attrs—{‘class’:’…’,‘id’:’…’,‘href’:’…’}
获取标签内某一个属性soup.a.attrs[‘class’]
获取标签属性是类型type(soup.a.attrs)-----<class’dict’>
获取标签类型type(soup.a)----<class ‘bs4.element.Tag’>
获取标签中的内容soup.a.string’Basic Python’
b标签中是注释内容，所以获取b标签内容的类型为Comment，p标签中的内容是非属性的字符串，所以类型为NavigableString

3.Beautiful Soup库理解
此库是解析，遍历，维护“标签树”的功能库

4.Beautiful Soup库的解析器
①安装bs4库–使用bs4的html解析器BeautifulSoup(demo,“html.parser”)
②安装lxml–使用lxml的html解析器BeautifulSoup(demo,“lxml”)
③安装lxml–使用lxml的xml解析器BeautifulSoup(demo,“xml”)
④安装html5lib–使用html5lib的解析器BeautifulSoup(demo,“html5lib”)

5.Beautiful Soup类的基本元素
元素的使用方法在2.解析demo页面中

6.基于bs4的HTML标签树的遍历
①下行遍历
.contents子节点的列表，将所有儿子节点存入列表
.children子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants子节点的迭代类型，包含所有子孙节点，用于循环遍历
②上行遍历
.parent节点的父亲标签
.parents节点先辈标签的迭代类型，用于循环遍历先辈节点
③平行遍历（平行遍历发生在同一个父节点下的各节点间）
.next_sibling返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling返回按照HTML文本顺序的上一个平行节点标签
.next_siblings迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings返回按照HTML文本顺序的前续所有平行节点标签

7.基于bs4的HTML格式化和编码（bs4会自动将HTML页面和字符串转成utf-8编码）
soup.a.prettify()-----prettify会自动加换行符，使格式完美

本文地址：https://blog.csdn.net/ajx10132/article/details/85918613

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python如何将将模块分割成多个文件

问题你想将一个模块分割成多个文件。但是你不想将分离的文件统一成一个逻辑模块时使已有的代码遭到破坏。解决方案程序模块可以通过变成包来分割成多个独立的文件。考虑下下... [阅读全文]
Python限制内存和CPU使用量的方法（Unix系统适用）

问题你想对在unix系统上面运行的程序设置内存或cpu的使用限制。解决方案resource 模块能同时执行这两个任务。例如，要限制cpu时间，可以像下面这样做：... [阅读全文]
Python 爬虫性能相关总结

这里我们通过请求网页例子来一步步理解爬虫性能当我们有一个列表存放了一些url需要我们获取相关数据，我们首先想到的是循环简单的循环串行这一种方法相对来说是最慢的，... [阅读全文]
Python 数据的累加与统计的示例代码

问题你需要处理一个很大的数据集并需要计算数据总和或其他统计量。解决方案对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题，都可以考虑使用 pandas库... [阅读全文]
Python如何在单元测试中给对象打补丁

问题你写的单元测试中需要给指定的对象打补丁，用来断言它们在测试中的期望行为（比如，断言被调用时的参数个数，访问指定的属性等）。解决方案unittest.moc... [阅读全文]
Python连接Mysql进行增删改查的示例代码

python连接mysql1.安装对应的库使用python连接mysql数据库需要安装相应的库以管理员身份运行cmd,输入命令pip install mysql... [阅读全文]
Python txt文件常用读写操作代码实例

python读取txt文件#方式一：file = r'd:\test.txt'with open(file, 'rb+') as f: #可读可写二进制，文件若... [阅读全文]
python3 中使用urllib问题以及urllib详解

今天遇到一个蛮奇怪的问题：当我在控制台中使用 urllib 没问题，但是当我在 vscode 中 .py 文件中导入 urllib 使用时会报错：attribu... [阅读全文]
python时间序列数据转为timestamp格式的方法

在此记录自己学习python数据分析过程中学到的一些数据处理的小技巧。1.数据的读取#导入numpy库和pandas库import numpy as npimp... [阅读全文]
Python pip使用超时问题解决方案

引言之前有位群友在群里发了个问题，说使用pip安装第三方包遇到"read timeout"。我相信很多时候，大家在使用pip都会遇到这个问题，所以，我想有必要写... [阅读全文]

网友评论


验证码：

爬虫2解析HTML页面-第三方库Beautiful Soup

2020年07月17日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论