当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫初探（七）——爬虫之Beautifulsoup4介绍（Ⅰ）

Python爬虫初探（七）——爬虫之Beautifulsoup4介绍（Ⅰ）

2020年07月30日 | 移动技术网IT编程 | 我要评论

一、bs4的简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库。跟之前介绍的xpath方法有些类似，但操作上比xpath更方便。
安装方法：
pip install lxml
pip install bs4

二、bs4的简单使用

1.bs4的基本操作

先导入bs4模块

import bs4
from bs4 import BeautifulSoup

还是来xpath中的例子

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

这是一些简单的操作：

# 获取bs对象
bs = BeautifulSoup(html_doc,'lxml')

# 打印文档内容(把我们的标签更加规范的打印)
print(bs.prettify())

# 获取title标签内容
print(bs.title)  
# 打印结果：<title>The Dormouse's story</title>

# 获取title标签名称
print(bs.title.name) 
# 打印结果：title

# title标签里面的文本内容
print(bs.title.string)  
# 打印结果：The Dormouse's story

# 获取p段落，通过标签导航找的是第一个
print(bs.p) 
# 打印结果：<p class="title"><b>The Dormouse's story</b></p>

可以发现，bs4和xpath相比，不用再去写路径表达式了，想要获取哪个标签的信息，直接用如上的bs.标签就能实现，非常方便。

2.bs4的对象种类

bs4的对象种类一共有四种：
tag : 标签
NavigableString : 可导航的字符串
BeautifulSoup : bs对象
Comment : 注释
我们拿上面的命令来看看：

# bs对象
print(type(bs))  # 结果：<class 'bs4.BeautifulSoup'>

# 标签
print(type(bs.title))  # 结果：<class 'bs4.element.Tag'>
print(type(bs.a))  # 结果：<class 'bs4.element.Tag'>
print(type(bs.p))  # 结果：<class 'bs4.element.Tag'>

# 可导航的字符串
print(type(bs.p.string)) # 结果：<class 'bs4.element.NavigableString'>

# 注释
# 将html修改一下
html_comment = '<b><!--注释--></b>'

bs = BeautifulSoup(html_comment,'lxml')

print(type(bs.b.string)) # 结果：<class 'bs4.element.Comment'>

三、遍历功能

1.遍历子节点

contents 返回的是一个列表
children 返回的是一个迭代器通过这个迭代器可以进行迭代
descendants 返回的是一个生成器遍历子子孙孙

什么意思呢，解释一下，迭代 iterate指的是按照某种顺序逐个访问列表中的某一项，例如 Python中的for语句；而循环 loop指满足某些条件下，重复执行某一段代码，例如 Python中的while语句。

soup = BeautifulSoup(html_doc,'lxml')

links = soup.contents     
for li in links:
    r = li.find_all('a')
    for l in r:
        print(l.string)    # 遍历a标签下的字符串Elsie，Lacie，Tillie
print(links)               # 将整个html文本以列表形式返回

这次换个简单的结构

html = '''
<div>
<a href='#'>蜘蛛侠</a>
<a href='#'>钢铁侠</a>
<a href='#'>绿巨人</a>
</div>
'''
soup2 = BeautifulSoup(html,'lxml')

links = soup.div.children
print(type(links))
# 结果：<class 'list_iterator'>

for link in links:
    print(link)
# 结果：中间有空行
<a href='#'>蜘蛛侠</a>

<a href='#'>钢铁侠</a>

<a href='#'>绿巨人</a>

# descendants 返回的是一个生成器遍历子子孙孙
for x in soup2.descendants:
    print('----------------')
    print(x)

结果如下：这只是一部分，最终会遍历到a标签下的名字，大家可以试一试，就像剥洋葱一样，一层一层剥开。还能发现，遍历的同时可以自动补全html的结构标签，是不是很棒？

----------------
<html><body><div>
<a href="#">蜘蛛侠</a>
<a href="#">钢铁侠</a>
<a href="#">绿巨人</a>
</div>
</body></html>
----------------
<body><div>
<a href="#">蜘蛛侠</a>
<a href="#">钢铁侠</a>
<a href="#">绿巨人</a>
</div>
</body>
----------------

有时我们需要获取多个标签内容，还想删掉多余的空格，这时该怎么办呢？

# strings 返回是一个生成器对象用过来获取多个标签内容
# stripped strings 和strings基本一致 但是它可以把多余的空格去掉

strings1 = soup2.strings
strings2 = soup2.stripped_strings

现在看是有空行的

print(strings1)
# 结果：

蜘蛛侠


钢铁侠


绿巨人

现在看是不是空行就消除了

print(strings2)
# 结果：
蜘蛛侠
钢铁侠
绿巨人

bs4部分的内容就先介绍这么多，剩下的部分咱们在下一章里接着聊。

第一篇：Python的要点(搭建环境、安装配置、第三方库导入方法详细过程)
第二篇：Python爬虫初探（一）——了解爬虫
第三篇：Python爬虫初探（二）——爬虫的请求模块
第四篇：Python爬虫初探（三）——爬虫之正则表达式介绍
第五篇：Python爬虫初探（四）——爬虫之正则表达式实战（爬取图片）
第六篇：Python爬虫初探（五）——爬虫之xpath与lxml库的使用
第七篇：Python爬虫初探（六）——爬虫之xpath实战（爬取高考分数线信息）

本文地址：https://blog.csdn.net/brilliant666/article/details/107647797

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

从C语言中读取Python 类文件对象

问题你要写c扩展来读取来自任何python类文件对象中的数据（比如普通文件、stringio对象等）。解决方案要读取一个类文件对象的数据，你需要重复调用 rea... [阅读全文]
Python3爬虫关于代理池的维护详解

我们在上一节了解了代理的设置方法，利用代理我们可以解决目标网站封 ip 的问题，而在网上又有大量公开的免费代理，其中有一部分可以拿来使用，或者我们也可以购买付费... [阅读全文]
Python如何对齐字符串

问题你想通过某种对齐方式来格式化字符串解决方案对于基本的字符串对齐操作，可以使用字符串的 ljust() , rjust() 和 center() 方法。比如：... [阅读全文]
python实现从无序的链表中删除重复项

python实现从无序的链表中删除重复项题目描述:给定一个没有排序的链表，去掉其重复项，并保留原顺序，例如链表... [阅读全文]
python实现Canny与Hough算法

任务说明：编写一个钱币定位系统，其不仅能够检测出输入图像中各个钱币的边缘，同时，还能给出各个钱币的圆心坐标与半径... [阅读全文]
DP-LeetCode221. 最大正方形

1、题目描述https://leetcode-cn.com/problems/maximal-square/在一... [阅读全文]
听课笔记--Python数据分析--Numpy基础及基本应用

'''@Author: Liang@LastEditors: Liang@Date: 2020-07-26 19... [阅读全文]
评价类模型——Tposis法

Tposis法学习笔记适用的范围操作方法第一步 > 将原始矩阵正向化第二步>正向化矩阵标准化第三步&... [阅读全文]
python的platform模块的使用

platform是用来获取操作系统的信息的模块，具体见文档[root@VM_0_9_centos ~]# pyt... [阅读全文]
Python-定时任务APScheduler中两种调度器的区别

概述两种调度器BackgroundScheduler和BlockingScheduler的区别举例说明APSch... [阅读全文]