当前位置：移动技术网 > IT编程>脚本编程>Python > Python在字符串中处理html和xml的方法

Python在字符串中处理html和xml的方法

2020年08月01日 | 移动技术网IT编程 | 我要评论

问题

你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, >, 或 &)。

解决方案

如果你想替换文本字符串中的 ‘<' 或者 ‘>' ，使用 html.escape() 函数可以很容易的完成。比如：

>>> s = 'elements are written as "<tag>text</tag>".'
>>> import html
>>> print(s)
elements are written as "<tag>text</tag>".
>>> print(html.escape(s))
elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.

>>> # disable escaping of quotes
>>> print(html.escape(s, quote=false))
elements are written as "&lt;tag&gt;text&lt;/tag&gt;".
>>>

如果你正在处理的是ascii文本，并且想将非ascii文本对应的编码实体嵌入进去，可以给某些i/o函数传递参数 errors='xmlcharrefreplace' 来达到这个目。比如：

>>> s = 'spicy jalapeño'
>>> s.encode('ascii', errors='xmlcharrefreplace')
b'spicy jalape&#241;o'
>>>

为了替换文本中的编码实体，你需要使用另外一种方法。如果你正在处理html或者xml文本，试着先使用一个合适的html或者xml解析器。通常情况下，这些工具会自动替换这些编码值，你无需担心。

有时候，如果你接收到了一些含有编码值的原始文本，需要手动去做替换，通常你只需要使用html或者xml解析器的一些相关工具函数/方法即可。比如：

>>> s = 'spicy &quot;jalape&#241;o&quot.'
>>> from html.parser import htmlparser
>>> p = htmlparser()
>>> p.unescape(s)
'spicy "jalapeño".'
>>>
>>> t = 'the prompt is &gt;&gt;&gt;'
>>> from xml.sax.saxutils import unescape
>>> unescape(t)
'the prompt is >>>'
>>>

讨论

在生成html或者xml文本的时候，如果正确的转换特殊标记字符是一个很容易被忽视的细节。特别是当你使用 print() 函数或者其他字符串格式化来产生输出的时候。使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本，还有一些其他的工具函数比如 xml.sax.saxutils.unescapge() 可以帮助你。然而，你应该先调研清楚怎样使用一个合适的解析器。比如，如果你在处理html或xml文本，使用某个解析模块比如 html.parse 或 xml.etree.elementtree 已经帮你自动处理了相关的替换细节。

以上就是python在字符串中处理html和xml的方法的详细内容，更多关于python在字符串中处理html和xml的资料请关注移动技术网其它相关文章！

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python如何将将模块分割成多个文件

问题你想将一个模块分割成多个文件。但是你不想将分离的文件统一成一个逻辑模块时使已有的代码遭到破坏。解决方案程序模块可以通过变成包来分割成多个独立的文件。考虑下下... [阅读全文]
Python限制内存和CPU使用量的方法（Unix系统适用）

问题你想对在unix系统上面运行的程序设置内存或cpu的使用限制。解决方案resource 模块能同时执行这两个任务。例如，要限制cpu时间，可以像下面这样做：... [阅读全文]
Python 爬虫性能相关总结

这里我们通过请求网页例子来一步步理解爬虫性能当我们有一个列表存放了一些url需要我们获取相关数据，我们首先想到的是循环简单的循环串行这一种方法相对来说是最慢的，... [阅读全文]
Python 数据的累加与统计的示例代码

问题你需要处理一个很大的数据集并需要计算数据总和或其他统计量。解决方案对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题，都可以考虑使用 pandas库... [阅读全文]
Python如何在单元测试中给对象打补丁

问题你写的单元测试中需要给指定的对象打补丁，用来断言它们在测试中的期望行为（比如，断言被调用时的参数个数，访问指定的属性等）。解决方案unittest.moc... [阅读全文]
Python连接Mysql进行增删改查的示例代码

python连接mysql1.安装对应的库使用python连接mysql数据库需要安装相应的库以管理员身份运行cmd,输入命令pip install mysql... [阅读全文]
Python txt文件常用读写操作代码实例

python读取txt文件#方式一：file = r'd:\test.txt'with open(file, 'rb+') as f: #可读可写二进制，文件若... [阅读全文]
python3 中使用urllib问题以及urllib详解

今天遇到一个蛮奇怪的问题：当我在控制台中使用 urllib 没问题，但是当我在 vscode 中 .py 文件中导入 urllib 使用时会报错：attribu... [阅读全文]
python时间序列数据转为timestamp格式的方法

在此记录自己学习python数据分析过程中学到的一些数据处理的小技巧。1.数据的读取#导入numpy库和pandas库import numpy as npimp... [阅读全文]
Python pip使用超时问题解决方案

引言之前有位群友在群里发了个问题，说使用pip安装第三方包遇到"read timeout"。我相信很多时候，大家在使用pip都会遇到这个问题，所以，我想有必要写... [阅读全文]

网友评论


验证码：

Python在字符串中处理html和xml的方法

2020年08月01日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论