当前位置：移动技术网 > IT编程>脚本编程>Python > 详解Python正则表达式re模块

详解Python正则表达式re模块

2019年06月12日 | 移动技术网IT编程 | 我要评论

瑞克和莫蒂第三季,火蓝刀锋之人小鬼大,曾文瀚

正则是处理字符串最常用的方法，我们编码中到处可见正则的身影。

正则大同小异，python 中的正则跟其他语言相比略有差异：

1、替换字符串时，替换的字符串可以是一个函数
2、split 函数可以指定分割次数，这会导致有个坑
3、前项界定的表达式必须定长

下面详细描述下 re 模块的使用方法，其实，注意上面提到的三点差异就好

1、match

说明：
re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回 none。

语法：
re.match(pattern, string, flags=0)

flags为可选标识，多个标识可以通过按位或 (|) 来指定。如 re.i | re.m 被设置成 i 和 m 标识：

修饰符	描述
re.i	使匹配对大小写不敏感
re.l	做本地化识别（locale-aware）匹配
re.m	多行匹配，影响 ^ 和 $
re.s	使 . 匹配包括换行在内的所有字符
re.u	根据unicode字符集解析字符。这个标志影响 \w, \w, \b, \b.
re.x	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

匹配成功re.match方法返回一个匹配的对象，可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。group() 或 group(0)，返回整个正则表达式的匹配结果。

举例：

s= 'abc123abc'

print(re.match('[a-z]+', s))　　　　　　　　　　　# <_sre.sre_match object; span=(0, 3), match='abc'>

print(re.match('[a-z]+', s).group(0))　　　　　　# abc
print(re.match('[\d]+', s))　　　　　　　　　　　　# none
print(re.match('[a-z]+', s, re.i).group(0))　　 # abc
print(re.match('[a-z]+', s).span())　　　　　　　# (0, 3)

2、search

说明：
re.search 扫描整个字符串并返回第一个成功的匹配。

语法：
re.search(pattern, string, flags=0)

匹配成功re.search方法返回一个匹配的对象，否则返回none。可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

s = 'abc123abc'

print(re.search('[a-z]+', s).group())　　# abc
print(re.search('[a-z]+', s).span())　　 # (0, 3)
print(re.search('[\d]+', s).group())　　 # 123
print(re.search('[\d]+', s).span())　　 # (3, 6)
print(re.search('xyz', s))　　　　　　　　 # none

groupdict
groupdict 返回匹配到的所有命名子组的字典。

print(re.search('[a-z]+', s).groupdict())   # {}

print(re.search('(?p<letter>[a-z]+)(?p<num>\d+)', s).groupdict()) # {'num': '123', 'letter': 'abc'}

3、sub 和 subn

说明：
re.sub用于替换字符串中的匹配项。

re.subn返回一个元组，包含替换后的字符串及替换次数。

语法：
sub(pattern, repl, string, count=0, flags=0)

repl: 替换的字符串，也可为一个函数。

count: 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

举例：

s = 'abc123abc'

print(re.sub('[\d]+', '数字', s))  # abc数字abc
print(re.sub('[a-z]+', '字母', s, 1)) # 字母123abc


# 将匹配的数字乘以 2
def double(matched):
 value = int(matched.group('value'))
 return str(value * 2)


# repl是一个函数
print(re.sub('(?p<value>\d+)', double, s))　　# abc246abc
print(re.subn('[\d]+', '数字', s))　　　　　　 # ('abc数字abc', 1)
print(re.subn('[a-z]+', '字母', s,))　　　　　　# ('字母123字母', 2)
print(re.subn('[a-z]+', '字母', s, 1))　　　　 # ('字母123字母', 1)

4、compile

说明：
re.compile 用于编译正则表达式，生成一个正则表达式（pattern）对象，供 match() 和 search() 这两个函数使用。

语法：
compile(pattern, flags=0)

举例：

s = 'abc123abc'

p = re.compile('[\d]+')

print(p.match(s, 4, 5).group(0)) # 2 从位置4开始匹配到位置5
print(p.search(s).group(0))   # 123

5、findall

说明：
re.findall 在字符串中查找正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

语法：
findall(pattern, string, flags=0)

举例：

s = 'abc123abc'

print(re.findall('[a-z]+', s)) # ['abc', 'abc']
print(re.findall('[h-n]+', s)) # []

6、finditer

说明：
finditer和 findall 类似，在字符串中查找正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

语法：
finditer(pattern, string, flags=0)

举例：

s = 'abc123def'

it = re.finditer('[a-z]+', s)

for match in it:
 print(match.group())

7、split

说明：
re.split 方法按照能够匹配的子串将字符串分割后返回列表。

语法：
split(pattern, string, maxsplit=0, flags=0)

maxsplit：分隔次数，maxsplit=1 分隔一次，默认为 0，不限制次数。

举例：

print(re.split('a', '1a1a2a3', re.i))   # ['1a1', '2a3']

# 输出结果并未能区分大小写，这是因为re.split(pattern，string，maxsplit, flags)默认是四个参数，当我们传入的三个参数的时候，系统会默认re.i是第三个参数，所以就没起作用。
# 如果想让这里的re.i起作用，写成flags=re.i即可。
print(re.split('a', '1a1a2a3', flags=re.i))  # ['1', '1', '2', '3']

8、escape

说明：
re.escape对字符串里面的特殊字符串进行转义。

语法：
escape(pattern)

举例：

print(re.escape('www.dxy.cn')) # www\.dxy\.cn

9、正则

“(?p<name>…)”：分组，并将其命名为<name>。

“(?p=name)”：引用别名为<name>的分组匹配到的串。

10、前项（否定）界定中的特殊

正则中常用的前项界定(?<=exp)和前项否定界定(?<!exp)在 python 中会报错：look-behind requires fixed-width pattern，原因是 python 中前项界定的表达式必须是定长的，例如

(?<=aaa) 　　# 正确

(?<=aaa|bbb) # 正确

(?<=aaa|bb)　# 错误

(?<=\d+) 　　# 错误

(?<=\d{3}) 　# 正确

以上所述是小编给大家介绍的python正则表达式re模块详解整合，希望对大家有所帮助

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

详解Python正则表达式re模块

2019年06月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论