当前位置：移动技术网 > IT编程>脚本编程>Python > 正则表达式的详解教程

正则表达式的详解教程

2020年07月03日 | 移动技术网IT编程 | 我要评论

1. 什么是正则表达式？

正则表达式：按照一定的规则，从某个字符串中匹配出想要的数据，这个规则就是正则表达式。

2. 正则表达式字符匹配规则

(1) (字符串)匹配任意字符串

text = 'hello'
ret = re.match('he',text)
print(ret.group())
>> he

(2) (.)匹配单个字符，但是不能匹配不到换行符。

text = "ab"
ret = re.match('.',text)
print(ret.group())
>> a

(3) (\d)匹配任意一个数字 && (\D)匹配任意一个非数字

# \d
text = "123"
ret = re.match('\d',text)
print(ret.group())
>> 1

# \D
text = "a"
ret = re.match('\D',text)
print(ret.group())
>> a

(4) (\s)匹配空白字符，包括所谓的\n,\t,\r以及空格等空白符

text = "\t"
ret = re.match('\s',text)
print(ret.group())
>> 空白

(5) (\w)匹配a-z或0-9或_ && (\W)则相反

\w
text = "_"
ret = re.match('\w',text)
print(ret.group())
>> _

\W
text = "+"
ret = re.match('\W',text)
print(ret.group())
>> +

(6) [ ]表示组合的意思，只要满足[ ]中的某一项即可匹配成功

text = "0731-88888888"
ret = re.match('[\d\-]+',text)
print(ret.group())
>> 0731-88888888

(7) . + * { } 等限定符用来匹配多个字符

(7.1) *限定符

*：可以匹配0或者任意多个字符

 text = "0731"
 ret = re.match('\d*',text)
 print(ret.group())
 >> 0731

(7.2) +限定符

+：可以匹配1个或者多个字符，最少一个。

 text = "abc"
 ret = re.match('\w+',text)
 print(ret.group())
 >> abc

(7.3) *限定符

?：匹配的字符可以出现一次或者不出现（0或者1）。

 text = "123"
 ret = re.match('\d?',text)
 print(ret.group())
 >> 1

(7.4) { }限定符的用法

{m}：匹配m个字符。

{m,n}：匹配m-n个字符，在这中间的字符都可以匹配到。

 text = "123"
 ret = re.match('\d{1,2}',text)
 prit(ret.group())
 >> 12

(8) ^ 表示以什么什么开始 (注意：如果是在中括号中，那么代表的是取反操作。并且match函数默认使用^，只能从头部匹配)

text = "hello"
ret = re.match('^h',text)
print(ret.group())

(9) $ 表示以什么什么结束

text = "xxx@163.com"
ret = re.search('\w+@163\.com$',text)
print(ret.group())
>> xxx@163.com

(10) | 匹配多个表达式或者字符串，可当 “或” 来理解

text = "hello|world"
ret = re.search('hello',text)
print(ret.group())
>> hello

3. re(正则表达式)模块中常用的函数

(1) match：从字符串开始的位置进行匹配。

从开始的位置进行匹配。如果开始的位置没有匹配到。就直接失败了。示例代码如下：
text = 'hello'
ret = re.match('h',text)
print(ret.group())
>> h
如果第一个字母不是h，那么就会失败。示例代码如下：
text = 'ahello'
ret = re.match('h',text)
print(ret.group())
>> AttributeError: 'NoneType' object has no attribute 'group'
如果想要匹配换行的数据，那么就要传入一个flag=re.DOTALL，就可以匹配换行符了。示例代码如下：
text = "abc\nabc"
ret = re.match('abc.*abc',text,re.DOTALL)
print(ret.group())

(2) search：从整个字符串任意位置进行匹配。

在字符串中找满足条件的字符。如果找到，就返回。说白了，就是只会找到第一个满足条件的。
text = 'apple price $99 orange price $88'
ret = re.search('\d+',text)
print(ret.group())
>> 99

(3) findall：找出所有满足条件的，返回的是一个列表。

找出所有满足条件的，返回的是一个列表。
text = 'apple price $99 orange price $88'
ret = re.findall('\d+',text)
print(ret)
>> ['99', '88']

(4) finditer：返回的是一个可迭代对象，可进行遍历

for i in re.finditer('[1-3]?[^b-z]?','1a11112223334442b3aaaa'): ###finditer用来迭代列表
    if i:
        print(i.group(0)) ##打印 匹配到的 子字符串
        print(i.re)  ##打印正则表达式
        print(i.string)##打印 原始字符串
        print(i.start()) #起始位置
        print(i.end())#结束位置

(5) sub：替换字符串，将匹配到的字符串替换为其他字符串。

text = 'apple price $99 orange price $88'
ret = re.sub('\d+','0',text)
print(ret)
>> apple price $0 orange price $0

(6) split：使用正则表达式来分割字符串。

text = "hello world ni hao"
ret = re.split('\W',text)
print(ret)
>> ["hello","world","ni","hao"]

(7) complie：用来构造正则表达式对象(当某个正则表达式要重复使用时，可大大节省效率)

#对象使用方式
reobject = re.compile(r'[7-9]{3}')
list = reobject.findall('1234567893214698742238883339991211')
print(list)
print(list[0])

---------------------------------------------------------------------------------------------------------------------------

【重要补充】

1. group取值的用法

在正则表达式中，可以对过滤到的字符串进行分组。分组使用圆括号的方式，即一个圆括号及其里面的内容表示一个分组。

group：和group(0)是等价的，返回的是整个满足条件的字符串。
groups：返回的是里面的子组。索引从1开始。
group(1)：返回的是第一个子组，可以传入多个。

2. 原生字符串和转义字符

在正则表达式中，有些字符是有特殊意义的字符。因此如果想要匹配这些字符，那么就必须使用反斜杠进行转义。比如$代表的是以...结尾，如果想要匹配$，那么就必须使用\$。示例代码如下：

text = "apple price is \$99,orange paice is $88"
ret = re.search('\$(\d+)',text)
print(ret.group())
>> $99

原生字符串：
在正则表达式中，\是专门用来做转义的。在Python中\也是用来做转义的。因此如果想要在普通的字符串中匹配出\，那么要给出四个\。示例代码如下：

text = "apple \c"
ret = re.search('\\\\c',text)
print(ret.group())

因此要使用原生字符串就可以解决这个问题：

text = "apple \c"
ret = re.search(r'\\c',text)
print(ret.group())

那么原理是什么呢？为什么在不适用r来标记原生字符串的时候需要四个\呢？使用r的时候需要两个\呢？

我们需要先来了解一下正则表达式的一个匹配过程，例如 ret = re.search('\\\\c',text) 这句代码：我们都知道 \ 字符无论是在python中还是正则表达式中都表示转移字符，这句代码首先python将其解释成 \\c（第一个和第三个\分别表示转义，那么第二个和第四个表示普通字符\，最终即成为了\\c），接下来正则表达式拿到\\c后第一个\表示转义，因此将最后解释为普通的 \c 两个字符，再去匹配的文本里比较。而使用r来标记原生字符串后，python默认解释其为\\c三个字符，最后交由正则表达式再经过转义后即普通的\c两个字符。

原生字符串这里比较绕，希望对大家有所帮助，也欢迎大家讨论给出指导~！

本文地址：https://blog.csdn.net/qq_39504519/article/details/107075811

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

序列化Python对象的方法

问题你需要将一个python对象序列化为一个字节流，以便将它保存到一个文件、存储到数据库或者通过网络传输它。解决方案对于序列化最普遍的做法就是使用 pickle... [阅读全文]
Python实现弹球小游戏

本文主要给大家分享一个实战项目，通过python代码写一款我们儿时大多数人玩过的游戏---小弹球游戏。只不过当时，我们是在游戏机上玩，现在我们通过运行代码来玩，... [阅读全文]
Python Flask异步发送邮件实现方法解析

第一步，修改工厂函数，配置邮件参数from flask import flaskfrom config import configfrom flask_sqla... [阅读全文]
Python sqlalchemy时间戳及密码管理实现代码详解

一、时间戳实际开发中，我们一般希望create_time和update_time这两个属性能自动设置，所以在建表的时候需要在model上特殊处理一下：from ... [阅读全文]
python中的django是做什么的

django是什么？django是一个基于python的web应用框架。它与python的另外一个web 框架 flask最大的区别是，它奉行 “包含一切” 的... [阅读全文]
Python过滤序列元素的方法

问题你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列解决方案最简单的过滤序列元素的方法就是使用列表推导。比如：>>> myli... [阅读全文]
python中selenium库的基本使用详解

什么是seleniumselenium 是一个用于web应用程序测试的工具。selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括i... [阅读全文]
Python在字符串中处理html和xml的方法

问题你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, ... [阅读全文]
Python如何将字符串转换为日期

问题你的应用程序接受字符串格式的输入，但是你想将它们转换为 datetime 对象以便在上面执行非字符串操作。解决方案使用python的标准模块 datetim... [阅读全文]
Python使用shutil模块实现文件拷贝

主要作用与拷贝文件用的。1.shutil.copyfileobj(文件1，文件2)：将文件1的数据覆盖copy给文件2。import shutilf1 = op... [阅读全文]

网友评论


验证码：

正则表达式的详解教程

2020年07月03日 | 移动技术网IT编程 | 我要评论

---------------------------------------------------------------------------------------------------------------------------

您可能感兴趣的文章:

相关文章:

网友评论