当前位置：移动技术网 > IT编程>脚本编程>Python > python re库的正则表达式入门学习教程

python re库的正则表达式入门学习教程

2019年03月19日 | 移动技术网IT编程 | 我要评论

天天饮食手抓饼,郭德纲20周年,广州圆通快递电话

简介

正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用c编写的匹配引擎执行。

下面话不多说了，来一起看看详细的介绍吧

1. 安装

默认已经安装好了python环境了

re库是python3的核心库，不需要pip install，直接import就行

2. 最简单的模式

字符本身就是最简单的模式

比如：'a', 'i love you', 'test'

然是注意在定义模式字符串的时候，在前面加上r，它的作用是告诉编译器，接下来的字符串是单纯的字符串，。

例子

import re
pattern = r'cookie'
sequence = 'cookie'
re.match(pattern, sequence)

<re.match object; span=(0, 6), match='cookie'>

re.match()是常用的函数，如果匹配，返回的是re.match object.一个库内置的对象。如果没有匹配返回的是none

3. 通配符

在正则表达式中，有些字符是有特殊意义的（不是转义字符的那套规则），下面介绍常用的通配符字符

1）"."：点，代表任何字符，除了换行（newline）

re.search(r'co.k.e', 'cookie').group()

其中group()函数返回匹配的字符，返回类型是str

'cookie'

2) "\w" 反斜杠小写w，代表任何单个字母，数字，下划线

re.search(r'co\wk\we', 'cookie').group()

'cookie'

3) "\w" 反斜杠大写w，代表任何2)中没有代表的字符

re.search(r'c\wke', 'c@ke').group()

'c@ke'

4) "\s" 反斜杠小写s，代表一些空格字符，比如空格(space)，换行(new line)，跳格键(tab)，回车(return)

re.search(r'eat\scake', 'eat cake').group()

'eat cake'

5) "\s" 反斜杠大写s，代表任何4)中没有代表的字符

re.search(r'cook\se', 'cookie').group()

'cookie'

6) "\t" 反斜杠小写t，代表跳格键(tab)

7) "\n" 反斜杠小写t，代表换行(new line)

8) "\r" 反斜杠小写t，代表回车(return)

9) "\d" 反斜杠小写d，代表单个数字0-9

re.search(r'c\d\dkie', 'c00kie').group()

'c00kie'

10) "^" 这个键不知道叫什么，代表从字符开头要匹配

re.search(r'^eat', 'eat cake').group()

'eat'

11) "$" 美元符号，代表从字符结尾要匹配

re.search(r'cake$', 'eat cake').group()

'cake'

12) "[abc]" 中括号中任意字符，代表匹配其中任意字符

常用的方式，比如[a-za-z0-9]，或者如果中括号中第一个字符是"^"，代表不是这个范围内的字符

re.search(r'number: [0-6]', 'number: 5')

<re.match object; span=(0, 9), match='number: 5'>

再来个不在范围内的

re.search(r'number: [^0-6]', 'number: 7')

<re.match object; span=(0, 9), match='number: 7'>

4. 重复

第三部分介绍了单个通配符，那么怎么定义一串通配符呢，利用一些重复的标志

1) "+" 加号，表示在它左边的字符出现一次或者多次

re.search(r'co+kie', 'cooookie')

<re.match object; span=(0, 8), match='cooookie'>

2) "*" 乘号，表示在它左边的字符出现零次或者多次

re.search(r'ca*o*kie', 'caokie').group()

'caokie'

3) "?" 问号，表示在它左边的字符出现零次或者一次

re.search(r'colou?r', 'color').group()

'color'

4) {x} 大括号加数字，重复确切几次

5) {x,} 重复至少几次

6) {x, y} 重复至少x次，不超过y次

re.search(r'\d{9,10}', '0987654321').group()

'0987654321'

5. 分组

比如说想定义一个email的格式，@之前的是一个规则，之后的是一个规则，那么通过（）圆括号来分为两组，分别定义在一个正则表达式中

然后如果满足的话，通过group()函数指定返回哪一组的结果

比如

email_address = 'please contact us at: support@datacamp.com'
match = re.search(r'([\w+-]+)@([\w\.-]+)', 'tw7613781@gmail.com')
if match:
 print(match.group()) # the whole matched text
 print(match.group(1)) # the username (group 1)
 print(match.group(2)) # the host (group 2)

tw7613781@gmail.com
tw7613781
gmail.com

@前为第一部分，\w代表代表任何单个字母，数字，下划线，上面已经介绍了，然后就是"\w"和"+"和"-"随便哪一个至少一个或者多个

@后为第二部分，其余一样，就是多了个"\."，因为"."代表的是任意字符了，如果想表达真正的点，用"\."来表示。

6. python库函数re的常用函数

1) re.search(pattern, string)和re.match(pattern, string)

区别在于search能从string中寻找任何满足pattern的substring，但是match必须从头开始

pattern = "cookie"
sequence = "cake and cookie"

re.search(pattern, sequence).group()

'cookie'

如果是match会返回none

2) re.findall(pattern, string)

寻找string所有满足pattern的substring，然后以list的形式返回

email_address = "please contact us at: support@datacamp.com, xyz@datacamp.com"

#'addresses' is a list that stores all the possible match
addresses = re.findall(r'[\w\.-]+@[\w\.-]+', email_address)
for address in addresses: 
 print(address)

support@datacamp.com
xyz@datacamp.com

3) re.compile(pattern)

通过compile函数会生成一个pattern对象，这个pattern对象可以直接使用match，search等函数

in: pattern = re.compile(r"cookie")
in: pattern
out: re.compile(r'cookie', re.unicode)
in: pattern.search('cookie')
out: <re.match object; span=(0, 6), match='cookie'>

学习材料

https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对移动技术网的支持。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

python re库的正则表达式入门学习教程

2019年03月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论