当前位置：移动技术网 > IT编程>脚本编程>Python > Python笔记（十）：正则表达式

Python笔记（十）：正则表达式

2018年04月19日 | 移动技术网IT编程 | 我要评论

八卦啊呀呀,女巡按之真假公主,冯仕吉

正则表达式对比工具

https://pan.baidu.com/s/1XIPyF1vFSj5PACPx9zW8_g

（一） 正则表达式符号和特殊字符

符号	说明	示例
\|	或	re1\|re2,匹配re1或re2
.	匹配任何字符（\n除外）
^	匹配字符串开始部分	^ab.* 以ab开始的字符串，匹配ab123、ababc等等
$	匹配字符串结束部分	.*123$ 以123结束的字符串,匹配ab123、测试123等等
*	匹配0次或多次前面的正则表达式	.* 匹配0次或多次前面的 .
+	匹配1次或多次前面的正则表达式
?	匹配0次或1次前面的正则表达式
{n}	匹配n次前面的正则表达式	.{5}
{m,n}	匹配M到N次前面的正则表达式	.{1,10}
[…]	匹配[]里的任一字符	[abc]d 匹配 ad、bd、cd
[x-y]	匹配范围内的任一字符	[a-c]d：匹配 ad、bd、cd [0-9]d：匹配0d、1d、2d、3d等
[^…]	不匹配[]里的任一字符	[^a-c]d: 不匹配 ad、bd、cd
（…）	将正则表达式封闭为一个组	例如：[a-b][a-b] ：只匹配aa、ab等 ([a-b][a-b])+：匹配aaaa、abab等

符号	说明	示例
\d	匹配任一数字，和[0-9]是一样的，\D则不匹配任何数字	A\d: 匹配A1、A2等
\w	匹配任一数字、字母，和[A-Za-z0-9]是一样的，\W则相反
\s	匹配任一空格字符，\S 则相反	hello\sword：匹配hello word
\..	将\后一个字符按字面意义匹配，不匹配特殊含义	\?：匹配? \\d：匹配\d
\b	匹配任何单词边界（\B 则相反）	例如：字符串 ab the Htherr the: 能匹配到2个 the \bthe\b:只匹配第一个 the \Bthe\B:只匹配第二个 the
\A	匹配字符串开始部分，\Z 则字符串结束部分	参照^ 和$

（二） 贪婪模式和非贪婪模式

贪婪模式：尽可能的匹配

非贪婪模式：匹配到第一个结果后就结束匹配。在*、+、？、{}后面加一个？就是非贪婪模式。(*|+|?|{})?

看下面2张图就清楚了（蓝色背景表示匹配的内容）

第一张图（贪婪模式）：匹配到第一/div>后还会继续向右匹配。（在内容和正则表达式匹配的情况下，尽可能的匹配最长字符串）

第二张图（非贪婪模式）：匹配到第一个/div>后就结束匹配了。（在内容和正则表达式匹配的情况下，匹配到第一个结果后就结束匹配）

（三） re模块

函数/方法	说明
re.compile(pattern, flags=0)	（预编译）将正则表达式编译为对象（不是必须的，不过一般是会预编译）实际应用中：下面2种方式都是可以用的 the_str='' 第一： href_regx= re.compile(*'<div.</div>') href_regx.match(the_str) 第二： re.match('<div.</div>'*,the_str) 第一种是调用正则表达式对象的match()方法。第二种写法是调用re模块的match()函数
match(pattern, string)	Pattern：正则表达式 String：字符串匹配成功，返回字符串，失败则返回None。预编译后的正则表达式对象则只需要传str就行了（因为它本身就是pattern对象）
search(pattern, string)	Pattern：正则表达式 String：字符串返回第一个匹配内容，没有匹配则返回None
findall(pattern, string)	以列表形式返回所有匹配的内容
finditer(pattern, string)	返回所有匹配的内容，以迭代器的形式
split（pattern, string）	Pattern匹配的内容作为分隔符，split将字符串分割为列表并返回

flags参数	说明
re.I re.IGNORECASE	不区分大小写
re.M re.MULTILINE	匹配行的开始和结束部分，而不是严格匹配字符串本身的开始、结束部分
re.S re.DOTALL)	让. (点号)可以匹配\n

使用flags参数的时候，不清楚传第几个参数的话，最好先去看下方法（函数）的实现代码。

（四） re模块示例

 1 import re
 2 the_str='<div id="hd_info"></div></div></div>'
 3 href_regx= re.compile('<div.*</div>')
 4 print('match()示例：',href_regx.match(the_str))
 5 print('match()示例：',re.match('<div.*</div>',the_str))
 6 print('search()示例：',re.search('/div>',the_str))
 7 
 8 print('findall()示例：',re.findall('/div>',the_str))
 9 print('finditer()示例：',re.finditer('/div>',the_str))
10 for i in re.finditer('/div>',the_str):
11     print('迭代finditer（）返回值：',i)
12 
13 print('split()示例：',re.split('/.',the_str,re.DOTALL))

（五） 正则表达式实际应用

匹配电信手机号

133、149、153、173、177、180、181、189、199开头的11位数字

正则表达式：1(39|49|53|[7][37]|[8][019]|99)[0-9]{8}

匹配a标签开始 href属性值（<a href='' ）

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：

Python笔记（十）：正则表达式

2018年04月19日 | 移动技术网IT编程 | 我要评论

133、149、153、173、177、180、181、189、199开头的11位数字

您可能感兴趣的文章:

相关文章:

网友评论