当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫（1）——正则表达式

python爬虫（1）——正则表达式

2019年08月14日 | 移动技术网IT编程 | 我要评论

负压风机厂家,双福语音浏览器,xt615拆机

原子

原子是正则表达式中最基本的组成单位，每个正则表达式中至少要包含一个原子。

常见的原子类型：

普通字符作为原子
非打印字符作为原子
通用字符作为原子
原子表

#普通字符作为原子
import re
string="iloveyou"
pat="ve"
res=re.search(pat,string)
print(res)

#非打印字符作为原子，如\n \t
string='''hello
world
'''
pat="\n"
res=re.search(pat,string)
print(res)

#通用字符作为原子
'''
\w 字母、数字、下划线
\w 除字母、数字、下划线
\d 十进制
\d 除十进制
\s 空白字符
\s 除空白字符
'''
string='''hello world 123'''
pat="\d\d"
res=re.search(pat,string)
print(res)

#原子表
#[xyz]:从中任意取一个原子
#[^xyz]:除xyz的任意一个字符
string="iloveyou"
pat="i[^love]o"
res=re.search(pat,string)
print(res)

元字符

元字符是正则表达式中具有一些特殊含义的字符，比如重复n此前面的字符等。

"."：除换行符外任意一个字符
“^”：开始位置
“$”：结束位置
“*”：0\1\多次
"？"：0\1次
“+”：1\多次
[n]：恰好n次
{n,}：至少n次
{n,m}：至少n次，至多m次
|：模式选择符或
()：模式单元

模式修正符

可以在不改变正则表达式的情况下，通过模式修正符改变正则表达式的含义，从而实现一些匹配结果的调整等功能。

i：匹配时忽略大小写
m：多行匹配
l：本地化识别匹配
u：unicode
s：让.匹配包括换行符

用法：

#模式修正符
string="python"
pat="pyt"
res=re.search(pat,string,re.i)
print(res)

贪婪模式与懒惰模式

贪婪模式的核心点就是尽可能多的匹配，而懒惰模式是尽可能少的匹配。默认贪婪模式。

懒惰模式要加?

#贪婪模式与懒惰模式
string="poythonyhjskjsa"
pat1="p.*y"#贪婪模式
pat2="p.*?y"#懒惰模式，精准
res1=re.search(pat1,string,re.i)
res2=re.search(pat2,string,re.i)
print(res1)
print(res2)

正则表达式函数

match：从头开始匹配
search：任何位置都可以
全局匹配函数：re.compile(pat).findall(string)

实例

匹配.com和.cn网址：

string="<a href='http://www.baidu.com'>百度首页</a>"
pat="[a-za-z]+://[^\s]*[.com|.cn]"
res=re.compile(pat).findall(string)
print(res)

匹配电话号码：

string="afawda027-651315641s3dfs152sd"
pat="\d{4}-\d{7}|\d{3}-\d{8}"
res=re.compile(pat).findall(string)
print(res)

简单爬虫的编写

import urllib.request
data=urllib.request.urlopen("http://edu.csdn.net").read()

提取网页的电话（qq……）

import urllib.request
import re
data=urllib.request.urlopen("https://edu.csdn.net/huiyicourse/detail/1041").read().decode("utf-8")
pat="<p> 电话：(\d*?)</p>"
res=re.compile(pat).findall(data)
print(res[0])

爬取豆瓣出版社

import urllib.request
import re
data=urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
pat='<div class="name">(.*?)</div>' #加上圆括号后可以只显示括号里的内容
res=re.compile(pat).findall(data)
with open("出版社","w") as fp:
    for i in range(len(res)):
        print(res[i])
        fp.write(res[i]+'\n')
fp.close()

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：