当前位置：移动技术网 > IT编程>脚本编程>Python > s21day26 python笔记

s21day26 python笔记

2019年05月06日 | 移动技术网IT编程 | 我要评论

辽宁卫视包蕾,齐可网,老公是个特种兵

s21day26 python笔记

一、内容回顾及补充

正则表达式
- 转义符： - 正则表达式中的转义符在python的字符串中也刚好有转移的作用
  - 但是正则表达式中的转义符和字符串中的转义符并没关系，且还容易有冲突
  - 为了避免这种冲突，我们所有的正则都以在工具中的测试结果为结果
  - 然后只需要在正则和待匹配的字符串外面都加r即可

二、re模块

正则模块

re.findall：会匹配字符串中所有符合规则的项，并返回一个列表，如果没匹配到，返回空列表

import re
ret = re.findall('\d+','alex83')
print(ret)
# findall 会匹配字符串中所有符合规则的项
# 并返回一个列表
# 如果未匹配到返回空列表

re.search：如果匹配到，返回一个对象，用group取值，如果没匹配到，返回none，不能用group

import re
ret = re.search('\d+','alex83')
print(ret)                 # 如果能匹配上返回一个对象，如果不能匹配上返回none
if ret:
    print(ret.group())     # 如果是对象，那么这个对象内部实现了group，所以可以取值
                           # 如果是none，那么这个对象不可能实现了group方法，所以报错
# 会从头到尾从带匹配匹配字符串中取出第一个符合条件的项
# 如果匹配到了，返回一个对象，用group取值
# 如果没匹配到，返回none，不能用group

re.match：match = search + ^正则

import re
ret = re.match('\d','alex83') == re.match('^\d','alex83')
print(ret)
# 会从头匹配字符串中取出从第一个字符开始是否符合规则
# 如果符合，就返回对象，用group取值
# 如果不符合，就返回none

re.finditer：在查询的结果超过1个的情况下，能够有效的节省内存，降低空间复杂度，从而也降低了时间复杂度

import re
ret = re.finditer('\d','safhl02urhefy023908'*20000000)  # ret是迭代器
for i in ret:    # 迭代出来的每一项都是一个对象
    print(i.group())  # 通过group取值即可

re.compile：在同一个正则表达式重复使用多次的时候使用能够减少时间的开销

import re
ret = re.compile('\d+')
r1 = ret.search('alex83')
r2 = ret.findall('wusir74')
r3 = ret.finditer('taibai40')
for i in r3:
    print(i.group())

re.split：利用正则规则进行切割

import re
ret = re.split('\d(\d)','alex83wusir74taibai')  # 默认自动保留分组中的内容
print(ret)

re.sub / re.subn：利用正则规则进行替换

import re
ret = re.sub('\d','d','alex83wusir74taibai',1)
print(ret)      # 'alexd3wusir74taibai'

ret = re.subn('\d','d','alex83wusir74taibai')
print(ret)      # ('alexddwusirddtaibai', 4)

分组和re模块

关于group取值

import re
ret = re.search('<(\w+)>(.*?)</\w+>',s1)
print(ret)
print(ret.group(0))   # group参数默认为0 表示取整个正则匹配的结果
print(ret.group(1))   # 取第一个分组中的内容
print(ret.group(2))   # 取第二个分组中的内容

分组命名：(?p<名字>正则表达式)

import re
ret = re.search('<(?p<tag>\w+)>(?p<cont>.*?)</\w+>',s1)
print(ret)
print(ret.group('tag'))   # 取tag分组中的内容
print(ret.group('cont'))   # 取cont分组中的内容

引用分组：(?p=组名) 这个组中的内容必须完全和之前已经存在的组匹配到的内容一模一样

import re
# 方法一：
s = '<h1>wahaha</h1>'
ret = re.search('<(?p<tag>\w+)>.*?</(?p=tag)>',s)
print(ret.group('tag'))      # 'h1'

# 方法二：
s = '<h1>wahaha</h1>'
ret = re.search(r'<(\w+)>.*?</\1>',s)
print(ret.group(1))          # 'h1'

分组和findall：默认findall 优先显示分组内的内容，取消分组优先显示：(?:正则)

import re
ret = re.findall('\d(\d)','aa1alex83')
# findall遇到正则表达式中的分组，会优先显示分组中的内容
print(ret)

# 取消分组优先显示：
ret = re.findall('\d+(?:\.\d+)?','1.234+2')
print(ret)

有的时候我们想匹配的内容包含在不相匹配的内容当中，这个时候只需要把不想匹配的先匹配出来，再通过手段去掉

import re
ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret)       # ['1', '2', '60', '', '5', '4', '3']
ret.remove('')
print(ret)       # ['1', '2', '60', '5', '4', '3']

爬虫示例

# 方法一：
import re
import json
import requests

def parser_page(par,content):
    res = par.finditer(content)
    for i in res:
        yield {'id': i.group('id'),
               'title': i.group('title'),
               'score': i.group('score'),
               'com_num': i.group('comment_num')}

def get_page(url):
    ret = requests.get(url)
    return  ret.text


pattern = '<div class="item">.*?<em class="">(?p<id>\d+)</em>.*?<span class="title">(?p<title>.*?)</span>.*?' \
              '<span class="rating_num".*?>(?p<score>.*?)</span>.*?<span>(?p<comment_num>.*?)人评价</span>'
par = re.compile(pattern,flags=re.s)
num = 0
with open('movie_info',mode = 'w',encoding='utf-8') as f:
    for i in range(10):
        content = get_page('https://movie.douban.com/top250?start=%s&filter=' % num)
        g = parser_page(par,content)
        for dic in g:
            f.write('%s\n'%json.dumps(dic,ensure_ascii=false))
        num += 25

# 方法二：进阶
import re
import json
import requests

def parser_page(par,content):
    res = par.finditer(content)
    for i in res:
        yield {'id': i.group('id'),
               'title': i.group('title'),
               'score': i.group('score'),
               'com_num': i.group('comment_num')}

def get_page(url):
    ret = requests.get(url)
    return  ret.text

def write_file(file_name):
    with open(file_name,mode = 'w',encoding='utf-8') as f:
        while true:
            dic = yield
            f.write('%s\n' % json.dumps(dic, ensure_ascii=false))

pattern = '<div class="item">.*?<em class="">(?p<id>\d+)</em>.*?<span class="title">(?p<title>.*?)</span>.*?' \
              '<span class="rating_num".*?>(?p<score>.*?)</span>.*?<span>(?p<comment_num>.*?)人评价</span>'
par = re.compile(pattern,flags=re.s)
num = 0
f = write_file('move2')
next(f)
for i in range(10):
    content = get_page('https://movie.douban.com/top250?start=%s&filter=' % num)
    g = parser_page(par,content)
    for dic in g:
        f.send(dic)
    num += 25
f.close()

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：

s21day26 python笔记

2019年05月06日 | 移动技术网IT编程 | 我要评论

s21day26 python笔记

一、内容回顾及补充

二、re模块

正则模块

分组和re模块

爬虫示例

您可能感兴趣的文章:

相关文章:

网友评论