当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫第四天

python爬虫第四天

2019年01月29日 | 移动技术网IT编程 | 我要评论

我并不平凡,3的八哥图库,集英社三巨头

昨天学到了正则表达式基础知识：原子

今天开始学习第二个基础知识：元字符

元字符

就是正则表达式中含有特殊含义的一些字符

常见的元字符及含义

符号	含义
.	匹配除换行符以外的任意字符
^	匹配字符串的开始位置
$	匹配字符串的结束位置
*	匹配0次，1次，或多次前面的原子
?	匹配0次或一次前面的原子
+	匹配一次或多次前面的原子
{n}	前面的原子恰好出现n次
{n,}	前面的原子至少出现n次
{n,m}	前面的原子至少出现n次，至多出现m次
\|	模式选择符
()	模式单元符

具体的说，元字符分为：

（1）任意匹配元字符（2）边界限制元字符（3）限定符（4）模式选择符（5）模式单元符

下面用程序来观察使用方法

import re
string1="abcdfphp345pythony_py"#我们分别让string1与下面的pattern进行匹配
pattern1=".python..."#.是匹配除了换行符以外的字符
pattern2="^abd"
pattern3="^abc"
pattern4="py$"
pattern5="ay$"
pattern6="py.*n"
pattern7="cd{2}"
pattern8="cd{3,}"
pattern9="python|php"#可以把|当成‘或’理解
pattern10="(cd){1,}"#小括号里会被当成一个整体使用，这里的意思是cd会至少出现一次
pattern11="cd{1,}"#这里就是d会至少出现一次
print(re.search(pattern1,string1))
print(re.search(pattern2,string1))
print(re.search(pattern3,string1))
print(re.search(pattern4,string1))
print(re.search(pattern5,string1))
print(re.search(pattern6,string1))
print(re.search(pattern7,string1))
print(re.search(pattern8,string1))
print(re.search(pattern9,string1))
print(re.search(pattern10,string1))
print(re.search(pattern11,string1))
 
#结果：
 
#<_sre.sre_match object; span=(10, 20), match='5pythony_p'>
#none
#<_sre.sre_match object; span=(0, 3), match='abc'>
#<_sre.sre_match object; span=(19, 21), match='py'>
#none
#<_sre.sre_match object; span=(11, 17), match='python'>
#none
#none
#<_sre.sre_match object; span=(5, 8), match='php'>
#<_sre.sre_match object; span=(2, 4), match='cd'>
#<_sre.sre_match object; span=(2, 4), match='cd'>

模式修正

模式修正符就是在不改变正则表达式的情况下通过模式修正符改变正则表达式的含义

常见如下

符号	含义
i	匹配时忽略大小写
m	多行匹配
l	做本地化识别
u	根据unicode字符及解析字符
s	让.匹配包括换行符，使用后.就可以匹配任意字符了

通过re.search(pattern1,string,re.i)修改即可

贪婪模式与懒惰模式

贪婪模式核心就是尽可能多的匹配，懒惰模式就是尽可能少的匹配。

pattern1="p.*y"#贪婪模式
pattern2="p.*?y"#懒惰模式，采用的就是就近匹配原则
print(re.search(pattern1,string1))
print(re.search(pattern2,string1))
#结果
#<_sre.sre_match object; span=(5, 21), match='php345pythony_py'>
#<_sre.sre_match object; span=(5, 13), match='php345py'>

如果我们想在字符间匹配任意字符，如“p.*y”默认是懒惰模式，通常在对应的.*后面加上？就可以从贪婪模式转为懒惰模式

正则表达式常见函数

直接用代码理解

import re
string="dpythonhbaigdukpythonabvjsvawegadbkvj"
pattern =".python."
 
print(re.match(pattern,string))
#会从string起始位置（开头）开始匹配，不满足返回none，满足则返回匹配结果
#后面的不会匹配到
print(re.match(pattern,string).span())#会输出匹配结果在源字符串的位置
print(re.search(pattern,string))#会查找整个字符串得到匹配结果
 

上述每次只能匹配一个内容

如何将符合模式的内容全部匹配出来？

1:使用re.compile()对正则表达式进行预编译。

2：编译后，使用findall（）根据正则表达式从源字符中将匹配内容全部找出

#pattern1=re.compile(".python.")
#print(pattern1.findall(string))
print(re.compile(pattern).findall(string))

如果想替换字符串可以使用re.sub()方法

格式：re.sub(pattern 正则表达式,rep要替换的字符,string源字符串,max最多替换次数)

如

re.sub(pattern."php",string,2)

常用实例

匹配.com或.cn的后缀url

pattern="[a-za-z]+://[^\s]*[.com|.cn]"
string="<a href='http://www.baidu.com'>百度首页</a>"
result=re.search(pattern,string)
print(result)

匹配电话号码：

patternphone="\d{4}-\d{7}|\d{3}-\d{8}"

匹配电子邮件

patternemail="\w+([.+-]\w+)*@\w+([.-]\w+)*\.\w+([.-]\w+)*"

正则就到这，明天开始学习cookie相关知识

　此文是我在学习《精通python网络爬虫》（韦玮著）的总结,纯手打。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

python爬虫第四天

2019年01月29日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论