基于Python正则表达式提取搜索结果中的站点地址_正则

基于Python正则表达式提取搜索结果中的站点地址

正则表达式对于python来说并不是独有的，最近在把google搜索的结果中所有的站点地址导出，于是想到用python正则表达式提取搜索结果中的站点地址。

这其中涉及几个需要解决的问题：

1、获取搜索的结果文本

为了获得更多的地址，我使用了google的高级搜索功能，每个页面显示100条结果。

获得显示的结果后，可以查看源码，并保持成文本文件就有了搜索的结果文本

2、分析如何提取站点信息

首先需要分析获取的页面，查看以怎样的方式可以提取出站点信息。

我使用ie8自带的开发工具（按f12就会弹出来）中的探查器功能查看自己要关心的内容有什么特殊的格式

从上图可以看出我需要的站点在标签<cite></cite>中，所以我使用正则表达式提取这其中的文本是否就可以呢？

3、编写正则表达式来获取站点地址

接下来的就是写表达式了，我使用python3.2编写的，方便好用（~_~）

代码如下，先把搜索结果页面保持到e:/t3.txt中，在执行如下代码

import re
p = re.compile(r'<cite>([^<>\/].+?)</cite>')
f = open("e:/t3.txt", encoding='utf-8')
content = f.read()
print ("\n".join(p.findall(content)))

运行如下：

大家可以对照一下运行效果图，看看所有的站点地址是不是都给获取到了。

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

Web漏洞挖掘（一）登录认证模块的暴力破解实例

Web漏洞挖掘（一）登录认证模块的暴力破解实例暴力破解的定义暴力破解的分类暴力破解的威胁涉及的基础知识模块相关硬... [阅读全文]

Jmeter用作接口测试的的基本操作

Jmeter用作接口测试的的基本操作1、创建请求添加线程组在线程组中添加取样器选择HTTP请求在HTTP请求界面... [阅读全文]

正则限制input输入整数

限制只能输入大于等于0的正整数<input onkeyup="this.value=this.value.... [阅读全文]

C++：regex正则表达式

正则表达式在<regex>头文件中定义，是标准库中的一个强大工具。正则表达式是一种用于字符串处理的微... [阅读全文]

移动端调出纯数字键盘

为了适配ios和安卓，写了个十全大补汤，所有调用纯数字键盘的方式都用上了。安卓上虽然默认数字键盘，但是还是可以手... [阅读全文]

京东富文本详情图变形的多种处理方式（解决商品详情图片宽高不适应问题）

我前面写过一篇解析京东富文本详情的文章：https://blog.csdn.net/qq_35610214/ar... [阅读全文]

re正则表达式练习

判断变量名是否符合要求import re names = ["name1","_name","2_name","... [阅读全文]

通过Git上传项目到GitHub

一.git下载及安装git官网下载：https://git-scm.com/downloads。安装很简单，除了... [阅读全文]

常用前端相关知识

1.字符串.replace(正则, function(v,i,str){ return 'xxx' }) //... [阅读全文]

身份号码校验正则表达式(很强大,建议用我的!)

functionidentityCodeValid(code){varcity={11:"北京",12:"天津"... [阅读全文]


验证码：

验证码：

基于Python正则表达式提取搜索结果中的站点地址

2017年12月08日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论