当前位置：移动技术网 > IT编程>脚本编程>Python > python正则表达式抓取成语网站

python正则表达式抓取成语网站

2019年04月02日 | 移动技术网IT编程 | 我要评论

1、首先找到一个在线成语网站

2、查看网页结构，定义正则式

看一下要抓的成语的标签有什么特点，查看源码，可以发现要抓的成语都在<a>标签中，如:<a href="/cy0/93.html">安如磐石</a>，成语事实上就是一个瞄文本，不同成语指向的链接不同，其实也就"/cy0/93.html"中的数字不同，所以正则式里匹配两次数字就行了，定义正则式 reg = "<a href=\"/cy(\d+)/(\d+).html\">(.*?)</a>"。
3、上代码吧

复制代码代码如下:

#anthor jiqunpeng
#time 20121124
import urllib
import re

def gethtml(url): #从url中读取html内容
    page = urllib.urlopen(url)
    html = page.read()
    page.close()
    return html

def getdictionary(html): #匹配成语
    reg = "<a href=\"/cy(\d+)/(\d+).html\">(.*?)</a>"
    diclist = re.compile(reg).findall(html)
    return diclist

def getitemsite():#手工把每个字母开头的页面数统计下来
    itemsite = {}#申明为空字典
    itemsite["a"] = 3
    itemsite["b"] = 21
    itemsite["c"] = 19
    itemsite["d"] = 18
    itemsite["e"] = 2
    itemsite["f"] = 14
    itemsite["g"] = 13
    itemsite["h"] = 15
    itemsite["j"] = 23
    itemsite["k"] = 6
    itemsite["l"] = 15
    itemsite["m"] = 12
    itemsite["n"] = 5
    itemsite["o"] = 1
    itemsite["p"] = 6
    itemsite["q"] = 16
    itemsite["r"] = 8
    itemsite["s"] = 26
    itemsite["t"] = 12
    itemsite["w"] = 13
    itemsite["x"] = 16
    itemsite["y"] = 35
    itemsite["a"] = 21
    return itemsite

if __name__== "__main__":
    dicfile = open("dic.txt","w+")#保存成语的文件
    domainsite = "http://chengyu.itlearner.com/list/"
    itemsite = getitemsite()
    for key,values in itemsite.items():
        for index in range(1,values+1):
            site = key +"_"+str(index)+".html"
            dictionary = getdictionary(gethtml(domainsite+site))
            for dic in dictionary:
                dicfile.write(dic[2]+"@@cy\n")#标记为成语，分词时使用
        print key+'字母成语抓取完毕'
    dicfile.close()
    print '全部成语抓取完毕'

把成语保存在了txt文本中，还添加了一个后缀标签。
最后注意，设计正则表达式时可能会出现明明认为是正确的，就是匹配不了，对空白字符要留意，比如说要解析：

复制代码代码如下:

</div>

你看不出第一行与第二行的空白字符是什么，可以index = html.find('avatar_name')，html[4677:4677+100]看到非空白字符。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

序列化Python对象的方法

问题你需要将一个python对象序列化为一个字节流，以便将它保存到一个文件、存储到数据库或者通过网络传输它。解决方案对于序列化最普遍的做法就是使用 pickle... [阅读全文]
Python实现弹球小游戏

本文主要给大家分享一个实战项目，通过python代码写一款我们儿时大多数人玩过的游戏---小弹球游戏。只不过当时，我们是在游戏机上玩，现在我们通过运行代码来玩，... [阅读全文]
Python Flask异步发送邮件实现方法解析

第一步，修改工厂函数，配置邮件参数from flask import flaskfrom config import configfrom flask_sqla... [阅读全文]
Python sqlalchemy时间戳及密码管理实现代码详解

一、时间戳实际开发中，我们一般希望create_time和update_time这两个属性能自动设置，所以在建表的时候需要在model上特殊处理一下：from ... [阅读全文]
python中的django是做什么的

django是什么？django是一个基于python的web应用框架。它与python的另外一个web 框架 flask最大的区别是，它奉行 “包含一切” 的... [阅读全文]
Python过滤序列元素的方法

问题你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列解决方案最简单的过滤序列元素的方法就是使用列表推导。比如：>>> myli... [阅读全文]
python中selenium库的基本使用详解

什么是seleniumselenium 是一个用于web应用程序测试的工具。selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括i... [阅读全文]
Python在字符串中处理html和xml的方法

问题你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, ... [阅读全文]
Python如何将字符串转换为日期

问题你的应用程序接受字符串格式的输入，但是你想将它们转换为 datetime 对象以便在上面执行非字符串操作。解决方案使用python的标准模块 datetim... [阅读全文]
Python使用shutil模块实现文件拷贝

主要作用与拷贝文件用的。1.shutil.copyfileobj(文件1，文件2)：将文件1的数据覆盖copy给文件2。import shutilf1 = op... [阅读全文]

网友评论


验证码：

python正则表达式抓取成语网站

2019年04月02日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论