当前位置：移动技术网 > IT编程>脚本编程>Python > 记一次简单爬虫(豆瓣/dytt)

记一次简单爬虫(豆瓣/dytt)

2018年11月20日 | 移动技术网IT编程 | 我要评论

情侣个性签名,魏语诺个人资料,云轩阁小说下载

磕磕绊绊学python一个月，这次到正则表达式终于能写点有趣的东西，在此作个记录：

—————————————————————————————————————————————————

1.爬取豆瓣电影榜前250名单

运行环境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, jun 27 2018, 04:59:51) [msc v.1914 64 bit (amd64)]

成品效果：

相关代码：

 1 from urllib.request import urlopen
 2 import re
 3 # import ssl  # 若有数字签名问题可用
 4 # ssl._create_default_https_context = ssl._create_unverified_context
 5 
 6 
 7 # 写正则规则
 8 obj = re.compile(r'<div class="item">.*?<span class="title">(?p<name>.*?)</span>.*?导演:(?p<daoyan>.*?)&nbsp;.*?'
 9                  r'主演:(?p<zhuyan>.*?)<br>\n                            (?p<shijian>.*?)&nbsp;/&nbsp;(?p<diqu>.*?)&nbsp;'
10                  r'/&nbsp;(?p<leixing>.*?)\n.*?<span class="rating_num" property="v:average">(?p<fen>.*?)</span>.*?<span>'
11                  r'(?p<renshu>.*?)评价</span>.*?<span class="inq">(?p<jianping>.*?)</span>',re.s)  # re.s 干掉换行
12 
13 # 转码 获取内容
14 def getcontent(url):
15     content = urlopen(url).read().decode("utf-8")
16     return content
17 
18 # 匹配页面内容 返回一个迭代器
19 def parsecontent(content):
20     iiter = obj.finditer(content)
21     for el in iiter:
22         yield {
23             "name":el.group("name"),
24             "daoyan":el.group("daoyan"),
25             "zhuyan":el.group("zhuyan"),
26             "shijian":el.group("shijian"),
27             "diqu":el.group("diqu"),
28             "leixing":el.group("leixing"),
29             "fen":el.group("fen"),
30             "renshu":el.group("renshu"),
31             "jianping":el.group("jianping")
32         }
33 
34 
35 for i in range(10):
36     url = "https://movie.douban.com/top250?start=%s&filter=" % (i*25)  # 循环页面10
37     print(url)
38     g = parsecontent(getcontent(url))  # 匹配获取的内容返回给g
39     f = open("douban_movie.txt",mode="a",encoding="utf-8")
40     for el in g:
41         f.write(str(el)+"\n")  # 写入到txt 注意加上换行
42 
43     # f.write("==============================================")  # 测试分页
44     f.close()

2.爬取某站最新电影和下载地址

运行环境：

pycharm-professional-2018.2.4

3.7.0 (v3.7.0:1bf9cc5093, jun 27 2018, 04:59:51) [msc v.1914 64 bit (amd64)]

成品效果：

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

记一次简单爬虫(豆瓣/dytt)

2018年11月20日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论