当前位置：移动技术网 > IT编程>脚本编程>Python > 基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

2019年01月31日 | 移动技术网IT编程 | 我要评论

哈辛考尔在哪,杰夫哈迪吸毒,班级座右铭

爬取豆瓣top250电影的评分、海报、影评等数据！

本项目是爬虫中最基础的，最简单的一例；
后面会有利用爬虫框架来完成更高级、自动化的爬虫程序。
此项目过程是运用requests请求库来获取html，再用正则表达式来解析从中获取所需数据。

话不多说，直接上代码，盘！（具体代码解释在代码旁边）

1.加载包，requests请求库，re是正则表达式的包，json是后面来把字典序列化的包；

#请求库：requests    解析工具：正则表达式
import requests
import re
import json
import time

2.用requests库通过url获取响应，得到html文本。

def get_one_page(url):
    #头部的定义，自己在网页中可以获取（网页右击检查，network中的header）
    headers={
        'user-agent':'ozilla/5.0 (iphone; cpu iphone os 11_3 like mac os x) applewebkit/605.1.15 (khtml, like gecko) mobile/15e5216a qq/7.5.5.426 v1_iph_sq_7.5.5_1_app_a pixel/1080 core/uiwebview device/apple(iphone 8plus) nettype/wifi qbwebviewtype/1'
        }
    response=requests.get(url,headers=headers)
    if response.status_code==200:  #只有status_code为200时才表示响应正确
        return response.text
    return none

3.用正则表达式从html中匹配出想要数据

def parse_one_page(html):
    #re.compile是把正则化字符串对象化，方便复用。
    pattern=re.compile('<li>.*?<em\sclass.*?>(.*?)</em>.*?<img.*? src="(.*?)".*?title">(.*?)<.*?<p class="">(.*?)</p>.*?rating_num.*?>(.*?)<.*?<span>(.*?)</span>.*?.*?inq">(.*?)<.*?</li>',re.s)
    items=re.findall(pattern,html)
    #列表形成字典（通过findall获取的数据是一条条记录，形成一个列表）
    
    for item in items:
        yield{'index':item[0],  #电影排名
              'image':item[1],  #电影海报
              'title':item[2],  #电影名称
              'actor':item[3],  #电影导演，主演
              'score':item[4],  #评分
              'people_num':item[5],  #多少人评价
              'evaluate':item[6]     #影评
                }

4.把获得的数据存入到txt文件当中去

def write_to_file(content):
    #创建或打开result.txt以追加的读写方式写入数据
    with open('result.txt','a',encoding='utf-8') as f:
        print(json.dumps(content,ensure_ascii=false))  #json.dumps()用于把字典序列化，方便写入txt文件
        f.write(json.dumps(content,ensure_ascii=false)+'\n')

5.通过改变url中start的值来实现换页，进行下一页的切换。

def main(start):
    #更换url中的start值来切换页面，具体更换的数值要更具实际情况而变
    url='https://movie.douban.com/top250?start='+str(start)+'&filter='
    html=get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)
        
if __name__=='__main__':
    for i in range(10):
        start=i*25
        main(start)
        time.sleep(1)#防止请求过快被网页检测出来，休眠1秒

本文所有代码复制可以直接运行欧！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]