当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬取豆瓣电影评分Top250

Python爬取豆瓣电影评分Top250

2020年07月11日 | 移动技术网IT编程 | 我要评论

Python爬取豆瓣电影评分Top250

抓取第一页的电影信息

在这里插入图片描述
抓取信息如下：

上一节已经学习过了 —＞这是传送门
本节重点在如何抓取下一页面的信息，使250个电影信息全部收集到。

多页抓取，搜集完整250部电影信息

代码写法根据每个网页的特点不同而不同，发现豆瓣网页翻页是通过/top250?start=xxx&filter= 更改xxx的值实现的，不像某些网站采用异步操作。那写一个while循环即可。源码如下：

import requests
from lxml import etree

print("豆瓣年度电影信息")
print("--------------")
num = 0
while num <=225:
    url='https://movie.douban.com/top250?start='+str(num)+'&filter='
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
    }
    response=requests.get(url,headers = header)
    #print(response.status_code)
    #print(response.text)

    obj = etree.HTML(response.text)
    #print(obj)
    item = obj.xpath('.//ol[@class="grid_view"]/li')
    #print(len(item))
    for i in item:
        try:
            title=i.xpath('./div/div[2]/div[@class="hd"]/a/span[1]')[0].text
            print(title)
        except:
            pass
        try:
            score=i.xpath('./div/div[2]/div[@class="bd"]/div/span[2]')[0].text
            print("评分:",score)
        except:
            pass
        try:
            comment=i.xpath('./div/div[2]/div[@class="bd"]/p[@class="quote"]/span')[0].text
            print(comment)
        except:
            pass
        print("-------------------")
    num = num+25

运行截图：
在这里插入图片描述
信息存在格式不匹配的地方。比如《九品芝麻官》是没有简介的，这个时候异常抛出就好了。

本文地址：https://blog.csdn.net/qq_46157589/article/details/107221635

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python高效率处理图像显示图像方案

def Work_thread(self): # ch:创建显示的窗口 | en:Create t... [阅读全文]
Python bisect模块的使用与源码分析

文章目录1. 模块简介2. 源码分析及使用2.1. 方法概述2.2. 使用2.3. 源码分析本文基于Python... [阅读全文]
python编解码,decode参数设置:ignore

binascii.unhexlify(hex_str).decode('utf8','ignore') ... [阅读全文]
用法查询笔记（2）

1.Python的三种排序方式sort()函数格式1：列表.sort()升序排序格式2：列表.sort(reve... [阅读全文]
最简单的计算器编码!

功能介绍：使用python实现简单的±*/^()运算.要求：命令行输入表达式输入10(-10)~10(10)整数... [阅读全文]
python之路_运算符类别、操作及其优先级

1.运算符1.1 运算符的概念运算符用于执行程序代码运算，会针对一个以上操作数项目来进行运算。例如：1 - 3，... [阅读全文]
荐 python之赋值、浅拷贝和深拷贝

概念python中的对象包含三个属性，id、type和value，id代表着对象唯一的标识符，是独一无二的，cp... [阅读全文]
win10下搭建anaconda3虚拟环境

win10搭建anaconda3虚拟环境步骤:1 配置环境变量2 创建新的虚拟环境3 解决[WinError 1... [阅读全文]
Windows10 下Anaconda环境Python3.7 安装dlib库最简单方法无需cmake

想安装face_recognition库，要先安装dlib库，看了各位大佬推荐的方法确实很麻烦，需要单独编译一个... [阅读全文]
基于Python的聊天室

本项目是一个在线的聊天室项目，主要运用了python的tkinter图形库、threading多线程库，以及so... [阅读全文]

网友评论


验证码：

Python爬取豆瓣电影评分Top250

2020年07月11日 | 移动技术网IT编程 | 我要评论

Python爬取豆瓣电影评分Top250

抓取第一页的电影信息

多页抓取，搜集完整250部电影信息

您可能感兴趣的文章:

相关文章:

网友评论