当前位置：移动技术网 > IT编程>脚本编程>Python > 爬取豆瓣电影信息

爬取豆瓣电影信息

2018年12月10日 | 移动技术网IT编程 | 我要评论

秒点qq图标,班内网,动感之星官网

昨天写了一个小爬虫，爬取了豆瓣上2017年中国大陆的电影信息，网址为豆瓣选影视，爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接，并保存到mongodb中。

一开始用的本机的ip地址，没用代理ip，请求了十几个网页之后就收不到数据了，报http错误302，然后用浏览器打开网页试了一下，发现浏览器也是302。。。

但是我不怕，我有代理ip，哈哈哈！详见我前一篇随笔：爬取代理ip。
使用代理ip之后果然可以持续收到数据了，但中间还是有302错误，没事，用另一个代理ip请求重新请求一次就好了，一次不行再来一次，再来一次不行那就再再来一次，再再不行，那。。。

下面附上部分代码吧。

1.爬虫文件

import scrapy
import json
from douban.items import doubanitem


parse_url = "https://movie.douban.com/j/new_search_subjects?sort=u&range=0,10&tags=%e7%94%b5%e5%bd%b1&start={}&countries=%e4%b8%ad%e5%9b%bd%e5%a4%a7%e9%99%86&year_range=2017,2017"


class cn2017spider(scrapy.spider):
    name = 'cn2017'
    allowed_domains = ['douban.com']
    start_urls = ['https://movie.douban.com/j/new_search_subjects?sort=u&range=0,10&tags=%e7%94%b5%e5%bd%b1&start=0&countries=%e4%b8%ad%e5%9b%bd%e5%a4%a7%e9%99%86&year_range=2017,2017']


    def parse(self, response):
        data = json.loads(response.body.decode())
        if data is not none:
            for film in data["data"]:
                print(film["url"])
                item = doubanitem()
                item["url"] = film["url"]
                yield scrapy.request(
                    film["url"],
                    callback=self.get_detail_content,
                    meta={"item": item}
                )

        for page in range(20,3200,20):
            yield scrapy.request(
                parse_url.format(page),
                callback=self.parse
            )


    def get_detail_content(self,response):
        item = response.meta["item"]
        item["film_name"] = response.xpath("//div[@id='content']//span[@property='v:itemreviewed']/text()").extract_first()
        item["director"] = response.xpath("//div[@id='info']/span[1]/span[2]/a/text()").extract_first()
        item["scriptwriter"] = response.xpath("///div[@id='info']/span[2]/span[2]/a/text()").extract()
        item["starring"] = response.xpath("//div[@id='info']/span[3]/span[2]/a[position()<6]/text()").extract()
        item["type"] = response.xpath("//div[@id='info']/span[@property='v:genre']/text()").extract()
        item["release_date"] = response.xpath("//div[@id='info']/span[@property='v:initialreleasedate']/text()").extract()
        item["running_time"] = response.xpath("//div[@id='info']/span[@property='v:runtime']/@content").extract_first()
        item["score"] = response.xpath("//div[@class='rating_self clearfix']/strong/text()").extract_first()
        # print(item)
        if item["film_name"] is none:
            # print("*" * 100)
            yield scrapy.request(
                item["url"],
                callback=self.get_detail_content,
                meta={"item": item},
                dont_filter=true
            )
        else:
            yield item

2.`items.py`文件

import scrapy


class doubanitem(scrapy.item):
    #电影名称
    film_name = scrapy.field()
    #导演
    director = scrapy.field()
    #编剧
    scriptwriter = scrapy.field()
    #主演
    starring = scrapy.field()
    #类型
    type = scrapy.field()
    #上映时间
    release_date = scrapy.field()
    #片长
    running_time = scrapy.field()
    #评分
    score = scrapy.field()
    #链接
    url = scrapy.field()

3.`middlewares.py`文件

from douban.settings import user_agent_list
import random
import pandas as pd


class useragentmiddleware(object):
    def process_request(self, request, spider):
        user_agent = random.choice(user_agent_list)
        request.headers["user-agent"] = user_agent
        return none


class proxymiddleware(object):
    def process_request(self, request, spider):
        # called for each request that goes through the downloader
        # middleware.
        ip_df = pd.read_csv(r"c:\users\administrator\desktop\douban\douban\ip.csv")
        ip = random.choice(ip_df.loc[:, "ip"])
        request.meta["proxy"] = "http://" + ip
        return none

4.`pipelines.py`文件

from pymongo import mongoclient

client = mongoclient()
collection = client["test"]["douban"]

class doubanpipeline(object):
    def process_item(self, item, spider):
        collection.insert(dict(item))

5.`settings.py`文件

downloader_middlewares = {
    'douban.middlewares.useragentmiddleware': 543,
    'douban.middlewares.proxymiddleware': 544,
}

item_pipelines = {
   'douban.pipelines.doubanpipeline': 300,
}

robotstxt_obey = false
download_timeout = 10
retry_enabled = true
retry_times = 10

程序共运行1小时20分21.473772秒，抓取到2986条数据。

最后，
还是要每天开心鸭！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：

爬取豆瓣电影信息

2018年12月10日 | 移动技术网IT编程 | 我要评论

1.爬虫文件

2.items.py文件

3.middlewares.py文件

4.pipelines.py文件

5.settings.py文件