当前位置：移动技术网 > IT编程>脚本编程>Python > 基于python的scrapy框架爬取豆瓣电影及其可视化

基于python的scrapy框架爬取豆瓣电影及其可视化

2019年03月14日 | 移动技术网IT编程 | 我要评论

幼儿园托班育儿宝典,艳遇丽江电影,千手纲手禁部照

1.scrapy框架介绍

scrapy

主要介绍，spiders，engine，scheduler,downloader,item pipeline

scrapy常见命令如下：

对应在scrapy文件中有，自己增加爬虫文件，系统生成items,pipelines,setting的配置文件就这些。

items写需要爬取的属性名，pipelines写一些数据流操作，写入文件，还是导入数据库中。主要爬虫文件写domain，属性名的xpath，在每页添加属性对应的信息等。

    movierank = scrapy.field()
    moviename = scrapy.field()
    director = scrapy.field()
    moviedesc = scrapy.field()
    movierate = scrapy.field()
    peoplecount = scrapy.field()
    moviedate = scrapy.field()
    moviecountry = scrapy.field()
    moviecategory = scrapy.field()
    moviepost = scrapy.field()

import json

class doubanpipeline(object):
    def __init__(self):
        self.f = open("douban.json","w",encoding='utf-8')

    def process_item(self, item, spider):
        content = json.dumps(dict(item),ensure_ascii = false)+"\n"
        self.f.write(content)
        return item

    def close_spider(self,spider):
        self.f.close()

这里xpath使用过程中，安利一个chrome插件xpathhelper。

    allowed_domains = ['douban.com']
    baseurl = "https://movie.douban.com/top250?start="
    offset = 0
    start_urls = [baseurl + str(offset)]


    def parse(self, response):
        node_list = response.xpath("//div[@class='item']")

        for node in node_list:
            item = doubanitem()
            item['moviename'] = node.xpath("./div[@class='info']/div[1]/a/span/text()").extract()[0]
            item['movierank'] = node.xpath("./div[@class='pic']/em/text()").extract()[0]
            item['director'] = node.xpath("./div[@class='info']/div[@class='bd']/p[1]/text()[1]").extract()[0]
            if len(node.xpath("./div[@class='info']/div[@class='bd']/p[@class='quote']/span[@class='inq']/text()")):
                item['moviedesc'] = node.xpath("./div[@class='info']/div[@class='bd']/p[@class='quote']/span[@class='inq']/text()").extract()[0]
            else:
                item['moviedesc'] = ""
            
            item['movierate'] = node.xpath("./div[@class='info']/div[@class='bd']/div[@class='star']/span[@class='rating_num']/text()").extract()[0] 
            item['peoplecount'] = node.xpath("./div[@class='info']/div[@class='bd']/div[@class='star']/span[4]/text()").extract()[0]
            item['moviedate'] = node.xpath("./div[2]/div[2]/p[1]/text()[2]").extract()[0].lstrip().split('\xa0/\xa0')[0]
            item['moviecountry'] = node.xpath("./div[2]/div[2]/p[1]/text()[2]").extract()[0].lstrip().split('\xa0/\xa0')[1]
            item['moviecategory'] = node.xpath("./div[2]/div[2]/p[1]/text()[2]").extract()[0].lstrip().split('\xa0/\xa0')[2]           
            item['moviepost'] = node.xpath("./div[@class='pic']/a/img/@src").extract()[0]
            yield item

        if self.offset <250:
            self.offset += 25
            url = self.baseurl+str(self.offset)
            yield scrapy.request(url,callback = self.parse)

这里基本可以爬虫，产生需要的json文件。

接下来是可视化过程。

我们先梳理一下，我们掌握的数据情况。

douban = pd.read_json('douban.json',lines=true,encoding='utf-8')
douban.info()

基本我们可以分析，电影国家产地，电影拍摄年份，电影类别以及一些导演在top250中影响力。

先做个简单了解，可以使用value_counts()函数。

douban = pd.read_json('douban.json',lines=true,encoding='utf-8')
df_country = douban['moviecountry'].copy()

for i in range(len(df_country)):
    item = df_country.iloc[i].strip()
    df_country.iloc[i] = item[0]
print(df_country.value_counts())

美国电影占半壁江山，122/250，可以反映好莱坞电影工业之强大。同样，日本电影和香港电影在中国也有着重要地位。令人意外是，中国大陆地区电影数量不是令人满意。豆瓣影迷对于国内电影还是非常挑剔的。

douban = pd.read_json('douban.json',lines=true,encoding='utf-8')
df_date = douban['moviedate'].copy()

for i in range(len(df_date)):
    item = df_date.iloc[i].strip()
    df_date.iloc[i] = item[2]
print(df_date.value_counts())

2000年以来电影数目在70%以上，考虑10代才过去9年和打分滞后性，总体来说越新的电影越能得到受众喜爱。这可能和豆瓣top250选取机制有关，必须人数在一定数量以上。

douban = pd.read_json('douban.json',lines=true,encoding='utf-8')
df_cate = douban['moviecategory'].copy()

for i in range(len(df_cate)):
    item = df_cate.iloc[i].strip()
    df_cate.iloc[i] = item[0]
print(df_cate.value_counts())

剧情电影情节起伏更容易得到观众认可。

下面展示几张可视化图片

不太会用python进行展示，有些难看。其实，推荐用echarts等插件，或者用excel，bi软件来处理图片，比较方便和美观。

第一次做这种爬虫和可视化，多有不足之处，恳请指出。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

基于python的scrapy框架爬取豆瓣电影及其可视化

2019年03月14日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论