当前位置：移动技术网 > IT编程>脚本编程>Python > python爬取3万+条评论，解读猫眼评分9.5的《海王》是否值得一看？

python爬取3万+条评论，解读猫眼评分9.5的《海王》是否值得一看？

2020年03月25日 | 移动技术网IT编程 | 我要评论

开心色网,广州天河客运站电话,幼童头卡婴儿车

海王

前言

2018年12月7日，本年度最后一部压轴大片《海王》如期上映，目前猫眼评分达到9.5分，靠着1.5亿美金的制作成本，以小博大，目前票房接近9亿，本文爬取了猫眼3w+条评论，多方位带你解读是否值得一看！！其实(yin)我(wei)也(mei)没(qian)看!

除了这个案例。我还会在裙里分享各种有趣的python项目案例视频教程，有兴趣的可以来我的python学习免肥解答.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，这里还有资深程序员分享以前学习心得，学习笔记，还有一线企业的工作经验等

海王

数据爬取

现在猫眼电影网页似乎已经全部服务端渲染了，没有发现相应的评论接口，参考了之前其他文章中对于猫眼数据的爬取方法，找到了评论接口！

检查网页发现无评论链接.png

接口有了，但是没有对应的电影id，不过这难不倒我们，使用猫眼app+charles，我们成功找到海王对应的电影id；

电影id获取

接下来爬取评论：

#获取数据
def get_data(url):
    headrs = {
        "user-agent": "mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/51.0.2704.103 safari/537.36"
    }
    html = request(method='get',url=url,headers=headrs)
    if html.status_code == 200:
        return html.content
    else:
        return none

解析接口返回数据

#处理接口返回数据
def parse_data(html):
    json_data = json.loads(html,encoding='utf-8')['cmts']
    comments = []
    try:
        for item in json_data:
            comment = {
                'nickname':item['nickname'],
                'cityname':item['cityname'] if 'cityname' in item else '',
                'content':item['content'].strip().replace('\n',''),
                'score':item['score'],
                'starttime': item['starttime']
            }
            comments.append(comment)
        return comments
    except exception as e:
        print(e)

处理链接及存储数据

def change_url_and_save():
    start_time = time.strftime('%y-%m-%d %h:%m:%s',time.localtime(time.time())).replace(' ','%20')
    end_time = '2018-12-07 00:00:00'
    while start_time > end_time:
        url = "http://m.maoyan.com/mmdb/comments/movie/249342.json?v=yes&offset=15&starttime="+start_time
        html = none
        try:
            html = get_data(url)
        except exception as e:
            time.sleep(0.5)
            html = get_data(url)
        else:
            time.sleep(0.1)
        comments = parse_data(html)
        start_time = comments[14]['starttime']
        print(start_time)
        t = datetime.datetime.now()
        start_time = time.strptime(start_time,'%y-%m-%d %h:%m:%s')
        start_time = datetime.datetime.fromtimestamp(time.mktime(start_time))+datetime.timedelta(seconds=-1)
        start_time = time.mktime(start_time.timetuple())
        start_time = time.strftime('%y-%m-%d %h:%m:%s',time.localtime(start_time)).replace(' ', '%20')
        for item in comments:
            print(item)
            with open('/users/mac/desktop/h5doc/h5learn/reptile/comments.txt', 'a', encoding='utf-8')as f:
                f.write(item['nickname'] + ',' + item['cityname'] + ',' + item['content'] + ',' + str(item['score']) +','+ item[
                    'starttime'] + '\n')

最终我们获取到了大约33000条数据

评论数据.png

数据分析

数据分析我们使用了百度的pyecharts、excel以及使用wordcloud生成词云
首先看一下，评论分布热力图：

观众分布热力图

京津冀、长三角、珠三角等在各种榜单长期霸榜单的区域，在热力图中，依然占据着重要地位。而新一线的川渝、郑州武汉紧随其后！
下面是评论数前20的城市

评论数主要分布城市

评论全国分布图：

评论分布城市

由图中可以看出基本与热力图相似，主要分布在各大一线、新一线城市，对于杭州为何会排在第17的位置，我觉得可能是阿里大本营，大家都用淘票票的缘故吧！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：