当前位置：移动技术网 > IT编程>脚本编程>Python > 用Python爬取陈奕迅新歌《我们》10万条评论的新发现

用Python爬取陈奕迅新歌《我们》10万条评论的新发现

2018年04月25日 | 移动技术网IT编程 | 我要评论

语文周报,小宋当家2,乌克兰撤离重武器

最近就有一部“怀旧”题材的电影，未播先火，那就是刘若英的处女作——《后来的我们》。青春，爱情，梦想，一直是“怀旧”题材的核心要素，虽然电影现在还未上映，但先行发布的主题曲《我们》，已经虐哭了不少人。在MV里，歌声清清浅浅，诉说着那些年关于爱情里的遗憾。

“我最大的遗憾，就是你的遗憾，与我有关”，下面就一起来感受一下吧。

这首歌是《后来的我们》中的主题曲，网易云音乐上线当天便席卷千万+播放量，现如今光是网易云上面的评论就马上突破了10万条。

网易云音乐一直是我向往的“神坛“，听音乐看到走心的评论的那一刻，高山流水。于是来抓取一下歌曲的热门评论。并做成图表、词云来展示，看看相对于这首歌最让人有感受的评论内容是什么。

感觉这个还挺有意思的，简单的重复早了轮子，看看整个一个过程学习记录一下！

爬虫的基本网络操作就不记录了，下面会放出源码！

效果：

知识点1：

pip安装出现 failed to create process

解决办法：python35 -m pip install pyecharts

知识点2：

安装WordCloud时pip无法安装

解决办法：去https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 下载对应你电脑py版本和电脑环境，然后在命令窗口中pip安装。

知识点3：

Pyecharts的使用，具体可参考：https://blog.csdn.net/u013421629/article/details/78183637

运行成功后，会在当前程序目录下生成一个render.html文件，在浏览器中打开即可看到效果

知识点4：

WordCloud的使用，具体可参考：https://blog.csdn.net/fontthrone/article/details/72775865

源码：

#抓取网易云音乐热评

import requests
import re
import json


#req = request.Session()
comm_url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_551816010csrf_token=814692a9769375fcc43f179fc134a7cc'
header = {
    'Origin':'https://music.163.com',
    'Host':'music.163.com',
    'Referer':'https://music.163.com/songid=551816010',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
    }

##########################

#post key 数据
user_data = {
    'params':'0azFNHOQXrQR3kUdGq6ILvm7trulgN++kAard2ModFG2SiakjPNcHoc6FK//vCQJlG/2uoRQeCdFrmNHgv1TStIAfMQxvQKPoXFymF0NJFsfQClakpk2+qAcFsmckmKV+gsJxFOyt/7h2tK717d1oOPE5KfGRUDXdFyLNOtm5oNq0YTaKZb9wz8XHQEp8L1if4e5xWiWId91eGWS3zvRKFHDh6Bom5cUjp6zlFUrJro=',
    'encSecKey':'24105f0c5aa04aa4b24b2c9a06646974e03c8c6b74320fc662bf84432d97f9ed05fd48df6a970f6b377dff894bd3f13e362a870d997732320f51b631b190f4c9a0201070f691591510a858cc54fd962ef1ff445dcc8493e021e4524e8057ceefc82584272176e181501f7e5394da126ea058cedd30544ad304871b82db4cdee4'
    }


result = requests.post(comm_url,headers = header,data = user_data,timeout = 8)
result.encoding = "utf-8"
data = json.loads(result.text)

print(result)

hot_comments = []

#获取热评
for hot_comment in data['hotComments']:
    item = {
        'nickname' : hot_comment['user']['nickname'],
        'content' : hot_comment['content'],
        'likedCount' : hot_comment['likedCount']
        }
    hot_comments.append(item)
    

nickname_list = [content['nickname'] for content in hot_comments ]
content_list = [content['content'] for content in hot_comments ]
likedCount_list = [content['likedCount'] for content in hot_comments ]


#统计图表
from pyecharts import Bar

bar = Bar("热评中点赞示例图")
bar.add("点赞数",nickname_list,likedCount_list,is_stack = True,mark_line = ["min","max"],mark_point=["average"],is_more_utils=True)
bar.render()

#词图
from wordcloud import WordCloud
import matplotlib.pyplot as plt

content_text = " ".join(content_list)

wordcloud = WordCloud(font_path=r'C:\Users\S.Assassaisn\Desktop\123.ttf' ,max_words=200,width=1920, height=1080).generate(content_text)

plt.figure()
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis('off')
plt.show()

print("ok!!!")

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]