用python爬取B站弹幕并绘制词云_Python

用python爬取B站弹幕并绘制词云

最近在B站发现一个弹琵琶的小姐姐，真的是人美歌甜啊啊啊，所以打算爬取她的视频来分析弹幕同时制作词云。

查找相关信息之后发现，爬取B站弹幕的API接口有两个，分别是

https://api.bilibili.com/x/v1/dm/list.so?oid=cid
http://comment.bilibili.com/+cid+.xml

后面需要加上需要爬取的视频文件的cid。B站的每个视频都有自己独特的av号，bv号和cid。通过av号和bv号可以确定视频的地址，cid可以确定弹幕文件的地址。

任意打开一个弹幕文件，例如

http://comment.bilibili.com/197603144.xml

在这里插入图片描述
我们可以发现弹幕就在这个网页文件中。

获取B站视频的cid
打开B站，任意找一个视频，右键单击鼠标，点击“检查”。

打开视频，在右边的Network中找heartbeat文件，其中就有对应的cid（也有aid也就是av号和bvid也就是bv号）。

import imageio as imageio   #加载图片
import requests             #发出请求
import re                   #内置库 用于匹配正则表达式
import csv                  #文件格式
import jieba                #中文分词
import wordcloud            #绘制词云

cid=input('please input a cid:')
#url = 'https://api.bilibili.com/x/v1/dm/list.so?oid='+cid
url='http://comment.bilibili.com/'+cid+'.xml'
#获取完整的弹幕文件url
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36"
}
#请求头，模仿浏览器行为
response = requests.get(url,headers=headers)
# print(response.content.decode('utf-8'))
html_doc = response.content.decode('utf-8')
#把编码转化为utf_8编码
res = re.compile('<d.*?>(.*?)</d>')
#正则表达式匹配弹幕
danmu = re.findall(res,html_doc)
#写入csv文件
for i in danmu:
    with open('b站弹幕.csv','a',newline='',encoding='utf-8-sig') as file:
        writer = csv.writer(file)
        danmu = []
        danmu.append(i)
        writer.writerow(danmu)
# 显示数据
f = open('b站弹幕.csv',encoding='utf-8')
txt = f.read()
print(txt)
f.close()

txt_list = jieba.lcut(txt)    #精确分词
string = ' '.join((txt_list))
img='C:/Users/lenovo/Pictures/20200505101029364.png'
#本地图片
mk = imageio.imread(img)
#控制词云形状的重要参数
w = wordcloud.WordCloud(max_font_size=70,
                        background_color='white',
                        font_path='C:/Windows/SIMLI.TTF',
                        mask=mk,
                        scale=3)
w.generate(string)   #生成词云的关键一步
w.to_file('pycloud.png')

在这里插入图片描述

到这里我们成功的找到B站的弹幕文件，同时按照词频生成了词云。关于更加详细的制作词云，也就是jieba库和wordcloud库的知识可以移步这篇文章https://blog.csdn.net/weixin_46530492/article/details/106832412

本文地址：https://blog.csdn.net/weixin_46530492/article/details/107190708

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

接口测试平台代码实现1:环境和所需技术

本节主要是要介绍下，做一个这样的测试平台，都需要提取掌握哪些技术呢？还没掌握的可以在看完本节之后，去好好学习一下... [阅读全文]

IOS上的monkey测试探索（一）

应领导要求，需要我提供一个IOS端app稳定性测试的解决方案，于是我这个对IOS仅限于日常使用的小白开始了探索之... [阅读全文]

ndk安装目录

ndk的安装目录，有如下:build(一些构建脚本，由python脚本，.cmake脚本，.mk脚本，.sh脚本... [阅读全文]

Cocos2d-lua下的Mac/ios启动流程

Cocos2d-lua下的Mac/ios启动流程提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加... [阅读全文]

python 星号(*)的多种用途

结论概括的来说，就是对修饰的变量进行拆分, 对修饰的形式参数进行参数聚集。单*号，将被修饰的变量按元素方式拆分, 对修饰的形式参数进行参数聚集。双**号，将被修... [阅读全文]

python打包多类型文件的操作方法

环境win10, python3.7，pyinstaller3.6一下载pyinstaller（1）cmd中pip install pyinstaller（2... [阅读全文]

如何从csv文件构建Tensorflow的数据集

从csv文件构建tensorflow的数据集当我们有一系列csv文件，如何构建tensorflow的数据集呢?基本步骤获得一组csv文件的路径将... [阅读全文]

python如何实现DES加密

加密流程首先说一下置换的意思，比如说有5678这个字符串，置换表为2143，置换表中的数表示的是位置，所以字符串变成6587。所有的置换表在程序中。（s盒置换不... [阅读全文]

Go语言实现IP段范围校验示例

背景近期做了一个需求，是检测某个 ip 是否在若干 ip 段内，做固定地点 ip 筛查，满足特定业务需求。解决方案plan a 点分十进制范围区分简单来讲，就是... [阅读全文]

Python 实现国产SM3加密算法的示例代码

sm3是中华人民共和国政府采用的一种密码散列函数标准，由国家密码管理局于2010年12月17日发布。主要用于报告文件数字签名及验证。python3代码如下：fr... [阅读全文]


验证码：

验证码：

用python爬取B站弹幕并绘制词云

2020年07月08日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论