当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬取b站任意up主所有视频弹幕

Python爬取b站任意up主所有视频弹幕

2019年09月13日 | 移动技术网IT编程 | 我要评论

3u8886,魏晨破赵奕欢ps密照,货车追尾翻入沟中

爬取b站弹幕并不困难。要得到up主所有视频弹幕，我们首先进入up主视频页面，即这个页面。按f12打开开发者菜单，刷新一下，在network的xhr文件中有一个getsubmitvideo文件，这个文件里就有我们需要的视频av号了。如果直接抓取页面是拿不到的，因为视频是异步加载的。

在这个文件里的data标签下，有一个count是视频总数，pages是第几页，vlist就是我们要找的视频信息了，里面的aid就是每个视频的av号。它的请求链接是https://space.bilibili.com/ajax/member/getsubmitvideos?mid=av号&pagesize=30&tid=0&page=1&keyword=&order=pubdate。pagesize是每次传多少个视频信息。

拿到所有的视频av号后，我们打开视频页面。同样是按f12打开开发者菜单，刷新一下，在network的xhr中有两个文件，一个以pagelist为开头，另一个以list.so为开头。这两个文件，第一个里包含了视频的cid，第二个就是根据cid拿到的弹幕文件。同样，我们根据视频av号访问第一个文件的请求url，得到cid，再根据cid访问第二个请求url就可以了。

最后，我们对拿到的弹幕文件进行适当的整理。主要是从文件中的<d>标签中提取出弹幕文字，然后去重，计数，再储存到文件里。

import requests
from lxml import etree
import os
import json
from bs4 import beautifulsoup
from requests import exceptions
import re
import time


def download_page(url):
    headers = {
　　'user-agent':"mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.1 (khtml, like gecko) chrome/22.0.1207.1 safari/537.1"
　　}
    data = requests.get(url, headers=headers)
    return data


def get_video_page(space_num):
    base_url = "https://www.bilibili.com/av"
    url = "https://space.bilibili.com/ajax/member/getsubmitvideos?mid={}&pagesize=99&tid=0&page=1&keyword=&order=pubdate".format(space_num)
    data = json.loads(download_page(url).content)['data']
    total = data['count']
    page_num = int(total/99) + 1
    video_list = data['vlist']
    video_url = []
    for video in video_list:
        video_url.append(base_url + str(video['aid']))
    for i in range(2, page_num+1):
        time.sleep(1)
        url = "https://space.bilibili.com/ajax/member/getsubmitvideos?mid={}&pagesize=99&tid=0&page={}&keyword=&order=pubdate".format(space_num, i)
        data = json.loads(download_page(url).content)['data']
        video_list = data['vlist']
        for video in video_list:
            video_url.append(base_url + str(video['aid']))
    return video_url


def get_barrage(name, space_num):
    video_list = get_video_page(space_num)
    aid_to_oid = 'https://api.bilibili.com/x/player/pagelist?aid={}&jsonp=jsonp'
    barrage_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid={}'
    for url in video_list:
　　　　　# 降低爬取速度防止被禁
        time.sleep(1)
        aid = re.search(r'\d+$',url).group()
　　　　　# 这里有时会出现莫名其妙的错误
        try:
            oid = json.loads(download_page(aid_to_oid.format(aid)).content)['data'][0]['cid']
            barrage = download_page(barrage_url.format(oid)).content
        except requests.exceptions.connectionerror:
            print('av:',aid)
            continue
        if not os.path.exists('barrage/{}'.format(name)):
            os.makedirs('barrage/{}'.format(name))
        with open('barrage/{}/av{}.xml'.format(name,aid),'wb') as f:
            f.write(barrage)


def reorganize_barrage(name):
    results = {}
    for filename in os.listdir('barrage/{}'.format(name)):
        html = etree.parse('barrage/{}/{}'.format(name,filename), etree.htmlparser())
　　　　　# 提取出xml文件中<d>标签中的文字
        barrages = html.xpath('//d//text()')
        for barrage in barrages:
　　　　　　　# 有些弹幕会有回车符
            barrage = barrage.replace('\r', '')
            if barrage in results:
                results[barrage] += 1
            else:
                results[barrage] = 1
    if not os.path.exists('statistical result'):
        os.makedirs('statistical result')
    with open('statistical result/{}.txt'.format(name), 'w', encoding='utf8') as f:
        for key,value in results.items():
            f.write('{}\t:\t{}\n'.format(key.rstrip('\r'),value))


if __name__ == '__main__':
　　# 在space list.txt文件里，我是用“up主名称：id”的格式来储存的，
    with open('space list.txt', 'r') as f:
        for line in f.readlines():
            name, num = line.split('：')
            print(name)
            get_barrage(name, space_number)
            reorganize_barrage(name)

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：

Python爬取b站任意up主所有视频弹幕

2019年09月13日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论