当前位置：移动技术网 > IT编程>脚本编程>Python > 利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

利用selenium和ffmpeg爬取m3u8 ts视频《进击的巨人》

2019年10月10日 | 移动技术网IT编程 | 我要评论

龙血武帝,ed2k 泷泽萝拉,stand up 吴智敏

需求

想看下动漫《进击的巨人》,发现到处被和谐，找不到资源，但是在一个视频网站找到了在线播放，，然而不能下载下来（喜欢的东西我一般都看很多遍）

找了下，网站没发现robots协议，加上我用的和真人浏览差不多的效率来爬取，应该ok的

于是想爬虫爬取下，但是看源代码发现视频是m3u8的ts流，而且是双层m3u8的，并且m3u8地址还隐藏在js代码中，于是有2种处理方法：

1.直接requests源码，把js代码的部分逐字解析，找出m3u8地址。

2.直接调用浏览器渲染，将渲染后的网页代码拿到，就可以看到iframe标签中src地址了

获取到首层m3u8地址后就简单了，直接requests请求到第二层m3u8地址，这就是真实地址了，下载后可以看到是很多的ts流小文件，于是有2种处理方法了：

1.直接逐个获取ts地址，然而写到本地磁盘的同一个文件，最后转码到mp4(ts格式太占空间)

2.直接调用ffmpeg，能根据m3u8地址下载ts流并合并为一个文件且同步转码为mp4

上述均采用第二种方法，于是写出个简单的该网站的视频爬虫

源代码

from selenium import webdriver
from bs4 import beautifulsoup
import re
import requests
import os

if __name__ == '__main__':
    urls = ['https://www.55cc.cc/dongman/17890/player-2-'+str(n)+'.html' for n in range(1,14,)]
    for url in urls:
        browser = webdriver.firefox()
        browser.get(url)
        htmldata=browser.page_source
        browser.close()
        soup = beautifulsoup(htmldata,'html.parser')
        m3u8 = re.findall(r'(https://\s+)',soup.select('iframe[name="iframe_play"]')[0].get('src')[1::1])[0]
        r = requests.get(m3u8).text
        m3u8_rel = m3u8.replace('index.m3u8','')+re.split('\n',r)[-1]
        ffmpeg = '"c:\\soft\\ffmpeg\\bin\\ffmpeg.exe"'
        output = "f:\\进击的巨人\\第三季\\"+soup.title.string.replace('集在线观看_动漫_五五影院','').replace(' ','')+".mp4"
        cmd = ffmpeg+" -i "+m3u8_rel+" -vcodec copy -acodec copy "+output
        os.system(cmd)

执行结果

总结

每次都要启动浏览器，有点儿膈应人，后面还是改成headless浏览器即无界面浏览器(无头浏览器)来渲染

12集都要顺序执行下载，有点儿慢，后续改成并发执行，一次性同步并发执行12条cmd命令来下载，即多进程方式

优化后

把共12集由原来的串行爬取改为并行爬取，增加效率

from selenium import webdriver
from bs4 import beautifulsoup
import re
import requests
import os

if __name__ == '__main__':
    urls = ['https://www.55cc.cc/dongman/17890/player-2-'+str(n)+'.html' for n in range(1,14,)]
    cmds = []
    command = ''
    for url in urls:
        browser = webdriver.firefox()
        browser.get(url)
        htmldata=browser.page_source
        browser.close()
        soup = beautifulsoup(htmldata,'html.parser')
        m3u8 = re.findall(r'(https://\s+)',soup.select('iframe[name="iframe_play"]')[0].get('src')[1::1])[0]
        r = requests.get(m3u8).text
        m3u8_rel = m3u8.replace('index.m3u8','')+re.split('\n',r)[-1]        
        output = "f:\\进击的巨人\\第三季\\"+soup.title.string.replace('集在线观看_动漫_五五影院','').replace(' ','')+".mp4"
        cmd ="ffmpeg -i "+m3u8_rel+" -vcodec copy -acodec copy "+output
        cmds.append(cmd)
        #os.system(cmd)
    for i in cmds:
        command+='start cmd /c "'+i+'"&'
    os.system(command[:-1:])

知识点

尝试过you-get来爬，不过好像不好用，也许是我菜

浏览器动态渲染 webkit；

python中动态网页爬取方式：

dryscape 作者已经不再维护了，并且作者推荐的库仅是python2，已凉凉；

selenium 可以，但是缺点是必须要打开浏览器；

phantom js，无头浏览器，无界面浏览器， headless ，借助之可以模拟webkit执行，但是phantom js停止更新了且selenium不支持它了，也凉凉；

chrome headless 或者firefox headless可以替代phantom js（建议使用，毕竟官方出品，比开源项目动不动有大坑，比如phantomjs坑1000+，或者没人维护等等毛病）

puppeteer也可以替代phantom js ，pyppeteer是其python实现库但是有问题不成熟，不建议用

tampermonkey油猴插件，自动交互，用js注入，可以对网页各种花式操作，比如给网页注入个下载按钮啥的（油猴可以自动交互但不好监控网络请求，chrome extension 可以监控请求但没法监控响应，cdp 全部都可以做但是不好操作 dom）

cheerio 针对dom的

appium是针对手机端的，一般由于手机端性能问题，反爬策略较少，对于pc端实在没法子的，可以从手机端操作

selenium被识别的程度越来越高，阿里的网站瞬间能识别,但是识别了并不会告诉你，而是返回给你和真人不一样的结果

一般小型网站，直接webkit渲染即可，最简单通用的方式是用 headless 的浏览器，完全模拟人工操作，增大 ip 池，降低访问评率。缺点是效率低，资源成本高

大型网站，是有价值去仔细分析的，一般都是前后分离，传输数据都是json，找到接口requests即可，但是对于加密的，直接请求又可能不行

无头浏览器的资源占用太多，能不用就不用

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]