当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬取知乎上搞笑视频，一顿爆笑送给大家

Python爬取知乎上搞笑视频，一顿爆笑送给大家

2019年11月25日 | 移动技术网IT编程 | 我要评论

保定小姐,文松小品搞笑大全,www.jxedt.cc

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：huangwei ai

来源：python与机器学习之路

ps：如有需要python学习资料的小伙伴可以加点击下方链接自行获取

最近小编经常刷知乎上的一个问题“你见过哪些是「以为是个王者，结果是个青铜」的视频或图片？”。从这个问题我们就已经可以看出来里面的幽默成分了，点进去看果然是笑到停不下来。于是，我想一个个点进去看，还不如把这些视频都下载下来，享受一顿爆笑。

获取url

我们使用google浏览器的“开发者工具”获取网页的url，然后用requests.get函数获得json文件，再使用json.loads函数转换成python对象：

1 url = "https://www.zhihu.com/api/v4/questions/312311412/answers?include=data%5b%2a%5d.is_normal%2cadmin_closed_comment%2creward_info%2cis_collapsed%2cannotation_action%2cannotation_detail%2ccollapse_reason%2cis_sticky%2ccollapsed_by%2csuggest_edit%2ccomment_count%2ccan_comment%2ccontent%2ceditable_content%2cvoteup_count%2creshipment_settings%2ccomment_permission%2ccreated_time%2cupdated_time%2creview_info%2crelevant_info%2cquestion%2cexcerpt%2crelationship.is_authorized%2cis_author%2cvoting%2cis_thanked%2cis_nothelp%2cis_labeled%3bdata%5b%2a%5d.mark_infos%5b%2a%5d.url%3bdata%5b%2a%5d.author.follower_count%2cbadge%5b%2a%5d.topics&limit=20&offset="+str(i*20)+"&platform=desktop&sort_by=default"
2 r = requests.get(url,headers = kv)
3 dicurl = json.loads(r.text)

在这里插入图片描述

获取content

我们使用谷歌浏览器的一个开发者工具jsonview，可以看到打开的url中有一个content，这里面就是我们要找的回答内容，视频url也在里面。将返回的json转化成python对象后，获取其中content里面的内容。也就是说，我们获得了每一个回答的内容，包括了视频的地址。

1 for k in range(20):#每条dicurl里可以解析出20条content数据
2     name = dicurl["data"][k]["author"]["name"]
3     id = dicurl["data"][k]["id"]
4     question = dicurl["data"][k]["question"]["title"]
5     content = dicurl["data"][k]["content"]
6     data_lens = re.findall(r'data-lens-id="(.*?)"',content)

在这里插入图片描述

获得视频地址

打开获取的content，找到href后面的url，打开看一下打开后视频正是我们要的内容，但是发现url不是我们获取的真实地址。仔细观察后发现，这个url发生了跳转。想要知道如何跳转来的，我们再次f12，打开开发者工具，发现请求了一个新的url。观察发现，其实后面一串数字就是之前的data-lens-id。

在这里插入图片描述

对这个地址进行构造：

1 videourl = "https://lens.zhihu.com/api/v4/videos/"+str(data_lens[j])
2 r = requests.get(videourl,headers = kv)
3 dicurl = json.loads(r.text)
4 playurl = dicurl["playlist"]["ld"]["play_url"]
5 #print(playurl)#跳转后的视频url
6 videoread = request.urlopen(playurl).read()

完成之后，我们就可以下载视频了。

完整版代码：

 1 from urllib import request
 2 from bs4 import beautifulsoup
 3 import requests
 4 import re
 5 import json
 6 import math
 7 def getvideo():
 8     m = 0#计数字串个数
 9     num = 0#回答者个数
10     path = u'/home/zhihuvideo1'
11     #path = u'/home/zhihuimage'
12     kv = {'user-agent':'mozillar/5.0'}
13     for i in range(math.ceil(900/20)):
14         try:
15             url = "https://www.zhihu.com/api/v4/questions/312311412/answers?include=data%5b%2a%5d.is_normal%2cadmin_closed_comment%2creward_info%2cis_collapsed%2cannotation_action%2cannotation_detail%2ccollapse_reason%2cis_sticky%2ccollapsed_by%2csuggest_edit%2ccomment_count%2ccan_comment%2ccontent%2ceditable_content%2cvoteup_count%2creshipment_settings%2ccomment_permission%2ccreated_time%2cupdated_time%2creview_info%2crelevant_info%2cquestion%2cexcerpt%2crelationship.is_authorized%2cis_author%2cvoting%2cis_thanked%2cis_nothelp%2cis_labeled%3bdata%5b%2a%5d.mark_infos%5b%2a%5d.url%3bdata%5b%2a%5d.author.follower_count%2cbadge%5b%2a%5d.topics&limit=20&offset="+str(i*20)+"&platform=desktop&sort_by=default"
16             r = requests.get(url,headers = kv)
17             dicurl = json.loads(r.text)
18             for k in range(20):#每条dicurl里可以解析出20条content数据
19                 name = dicurl["data"][k]["author"]["name"]
20                 id = dicurl["data"][k]["id"]
21                 question = dicurl["data"][k]["question"]["title"]
22                 content = dicurl["data"][k]["content"]
23                 data_lens = re.findall(r'data-lens-id="(.*?)"',content)
24                 print("正在处理第" + str(num+1) + "个回答--回答者昵称:" + name + "--回答者id:" + str(id) + "--" + "问题:" + question)
25                 num = num + 1  # 每次碰到一个content就增加1，代表回答者人数
26                 for j in range(len(data_lens)):
27                     try:
28                         videourl = "https://lens.zhihu.com/api/v4/videos/"+str(data_lens[j])
29                         r = requests.get(videourl,headers = kv)
30                         dicurl = json.loads(r.text)
31                         playurl = dicurl["playlist"]["ld"]["play_url"]
32                         #print(playurl)#跳转后的视频url
33                         videoread = request.urlopen(playurl).read()
34                         
35                         filename = path +"/" + str(m+1) + '.mp4'
36                         print ('===============================================')
37                         print(">>>>>>>>>>>>>>>>>第---" + str(m+1) + "---个视频下载完成<<<<<<<<<<<<<<<<<")
38                         videoname = open(filename,'wb')
39                         
40                         videoname.write(videoread)
41                         m = m+1
42                     except:
43                         print("此url为外站视频,不符合爬取规则")
44         except:
45             print("构造第"+str(i+1)+"条json数据失败")
46 
47 if __name__ == "__main__":
48     getvideo()

跑这个程序需要注意的是需要按照代码存储视频的路径建立一个文件夹：

在这里插入图片描述

结果

经过一段时间爬虫，我们最终获得了七百多条视频：

在这里插入图片描述

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]