当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫教程：爬取酷狗音乐

python爬虫教程：爬取酷狗音乐

2019年06月02日 | 移动技术网IT编程 | 我要评论

柏乡牡丹,发廊女,福莱一点通

在常见的几个音乐网站里，酷狗可以说是最好爬取的啦，什么弯都没有，也没加密啥的，所以最适合小白入门爬虫

本篇针对爬虫零基础的小白，所以每一步骤我都截图并详细解释了，其实我自己看着都啰嗦，归根到底就是两个步骤的请求，还请大佬绕路勿喷。

1、打开酷狗官网,可以看到搜索框，我们要爬取的数据就是搜索歌曲后，酷狗后台返回的歌曲列表以及每首歌的歌曲信息(歌词、作者、url等)

2、敲f12键进入开发者模式，选择network - all (这里就是酷狗前后台交互的所有请求列表）

3、搜索框中输入搜索内容,然后右侧就可以看到会出现很多列表,搜索的列表数据其实就在这里面一条，我已经红色框标注了(找出这个可以根据那个名字song_search，实在不行点开一个个看是不是所要找的内容)

4、点开这行，上面切换到preview发现就是搜索结果的json数据，lists就是数据列表

5、点开一条歌曲，里面就包含歌曲名字，作者，albumid，filehash等歌曲信息

6、然后我们上面切换到headers，可以看到requesturl(就是请求网址)，下面箭头可以看到是get请求

7、往下滑，可以看到requset headers(这个后端会验证heades，一般请求时user-agent都需要写上，有些还验证更偏的，需要看情况处理，酷狗倒是没有验证，不写headers请求也可以)和请求参数(这就是请求的参数，搜索关键词、请求数目等信息)

8、话不多说，我们直接用python的requests库(这个直接百度装一下就行)构造请求，我的环境是python2.7，python3的注意一下版本差异

#coding=utf-8import requests
search = '喜欢你' #搜索内容pagesize = '10'  #请求数目url = 'https://songsearch.kugou.com/song_search_v2?callback=jquery11240251602301830425_1548735800928&keyword=%s&page=1&pagesize=%s&userid=-1&clientver=&platform=webfilter&tag=em&filter=2&iscorrection=1&privilege_filter=0&_=1548735800930' % (search,pagesize)res = requests.get(url) #requests发起get请求print res.text #输出响应内容

输出结果就是这样，可以看到返回json内容全部打印了出来，这就是和刚才在浏览器开发者工具看到的信息一样

10、接着我们拿到列表后，再转回浏览器，拿到列表每一条歌曲的具体信息,左侧选择第一条点击进入详情页

11、可以看到跳转到了播放页面,刷新一下页面，重新加载一遍

12、可以看到右侧红色框圈起来的就是歌曲信息(你可能问我怎么知道哪个才是包含歌曲信息的，当然是观察法了，写多了就有经验了，实在不会一个个点进去看)

13、我用箭头标注的都是一般需要爬取的有用信息，可以看到作者，歌曲名，歌词，专辑图片，id，play_url都在里面，不信你把play_url复制到地址栏回车播放的肯定是这个歌曲，拿到这个url我们就可以直接下载歌曲了

14、接着我们再从上方从preview切换到headers，可以看到和请求歌曲列表差不多，还是get请求

15、这里的query同样还是get请求的参数，其中hash和album_id就是一首歌曲的信息，我们只需要请求不同歌曲时改这两个参数就行了(第一步请求搜索列表每一行单曲数据包含这个参数了)

16、直接刚才根据开发者模式里面的requesturl，构造get请求，请求每首歌曲时换上每首歌对应的id和hash值就行

#coding=utf-8import requests
#在这里，为了分步演示，直接用刚才第一步搜索时开发者模式获取到的搜索列表第一条的id和hash#文章最后有整个连贯的代码
id = '557512' #单曲idhash = '41c2e4ab5660eae04021c5893e055f50' #单曲hash值url = 'https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jquery19107465224671418371_1555932632517&hash=%s&album_id=%s&_=1555932632518' % (hash,id)
res = requests.get(url)
print res.text

可以看到控制台打印了单曲信息，因为是json数据没有转换，直接输出打印现在看起来有点乱
注意，酷狗返回数据并不直接就是json格式，两端有一些无用字符串，需用正则表达式去除，只保留大括号{}里面(包括大括号)内容，19步骤代码里有说明

19、我们已经熟悉了上面的两步，最后进行汇总写一个完整的python爬虫，输入搜索歌曲，拿到搜索列表并包括单曲信息

# coding=utf-8import requestsimport jsonimport re

# 请求搜索列表数据search = raw_input('音乐名:')  # 控制台输入搜索关键词pagesize = "10"  # 请求数目url = 'https://songsearch.kugou.com/song_search_v2?callback=jquery11240251602301830425_1548735800928&keyword=%s&page=1&pagesize=%s&userid=-1&clientver=&platform=webfilter&tag=em&filter=2&iscorrection=1&privilege_filter=0&_=1548735800930' % (search, pagesize)res = requests.get(url)  # 进行get请求
# 需要注意一点，返回的数据并不是真正的json格式，前后有那个多余字符串需要用正则表达式去掉,只要大括号{}包着的内容# json.loads就是将json数据转为python字典的函数res = json.loads(re.match(".*?({.*}).*", res.text, re.s).group(1))
list = res['data']['lists']  # 这个就是歌曲列表
#建立list存放歌曲列表信息，将这个歌曲列表输出，别的程序就可以直接调用musiclist = []
#for循环遍历列表得到每首单曲的信息for item in list:    #将列表每项的item['filehash'],item['alnbumid']拼接请求url2    url2 = 'https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jquery191010559973368921649_1548736071852&hash=%s&album_id=%s&_=1548736071853' % (    item['filehash'], item['albumid'])    res2 = requests.get(url2)    res2 = json.loads(re.match(".*?({.*}).*", res2.text).group(1))['data']#同样需要用正则处理一下才为json格式,再转为字典
    #打印一下    print res2['song_name']+' - '+res2['author_name']    print res2['play_url']    print ''
    #将单曲信息存在一个字典里    dict = {        'author': res2['author_name'],        'title': res2['song_name'],        'id': str(res2['album_id']),        'type': 'kugou',        'pic': res2['img'],        'url': res2['play_url'],        'lrc': res2['lyrics']    }
    #将字典添加到歌曲列表    musiclist.append(dict)

最后控制台输出结果

学习python过程中有不懂的可以加入我的python零基础系统学习交流秋秋qun：934109170，与你分享python企业当下人才需求及怎么从零基础学习python，和学习什么内容

学习python有不懂的（学习方法，学习路线，如何学习有效率的问题），可以随时来咨询我，或者缺少系统学习资料

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]