当前位置：移动技术网 > IT编程>脚本编程>Python > 爬虫爬取千千音乐榜单音乐

爬虫爬取千千音乐榜单音乐

2019年06月24日 | 移动技术网IT编程 | 我要评论

崔雅拉,绝心冷后,北方影院甜蜜谎言

最近做了一个爬取千千音乐的demo，免去下载歌曲还要下载对应客户端的麻烦，刚开始接触爬虫，可能写的不太好，求别喷！话不多说，进入正题

1.获取主页信息（获取各个榜单的url）

这里想要说的就是关于千千音乐的登录问题，可能是我在浏览器其他地方登录了百度账号，导致点击退出之后它就会自动又登录上，本来想通过代码登录获取cookie等登录信息的，我也懒得清除缓存了，

索性直接从抓包工具中把请求头全部复制过来，稍微修改一下

# 获取主页
def gethomepage():
    # 创建会话
    s = requests.session()
    home_url = 'http://music.taihe.com/'
    headers ={
        'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        'accept-language':'zh-cn,zh;q=0.9',
        'cache-control':'max-age=0',
        'connection':'keep-alive',
        'cookie':'log_sid=1561218778562e9db28e6a3cda8ed552f27e3703a9ab4; baiduid=e9db28e6a3cda8ed552f27e3703a9ab4:fg=1; bduss=3atoe5xtdjnotbgb2h6uxvyvnzxtel-z2vkc0w2v0kyuvv6mmticwxmahdlvezksufbqufbjcqaaaaaaaaaaaeaaadqric5uqo~3cqvwmmznjuaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaahdscv1w7aldc; flash_tip_pop=true; tracesrc=-1%7c%7c-1; u_lo=0; u_id=; u_t=; u_login=1; userid=965166288; app_vip=show; hm_lvt_d0ad46e4afeacf34cd12de4c9b553aa6=1561206432,1561209820; __qianqian_pop_tt=8; hm_lpvt_d0ad46e4afeacf34cd12de4c9b553aa6=1561218967',
        # 'host':'music.taihe.com',
        'referer':'http://music.taihe.com/',
        'upgrade-insecure-requests':'1',
        'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/75.0.3770.100 safari/537.36',
    }
    r = s.get(home_url,headers = headers)
    soup = beautifulsoup(r.text, 'lxml')

    # 获取新歌榜 热榜 网络歌曲榜的url
    list_m = soup.findall('h4', class_='more-rank')
    for h in list_m:
        bd_url = h.find('a')['href']
        title = h.find('a')['title']
        entitle = h.find('a')['href'].split('/')[-1]
        bd_url = 'http://music.taihe.com' + bd_url
        gotolist(bd_url, headers, s, title, entitle)

2.获取每个榜单中的每首歌曲的id

# 获取各个榜单的歌曲id,并拼接成以逗号隔开的字符串
def gotolist(bd_url, headers, s, title, entitle):
    r = s.get(bd_url, headers = headers)
    r.encoding='utf8'
    soup = beautifulsoup(r.text, 'lxml')
    m_list = soup.select('.song-item')
    m_num_list = ''
    for m_num in m_list:
        soup = beautifulsoup(str(m_num), 'lxml')
        text = soup.find('span', class_='song-title').find('a')['href']
        m_num_list += text.split('/')[-1] + ','
    getjson(m_num_list.strip(','), title, entitle)

3.根据歌曲id获取每首歌曲的基本信息

json_url = 'http://play.taihe.com/data/music/songlink'
    formdata = {
        'songids': num,
        'hq': '0',
        'type': 'm4a,mp3',
        'rate': '',
        'pt': '0',
        'flag': '-1',
        's2p': '-1',
        'prerate': '-1',
        'bwt': '-1',
        'dur': '-1',
        'bat': '-1',
        'bp': '-1',
        'pos': '-1',
        'auto': '-1',
    }
    r = requests.post(json_url,headers = headers, data = formdata)
    # 将获取到的歌曲信息保存在一个列表中
    songlist  = json.loads(r.text)['data']['songlist']

4.遍历并下载歌曲

r = requests.get(music_url, timeout = 500)这行代码中的

timeout = 500得加上，数字可以按情况填写，因为我下载的时候如果不加这个参数下载到中途就会被服务器关闭连接，从而报错

  # 遍历找到歌曲的下载地址/播放地址
    for song in songlist:
        music_url = song['linkinfo']['128']['songlink']
        print(music_url)
        # 创建父目录
        dirname = 'paihangbang'
        if not os.path.exists(dirname):
           os.mkdir(dirname)

        #创建对应排行榜目录
        dirname = dirname + '/' + entitle + '/'
        if not os.path.exists(dirname):
           os.mkdir(dirname)

        try:
            # 歌曲以歌曲名+歌手名进行命名
            filename = dirname + str(song['songname']) + '-' + str(song['artistname']) + '.mp3'
            r = requests.get(music_url, timeout = 500)
            with open(filename, 'wb') as fp:
                fp.write(r.content)
        except filenotfounderror as e:
            print(filename + '未找到！')
        time.sleep(1)

以上就是全部的代码，下载成功后的目录使这样的

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

爬虫爬取千千音乐榜单音乐

2019年06月24日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论