当前位置: 移动技术网 > IT编程>脚本编程>Python > python爬虫学习之大批量抓取京东商品id和标签

python爬虫学习之大批量抓取京东商品id和标签

2019年08月20日  | 移动技术网IT编程  | 我要评论

2011法网女单决赛,新亲密爱人网址,抒情文章

python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签。

python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签

python在世界脚本语言排行榜中名列前茅,也是多领域选择使用的语言,掌握python技术增加就业选择,今天与大家分享一下python爬虫大批量抓取京东商品id和标签

源码

 1 '''
 2 在学习过程中有什么不懂得可以加我的
 3 python学习交流扣扣qun,934109170
 4 群里有不错的学习教程、开发工具与电子书籍。
 5 与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容。
 6 '''
 7 import requests
 8 import re
 9 import pandas as pd
10  
11 def get_data():
12     jj_url1 = 'http://search.jd.com/s_new.php?keyword=%e5%ae%b6%e5%b1%85%e7%94%a8%e5%93%81&enc=utf-8&qrst=1&rt=1&stop=1&pt=1&vt=2&sttr=1&offset=6&page='
13     jj_url2 = '&s=53&click=0'
14     bt_ = []
15     _id = []
16     url_list = []
17     for i in range(1, 10, 2):
18         jj_url = jj_url1 + str(i) + jj_url2
19         url_list.append(jj_url)
20         html = requests.get(jj_url).content.decode('utf-8')
21         reg1 = re.compile('<a target="_blank" title="(.*?)"')
22         reg2 = re.compile('<i class="promo-words" id="(.*?)"></i>')
23         bt = re.findall(reg1, html)
24         id_ = re.findall(reg2, html)
25         bt_.extend(bt)
26         _id.extend(id_)
27     return bt_, _id
28  
29 def split_str(_id):
30     zid = []
31     for _ in _id:
32         zid.append(_.split('_')[2])
33     return zid
34  
35 def save_data(zid, bt_):
36     data = pd.dataframe({
37             '标题': bt_,
38             'id': zid
39             })
40     data.to_excel('./家居用品.xlsx', index=false)
41  
42 def start_main():
43     bt_, _id = get_data()
44     zid = split_str(_id)
45     save_data(zid, bt_)
46  
47 if __name__ == '__main__':
48     start_main()

 

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网