古罗马全面战争,手机充值卡进货渠道,中兴n983
新建项目-新建pythonfile
安装爬虫模块
1 |
pip install requests |
requests的常用函数
观察boss直聘的url。
1 |
https://www.zhipin.com/c101250100-p110101/ |
通过观察:city.json的url为
1 |
https://www.zhipin.com/wapi/zpcommon/data/city.json |
postion.json的url为
1 |
https://www.zhipin.com/wapi/zpcommon/data/position.json |
测试连接
1 |
import requests |
返回值:
1 |
<response [200]> |
200:代表返回成功
404:网络连接失败
500:服务器奔溃
加入浏览器伪装头’user-agent’,防止被服务器发现你是爬虫
1 |
headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'} |
第一次打印
1 |
import requests |
结果如下:
根据上图观察,返回的json可以当成是一个多层字典。
数据均在zpdata\citylist
下,于是对zpdata进行第一次解包。
对citylist进行第二次解包。
1 |
import requests |
省和城市代码就爬取完毕了,直接粘贴到excel就可以。至于如何直接导出excel,后面再说。
如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复
Python 实现将numpy中的nan和inf,nan替换成对应的均值
python爬虫把url链接编码成gbk2312格式过程解析
网友评论