Python抓包并解析json爬虫的完整实例代码_Python

Python抓包并解析json爬虫的完整实例代码

python抓包并解析json爬虫

在使用python爬虫的时候，通过抓包url，打开url可能会遇见以下类似网址，打开后会出现类似这样的界面，无法继续进行爬虫：

例如：

需要爬取网页中第二页的数据时，点击f12➡网络(network)➡xhr，最好点击清除键，如下图：

通过点击“第二页”，会出现一个post请求（有时会是get请求），点击post请求的url，（这里网址以post请求为例），

如图：

然后复制参数代码

代码展示：

import requests
import json

url = 'https://m.ctrip.com/restapi/soa2/13444/json/getcommentcollapselist?_fxpcqlniredt=09031130211378497389'

header={
'authority': 'm.ctrip.com',
'method': 'post',
'path': '/restapi/soa2/13444/json/getcommentcollapselist?_fxpcqlniredt=09031130211378497389',
'scheme': 'https',
'accept': '*/*',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-cn,zh;q=0.9',
'cache-control': 'no-cache',
'content-length': '278',
'content-type': 'application/json',
'cookie': '__utma=1.1986366783.1601607319.1601607319.1601607319.1; __utmz=1.1601607319.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _rsg=blqd1d4mgx0ba_ampd3t29; _rdg=286710759c35f221c000cbec6169743cac; _rguid=0850c049-c137-4be5-90b7-0cd67093f28b; mkt_ckid=1601607321903.rzptk.lbzh; _ga=ga1.2.1986366783.1601607319; nfes_issupportwebp=1; appfloatcnt=8; _gcl_dc=gcl.1601638857.ckzg58xqlewcfqitvaodioijww; session=smartlinkcode=u155952&smartlinkkeyword=&smartlinkquary=&smartlinkhost=&smartlinklanguage=zh; union=ouid=index&allianceid=4897&sid=155952&sourceid=&createtime=1602506741&expires=1603111540922; mkt_orderclick=asid=4897155952&aid=4897&csid=155952&ouid=index&ct=1602506740926&curl=https%3a%2f%2fwww.ctrip.com%2f%3fsid%3d155952%26allianceid%3d4897%26ouid%3dindex&val={"pc_vid":"1601607319353.3cid9z"}; mkt_pagesource=pc; _rf1=218.58.59.72; _bfa=1.1601607319353.3cid9z.1.1602506738089.1602680023977.4.25; _bfi=p1%3d290510%26p2%3d290510%26v1%3d25%26v2%3d24; mkt_ckid_lmt=1602680029515; __zpspc=9.5.1602680029.1602680029.1%232%7cwww.baidu.com%7c%7c%7c%25e6%2590%25ba%25e7%25a8%258b%7c%23; _gid=ga1.2.1363667416.1602680030; _jzqco=%7c%7c%7c%7c1602680029668%7c1.672451398.1601607321899.1602506755440.1602680029526.1602506755440.1602680029526.undefined.0.0.16.16',
'cookieorigin': 'https://you.ctrip.com',
'origin': 'https://you.ctrip.com',
'pragma': 'no-cache',
'referer': 'https://you.ctrip.com/',
'sec-fetch-dest': 'empty',
'sec-fetch-mode': 'cors',
'sec-fetch-site': 'same-site',
'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/85.0.4183.121 safari/537.36'
}

dat = {
 "arg": {
  'channeltype': 2,
  'collapsetype': 0,
  'commenttagid': 0,
  'pageindex': 1,
  'pagesize': 10,
  'poiid': 75648,
  'sorttype': 3,
  'sourcetype': 1,
  'startype': 0
 },
 "head": {
  'auth': "",
  'cid': "09031117213661657011",
  'ctok': "",
  'cver': "1.0",
  'extension': [],
  'lang': "01",
  'sid': "8888",
  'syscode': "09",
  'xsid': ""
 }
}

r = requests.post(url, data=json.dumps(dat), headers=header)
s = r.json()
print(s)

运行结果：

然后右击结果，再点击show as json：

最后就会出现目标url的响应信息，就可以进行爬取了！！！

总结

到此这篇关于python抓包并解析json爬虫的文章就介绍到这了,更多相关python抓包并解析json爬虫内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网！

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

python 用struct模块解决黏包问题

为什么会出现黏包现象：　　首先只有在tcp协议中才会出现黏包现象，是因为tcp协议是面向流的协议，在发送的数据传输的过程中还有缓存机制来避免数据丢失，因此，在连... [阅读全文]

python tkinter的消息框模块(messagebox,simpledialog)

tkinter提供了三个模块，可以创建弹出对话窗口：（使用必须单独导入模块）1.messagebox　　消息对话框　　示例：askokcancelimport ... [阅读全文]

Python3读写ini配置文件的示例

ini文件即initialization file初始化文件，在应用程序及框架中常作为配置文件使用，是一种静态纯文本文件，使用记事本即可编辑。配置文件的主要功能... [阅读全文]

基于Python实现全自动下载抖音视频

很多人喜欢玩抖音，我也喜欢看抖音小姐姐，可拿着手机一个个找视频太费劲。作为一个程序员，如何能在电脑前一边编程一边轻松地看抖音小姐姐呢？下面利用python，简单... [阅读全文]

python如何写个俄罗斯方块

俄罗斯方块是俄罗斯人发明的一款休闲类的小游戏，这款小游戏可以说是很多人童年的主打电子游戏了，本文我们使用 python 来实现这款小游戏。游戏的基本规则是：移动... [阅读全文]

基于Python模拟浏览器发送http请求

1.使用 urllib2 实现#! /usr/bin/env python# -*- coding=utf-8 -*- import urllib2url="h... [阅读全文]

Python常用base64 md5 aes des crc32加密解密方法汇总

1.base64python内置的base64模块可以实现base64、base32、base16、base85、urlsafe_base64的编码解码，pyt... [阅读全文]

Nuxt的路由动画效果案例

路由的动画效果，也叫作页面的更换效果。nuxt.js提动两种方法为路由提动动画效果，一种是全局的，一种是针对单独页面制作。全局路由动画全局动画默认使用page进... [阅读全文]

python如何编写类似nmap的扫描工具

本文主要是利用scapy包编写了一个简易扫描工具，支持arp、icmp、tcp、udp发现扫描，支持tcp syn、udp端口扫描，如下：usage: pyth... [阅读全文]

nuxt 路由、过渡特效、中间件的实现代码

在pages下的文件.vue文件会被自动加载成路由0、声明式导航<nuxt-link to="/">首页</nuxt-link>用法和r... [阅读全文]


验证码：

验证码：

Python抓包并解析json爬虫的完整实例代码

2020年11月03日 | 移动技术网IT编程 | 我要评论

相关文章:

网友评论