当前位置: 移动技术网 > IT编程>脚本编程>Python > Python爬取12306车次信息代码详解

Python爬取12306车次信息代码详解

2020年08月13日  | 移动技术网IT编程  | 我要评论
详情查看下面的代码:如果被识别就要添加一个cookie如果没有被识别的话就要一个user—agent就好了。如果出现乱码就设置编码格式为utf-8#静态的数据一般在elements中(复制文字到sou

详情查看下面的代码:

如果被识别就要添加一个cookie如果没有被识别的话就要一个user—agent就好了。如果出现乱码就设置编码格式为utf-8

#静态的数据一般在elements中(复制文字到sources按ctrl+f搜索。找到的为静态),而动态去network中去寻找相关的信息
import requests
import re
def send_request():
  headers = {'user-agent':'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/74.0.3729.131 safari/537.36'
        ,'cookie':'_uab_collina=159618052151589201474313; jsessionid=d33c89d8bec6a692c79cfa69fc0b0d29; bigipserverotn=233832970.24610.0000; bigipserverpool_passport=216859146.50215.0000; rail_expiration=1596443951465; rail_deviceid=nmo94o2z21cxlblw7otloxuz_lp9q01pyj_i89oqu6mqjxyx9814jc3ch5tnwgbvjqnbabg8ogibwo2qtncu5wvu-asnk6yla49g0fmwvp03xfjq-gkhhyhcqigud-nqqb_vedwh1om_d2yagiu8qceavt02pmh5; route=c5c62a339e7744272a54643b3be5bf64; _jc_save_fromstation=%u5317%u4eac%2cbjp; _jc_save_tostation=%u5929%u6d25%2ctjp; _jc_save_fromdate=2020-07-31; _jc_save_todate=2020-07-31; _jc_save_wfdc_flag=dc'}#创建头部信息
  url='https://kyfw.12306.cn/otn/leftticket/query?leftticketdto.train_date=2020-07-31&leftticketdto.from_station=bjp&leftticketdto.to_station=tjp&purpose_codes=adult'
  #设置编码格式。防止乱码
  resp=requests.get(url,headers=headers)
  resp.encoding='utf-8'
  return resp

#解析数据
#{}是字典。根据key获取值。
def parse_json(resp,city):
  json_ticket=resp.json()#将相应的数据转换为json
  data_list=json_ticket['data']['result']#得到车次的列表
  lst=[]#列表
  for item in data_list:
    #遍历车次信息进行分割
    d=item.split('|')
    lst.append([d[3],city[d[6]],city[d[7]],d[31],d[30],d[13]])
  return lst
'''
d[3]从列表中获取索引为3的表示车次
d[6]查询起始站
d[7]查询到达站
d[31]一等座
d[30]表示二等座
d[13]表示出行时间'''
#获得station_name的信息
def get_city():
  url='https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9151'
  headers = {'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/74.0.3729.131 safari/537.36'}
  resp=requests.get(url,headers=headers)
  resp.encoding='utf-8'
  #进行数据的提取(只要一部分)
  stations=re.findall('([\u4e00-\u9fa5]+)\|([a-z]+)',resp.text)
  #将列表进行转换为字典
  stations_data=dict(stations)
  #key与value进行互换
  station_d={}#空字典。用于完成上述操作
  for item in stations_data:
    station_d[stations_data[item]]=item
  #print(station_d)
  return station_d

def start():
  lst=parse_json(send_request(),get_city())
  #进行数据的筛选(得到有效的数据)
  for i in lst:
    if i[3]!='无' and i[3]!='':
      print(i)
if __name__=='__main__':
  start() #开始

运行的截图:

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持移动技术网。

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

相关文章:

验证码:
移动技术网