当前位置：移动技术网 > IT编程>脚本编程>Python > 荐 python爬虫记录一次爬取淘宝的过程

荐 python爬虫记录一次爬取淘宝的过程

2020年07月04日 | 移动技术网IT编程 | 我要评论

淘宝可以说是一个检验爬虫技术是否过关的最强关卡了，下面来打破它吧。

淘宝的所有操作差不多都是在登录的状态下进行的，这时候想要对淘宝进行请求获取信息就必须在登录的状态下进行了。

方式一：（selenium）
使用selenium模块，使用自动化模块进行爬取淘宝，对自己需要的信息进行爬取下来，这是一个很简单的方式，但是这也是一个效率比较低下的爬虫形式。这个简单的自动化爬取形式就不详细讲解了。但是有一个值得注意的点就是登陆的时候，会被检测出内容输入的速度过快，之后弹出一个滑动验证条，需要对验证条进行处理才能够登陆成功。

方式二：（requests）
使用requests模块，对淘宝页面发起请求，但是在发起请求之前就需要携带上淘宝账号的cookies信息，如果没有携带cookies信息，那么对淘宝发起的所有请求都没有任何有用信息返回。

第一步：登录淘宝保存cookies信息，这个只需要登录一次保存cookies信息，那么很长一段时间都可以不会过期了。所以首先写一个简单的代码获取登录之后的cookies信息，这个可以直接使用selenium模块进行登录，保存cookies信息，毕竟发起登录post请求，不好破解淘宝的加密参数。这个简单就不详细讲解了。

第二步：淘宝对于搜索页面的网址请求反爬措施很强，这个可以不考虑，但是在淘宝的首页却有我们想要的一切，这需要在淘宝的首页找到对应的链接，就可以对这个链接发起请求了。

淘宝首页列出了各种产品信息，这需要找到自己需要的产品，点击进去，获取对应的url，这时候就可以进行我们熟悉的环节了（爬虫）。
在这里插入图片描述

第三步：使用第二步中提取到的url（例如：https://s.taobao.com/list?spm=a21bo.2017.201867-links-0.10.5af911d9L2LhUy&q=JK%E5%88%B6%E6%9C%8D&cat=16&style=grid&seller_type=taobao 这是一个女装下的JK制服链接）

导入需要使用到的模块

import requests            # 发起网络请求
import parsel              # xpath 分析页面
import json                # 读取保存在文件中的cookies信息 
import time              
import re                  # 分析提取页面复杂信息
from requests.cookies import RequestsCookieJar          # 为请求添加从cookies信息
from fake_useragent import UserAgent                    # 设置请求头，可以直接使用浏览器请求头

读取保存在文件中自己账号的cookies信息：

session = requests.session()     # 创建一个会话
    session.headers = header         # 设置会话请求头
    # 这里对保存在文件中的cookie对象进行提取
    jar = RequestsCookieJar()
    with open("cookies.txt", "r") as f: 
        cookies = json.load(f)
        for cookie in cookies:
            jar.set(cookie['name'], cookie['value'])         # 插入cookies信息

3.检测保存的cookies信息是否过期，使用自己账号的主页面进行检测（主页面url：https://i.taobao.com/my_taobao.htm）

def main():
    #  请求自己账号的主页面，测试cookies是否过期，如果过期及时更换
    res = session.get('https://i.taobao.com/my_taobao.htm',cookies=jar)
    time.sleep(3)
    if "自己的账号名称" in res.text:
        print("cookies还是可用的")
        parse()           # 发起商品网页请求

    else:
        print("cookies已经过期，登陆不成功，重新获取")

4.对商品页面发起请求，提取商品信息

def parse():
    res = session.get(url, cookies=jar)  # 使用cookies进行请求网页
    res.encoding = 'UTF-8'
    if res.status_code == 200:
        html = parsel.Selector(res.text)
        contents = html.xpath('//head/script[last()]/text()').extract_first()          # 提取页面的中所有商品信息内容
        contents = re.findall(r'"itemlist":(.*?),"p4p"', contents, re.S)               # 提取有用商品的信息
        if len(contents) != 0:
            content = contents[0][:-1:] + "}"                                          # 构造字典格式
            true = True                 # 特殊关键字的处理
            false = False
            content = eval(content)                                                    # 把字符串格式内容转换为字典
            print(type(content))
            itemlists = content['data']['auctions']                                    # 使用字典提取所有商品信息
            print(type(itemlists))
            print(len(itemlists))
            for item in itemlists:
                print("商品名称:", item['raw_title'])
                print("商品链接：", item['detail_url'])

        else:
            print("length:", len(contents))
            print("没有提取到商品信息，重新分析页面")
    else:
        print("登录失败")

5、这样子就可以提取到了淘宝的网页商品信息了，还有就是需要提取每一个商品的总页数，之后使用一个循环直接遍历全部的页面就可以了。

本文地址：https://blog.csdn.net/Liang_ming_/article/details/106996597

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

LTE信令流程——去附着

LTE信令流程去附着去附着流程允许UE通知网络侧，UE不想再进入EPS，或是网络侧通知UE不允许再进入EPS网络... [阅读全文]
一对一直播源码的市场发展，能否开启一个直播的新时代

现代用户的需求一直都在变化中，单单靠传统的一对多的直播模式，已经满足不了用户的需求，多以手机APP经过这几年的沉... [阅读全文]
老猿学5G：融合计费场景的离线计费会话的Nchf_OfflineOnlyCharging_Release释放操作

☞ ░ 前往老猿Python博文目录 ░一、Nchf_OfflineOnlyCharging_Release消... [阅读全文]
5G天线介绍

一、天线原理及指标1、天线的定义1）半波振子半波振子是天线的基本辐射单元，波长越长，天线半波振子越大2、天线的辐... [阅读全文]
全面了解APON,BPON,EPON,GPON

PON(Passive Optical Network)是无源光网络，指在OLT（光线路终端）和ONU（光网络... [阅读全文]
python for 循环CPU满载

for循环多层会增大CPU负荷，CPU会爆表，风扇狂飙。闲着没啥事，用个破7代i5并且4G运存的PC试一试电脑会... [阅读全文]
老猿学5G扫盲贴：中国移动5G融合计费漫游计费架构和路由方案

专栏：Python基础教程目录专栏：使用PyQt开发图形界面Python应用专栏：PyQt+moviepy音视频... [阅读全文]
老猿学5G扫盲贴：与用户和终端相关的名词UE、SUPI、GPSI、PEI

专栏：Python基础教程目录专栏：使用PyQt开发图形界面Python应用专栏：PyQt+moviepy音视频... [阅读全文]
三星以核心技术优势持续更新折叠手机，华为缺乏自主技术无力应对

媒体报道指三星将在8月份发布galaxy fold2，进一步升级折叠屏技术，这已是它第三代折叠手机。相比之下，此... [阅读全文]
基于OpenCV+Python的均值滤波，高斯滤波，中值滤波，双边滤波

图像平滑可采用：均值滤波，高斯滤波，中值滤波，双边滤波来达到我们想要的效果import cv2import nu... [阅读全文]

网友评论


验证码：

荐 python爬虫 记录一次爬取淘宝的过程

2020年07月04日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论

荐 python爬虫记录一次爬取淘宝的过程