python selenium 抓包代码封装_Python

python selenium 抓包代码封装

# 导入selenium模块中的web引擎
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from pyquery import PyQuery as pq
# 时间 下载工具包
import time, wget, os


class Network(object):
    def __init__(self, url, seconds=10):
        # 这个是一个用来控制chrome以无界面模式打开的浏览器
        # 创建一个参数对象，用来控制chrome以无界面的方式打开
        options = Options()
        options.add_experimental_option('excludeSwitches', ['enable-automation'])
        options.add_argument('--headless')  # 设置Chrome为无头模式
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-dev-shm-usage')
        options.add_argument('blink-settings=imagesEnabled=false')
        options.add_argument('--disable-gpu')
        # 建立浏览器对象 ，通过Phantomjs
        self.browser = webdriver.Chrome(options=options)
        self.url = url
        # 发起请求
        self.browser.get(url)
        time.sleep(3)  # 等待3s
        # 等待一定时间，让js脚本加载完毕
        self.browser.implicitly_wait(seconds)  # seconds 隐式等待

        # 静态文件，图片地址
        cur_dir = os.path.split(os.path.realpath(__file__))[0]
        self.static_src = os.path.abspath(cur_dir + '/./../static/')

        # 常用变量 页面源码，挂载在jq上
        self.JQuery = pq(self.browser.page_source)

    # 浏览器器对象
    def bom(self):
        return self.browser

    # 关闭浏览器
    def close_browser(self):
        self.browser.quit()

    # 模拟浏览器抓取数据主业务 重构 返回浏览器对象
    def main(self, url='', seconds=20):
        # 访问url
        if url == '':
            url = self.url

        self.browser.get(url)
        time.sleep(3)  # 等待3s
        # 等待一定时间，让js脚本加载完毕
        self.browser.implicitly_wait(seconds)  # seconds 隐式等待
        #页面源码 页面源码，挂载在jq上
        self.JQuery = pq(self.browser.page_source)
        return self.browser

    # 如果列表的长度为1强制转换为字典
    def list_or_dict(self, arr):
        if len(arr) == 1:
            return arr[0]
        else:
            return arr

    # 通过tagName获取对象
    def tag_name(self, tag_name):
        return self.list_or_dict(self.browser.find_elements_by_tag_name(tag_name))

    # 通过id获取对象
    def id(self, id):
        return self.browser.find_element_by_id(id)

    # 通过className 获取对象
    def class_name(self, class_name):
        return self.list_or_dict(self.browser.find_elements_by_class_name(class_name))

    # 通过a标签href属性获取对象 用链接文本定位超链接
    def href_name(self, href_name):
        return self.list_or_dict(self.browser.find_elements_by_partial_link_text(href_name))

    # css选择器定位
    def css_selector(self, css_selector):
        return self.list_or_dict(self.browser.find_elements_by_css_selector(css_selector))

    # find 定位选择
    def find(self, element, name):
        if element.find_elements_by_css_selector(name):
            return element.find_elements_by_css_selector(name)

    # 获取元素的属性
    def attr(self, element, attr_name):
        if isinstance(element, list):
            arr = []
            for e in element:
                arr.append(e.get_attribute(attr_name))
            return arr
        else:
            return element.get_attribute(attr_name)

    # 获取元素的文本
    def text(self, element):
        if isinstance(element, list):
            arr = []
            for e in element:
                arr.append(e.text)
            return arr
        else:
            return element.text

    # 获取页面body数据
    def get_body(self):
        # 返回body对象
        return self.tag_name('body')[0]

    # 下载文件，图片等
    def download(self, urls, dir=''):
        # 判断url的数据属性
        if isinstance(urls, list):
            for url in urls:
                # 下载文件参数 文件url 保存的地址
                f_name = url.split('/')[-1]
                if dir != '':
                    wget.download(url, os.path.abspath(dir + '/' + f_name))
                else:
                    wget.download(url, os.path.abspath(self.static_src + '/' + f_name))
        else:
            # 下载文件参数 文件url 保存的地址
            f_name = urls.split('/')[-1]
            if dir != '':
                wget.download(urls, os.path.abspath(dir + '/' + f_name))
            else:
                wget.download(urls, os.path.abspath(self.static_src + '/' + f_name))
        return True

# 调用

# 设置访问的url
url = "https://www.runoob.com/python3/python3-namespace-scope.html"
# 初始化实例
net = Network(url)

ths=net.JQuery.find('.table_wrapper-table thead th').items()
trs=net.JQuery.find('.table_wrapper-table tbody tr')
trs_len=trs.length
# 临时变量 存储 key名称

本文地址：https://blog.csdn.net/qq_24745557/article/details/107077075

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

Python如何急速下载第三方库详解

前言pip 是一个现代的，通用的 python 包管理工具，是一个安装第三方库必备的工具，提供了对python 包的查找、下载、安装、卸载的功能。但是在国内... [阅读全文]

python定时截屏实现

写在前面因为暂时还没有想好做什么具体的某个项目来提升对python的理解，所以就自己想着做一下小玩意来加强一下自己对一些库和方法的理解分析1、截屏截屏的话有pi... [阅读全文]

详解Python3.8+PyQt5+pyqt5-tools+Pycharm配置详细教程

个人使用环境win10x64系统，python3.8，pycharm2020.01.03安装过程一、安装python3.8（自己参考其他教程）二、安装pyqt5... [阅读全文]

Jupyter安装链接aconda实现过程图解

jupyter notebook本身是默认使用一种anaconda中root目录下的python环境的，如果想使用其它的虚拟环境，还需要通过插件来实现，也就是n... [阅读全文]

Opencv常见图像格式Data Type及代码实例

cv::mat 图像格式 (data type)命名规则通用的参数命名格式为：cv_{元素比特数}{元素类型}c{通道数}1最常见的 cv_8uc3 就表示为 ... [阅读全文]

如何通过python实现IOU计算代码实例

intersection over union（iou）是一种测量在特定数据集中检测相应物体准确度的一个标准。iou是一个简单的测量标准，只要是在输出中得出一个... [阅读全文]

python实现三壶谜题的示例详解

前言有一个充满水的8品脱的水壶和两个空水壶（容积分别是5品脱和3品脱）。通过将水壶完全倒满水和将水壶的水完全倒空这两种方式，在其中的一个水壶中得到4品脱的水。一... [阅读全文]

python Cartopy的基础使用详解

前言常用地图底图的绘制一般由basemap或者cartopy模块完成，由于basemap库是基于python2开发的一个模块，目前已经不开发维护。故简单介绍c... [阅读全文]

Anaconda安装tensorflow报错

最近脱离了googlecolab想使用本地的anaconda进行机器学习课题的演练，在安装tensorflow时报错 : unsatisfiableerror:... [阅读全文]

Python经纬度坐标转换为距离及角度的实现

最近项目上有这样的需求，需要依据设备的经纬度坐标计算距离及角度。经验证后效果较好，并分享。1 经纬度转换距离代码#!/usr/bin/env python# -... [阅读全文]


验证码：

验证码：

python selenium 抓包代码封装

2020年07月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论