当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫入门教程 58-100 python爬虫高级技术之验证码篇4-极验证识别技术之一

Python爬虫入门教程 58-100 python爬虫高级技术之验证码篇4-极验证识别技术之一

2019年04月13日 | 移动技术网IT编程 | 我要评论

大大文学网,热电厂爆炸致21死,qq旋风官网

验证码类型

今天要搞定的验证码属于现在使用非常多的验证码的一种类型---极验证滑动验证码，关于这个验证码的详细说明查阅他的官网，https://www.geetest.com/ 把验证码做到这个地步，必须点赞了。

海量验证码

官网最新效果

官方demo最新的效果如下，按照验证码的更新频率，基本博客看完，验证码也更新了，不过套路依旧是相同的，反爬只能增加爬虫编写的成本，并不能完全杜绝爬虫。
在这里插入图片描述
这类验证码，常规解决办法，模拟人为操作，图像比对，查找缺口，移动覆盖缺口。

找个用极验证的网站

今天看新闻，随意找了一下，虎嗅使用的是直接拖拽，没有用最新的点击+拖拽方式，可以直接看一下如何操作。
虎嗅验证码
这种验证码除了打码平台以外，直接selenium搞起

拼接验证码图片

当你在谷歌浏览器使用f12进行查找元素的时候，随意的去缺口图片上面点击一下，在控制台dom结构中出现如下代码，有前端经验的童鞋知道，这个使用的是背景局部显示技术，是可以通过这个拼接成一个。

在这里插入图片描述
注意两个地方：

https://static.geetest.com/pictures/gt/8bc4cb7fa/8bc4cb7fa.webp 图片地址
background-position:后面的坐标

查阅图片之后，发现是一张碎掉的图片，你要做的第一步是将这个图片进行还原，我们通过selenium进行实现。这个地方需要先备注一下图片的尺寸，后面用size = 312x116

在这里插入图片描述

编写自动化代码

使用selenium执行的操作，模拟人的点击行为即可

最初，我们导入一些selenium的基本模块与方法

import time
import re

from selenium import webdriver
from selenium.common.exceptions import timeoutexception
from selenium.webdriver.common.by import by
from selenium.webdriver.support.wait import webdriverwait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.common.action_chains import actionchains

基本模块的作用如下
webdriver 核心驱动
selenium.common.exceptions 异常类 timeoutexception 超时异常
selenium.webdriver.common.by 按照什么方式进行元素的查找例如 by.id,by.classname,by.xpath
selenium.webdriver.support.wait 等待页面加载某些元素
from selenium.webdriver.support import expected_conditions 场景判断用的，一般和上面的等待加载元素一起使用
selenium.webdriver.common.action_chains 鼠标执行的动作链

主方法测试入口

if __name__ == '__main__':
    h = geek_huxiu()
    h.run()

构造方法，实现对部分参数的初始化操作

    def __init__(self):
        self.driver = webdriver.chrome()  
        self.driver.set_window_size(1366,768)

webdriver.chrome() 启动谷歌浏览器，这个地方需要你提前配置好chromedriver.exe
set_window_size(1366,768) 初始化浏览器大小

核心run方法

    def run(self):
        self.driver.get("https://www.huxiu.com/")  # 打开浏览器
    
        webdriverwait(self.driver,10).until(ec.element_to_be_clickable((by.xpath,'//*[@class="js-register"]')))

        reg_element = self.driver.find_element_by_xpath('//*[@class="js-register"]')
        reg_element.click()

        webdriverwait(self.driver,10).until(ec.element_to_be_clickable((by.xpath,'//div[@class="gt_slider_knob gt_show"]')))

        # 模拟拖动
        self.analog_drag()

webdriverwait 方法

说明

driver: 传入webdriver实例，即我们上例中的driver
timeout: 超时时间，等待的最长时间（同时要考虑隐性等待时间）
poll_frequency: 调用until或until_not中的方法的间隔时间，默认是0.5秒
ignored_exceptions: 忽略的异常，如果在调用until或until_not的过程中抛出这个元组中的异常, 则不中断代码，继续等待；
如果抛出的是这个元组外的异常，则中断代码，抛出异常。默认只有nosuchelementexception。

基本使用方法

webdriverwait(driver, 超时时长, 调用频率, 忽略异常).until(可执行方法, 超时时返回的信息)

模拟拖动方法

    def analog_drag(self):
        # 鼠标移动到拖动按钮，显示出拖动图片
        element = self.driver.find_element_by_xpath('//div[@class="gt_slider_knob gt_show"]')
        actionchains(self.driver).move_to_element(element).perform()
        time.sleep(3)


        # 刷新一下极验证图片
        element = self.driver.find_element_by_xpath('//a[@class="gt_refresh_button"]')
        element.click()
        time.sleep(1)

        # 获取图片地址和位置坐标列表
        cut_image_url,cut_location = self.get_image_url('//div[@class="gt_cut_bg_slice"]')

        print(cut_image_url)
        print(cut_location)

行为链

actionchains(self.driver).move_to_element(element).perform()

模拟人移动鼠标到指定dom元素

图片处理方法

    def get_image_url(self,xpath):
        link = re.compile('background-image: url\("(.*?)"\); background-position: (.*?)px (.*?)px;')
        elements = self.driver.find_elements_by_xpath(xpath)
        image_url = none

        location = list()

        for element in elements:
            style = element.get_attribute('style')
            groups = link.search(style)

            url = groups[1]
            x_pos = groups[2]
            y_pos = groups[3]
            location.append((int(x_pos), int(y_pos)))
            if not image_url:
                image_url = url
        return image_url, location

使用正则表达式进行匹配的时候，需要将所有的div匹配出来，采用find_elements_by_xpath 方法，尤其注意elements

webelement 具备一些常用的方法和属性

size：返回元素尺寸
text ：返回元素文本
get_attribute(name)：获得属性值
is_dispalyed() ：该元素是否用户可见

初步运行结果

在这里插入图片描述

拼接图

看下图，注意一些基本元素，拼接的图片由n个小矩形构成，分为上下两个部分，小矩形的宽度和高度为10x58

核心由上下两部分构成，每部分都是26个小矩形
在这里插入图片描述
因为，整体宽度为2610 = 260px ，整体高度为582=116px

但是，还记得博客开始的时候，你记录的那个宽度和高度么？ 312x116 高度一致，但是宽度出现偏差

312-260 = 52px
52个像素去除以26个矩形，发现每个矩形差2px，这两个像素也就是下面我们拼接图片的重点了

    def splicing_image(self,image_url,location):
        res = requests.get(image_url)
        file = bytesio(res.content)
        img = image.open(file)
        image_upper = []
        image_down = []
        for pos in location:
            if pos[1] == 0:
                # y值为0的坐标  属于图片上半部分，高度58
                image_upper.append(img.crop((abs(pos[0]), 0, abs(pos[0]) + 10, 58)))
            else:
                # y值为58的坐标 属于图片上半部分，高度58
                image_down.append(img.crop((abs(pos[0]), 58, abs(pos[0]) + 10, img.height)))
        # 画布的x轴偏移量
        x_offset = 0 
        # 创建一张画布
        new_img = image.new("rgb", (260, img.height))
        for img in image_upper:
            new_img.paste(img, (x_offset, 58))
            x_offset += img.width

        x_offset = 0
        for img in image_down:
            new_img.paste(img, (x_offset, 0))
            x_offset += img.width

        return new_img

说明

requests.get(image_url) 下载图片到本地
bytesio(res.content) 将字节转换成二进制文件流
image.open(file) 获取图片
img.crop 裁切图片 left, upper, right, lower
image.new("rgb", (260, img.height)) 创建一个空白的图片，将图片序列中的元素，依次的拼接到里面

最终实现效果

在这里插入图片描述

图片存储到本地

        # 将图片存储到本地
        cut_image.save("cut.jpg")
        full_image.save("full.jpg")

好了，今天博客就先把图片处理到位，明天着手拼接部分。

欢迎关注「非本科程序员」回复【0412】获取本篇博客源码

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

Python爬虫入门教程 58-100 python爬虫高级技术之验证码篇4-极验证识别技术之一

2019年04月13日 | 移动技术网IT编程 | 我要评论

验证码类型

官网最新效果

找个用极验证的网站

拼接验证码图片

编写自动化代码

核心run方法

模拟拖动方法

图片处理方法

初步运行结果

拼接图

图片存储到本地

您可能感兴趣的文章:

相关文章:

网友评论