当前位置：移动技术网 > IT编程>脚本编程>Python > Python3爬虫中识别图形验证码的实例讲解

Python3爬虫中识别图形验证码的实例讲解

2020年07月31日 | 移动技术网IT编程 | 我要评论

本节我们首先来尝试识别最简单的一种验证码，图形验证码，这种验证码出现的最早，现在也很常见，一般是四位字母或者数字组成的，例如中国知网的注册页面就有类似的验证码，链接为：，页面：

表单的最后一项就是图形验证码，我们必须完全输入正确图中的字符才可以完成注册。

1.本节目标

本节我们就以知网的验证码为例，讲解一下利用 ocr 技术识别此种图形验证码的方法。

2. 准备工作

识别图形验证码需要的库有 tesserocr，如果没有安装可以参考第一章的安装说明。

3. 获取验证码

为了便于实验，我们先将验证码的图片保存到本地，以供测试。

打开开发者工具，找到验证码元素，可以看到这是一张图片，它的 src 属性是 checkcode.aspx，在这里我们直接将这个链接打开：，就可以看到一个验证码，直接右键保存下来即可，将名称命名为 code.jpg，如图 8-2 所示：

这样我们就可以得到一张验证码图片供下面测试识别使用了。

4. 识别测试

接下来我们新建一个项目，将验证码图片放到项目根目录下，用 tesserocr 库来识别一下该验证码试试，代码如下：

import tesserocr
from pil import image
image = image.open('code.jpg')
result = tesserocr.image_to_text(image)
print(result)

在这里我们首先新建了一个 image 对象，然后调用了 tesserocr 的 image_to_text() 方法，传入该 image 对象即可完成识别，实现过程非常简单，识别结果如下：

jr42

另外 tesserocr 还有一个更加简单的方法直接将图片文件转为字符串可以达到同样的效果，代码如下：

import tesserocr
print(tesserocr.file_to_text('image.png'))

不过经测试此种方法的识别效果不如上一种方法好。

5. 验证码处理

如上的图片识别基本没有难度，只是新建一个 image 对象，然后调用 image_to_text() 方法即可得出图片的识别结果。

接下来我们换一个验证码试一下，命名为 code2.jpg，如图 8-3 所示：

重新用下面的代码测试一下：

import tesserocr
from pil import image
image = image.open('code2.jpg')
result = tesserocr.image_to_text(image)
print(result)

这时可以看到如下输出结果：

ffkt

发现这次识别和实际的结果有所偏差，这是因为验证码内的多余线条干扰了图片的识别。

对于这种情况，我们还需要做一下额外的处理，如转灰度、二值化等操作。

我们可以利用 image 对象的 convert() 方法参数传入 l 即可将图片转化为灰度图像，代码如下：

image = image.convert('l')
image.show()

传入 1 即可将图片进行二值化处理：

image = image.convert('1')
image.show()

另外我们还可以指定二值化的阈值，上面的方法采用的是默认阈值127，不过我们不能用原图直接转化，可以先转为灰度图像，然后再指定二值化阈值转化，代码如下：

image = image.convert('l')
threshold = 80
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')
image.show()

在这里我们指定了一个变量 threshold 代表二值化阈值，阈值设置为 80，处理之后我们看一下结果，如图 8-4 所示：

经过处理之后我们发现原来的验证码中的线条已经被去除了，而且整个验证码变得黑白分明，这时重新识别验证码，代码如下：

import tesserocr
from pil import image
image = image.open('code2.jpg')
image = image.convert('l')
threshold = 127
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table, '1')
result = tesserocr.image_to_text(image)
print(result)

即可发现运行结果变成了：

pfrt

识别正确。

可见对于一些有干扰的图片，我们做一些灰度和二值化处理，会提高其识别正确率。

6. 本节代码

本节代码地址为：https://github.com/python3webspider/crackimagecode。

7. 结语

本节我们了解了利用 tesserocr 识别验证码的过程，对于简单的图形验证码我们可以直接用它来得到结果，如果要提高识别的准确度还可以对验证码图片做一下预处理。

以上就是python3爬虫中识别图形验证码的实例讲解的详细内容，更多关于python3爬虫识别图形验证码的资料请关注移动技术网其它相关文章！

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

从C语言中读取Python 类文件对象

问题你要写c扩展来读取来自任何python类文件对象中的数据（比如普通文件、stringio对象等）。解决方案要读取一个类文件对象的数据，你需要重复调用 rea... [阅读全文]
Python3爬虫关于代理池的维护详解

我们在上一节了解了代理的设置方法，利用代理我们可以解决目标网站封 ip 的问题，而在网上又有大量公开的免费代理，其中有一部分可以拿来使用，或者我们也可以购买付费... [阅读全文]
Python如何对齐字符串

问题你想通过某种对齐方式来格式化字符串解决方案对于基本的字符串对齐操作，可以使用字符串的 ljust() , rjust() 和 center() 方法。比如：... [阅读全文]
python实现从无序的链表中删除重复项

python实现从无序的链表中删除重复项题目描述:给定一个没有排序的链表，去掉其重复项，并保留原顺序，例如链表... [阅读全文]
python实现Canny与Hough算法

任务说明：编写一个钱币定位系统，其不仅能够检测出输入图像中各个钱币的边缘，同时，还能给出各个钱币的圆心坐标与半径... [阅读全文]
DP-LeetCode221. 最大正方形

1、题目描述https://leetcode-cn.com/problems/maximal-square/在一... [阅读全文]
听课笔记--Python数据分析--Numpy基础及基本应用

'''@Author: Liang@LastEditors: Liang@Date: 2020-07-26 19... [阅读全文]
评价类模型——Tposis法

Tposis法学习笔记适用的范围操作方法第一步 > 将原始矩阵正向化第二步>正向化矩阵标准化第三步&... [阅读全文]
python的platform模块的使用

platform是用来获取操作系统的信息的模块，具体见文档[root@VM_0_9_centos ~]# pyt... [阅读全文]
Python-定时任务APScheduler中两种调度器的区别

概述两种调度器BackgroundScheduler和BlockingScheduler的区别举例说明APSch... [阅读全文]

网友评论


验证码：

Python3爬虫中识别图形验证码的实例讲解

2020年07月31日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论