python爬虫opencv+pytesseract 验证码识别实例_Python

python爬虫opencv+pytesseract 验证码识别实例

文章目录

一、环境配置
二、验证码识别

实例1
实例2
实例3

一、环境配置

需要 pillow 和 pytesseract 这两个库，pip install 安装就好了。

pip install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip install pytesseract -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

安装好Tesseract-OCR.exe
pytesseract 库的配置：搜索找到pytesseract.py，打开该.py文件，找到 tesseract_cmd，改变它的值为刚才安装 tesseract.exe 的路径。

在这里插入图片描述

二、验证码识别

识别验证码，需要先对图像进行预处理，去除会影响识别准确度的线条或噪点，提高识别准确度。

实例1

import cv2 as cv import pytesseract from PIL import Image def recognize_text(image): # 边缘保留滤波  去噪 dst = cv.pyrMeanShiftFiltering(image, sp=10, sr=150) # 灰度图像 gray = cv.cvtColor(dst, cv.COLOR_BGR2GRAY) # 二值化 ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV | cv.THRESH_OTSU) # 形态学操作   腐蚀  膨胀 erode = cv.erode(binary, None, iterations=2) dilate = cv.dilate(erode, None, iterations=1) cv.imshow('dilate', dilate) # 逻辑运算  让背景为白色  字体为黑  便于识别 cv.bitwise_not(dilate, dilate) cv.imshow('binary-image', dilate) # 识别 test_message = Image.fromarray(dilate) text = pytesseract.image_to_string(test_message) print(f'识别结果：{text}') src = cv.imread(r'./test/044.png') cv.imshow('input image', src) recognize_text(src) cv.waitKey(0) cv.destroyAllWindows()

运行效果如下：

识别结果：3n3D

Process finished with exit code 0

在这里插入图片描述

实例2

import cv2 as cv import pytesseract from PIL import Image def recognize_text(image): # 边缘保留滤波  去噪 blur =cv.pyrMeanShiftFiltering(image, sp=8, sr=60) cv.imshow('dst', blur) # 灰度图像 gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY) # 二值化 ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV | cv.THRESH_OTSU) print(f'二值化自适应阈值：{ret}') cv.imshow('binary', binary) # 形态学操作  获取结构元素  开操作 kernel = cv.getStructuringElement(cv.MORPH_RECT, (3, 2)) bin1 = cv.morphologyEx(binary, cv.MORPH_OPEN, kernel) cv.imshow('bin1', bin1) kernel = cv.getStructuringElement(cv.MORPH_OPEN, (2, 3)) bin2 = cv.morphologyEx(bin1, cv.MORPH_OPEN, kernel) cv.imshow('bin2', bin2) # 逻辑运算  让背景为白色  字体为黑  便于识别 cv.bitwise_not(bin2, bin2) cv.imshow('binary-image', bin2) # 识别 test_message = Image.fromarray(bin2) text = pytesseract.image_to_string(test_message) print(f'识别结果：{text}') src = cv.imread(r'./test/045.png') cv.imshow('input image', src) recognize_text(src) cv.waitKey(0) cv.destroyAllWindows()

运行效果如下：

二值化自适应阈值：181.0 识别结果：8A62N1

Process finished with exit code 0

在这里插入图片描述

实例3

import cv2 as cv import pytesseract from PIL import Image def recognize_text(image): # 边缘保留滤波  去噪 blur = cv.pyrMeanShiftFiltering(image, sp=8, sr=60) cv.imshow('dst', blur) # 灰度图像 gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY) # 二值化  设置阈值  自适应阈值的话 黄色的4会提取不出来 ret, binary = cv.threshold(gray, 185, 255, cv.THRESH_BINARY_INV) print(f'二值化设置的阈值：{ret}') cv.imshow('binary', binary) # 逻辑运算  让背景为白色  字体为黑  便于识别 cv.bitwise_not(binary, binary) cv.imshow('bg_image', binary) # 识别 test_message = Image.fromarray(binary) text = pytesseract.image_to_string(test_message) print(f'识别结果：{text}') src = cv.imread(r'./test/045.jpg') cv.imshow('input image', src) recognize_text(src) cv.waitKey(0) cv.destroyAllWindows()

运行效果如下：

二值化设置的阈值：185.0 识别结果：7364 Process finished with exit code 0

在这里插入图片描述

本文地址：https://blog.csdn.net/fyfugoyfa/article/details/108160915

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

对Python之gzip文件读写的方法详解

gzip文件读写的时候需要用到python的gzip模块。具体使用如下： # -*- coding: utf-8 -*... [阅读全文]

python 2.7.14安装图文教程

本文为大家分享了python2.7.14的安装教程，供大家参考，具体内容如下 1.下载python2.7.14 根据自己... [阅读全文]

Java分治归并排序算法实例详解

本文实例讲述了Java分治归并排序算法。分享给大家供大家参考，具体如下： 1、分治法许多有用的算法在结构上是递归的：为了解决一... [阅读全文]

python使用urllib2模块获取gravatar头像实例

gravatar注册地址: https://en.gravatar.com/ 复制代码代码如下:"""`gravatar <... [阅读全文]

利用Python+阿里云实现DDNS动态域名解析的方法

引子我想大家应该都很熟悉dns了，这回在dns前面加了一个d又变成了什么呢？这个d就是dynamic(动态)，也就是说，按照传统... [阅读全文]

Python机器学习之SVM支持向量机

SVM支持向量机是建立于统计学习理论上的一种分类算法，适合与处理具备高维特征的数据集。 SVM算法的数学原理相对比较复杂，好在由于... [阅读全文]

Python中Proxypool库的安装与配置

从github上下载，链接为：下载好之后解压文件，然后将文件夹目录内的d:\proxy_pool-master 这个文件修改成... [阅读全文]

博客一键保存本地exe可视化界面文件

说明老师博客:https://home.cnblogs.com/u/nickchen121/ 项目连接 1.码云:https://gitee.co... [阅读全文]

详解python百行有效代码实现汉诺塔小游戏(简约版)

直接上代码:#左中右塔用一个列表存储left = list()center = list()right = list()"""初始化函数"""def init(... [阅读全文]

给大家一些改善 Python 程序的 91 个建议

读了一本还不错的书「编写高质量代码改善 Python 程序的 91 个建议」，大多数的建议是真心不错，我虽然写python也有3年多了，但是有些地方... [阅读全文]


验证码：

验证码：

python爬虫opencv+pytesseract 验证码识别实例

2020年08月01日 | 移动技术网IT编程 | 我要评论

文章目录

一、环境配置

二、验证码识别

实例1

实例2

实例3

相关文章:

网友评论