当前位置: 移动技术网 > IT编程>开发语言>.net > 图片识别工具Tesseract初探

图片识别工具Tesseract初探

2017年12月12日  | 移动技术网IT编程  | 我要评论

阿默相簿,武侠电影下载,宋多恩

一、框架介绍

tesseract 是一款图片识别工具,可以抓取图片中的文字,可以支持多种语言(默认是英语),需要下载开源文件可以在github上下载,如果知识应用不想太多深究直接在google code里边搜索下载即可。

二、tesseract内容 

doc:说明文档 

tessdata:存放各种文字库(chi_sim.traineddata:中文 等) 

tessseract.exe 即可以启动文件开始调用tesseract 可以通过cmd方式调用,先cd到对应的目录,然后 输入 tesseract.exe 图片名 导出文件名(如:tesseract.exe 1.jpg 1) 就可以把和tesseract同目录的 1.jpg文件识别结果存放在 1.txt文件中。当然如果需要支持中文,需要在tessdata中添加 chi_sim.traineddata 文件,

然后 调用例子:tesseract.exe 1.jpg 1 -l chi_sim 制定是根据什么文字库进行识别。 当然图片地址可以引用全路径、输出结果也可以全路径如果只是想把tesseract做为一个工具做文字解析,并不追求太高成功率使用者,这样即可满足需要了,直接通过cmd调用exe进行执行。有需要玩的小伙伴可以直接下载附件 tesseract_简单使用.rar文件

三、.net项目高级使用

如果.net项目需要使用 dll方式引用进行研发,可以下载tesseract_dll引用包。

x86和x64是针对tesseract关联引用dll,根据程序所在系统位数进行自适应配置。

liblept168.dll 这个文件会在windows server 2003中发布iis情况下无法加载错误信息: failed to find library "liblept168.dll" for platform x86. 如果发布在更高版本系统中即可正常使用tesseract.dll即是要添加到对应的项目中的。以下是测试tesseract.dll 代码: 

 using (var engine = new tesseractengine(server.mappath(@"~/tessdata"), "eng", enginemode.default))
         {
           // have to load pix via a bitmap since pix doesn't support loading a stream.
           using (var image = new system.drawing.bitmap(imagefile.postedfile.inputstream))
           {
             using (var pix = pixconverter.topix(image))
             {
               using (var page = engine.process(pix))
               {
                 meanconfidencelabel.innertext = string.format("{0:p}", page.getmeanconfidence());
                 resulttext.innertext = page.gettext();
               }
             }
           }
         }

tesseractengine:构造函数参数注意事项=》第一个是字库路径必须使用tessdata结尾,第二个如果需要使用chi_sim即中文

以上所述就是本文的全部内容了,希望大家能够喜欢。

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网