tesseract-ocr

摘要:
标签:pytesseract事实上,pytesseractwinerror不是我自己写的。你可以在互联网上找到它,并通过组合它来解决问题。和谐社会的程序是不同的。首先安装pillowwindows10,然后打开命令提示符:注意:我不知道为什么在安装python 3.5时选择了管理员安装,因此运行命令提示符也需要管理员权限。我不会告诉你如何操作它。1.安装枕头2.安装女巨人

标签:pytesseract.pytesseract   winerror   

其实也不算自己写的,在网上东找找西找找,合一块问题就解决了。

和谐社会的程序猿不都这样么。。技术分享

上正菜。

先安装pillow

windows 10上面先打开命令提示符:

注:不知道为啥我装python 3.5的时候蛋疼的选择了管理员安装,所以运行命令提示符的话也需要管理员权限。怎么操作就不说了。

1. 安装Pillow

技术分享

2. 安装pytesseract

技术分享

3. 再安装tesseract-ocr,注意这个很关系是文字识别的核心程序。

技术分享

报错了,看来前面太顺了,python看不过去了。

至于报错的信息:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

让我去这个网站装   Microsoft Visual C++ 14.0相关的东东,N N D 我打开网站,下载之后安装,看所需要的空间 4GB。玩不起,还是算了,我是菜鸟,太多的东西不懂,所以不要为难我。

所以找其它方法装tesseract-ocr

这里面有tesseract-ocr for windows的安装方法。安装步骤我们强大的度娘就有:

http://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html 

安装时要什么字库自己选。

懒人连接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

MAC  LINUX  WINDOWS 各版本下载

https://github.com/tesseract-ocr/tesseract/wiki

相关的程序基本安装完了。

开始做一个小程序参考图如下:

技术分享

我是在pycharm中练习的,代码如下:

from PIL import Image
import pytesseract
img = Image.open()
text = pytesseract.image_to_string(img)
print (text)

注:我把上面的参考图命名为22.png了,因为我太2了

装好几个程序了,看看效果运行:

"C:Program FilesPython35python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:Program FilesPython35libsite-packagespytesseractpytesseract.py", line 122, in image_to_string
    config=config)
  File "C:Program FilesPython35libsite-packagespytesseractpytesseract.py", line 46, in run_tesseract
    proc = subprocess.Popen(command, stderr=subprocess.PIPE)
  File "C:Program FilesPython35libsubprocess.py", line 676, in __init__
    restore_signals, start_new_session)
  File "C:Program FilesPython35libsubprocess.py", line 957, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

M D 找不到指定文件,到这里我也不懂,继续百度。然后找到的文章说要更改 pytesseract.py这个文件的一些配置(第二个安装的模块)。因为这里面配置有一些相关于tesseract-ocr(即第三个安装的程序)

更改如下:

在pycharm中如图打开pytesseract.py:

技术分享

在右边打开的窗口找到:tesseract_cmd 这行代码:

这一行注释掉:因为pytesseract.py文件内默认的tesseract-ocr的主程序环境变量不知道怎么变的,到了windows 下面就不能运行,上面执行的报错代码中找不到文件,其实就是找不到主程序。所以注释掉原来的,我们再新加一行。上面的路径就是你安装Tesseract-ocr程序时的路径:

#tesseract_cmd = ‘tesseract‘

新增加一行:

tesseract_cmd = r‘C:/Program Files (x86)/Tesseract-OCR/tesseract.exe‘

技术分享

保存,运行我们写的代码,看看效果。

技术分享

又报错了,伤不起

"C:Program FilesPython35python.exe" D:/Python_Study3.5/test/pli_png.py
Traceback (most recent call last):
  File "D:/Python_Study3.5/test/pli_png.py", line 4, in <module>
    text = pytesseract.image_to_string(img)
  File "C:Program FilesPython35libsite-packagespytesseractpytesseract.py", line 125, in image_to_string
    raise TesseractError(status, errors)
pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \Program Files (x86)Tesseract-OCR\eng.traineddata‘)
Process finished with exit code 1

这次报的错,貌似是找不到tesseract-ocr的配置文件。看来还得改pytesseract.py文件。

于是又从网上找了一些东西,继续更改。

如图

技术分享

保存,接着运行程序:

技术分享

啥啥成功了,虽然识别多了一个小数点,不过至少不报错了。

就试到这里了,多的我也不会。

以上大部分内容都是来自网上。我不过做下整理。

那里说错了,莫怪,我了解的也不多。

本文出自 “学习之路” 博客,请务必保留此出处http://13136244.blog.51cto.com/13126244/1972816

python3 for win10X64下Pillow,pytesserac和tesseract文字识别简单配置。

标签:pytesseract.pytesseract   winerror   

原文地址:http://13136244.blog.51cto.com/13126244/1972816

Tesseract-OCR的简单使用与训练:https://www.cnblogs.com/cnlian/p/5765871.html

Tesseract 3.02中文字库训练----整理:http://blog.csdn.net/liulina603/article/details/45071485

Tesseract-OCR识别中文与训练字库实例:https://www.cnblogs.com/wzben/p/5930538.html

Tesseract训练中文字体识别:https://www.jianshu.com/p/31afd7fc5813

Tesseract.js 一个几乎能识别出图片中所有语言的JS库:https://segmentfault.com/p/1210000007152346

用于62种语言的纯Javascript Javascript OCR:https://github.com/naptha/tesseract.js#docs

免责声明:文章转载自《tesseract-ocr》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇利用Windows Media实现IP组播java GUI(图形用户界面)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

搭建Loki、Promtail、Grafana轻量级日志系统(centos7)

需求 公司项目采用微服务的架构,服务很多,每个服务都有自己的日志,分别存放在不同的服务器上。当查找日志时需要分别登录不同的服务器,有大量的请求的情况下,在日志文件中查找信息十分困难。想要搭建一个日志系统,ELK分布式日志系统对于中小型公司来说开发维护成本太高,经过调研,选择Loki轻量级日志系统。 Loki简介 Loki 是一个水平可扩展,高可用性,多租户...

Android https 抓包

背景安卓新版(android 7.0 以上)应用里面,https 的抓包,需要突破 ssl 限制。要突破 ssl 限制又需要 hook ,hook 常用 xposed , xposed 插件有 justtrustme 。(在 低版本 android 7.0 以下的安卓系统上 抓 https 包的话,就不用往下看啦 )要装 xposed , 需要 root...

docker扩容

方法一、 https://www.cnblogs.com/atuotuo/p/7217331.html 只需要修改 dockerd 的启动参数啊 增加 --data-root 把 /var/lib/docker 改到存储区域 [root@lab3 nginx]# docker info Docker Root Dir: /var/lib...

转载 微信支付服务器与本地证书问题的坑

在本地安装证书并调用微信小程序支付,没有问题,但发布到服务器则报错,开始显示内部错误,查相关资料后发现IIS确实与VS环境不同,需要设置以下内容: Https传输证书授权问题 一、导入证书  1、运行->mmc,打开管理控制台,文件->添加/删除管理单元 2、在可用的管理单元中选择证书,然后点击添加 3、回到控制台,展开证书-当前用户-&...

一文带你了解 HTTP 黑科技

这是 HTTP 系列的第三篇文章,此篇文章为 HTTP 的进阶文章。 在前面两篇文章中我们讲述了 HTTP 的入门,HTTP 所有常用标头的概述,这篇文章我们来聊一下 HTTP 的一些 黑科技。 HTTP 内容协商 什么是内容协商 在 HTTP 中,内容协商是一种用于在同一 URL 上提供资源的不同表示形式的机制。内容协商机制是指客户端和服务器端就响应的资...

HTTP接口抓包工具之Fiddler

Fiddler的基本功能介绍: Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许你监视,设置断点,甚至修改输入输出数据,Fiddler包含了一个强大的基于时间脚本的子系统,并且能使用.NET语言进行扩展。对HTTP协议越了解,就能越掌握Fiddler的使用方法。越使用Fiddler,就越能帮助了解...