发布于2019-08-05 11:09 阅读(755) 评论(0) 点赞(3) 收藏(2)
1 from PIL import Image 2 import pytesseract 3 4 text = pytesseract.image_to_string(Image.open(r'E:\guo\2432.jpg'),lang='chi_sim') 5 print(text)
我的python为3.7
1.需要安装二个模块,
PIL 直接使用 pip install PIL 会报错 使用 pip install Pillow 即可安装PIL
第二个直接 pip install pytesseract
2安装好了模块还需要下载 tesseract-ocr
下载网址:https://github.com/UB-Mannheim/tesseract/wiki
选择自己的版本下载,下载之后直接安装即可。注意要记住安装的位置,等下需要用到
修改pytesseract.py 文件里面的指向路径
打开方式可以在pycharm 输入import pytesseract.pytesseract 然后按住ctrl键鼠标对着pytesseract右键点击进去
1 from io import BytesIO 2 pandas_installed = find_loader('pandas') is not None 3 if pandas_installed: 4 import pandas as pd 5 6 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY 7 tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 8 RGB_MODE = 'RGB'
其中tesseract_cmd是我已经修改了的地址,tesseract.exe在刚刚安装位置里面,将这里设置好了运行就不会报错
pytesseract有很多语言库,默认的有英文,如果需要中文要去下载对应的语言包:
网址:https://github.com/tesseract-ocr/tessdata
其中的chi_sim.traineddata为简体中文的语言包,将语言包放置到安装路径的tessdata目录下即可。
如果需要使用语言包使用lang=来指定对应的语言包。默认是英文的。
chi_sim.traineddata的识别率不高,如果需要针对性的文字可以使用训练模型生成适合自己的语言包
作者:紫薇
链接:https://www.pythonheidong.com/blog/article/4230/df5611052f8f0c4e6589/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!