前言

经过上一篇文章,我们已经成功安装了Tesseract4.0,并且可以识别出英文了
https://blog.csdn.net/qq_43576028/article/details/102907170

那么Tesseract要怎么识别中文呢。

流程

去官网的GitHub上面下载中文训练包
https://github.com/tesseract-ocr/tessdata
在这里插入图片描述

点击进入,不用直接下载,可能会导致页面崩溃,大家复制链接,进入迅雷下载速度更快。
在这里插入图片描述

下载完了之后把中文训练包放到tessdata中
在这里插入图片描述

配置环境变量
在这里插入图片描述

在这里插入图片描述

开始图片转换(具体的图片转换流程在第一篇安装教程里面,戳这里https://blog.csdn.net/qq_43576028/article/details/102907170

在这里插入图片描述

以上图为例
在这里插入图片描述

与默认的英文识别相比,在这里我们多了一个参数:-l chi_sim

这样tesseract就知道要去识别中文了

打开结果文件
在这里插入图片描述

成功

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐