一、安装 tesseract

安装过程:https://blog.csdn.net/fengbohello/article/details/119272478

二、安装训练后的语言文件

下载英文数据:https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata

下载简体中文数据:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

把下载的数据文件,复制到系统目录 /usr/share/tessdata/ 中,参考:https://blog.csdn.net/fengbohello/article/details/119255898

三、识别图片中的文字信息

3.0)tesseract 命令的使用方法

$ tesseract --help
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

所以识别一个包含英文信息的图片时,可以使用下面的命令

tesseract english-word.png out-file -l eng
  • english-word.png:图片的文件名
  • out-file:识别出来的文字信息存储的位置,tesseract 会自动补全为 out-file.txt
  • -l eng:指定语言

3.1)识别英文

包含文字信息的图片如下:

 识别图片中的信息:

$ tesseract eng.png - -l eng
Traineddata Files for Version 4.00 +

We have three sets of official .traineddata files trained at Google, for tesseract versions 4.00 and
above. These are made available in three separate repositories.

注:输出文件指定为连字符 - ,意思是直接输出到 stdout

3.2)识别简体中文

包含文字信息的图片如下:

 识别图片中的信息:

$ tesseract chi_sim.png - -l chi_sim
目 录

一 、 安装 tesseract
二 、 安 装 训 练 后 的 语 言 文 件
三 、 识 别 图 片 中 的 文 字 信 息

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐