tesseract：从图片中识别文字信息

一、安装 tesseract参考：https://blog.csdn.net/fengbohello/article/details/119272478二、安装训练后的语言文件英文数据：https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata简体中文数据：https://github.com/tesseract-oc

文章共549字 · 阅读需要大约2分钟

一键AI生成摘要，助你高效阅读

问答

miaow~miaow

4720人浏览 · 2021-08-04 15:46:59

miaow~miaow · 2021-08-04 15:46:59 发布

一、安装 tesseract

安装过程：https://blog.csdn.net/fengbohello/article/details/119272478

二、安装训练后的语言文件

下载英文数据：https://github.com/tesseract-ocr/tessdata/blob/master/eng.traineddata

下载简体中文数据：https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

把下载的数据文件，复制到系统目录 /usr/share/tessdata/ 中，参考：https://blog.csdn.net/fengbohello/article/details/119255898

三、识别图片中的文字信息

3.0）tesseract 命令的使用方法

$ tesseract --help
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

所以识别一个包含英文信息的图片时，可以使用下面的命令

tesseract english-word.png out-file -l eng

english-word.png：图片的文件名
out-file：识别出来的文字信息存储的位置，tesseract 会自动补全为 out-file.txt
-l eng：指定语言

3.1）识别英文

包含文字信息的图片如下：

识别图片中的信息：

$ tesseract eng.png - -l eng
Traineddata Files for Version 4.00 +

We have three sets of official .traineddata files trained at Google, for tesseract versions 4.00 and
above. These are made available in three separate repositories.

注：输出文件指定为连字符 - ，意思是直接输出到 stdout

3.2）识别简体中文

包含文字信息的图片如下：

识别图片中的信息：

$ tesseract chi_sim.png - -l chi_sim
目 录

一 、 安装 tesseract
二 、 安 装 训 练 后 的 语 言 文 件
三 、 识 别 图 片 中 的 文 字 信 息

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

GitTalk | 使用面向业务的狮偶编程语言提升开发效率

GitCode 开源社区

GitTalk | DevUI Suits 场景解决方案

GitCode 开源社区

GitTalk | DevUI Admin 前端项目构建

GitCode 开源社区

所有评论(0)

查看更多评论

miaow~miaow

@fengbohello

已为社区贡献3条内容