Umi-OCR：一款强大而高效的文字识别工具

Umi-OCR 是一款在GitHub开源免费的文字识别工具，它能够将图像中的文字提取出来，并将其转化为可编辑的文本。这项技术基于深度学习和计算机视觉算法，具备出色的准确性和高效的处理能力。无论是通过手机拍摄、扫描仪或是其他图像源，Umi-OCR 都能够迅速地识别和提取其中的文字内容。

文章共2,272字 · 阅读需要大约8分钟

一键AI生成摘要，助你高效阅读

问答

MatrixWave

5196人浏览 · 2023-11-30 22:37:28

MatrixWave · 2023-11-30 22:37:28 发布

Umi-OCR：一款强大而高效的文字识别工具

在日常生活和工作中，我们经常会遇到需要将图片中的文字提取出来进行编辑或整理的情况。手动输入不仅耗时耗力，而且容易出错。那么有没有一种工具可以帮我们轻松解决这个问题呢？答案是肯定的！今天，我们就来为大家介绍一款非常实用的文字识别工具——Umi-OCR。

Untitled

1️⃣ Umi-OCR 简介

2️⃣ Umi-OCR 功能特点

**① 免费使用：**项目代码在Github开源，安全免费

② 离线使用：下载解压即用，离线运行，无需网络

③ 简洁易用：界面简洁，操作流程清晰，即使是 OCR 初学者也可以轻松上手。

④ 高精度识别：采用先进的深度学习算法，识别率远高于传统的 OCR 工具，可以满足各种场景下的文字识别需求。

⑤ 多语言支持：支持多种语言，包括中文、英文、日文、韩文等，可满足不同用户的需求。

⑥ 批量识别：支持批量处理图片，用户可以一次性上传多张图片进行识别，大大提高了工作效率。

⑦ 二维码：支持识别读取二维码、条形码。也可生成二维码。支持19种协议。

3️⃣ Umi-OCR 应用场景

① 文档数字化：将纸质文档转化为可编辑的电子文本，提高文档存储和检索的效率。

② 数据录入：自动提取表格、发票等文档中的数据，减少繁琐的手工录入工作。

③ 图片翻译：将包含文字的图片翻译成其他语言，方便跨语言交流和阅读。

④ 身份证或名片扫描：快速识别身份证、名片等图片中的文字信息，方便信息记录和整理。

4️⃣ Umi-OCR 下载

软件有两个版本，根据需求下载

Paddle 版：性能好，速度快，占用率高，适合高配机器。
Rapid 版：速度稍慢，内存占用低，适合低配机器，兼容性好

Github下载地址：https://github.com/hiroi-sora/Umi-OCR/releases

蓝奏云下载地址： https://hiroi-sora.lanzoul.com/s/umi-ocr

阿里云盘：https://www.aliyundrive.com/s/yPUtBuezDHv

百度云盘： https://pan.baidu.com/s/1lTV-Cb1D6Cy5WXrGgg8lBw?pwd=thh4 提取码: thh4

5️⃣ Umi-OCR 安装使用

解压安装软件

下载好.7z.exe自解压包后用压缩软件打开，或者在没有安装压缩软件的电脑上直接双击解压。

Untitled

截图OCR

在新标签页选择截图OCR进入功能区

Untitled

左侧的图片预览栏，可直接用鼠标划选复制。
右侧的识别记录栏，可以编辑文字，允许划选多个记录复制。
也支持在别处复制图片，粘贴到Umi-OCR进行识别。

Untitled

CR文本后处理 - 段落合并：

单行：合并同一行的文字，适合绝大部分情景。
多行-自然段：智能识别、合并属于同一段落的文字，适合绝大部分情景，如上图所示。
多行-代码段：尽可能还原原始排版的缩进与空格。适合识别代码片段，或需要保留空格的场景。
竖排：适合竖排排版。需要与同样支持竖排识别的模型库配合使用。

Untitled

批量OCR

支持批量导入本地图片并识别。

识别内容可以保存为 txt / jsonl / md / csv(Excel) 等多种格式。
支持文本后处理技术，能识别属于同一自然段的文字，并将其合并。还支持代码段、竖排文本等多种处理方案。
没有数量上限，可一次性导入几百张图片进行任务。
支持任务完成后自动关机/待机。

Untitled

OCR文本后处理 - 忽略区域：批量OCR中的一种特殊功能，适用于排除图片中的不想要的文字。

在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方样例，图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰。
按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。

Untitled

二维码

识别码：

可截图/粘贴/拖入本地图片，读取其中的二维码、条形码。
支持一图多码。
支持 Aztec,Codabar, Code128等19种协议

Untitled

生成码：

输入文本，生成二维码图片。
支持19种协议和纠错等级等参数。

Untitled

全局设置

在这里可以调整软件的全局参数。常用功能如下：

一键添加快捷方式或设置开机自启。
更改界面语言。Umi支持繁中、英语、日语等语言。
切换界面主题。Umi拥有多个亮/暗主题。
调整界面文字的大小和字体。
切换OCR插件。
渲染器：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况，请调整界面和外观 → 渲染器 ，尝试切换到不同渲染方案，或关闭硬件加速。

Untitled

6️⃣文章总结

总之，Umi-OCR 是一款功能强大、准确高效的文字识别工具，为各行各业的数字化转型提供了可靠的支持。无论是个人用户还是企业机构，都可以通过使用 Umi-OCR 提高工作效率、减少人力成本，并且轻松应对文字识别的挑战。

让我们一起迎接数字化时代的到来，借助 Umi-OCR 文字识别工具，释放无限潜力！

感谢您阅读我的文章！如果您觉得这篇文章对您有所帮助，欢迎收藏转发和分享。
如果您有任何想法和建议，请随时在评论区留言。您的反馈对我来说非常重要，我会认真倾听并不断改进我的文章内容。
同时，如果您想第一时间获取我的最新文章和动态，您还可以搜索关注我的博客或公众号。
再次感谢您的支持和关注，期待与您在未来的文章中再次相遇！