OCR 2.0时代:从字符识别到多模态智能理解的技术革命
随着Transformer架构和多模态技术的兴起,OCR 2.0时代实现了文档版面分析和结构化理解。当前,以GPT-4V、Gemini等为代表的多模态大模型(VLM)通过视觉编码、语言编码和图文对齐三大核心技术,实现了真正的"图文双理解"。文章详细解析了VLM的三种典型对齐方式及其代表模型,展示了OCR技术从"识字"到"理解世界"的革命性转变。
OCR 2.0时代:从字符识别到多模态智能理解的技术革命
本文将深入剖析 OCR 技术从传统字符识别向智能多模态理解的技术发展方向,系统解读当前最前沿的 VLM(视觉语言模型)与 OCR 技术,并详细介绍驱动这一变革的顶尖开源项目DeepSeek-OCR及PaddleOCR-VL。
一、OCR 技术的发展方向 及 多模态技术解析
1. 从识字到理解世界
在人工智能的发展历史中,OCR(Optical Character Recognition,光学字符识别) 曾是最早实现“机器理解文字”的技术之一。它让计算机第一次具备了“看懂文字”的能力——能够将扫描的纸质文件、票据、街景招牌中的文字自动识别为可编辑、可搜索的文本。可以说,OCR 技术是人类让机器“识字”的起点。
但随着信息形式的多样化,文字早已不再是唯一的信息载体。图像、视频、表格、图纸、网页、甚至 PDF 文档——都成为了新的知识容器。因此,传统的 OCR 技术,虽然能够识别字符,却往往无法理解图像中的语义关系。它知道一串文字写着什么,却不理解它在页面中的意义——是标题、表格项、还是公式的一部分。这正是传统 OCR 的“瓶颈”所在。
2. OCR 1.0文字识别与文档版面识别
早期的 OCR(我们称之为 OCR 1.0 时代)主要由两个独立的模块组成:
- 文字检测(Text Detection):找到图像中哪里有文字;
- 文字识别(Text Recognition):识别每一段文字的具体内容。
这些系统通常基于 CNN(卷积神经网络)+ LSTM(长短期记忆网络) 的结构,比如 CRNN、CTC 识别模型等。这一阶段的 OCR 主要解决的是“机器读字”的问题——识别准确率、字体鲁棒性、多语言支持等。
应用层面上,OCR 1.0 解决了海量的现实问题:
- 银行票据识别与自动录入;
- 身份证、驾驶证、发票的自动录入系统;
- 扫描文档的数字化存档;
- 翻译与语言辅助系统(如 Google 翻译的实时摄像头翻译功能)。
这些应用让信息数字化变得前所未有的高效,也成为“无纸化办公”“自动化文档处理”的基础。
然而,很快研究者开始意识到:仅仅识别文字远远不够,机器还需要理解整个文档的结构与语义。于是,新的 OCR 模型开始引入:
- 视觉 Transformer(Vision Transformer, ViT)结构;
- 布局分析(Layout Analysis);
- 视觉语言对齐(Vision-Language Alignment)。
这一阶段的代表模型包括微软的 LayoutLM、百度的 PaddleOCR 2.0,以及多模态结构化识别模型 Donut、DocFormer、TextMonkey 等。这些模型不仅能识别文字,还能输出 Markdown、HTML 或 JSON 结构,理解表格、公式、图形之间的关系。也就是说,此时OCR模型就由原先的“看字”升级成了“看文档版面”。
但是需要注意的是,此时的OCR模型仍然无法真正全面理解完整文档的语义,尤其是一些流程图、CAD图、装饰图等等,也就是说,新一代OCR模型理解能力上升了,但也只局限在理解文档版面信息层面。
3. 多模态崛起:让大模型看懂世界
而在 2023 年之后,大模型技术的爆发彻底改变了视觉理解的格局。以 GPT-4V、Gemini 2、Qwen-VL、InternVL 等为代表的 多模态大模型(VLM,Vision-Language Model) 出现,让人工智能真正具备了“同时理解文字与图像”的能力。
多模态技术的核心思想是:将图像和语言映射到同一个语义空间中,让模型能够同时处理视觉信息和文本信息。这意味着,模型既能“看图识字”,又能“看图明意”——它能读懂论文 PDF、解析图表、理解建筑图纸、甚至生成 Markdown 结构的文本。
多模态技术的本质,是要让机器能够“同时理解文字与图像”。而实现这一点的关键,就是将图像与文本映射到同一个语义空间(Shared Semantic Space)中。换句话说,无论输入是一句话,还是一张图,模型都能在同一个高维表示空间里找到它们之间的语义对应关系。
这就像人类在看图表或阅读论文时,不仅识别出图形和文字,还能在大脑中把它们融合成“意义”:看到“上升趋势”这个图形,你会自动想到“增长”;看到公式,你能联想到逻辑推理。多模态模型正是试图在计算机中复现这种语义联想机制。
而基于VLM进行OCR的工作,包括文字识别、版面识别(文档结构关系识别)等等,也被称为OCR 2.0。
4. VLM技术核心:视觉特征的语义映射(Vision-Language Alignment)
在现代多模态模型中,这种“图文对齐”通常分为三个关键步骤:
1. 视觉编码(Vision Encoding)
首先,模型需要将图像转换为一组高维视觉特征向量(visual embeddings)。这一过程由 视觉编码器(Vision Encoder) 完成,最早的代表就是 CLIP 的 ViT 模块。视觉编码器通常采用 Transformer 架构(ViT 或 Swin Transformer),把一张图像切分为若干个小块(patch),每个 patch 都会映射成一个 token,最终得到一串图像向量序列:
[I=v1,v2,...,vn,vi∈Rd] [ I = {v_1, v_2, ..., v_n}, \quad v_i \in \mathbb{R}^d ] [I=v1,v2,...,vn,vi∈Rd]
这些向量就像语言模型中的单词嵌入(word embeddings),代表图像中不同区域的语义内容。
2. 语言编码(Text Encoding)
与此同时,文本会被输入到 语言编码器(Text Encoder)(例如 GPT、LLaMA、T5 等)中,转换为相同维度的语言向量:
[T=t1,t2,...,tm,ti∈Rd] [ T = {t_1, t_2, ..., t_m}, \quad t_i \in \mathbb{R}^d ] [T=t1,t2,...,tm,ti∈Rd]
至此,图像和文本都被表示成一串高维 token。但这两种 token 来自不同模态,尚未处于“同一个语义空间”中。
3. 图文对齐(Cross-Modal Alignment)
对齐机制的核心目标是:让视觉向量与语言向量在同一个空间中具有可比较的语义距离。实现方式主要有三种典型路径:
| 对齐方式 | 技术实现 | 特点 |
|---|---|---|
| 🔹 对比学习(Contrastive Learning) | 如 CLIP:通过大规模图文配对数据,让图像与文本 embedding 在向量空间中靠近 | 简单高效,训练稳定;但语义理解有限(主要停留在关联层面) |
| 🔹 特征投影(Projection Head) | 使用 MLP / Linear 层将视觉特征投射到语言模型 embedding 空间 | 可直接与 LLM 融合,但训练依赖下游任务 |
| 🔹 跨模态注意力(Cross-Attention) | 如 BLIP-2、LLaVA:通过交叉注意力层实现图像 token 与语言 token 的动态交互 | 理解深度强,可进行生成与推理任务 |
这三种方法可以理解为“从对齐到融合”的三步演进:
CLIP —— 对齐;BLIP —— 语义交互;LLaVA / DeepSeek-OCR —— 语义生成。
- 典型多模态架构
让我们看看目前主流的视觉语言模型是如何设计的:
| 模型 | 核心组成 | 技术特点 | 代表任务 |
|---|---|---|---|
| CLIP(OpenAI) | ViT(视觉编码器) + Transformer(文本编码器) | 大规模对比学习;统一特征空间 | 图文检索、图像分类、Zero-shot |
| BLIP / BLIP-2(Salesforce) | 图像编码器 + Q-Former + 语言模型 | 引入 Q-Former 作为视觉语义中介;提升语义对齐 | 图文生成、图像理解 |
| LLaVA(Visual Instruction Tuning) | CLIP ViT + 投影层 + LLaMA | 将视觉 token 直接映射到 LLM 输入 | 图文问答、多模态对话 |
| Qwen-VL / InternVL | 自研视觉编码器 + LLM 联合训练 | 支持复杂文档理解与视觉推理 | OCR 2.0、图文RAG |
| DeepSeek-OCR(DeepSeek-AI) | ViT 视觉编码器 + 文本解码器 + Prompt路由机制 | 专注文档解析;融合OCR任务 | PDF转Markdown、公式/表格解析 |
注:DeepSeek-OCR 正是在 LLaVA 类架构基础上,结合了高效的视觉压缩与 OCR 微调机制,形成了一种专用的 “视觉语言对齐 + 结构生成”模型。
二、多模态RAG系统开发及主流OCR&VLM模型介绍
1. 从文本到图文:信息检索的现实困境
在传统的RAG(Retrieval-Augmented Generation)系统中,我们所面对的数据大多是纯文本。这些系统的核心流程通常是:
文本向量化 → 向量检索 → 结果拼接 → 大模型回答。
然而,真实的知识世界远不止文本。在企业文档、科研论文、专利报告、财务报表、建筑图纸等场景中,大量关键信息都藏在非结构化PDF文档中。
这些文档可能包含:
- 复杂的表格(嵌套结构、合并单元格);
- 数学公式或物理符号;
- 实验图片、流程图、建筑蓝图;
- 混合语言或多栏排版;
- 注释、脚注、图例等细节信息。
对于人类而言,理解这些内容只是阅读的问题;但对于机器来说,这是一场真正的挑战。
-
多模态文档样例
-
风景图&装饰图

-
表格

-
流程图

-
产品图

-
latex公式
并且,在Lesson 12中我们曾证明,伪残差之所以能够加快模型收敛速度,是因为伪残差代表的拟合方向就是损失函数最快速减小(下降)的方向。换而言之,通过一颗颗决策树不断拟合伪残差,最终能够使得损失函数最快速的减小。同时,在伪残差的具体选取上,GBDT的伪残差是样本的负梯度:
rit−GBDT=−∂l(yi,Ht−1(xi))∂Ht−1(xi) r_{it-GBDT} = -\frac{\partial{l(y_i,H_{t-1}(x_i))}}{\partial{H_{t-1}(x_i)}} rit−GBDT=−∂Ht−1(xi)∂l(yi,Ht−1(xi))
而XGB的伪残差则是一个同时包含梯度和损失函数二阶导的计算结果:
gik−XGB=∂l(yi,Hk−1(xi))∂Hk−1(xi) g_{ik-XGB} = \frac{\partial{l(y_i,H_{k-1}(x_i))}}{\partial{H_{k-1}(x_i)}} gik−XGB=∂Hk−1(xi)∂l(yi,Hk−1(xi))hik−XGB=∂2l(yi,Hk−1(xi))∂Hk−12(xi) h_{ik-XGB} = \frac{\partial^2{l(y_i,H_{k-1}(x_i))}}{\partial{H^2_{k-1}(x_i)}} hik−XGB=∂Hk−12(xi)∂2l(yi,Hk−1(xi))
rik−XGB=−gikhik r_{ik-XGB} = -\frac{g_{ik}}{h_{ik}} rik−XGB=−hikgik
而根据Lesson 13中的数学推导不难看出,从本质上来说,XGB的伪残差是在拟合损失函数的二阶泰勒展开,而GBDT的伪残差则是在拟合损失函数的一阶泰勒展开。在大多数情况下,通过拟合二阶泰勒展开,能够更好的捕捉损失函数的更加细微的变动,从而提升精度,但代价是这么做需要耗费更大的计算量。
-
手写公式拍照

-
论文图表

-
结构化数据图

-
2. 基于OCR模型的文档识别与检索系统
在这样的多模态PDF场景中,OCR模型就是系统的**“第一道神经通路”**。它承担着从视觉信息中提取语义结构的关键任务,是整个RAG链路的起点。如果说LLM是“大脑”,那么OCR模型就是“视觉皮层”——它决定了大脑能看到什么、理解到什么程度。
在过去的OCR 1.0时代(以PaddleOCR、Tesseract等为代表),模型只能“扫描文字”,也就是说,它看到PDF中的一段文字,只会简单地识别出“这些字是什么”。
而在OCR 2.0(也就是VLM模型时代)中,OCR模型已经能够实现:
- 语义级解析:不仅识别文字,还能理解其上下文逻辑(如表头对应数据、公式与变量的关联);
- 结构级还原:能够自动将PDF文档转化为结构化的Markdown或HTML格式,保留段落层次、标题、列表等格式信息;
- 视觉语义融合:能看懂图像与文字的关系,比如“图1展示了实验流程”、“左图为原始图像、右图为结果对比”;
- 内容理解能力:不仅能提取表格数据,还能识别图表趋势、理解图像含义、甚至生成解释性描述。
这意味着,OCR 2.0模型不再只是“PDF识别器”,而是一个真正的“PDF理解器”。
| 能力方向 | 传统OCR(1.0) | 现代VLM OCR(2.0) |
|---|---|---|
| 信息提取 | 仅识别文本字符 | 同时提取文本、表格、公式、图像语义 |
| 文档结构 | 无法保留层级 | 自动生成结构化Markdown/HTML |
| 语义理解 | 无上下文关联 | 理解逻辑、关系、描述性语义 |
| 应用范围 | 文档数字化 | 多模态RAG、知识抽取、科研分析、问答系统 |
在多模态RAG系统中,OCR模块通常作为整个流程的**输入层(Input Layer)**存在。完整的管线一般包括以下几个阶段:
PDF文档 → OCR/VLM解析 → Markdown/JSON结构化结果 → 向量化编码 → 检索/召回 → 大模型回答
这其中的OCR阶段至关重要——它决定了后续的知识检索质量。
一个优秀的OCR模型,能够把一份复杂的学术PDF转化为层次清晰的Markdown文档:标题、表格、公式、图表说明都保持一致;而一个传统OCR模型,可能只能输出一堆“碎片化文字”,失去了上下文结构。可以说:如果OCR阶段做不好,整个多模态RAG系统的“知识理解”就无从谈起。
3. 主流VLM与OCR模型介绍
目前VLM模型有很多,除了主流的多模态在线大模型外,还有如Qwen-VL、InternVL、Gemma等开源的视觉模型。
3.1 在线VLM模型
在多模态 RAG 技术体系中,在线 VLM 模型是目前能力最全面的语义理解引擎。这类模型往往由顶尖大厂训练并托管在云端,参数规模达到数百亿甚至上千亿,具备强大的多模态感知与推理能力。典型代表包括 OpenAI 的 GPT-5(原生支持文本、图像、音频等模态,提供完善的 API 与生态)、Google 的 Gemini 2.5(强调长上下文、多语言和与搜索/Workspace 的无缝集成)、以及 Anthropic 的 Claude 4.5(在多步推理与代理式任务中表现突出,并已在多云环境提供企业级接入)。这类在线模型的优势在于即开即用、功能齐全、语义理解能力极强,但与此同时也存在调用成本高、隐私合规受限的现实问题。因此,在线 VLM 更适合作为复杂问题的“上层大脑”,在需要深度语义理解、跨模态推理和企业级可靠性的场景下发挥核心价值。
3.2 开源VLM模型
3.2.1 InternVL 3.5模型
InternVL 3.5 由 上海人工智能实验室 (Shanghai AI Lab) 联合多家科研团队于 2025 年发布,是继 InternVL 2.x 系列后的重大更新版本。该模型参数规模覆盖 8B 至 40B,在图像理解、表格解析、跨模态检索和复杂推理方面均有显著提升。特别是提出了 Cascade RL(级联强化学习) 策略,用于增强模型的多步推理稳定性,使其在图表问答、科学文献解析等任务中表现优于同类开源模型。
-
优势:推理链条长、跨模态任务表现强,支持多语言和科研级任务;社区生态活跃。
-
局限:大尺寸模型的显存占用较高,对硬件配置有一定门槛。
-
项目地址:https://github.com/OpenGVLab/InternVL
- 运行效果
3.2.2 Qwen3-VL
Qwen3-VL 是 阿里巴巴达摩院 在 2025 年推出的最新一代视觉语言模型,是 Qwen2.5-VL 的升级版。其参数规模从 3B、7B 到 72B,覆盖轻量部署与高性能需求,具备目标检测、图表理解、视频解析等全面能力。Qwen3-VL 在 跨语言文档解析、长视频理解 上有增强优化,并延续了 Qwen 系列在企业级开源社区中的强大影响力。
- 优势:参数规模覆盖广,性能与成本可灵活平衡;对文档/图表解析能力突出。
- 局限:大尺寸模型需要高端 GPU,推理延迟较大。
- 适用场景:企业文档检索、长视频内容解析、多语言跨模态问答。
- Qwen2.5模型开源地址:https://github.com/QwenLM/Qwen3-VL
3.2.3 SmolVLM
SmolVLM 由 Hugging Face 社区在 2024 年末发起,是一类 轻量级 Vision-Language Model,参数规模通常在 1B–2B 左右,主打 低算力环境可运行。与大型 VLM 相比,SmolVLM 的目标不是追求极致性能,而是通过紧凑模型结构,在笔记本或中低端 GPU 上也能实现图文问答、图像 caption 等多模态任务。
-
优势:模型小巧,部署门槛低;训练与调用成本显著低于大型 VLM。
-
局限:在复杂表格解析、多步推理上的表现明显落后于大模型;在专业场景(科研、法律文档)效果有限。
-
适用场景:教学实验、个人项目、边缘设备上的轻量多模态应用
-
项目地址:https://github.com/huggingface/smollm
- 运行效果
3.2.4 Gemma 3
Gemma 3 是 Google DeepMind 在 2025 年开源的最新多模态模型,提供 4B、12B、27B 三个参数规模,支持文本与图像输入。Gemma 3 延续了 Gemma 系列开源、透明、注重轻量化的设计理念,并针对 图像问答、图表解析 等任务做了优化。它兼顾了学术研究的可复现性与企业应用的可落地性,尤其在中小规模下提供了性能与算力需求的良好平衡。
- 优势:覆盖轻量到中型参数规模,支持多模态输入;Google 官方维护,生态完善。
- 局限:相比更大规模的 VLM(如 GPT-5、InternVL 40B),在复杂推理和长文档解析上能力有限。
- 适用场景:科研探索、企业试点项目、对成本敏感的多模态应用。
- 模型地址:https://huggingface.co/google/gemma-3-4b-it
各类VLM模型对比如下
| 模型 | 发布团队 | 参数规模 | 类型 | 核心特点 | 优势 | 局限 | 适用场景 |
|---|---|---|---|---|---|---|---|
| GPT-5 | OpenAI | 百亿+ | 在线 API | 原生多模态(文本/图像/音频),API 生态完善 | 功能最全,推理强,生态成熟 | 成本高,需考虑隐私合规 | 高阶语义推理,企业级 RAG,代理任务 |
| Gemini 2.5 | Google DeepMind | 数百亿 | 在线 API | 长上下文(百万级),文本/图像/音频/视频融合 | 与搜索/Workspace 深度整合,多模态能力强 | 部署受地区/合规限制 | 长文档检索,复杂企业场景 |
| Claude 4.5 | Anthropic | 百亿+ | 在线 API | 多步推理与代理式任务突出 | 长程任务表现好,企业接入灵活 | 成本与速率受限,图像能力因版本而异 | 工程/科研多步任务,企业合规环境 |
| InternVL 3.5 | 上海人工智能实验室 | 8B–40B | 开源 | Cascade RL 增强推理,图表/跨模态理解 | 推理强,科研友好,社区活跃 | 大模型需高端 GPU | 科研论文解析,图表问答 |
| Qwen3-VL | 阿里巴巴达摩院 | 4B/8B/ 30B/235B |
开源 | 文档解析、目标定位、长视频理解 | 尺寸覆盖广,性能灵活 | 大尺寸算力要求高 | 企业文档、多语言跨模态应用 |
| SmolVLM | Hugging Face 社区 | 1B–2B | 开源 | 轻量 VLM,低算力可运行 | 部署门槛低,适合个人/教育 | 复杂任务效果弱 | 教学、轻量个人项目 |
| Gemma 3 | Google DeepMind | 4B/12B/27B | 开源 | 轻量到中型参数,图像问答/图表解析 | 成本低,生态完整 | 性能弱于超大模型 | 成本敏感型企业/科研试点 |
3.2 主流OCR 2.0模型介绍
不过需要注意的是,VLM模型是更加通用的视觉识别模型,而为了更好的完成OCR的工作,又进一步诞生了基于VLM模型进行微调后得到的专业的OCR 2.0模型。相比通用的VLM模型,这些OCR 2.0模型能够更好的完成图像实体识别、PDF版面分割、图片信息提取后的结构化输出、PDF到MarkDown的一键转化工作等等。其中主流的模型如下。
3.2.1 MinerU:高精度 PDF 转 Markdown 的一体化工具
MinerU 由 阿里巴巴达摩院与 OpenDataLab 社区联合开源,是当前性能最突出的 PDF → Markdown 转换工具之一。它集成了 OCR 模型、版面解析与结构化抽取,能够处理学术论文、扫描件和复杂排版文档。MinerU 特别在 公式、表格、图片引用 等细节保留上表现优异,使得输出的 Markdown 更加接近原始文档语义。
-
优势:输出结构清晰、对数学公式/表格解析精度高;社区活跃、CLI 使用方便。
-
局限:使用 AGPL-3.0 许可证,对闭源商用有限制;在极端复杂排版场景仍可能需要人工后处理。
-
适用场景:科研 PDF 批量解析、技术文档转换、构建高质量 RAG 知识库的前置步骤。
-
项目地址:https://github.com/opendatalab/MinerU
- 使用效果
需要注意的是,最新版MinerU 2.5已发布,这是一个基于Qwen 2.5-VL模型进行修改和微调后的1.2B参数模型。
3.2.2 dots.ocr
dots.ocr是小红书近期发布的OCR大模型。不同于传统 OCR 工具链依赖「检测 → 识别 → 版面重构」的多阶段流水线,dots.ocr 采用了统一的 Vision-Language Transformer 架构,将版面检测、文字识别和结构解析融为一体。这种设计极大减少了模块之间的对齐误差,使得模型在多语种文档、复杂版面和表格场景中表现出色。凭借仅 1.7B 的参数规模,dots.ocr 兼顾了轻量与高精度,被视为在“端到端文档解析”方向的重要突破。它的出现不仅推动了 OCR 技术向一体化演进,也为构建更高效的多模态 RAG 系统提供了新的底层支撑。
-
优势:单模架构减少流水线对齐误差;在多语言与复杂版面上表现突出;易用的 prompt 化任务切换(布局/表格/文本)。
-
局限:社区反馈在少数复杂表格(合并单元格)场景仍需微调或后处理。
-
适用:论文/报告、票据类文档的端到端解析;希望降低多模型编排成本的团队。
-
项目地址:https://github.com/rednote-hilab/dots.ocr
- 运行效果
3.2.3 olmOCR(Allen AI)
在轻量 OCR 工具中,olmOCR 的特色在于对复杂 PDF 与扫描文档进行“线性化还原”。它由 Allen Institute for AI (AI2) 团队于 2024 年开源,核心目标是最大限度地保持文档阅读顺序的完整性,同时兼顾表格、公式以及手写体等特殊内容的识别。olmOCR 的模型规模属于中小尺寸,总共7B参数(基于Qwen2-VL-7B-Instruct微调后得到),可以在常规 GPU 环境甚至部分 CPU 配置下运行,适合科研与生产场景的快速部署。与传统 OCR 偏重“字符识别”不同,olmOCR 更强调文档的整体可读性与内容一致性,因此在大规模 PDF 转文本的批处理场景下表现突出,是学术界和产业界逐渐关注的高保真 OCR 工具。
-
优势:对复杂排版的读序恢复能力强;手写体/公式覆盖;开箱即用。
-
局限:定位于“文本线性化”,对图像语义本身不做高级理解(需上层 VLM)。
-
适用:海量 PDF 到可检索文本的高质量批处理;RAG 预处理。
-
项目地址:https://github.com/allenai/olmocr
- 运行效果
4. 最强OCR 2.0模型:DeepSeek-OCR与PaddleOCR-VL
尽管VLM类OCR模型带来了巨大的能力提升,但现实问题也随之而来。主要问题有二,其一是通用VLM模型很难胜任需要结构化输出的多模态PDF信息提取任务,其二则是在很多高精度场景要求下,往往需要更大尺寸的VLM才能完成,但同时就会带来部署困难、难以落地等问题。
而最近推出的DeepSeek-OCR与PaddleOCR-VL,则很好的解决了效率和精度的平衡性的问题。其中最新版的PaddleOCR将通用文字识别(OCR 1.0)和通用文档解析(2.0)正式划分为两个不同的模块,
而DeepSeek-OCR则凭借极强的技术创新力,开创性的提出了“上下文光学压缩”方法,并原创提出DeepEncoder(DeepSeek视觉编码器,现已开源),从而能够更好的兼顾各类OCR任务的效果和效率。
4.1 最新PaddleOCR模型介绍
PaddleOCR 是百度飞桨团队开源的多语种 OCR/文档解析套件,围绕“检测—识别—版面/结构化解析—部署”提供一体化能力。3.x 系列重点引入了三大方案:用于多语种场景文本识别的 PP-OCRv5、用于层级化文档解析的 PP-StructureV3,以及面向关键信息抽取的 PP-ChatOCRv4;官方文档与技术报告明确将 PaddleOCR 定位为开源的端到端文档理解基础设施,覆盖训练、推理与服务化部署的完整工具链,便于快速落地生产级应用。
-
GitHub项目主页:https://github.com/PaddlePaddle/PaddleOCR

在最新进展上,PaddleOCR 于 2025-10-16 发布 v3.3.0,并同步推出 PaddleOCR-VL:一款约 0.9B 参数、资源友好的视觉—语言模型(VLM),主攻多语种文档解析,采用 NaViT 风格的动态分辨率视觉编码器并与 ERNIE-4.5-0.3B 语言模型耦合,强调在公式、表格、多栏版式等复杂元素上的准确识别与结构化输出;与此同时,3.2.0 版本(2025-08-21)对 PP-OCRv5 英文/泰文/希腊文识别模型做了加强,并提供更完善的部署支持。整体上,PaddleOCR 在 106+ 语言的识别覆盖、复杂版面解析与端到端部署便捷性方面持续演进。
对一线开发者而言,PaddleOCR 的上手路径清晰:既可直接使用预训练模型做推理,也可在真实/合成数据上继续训练,并通过官方文档的快速开始与升级指引完成从本地到服务化的全流程;同时,生态侧还提供了与日志/实验管理平台的集成,便于在训练与评测阶段记录指标与模型检查点,提升工程效率与可复现性。总体来看,它既是“多语种高精度 OCR 算法库”,也是“文档解析生产框架”,兼顾学术前沿与工业落地。
4.2 DeepSeek-OCR模型介绍
DeepSeek-OCR 是面向多模态文档理解与检索而生的 OCR 2.0/VLM 模型:它不仅识别文字,更“读懂”文档。典型能力包括:将多页 PDF 一键转换为结构化 Markdown,高保真解析 表格/公式,理解并描述 图表/示意图/照片 的语义;同时支持区域定位与版面要素标注(如利用 <image>、<|grounding|>、<|ref|>…<|/ref|> 等提示语法)。在多模态 RAG 场景中,DeepSeek-OCR 既是“视觉入口”,也是“结构化输出器”,直接产出可索引、可检索、可复用的文本与结构数据。
- GitHub项目地址:https://github.com/deepseek-ai/DeepSeek-OCR
模型采用“视觉编码器 → 投影/对齐(projector)→ 语言解码器”的统一框架:视觉端用 ViT 系列编码图像为高维 token,投影层将视觉表征映射到语言嵌入空间,与 LLM 在同一语义坐标系内对齐,随后由解码器根据指令(prompt)生成 Markdown、LaTeX、JSON 或解释性自然语言。相比传统流水线式 OCR(检测→识别→版面分析),这种端到端的对齐与生成能在一个模型里完成 文本提取 + 结构理解 + 语义生成,减少误差累积,更适合复杂版面与跨页关联的信息抽取。
为同时兼顾 效果与效率,DeepSeek-OCR 提出 上下文光学压缩(Contexts Optical Compression):在保持语义判别力的前提下,用更少的“视觉标记”(visual tokens)去“浓缩”文档关键信息,再交给 LLM 的推理能力补全上下文关系。这等于在视觉侧做“语义压缩”,在语言侧做“上下文复原”。其结果是:以小体量模型即可覆盖高难度的版面理解任务,显著降低显存与计算开销,同时在 PDF→Markdown、表格/公式解析、图像语义描述等核心指标上维持高质量输出,成为多模态 PDF RAG 系统中兼顾 精度/吞吐/部署成本 的务实解法。

更多推荐
所有评论(0)