DeepSeek-OCR是将OCR重新定义为多模态压缩问题的开源模型,通过将页面渲染为图像并压缩为少量视觉token,减少7-20倍token数量。其两阶段架构(DepthEncoder视觉编码器和MoE解码器)在保留布局的同时高效处理长文档,基准测试显示10倍压缩比下达97%准确率。这一"上下文光学压缩"技术为LLM支持百万token上下文窗口提供了新思路,显著提升处理效率。


DeepSeek-OCR是DeepSeek-AI最新发布的开源模型,它将光学字符识别(OCR)重新定义为多模态压缩问题。DeepSeek-OCR不是将长文本序列直接传递给语言模型,而是将页面渲染为图像,并将其压缩为少量视觉token。然后,解码器从这些token中重建原始文本。

这种以视觉为中心的方法与传统文本处理相比,将token数量减少了7-20倍,使得长文档可以用更少的资源进行处理。DeepSeek-OCR可以处理标准OCR任务,但其真正意义在于作为"上下文光学压缩"的概念验证:使用视觉来压缩历史记录,使大型语言模型能够支持巨大的上下文窗口。

上下文光学压缩

传统OCR系统将文本token视为计算的基本单位。DeepSeek-OCR通过将整个页面视为图像来反转这种关系。视觉编码器提取高级特征,保留布局、排版和空间关系。然后,这些特征被下采样为少量视觉token。

DeepSeek报告的实验表明,当文本token数量在视觉token数量的10倍以内时,解码器在Fox基准测试上达到约97%的准确率。即使在20倍压缩比下,系统仍保持约60%的准确率,证明视觉token可以编码相当于许多文本token的信息。

上下文光学压缩提供以下优势:

  • 效率: 更少的token意味着更小的上下文窗口、更低的内存使用和更快的推理。单个Nvidia A100-40G GPU每天可处理约200,000页。
  • 可扩展性: 通过比最近的对话轮次更积极地压缩早期对话轮次,LLM理论上可以支持百万token的上下文窗口,而无需线性成本增长。
  • 布局保留: 因为视觉token编码视觉结构,模型可以重建表格、公式和图表,而这些是经典纯文本编码器会丢失的。

架构

DeepSeek-OCR采用两阶段编码器-解码器架构:名为DeepEncoder的视觉编码器和称为DeepSeek-3B-MoE-A570M的语言解码器。设计强调高分辨率输入处理,具有低激活成本和最少的输出token。

DeepEncoder(视觉编码器)

DeepEncoder由两个通过卷积下采样模块连接的视觉transformer组成。第一个transformer是SAM-base块(约8000万参数),使用窗口自注意力捕获局部细节。第二个是CLIP-large块(约3亿参数),提供密集的全局注意力。它们之间,一个16倍卷积压缩器减少了视觉token的数量。

例如,1024×1024的图像产生4096个patch,这些patch被减少到256个token。这种设计在高分辨率下保持激活内存受控,并产生一组紧凑的视觉token。

编码器的关键特征:

  • 窗口注意力阶段: 基于Meta的Segment Anything Model (SAM)进行局部感知。
  • 卷积压缩: 一个两层卷积模块,将token下采样16倍。
  • 密集全局注意力: 一个类似CLIP的模块,聚合全局上下文并编码布局信息。
  • 多分辨率输入模式: 编码器支持几种原生分辨率

解码器:DeepSeek-3B-MoE-A570M

解码器是一个30亿参数的专家混合(MoE)语言模型,每个token约有5700万活跃参数。它将压缩的视觉token扩展回文本。MoE架构将模型分为64个专家,每个token激活约6个专家。这种设计在保持活跃参数数量较低的同时提供了高表达能力。解码器在丰富格式的文档数据上进行了训练——纯文本、数学方程、表格、化学图表和多语言脚本——因此它可以重建多样化的内容类型。

基准测试和性能

DeepSeek-OCR在广泛使用的OCR和文档理解基准测试上取得了令人印象深刻的结果。在Fox基准测试上,当文本token在视觉token的10倍以内时,系统达到97-98%的精度,即使在极端20倍压缩比下仍保持超过60%的精度。在OmniDocBench上,它使用远少于baseline模型的token,超越了GOT-OCR 2.0和MinerU 2.0等模型。

单个Nvidia A100-40G GPU每天可处理超过200,000页,扩展到小型集群每天可处理数千万页。这些性能指标突显了上下文光学压缩带来的效率提升。

示例代码

以下是一个简单的Python示例,展示如何使用Transformers库从Hugging Face加载DeepSeek-OCR模型并对图像执行OCR。此代码段假设您已安装torchtransformers并下载了模型权重。

from transformers import AutoModel, AutoTokenizerimport torchfrom PIL import Image# 加载tokenizer和模型model_name = "deepseek-ai/DeepSeek-OCR"tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)model = AutoModel.from_pretrained(    model_name,    trust_remote_code=True,    _attn_implementation="flash_attention_2").eval().cuda()# 加载文档页面的图像image = Image.open("sample_page.png").convert("RGB")# 使用模型的内置处理器预处理和编码图像inputs = tokenizer(images=[image], return_tensors="pt").to("cuda")# 从图像生成文本with torch.no_grad():    outputs = model.generate(        **inputs,        max_new_tokens=1024,        do_sample=False    )decoded_text = tokenizer.decode(outputs[0], skip_special_tokens=True)print(decoded_text)

这段代码加载DeepSeek-OCR模型,将输入图像编码为视觉token,并将其解码为文本。将"sample_page.png"替换为您的文档图像路径。对于高吞吐量推理或大规模批处理,DeepSeek在存储库中提供vLLM脚本,以在GPU集群上运行批量评估。

资源和延伸阅读

  • • DeepSeek-OCR GitHub存储库:https://github.com/deepseek-ai/DeepSeek-OCR
  • • DeepSeek-OCR研究论文(PDF):https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
  • • DeepSeek博客和公告:https://www.deepseek.ai/
  • • 涵盖发布的文章:SCMP和VentureBeat提供了模型及其影响的易理解摘要(www.scmp.com,venturebeat.com)。
  • • 教程和社区讨论:Analytics Vidhya和Apidog博客提供详细分解和示例。

DeepSeek-OCR代表了扩展语言模型上下文窗口的重要一步。通过将文本视为图像并将其压缩为少量视觉token,模型在保留布局和内容的同时减少了内存需求。两阶段架构——用于视觉的DeepEncoder和用于语言的MoE解码器——结合多分辨率模式和高达10倍压缩下的高准确性,使DeepSeek-OCR成为未来多模态AI系统的有希望的基础。随着研究的继续,上下文光学压缩可能成为大型语言模型中处理超长文档的标准技术。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

更多推荐