
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
从OCR-1.0到OCR-2.0:深入解读GOT
传统的OCR系统,即所谓的OCR-1.0,通常采用多阶段流水线结构,包括文本检测、图像裁剪与校正、文字识别等多个模块。本文作者提出了“通用OCR理论”(General OCR Theory),意图打破传统OCR范式的限制,朝着OCR-2.0迈进——构建一个统一、端到端、高性能且具交互性的OCR系统。这样可以在不丢失文本细节的情况下进行高效表征。:采用Qwen-0.5B,具备约500M参数和8K上下
从 DeepSeek-VL 到 DeepSeek-VL2:深入解读DeepSeek-VL2
DeepSeek-VL2 不仅提升了模型性能,也展现了多模态大模型在通用性、高效性和实用性方面的新高度。作为一款“可落地”的视觉语言模型,其在科研与产业之间搭建了坚实桥梁。
到底了







