logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态文档解析新思路:MinerU-Diffusion通过扩散解码进行文档OCR

继续跟进【】解析进展。在前期介绍了非常多的多模态视觉语言模型在OCR场景的方法思路,在模型架构上,基本都是vit+MLP+LLM的框架,以自回归(AR)【即文本以从左到右、逐个词元的方式生成。】的方式进行OCR解码,存在顺序延迟问题,其延迟与文档长度呈线性关系。AR的因果生成导致错误传播,即初始错误会在输出中逐级放大。如上图,MinerU-Diffusion引入了一种不同的范式,将文档OCR重构为

文章图片
#人工智能
多模态大模型文档解析开源新进展:Qianfan-OCR模型架构、数据引擎、训练方法

继续跟进【】解析进展。在前期专栏中总结过,文档解析范式分三个:(1)基于ocr-pipeline;(2)基于layout+vlm的两阶段;(3)基于vlm端到端;Qianfan-OCR是一个4B参数量的端到端的多模态文档解析模型,,其方法体系围绕四大核心展开,下面来看看方案。

文章图片
#架构
多模态大模型后训练强化学习训练方法:Shuffle-R1

LLM/MLLM RL微调的时大概率都踩过这个致命的坑:90%的GPU算力都花在了rollout采样上,可模型精度就是纹丝不动;训到后期看梯度,几乎全是接近0的无效值,烧了算力,全做了无用功。没有卷更复杂的策略梯度算法,也没有堆更花哨的奖励函数设计,而是回归「数据」这个最本质的问题,用一套简单的方案提升RL训练效率。

文章图片
#人工智能#自然语言处理
多模态文档解析最新开源进展:2B参数FireRed-OCR模型方法、数据

继续跟进【】解析进展,小红书今天又开源了一个多模态文档解析模型:基于qwen3-vl-2B参数微调训练的参数量的FireRed-OCR,与paddleocr-vl等不同的是Layout阶段采用的也是2b的模型(整体方式与mineru2.5相似)。下面来看看整体的方法。

文章图片
#人工智能#自然语言处理
多模态大型语言模型综述

这篇论文《The ®Evolution of Multimodal Large Language Models: A Survey》提供了对多模态大型语言模型(MLLMs)领域的全面回顾。引言:介绍了MLLMs的重要性,它们通过整合视觉和文本模态,提供了基于对话的接口和遵循指令的能力。论文强调了在这一领域进行研究的重要性,并概述了研究的三个核心方面:模型架构、训练方法和任务设计。赋予LLMs多模态

#人工智能
GRPO强化学习训练翻译模型的奖励函数设计

本文主要看一下翻译模型的GRPO奖励函数设计。

文章图片
#人工智能#深度学习
LaTex+Vscode的json配置

我的配置备份vocode setting.json// ---------------------latext---------------------------------"latex-workshop.latex.autoBuild.run": "never","latex-workshop.showContextMenu": true,"latex-workshop.intellisens

Qwen3模型架构、训练方法梳理

qwen3炼丹真是全是技巧,下面来看看,仅供参考。

文章图片
正向最大匹配算法(中文分词)

一、最大匹配法  最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种:  1、正向最大匹配  2、逆向最大匹配  3、双向匹配  三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集

#自然语言处理#python#算法
【RAG & KG】GraphRAG开源:查询聚焦摘要的图RAG方法

传统的 RAG 方法在处理针对整个文本语料库的全局性问题时存在不足,例如查询:“数据中的前 5 个主题是什么?对于此类问题,是因为这类问题本质上是查询聚焦的摘要(Query-Focused Summarization, QFS)任务,而不是传统的显式检索任务。Graph RAG 通过使用 LLM 构建基于图的文本索引,从源文档构建知识图谱。通过构建知识图谱,能够将复杂的、大规模文本数据集转化为易于

文章图片
#RAG
    共 194 条
  • 1
  • 2
  • 3
  • 20
  • 请选择