
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。

DeepSpeed Zero-3的核心功能就是在显存不足的情况下,使用CPU内存。
继续跟进【】解析进展,小红书今天又开源了一个多模态文档解析模型:基于qwen3-vl-2B参数微调训练的参数量的FireRed-OCR,与paddleocr-vl等不同的是Layout阶段采用的也是2b的模型(整体方式与mineru2.5相似)。下面来看看整体的方法。

VLM2Vec, MM-Embed等模型均为判别式:直接提取输入最后一个 token 的隐层状态作为嵌入,不生成新 token,无法利用 MLLM 的推理能力。UME-R1 提出生成式多模态嵌入,让模型先推理、再总结、最后生成嵌入,同时保留判别式嵌入能力。构建冷启动 SFT 监督数据与RL 强化学习数据两套数据集,覆盖图像、视频、视觉文档三模态。用GLM-4.1V-Thinking推理模型,为每条

DeepSeek-OCR2.0是DeepSeek-OCR(《》)的后续,其是一个的多模态文档解析模型,也是Vary、GOT-OCR2.0的后续,前期也有详细介绍《DeepSeek-OCR 2 对上一代的优化主要是编码器上的改进,如下图:用 LLM 式架构替换了 DeepEncoder 中的 CLIP 模块。通过定制化注意力掩码,视觉 token 采用双向注意力机制,而可学习查询则采用因果注意力机制

在RAG场景,需要。MinerU-Popo是一个后处理方案,在后对文档级结构进行重构。

前面笔者介绍了《》及《》,一般的Text2Sparql/Text2SQL技术路线图如下,目标是奖自然语言转话为可查询的SQL语句。目前基于KG+LLM+Agent的KBQA方案,在多语言场景未得到充分探索。下面来看一个智能体框架-mKGQAgent,通过模拟人类推理过程将自然语言问题转化为SPARQL查询。

输入长度减少:RAG的方法可以减少输入长度,但这可能导致所需信息的部分丢失,影响任务解决性能。扩展LLMs的上下文长度:通过微调的方式来扩展LLMs的上下文窗口,以便处理整个输入。当窗口变长时,LLMs难以集中注意力在解决任务所需的信息上,导致上下文利用效率低下。下面来看看两个有趣的另辟蹊径的方法,使用Agent协同来处理长上下文。

来看一个实验比较扎实的工作,Skywork-R1V3将R1的思路引入多模态大模型,提出:直接将RL技术从仅文本的大语言模型转移到VLMs是不够的,需要开发VLM特定的RL配方。下面来看看如何在VLM中引入COT的RL,供参考。

往期,笔者基于LLava的数据对齐训练,搞了一个多模态大模型,并且看了些多模态大模型,相关开源的多模态大模型如:KimiVL、Internvl、QwenVL等,其视觉编码器的尺寸都比较大,如:MoonViT-SO-400M、InternViT-6B-448px-V2_5 等都非常大,对于特定的垂直场景(或者是端侧落地都不大友好),也许并不需要这么大视觉编码器。如:表格场景(),当时笔者用了一个8B








