
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在M

标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在M

标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在M

传统文档解析(如OCR、表格/公式识别)依赖自回归解码序列生成效率低:令牌(Token,如字符、符号)需逐一生成,每步仅能生成1个token,面对长文本(如表格、多列文档)时 latency 极高;多区域处理冗余:传统VLMs需按顺序处理文档中的多个元素(如文本块、表格、公式的边界框),重复调用模型导致计算冗余。(ps:这点可能是为了写论文需要,其实可以在工程侧进行优化,比如借助VLLM框架进行b

MLA是MHA的变体,因此先来看看MHA。

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能,。:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖

再来看一个文档版式数据生成思路,利用大模型从粗到细粒度的生成通用文档版面分析数据,解决现有版式分析“缺多样性”、“缺规模”、“依赖人工标注”问题。

继上次《》开源以来,最近新开源了Dolphin-v2版本,这个版本基于qwen2.5vl-3B训练得到,该模型的分两个阶段:版式分析、阅读顺序和OCR format,与mineru2.5一样,各阶段训练在一个模型,通过prompt控制。文档解析的开源项目模型技术方案都在《

目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比GraphRAG高,仅在单一数据集上进行了评测,不过优化思路可以借鉴下,比如:双层次检索提高图检索准确性等。供参考。








