logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型

标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在M

文章图片
#人工智能#自然语言处理
Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型

标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在M

文章图片
#人工智能#自然语言处理
Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型

标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在M

文章图片
#人工智能#自然语言处理
多模态文档智能解析持续开源进展:Youtu-Parsing模型架构、数据、训练方法

传统文档解析(如OCR、表格/公式识别)依赖自回归解码序列生成效率低:令牌(Token,如字符、符号)需逐一生成,每步仅能生成1个token,面对长文本(如表格、多列文档)时 latency 极高;多区域处理冗余:传统VLMs需按顺序处理文档中的多个元素(如文本块、表格、公式的边界框),重复调用模型导致计算冗余。(ps:这点可能是为了写论文需要,其实可以在工程侧进行优化,比如借助VLLM框架进行b

文章图片
#人工智能#自然语言处理
DeepSeek中的多头潜在注意力(MLA)浅尝

MLA是MHA的变体,因此先来看看MHA。

文章图片
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

文章图片
DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能,。:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖

文章图片
#DeepSeek
大规模文档版式分析数据集生成-OmniLayout-1M数据生成思路

再来看一个文档版式数据生成思路,利用大模型从粗到细粒度的生成通用文档版面分析数据,解决现有版式分析“缺多样性”、“缺规模”、“依赖人工标注”问题。

文章图片
文档智能解析新进展:字节多模态解析模型dolphin-v2开源

继上次《》开源以来,最近新开源了Dolphin-v2版本,这个版本基于qwen2.5vl-3B训练得到,该模型的分两个阶段:版式分析、阅读顺序和OCR format,与mineru2.5一样,各阶段训练在一个模型,通过prompt控制。文档解析的开源项目模型技术方案都在《

文章图片
#人工智能#自然语言处理
GraphRAG优化新思路-开源的ROGRAG框架

目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比GraphRAG高,仅在单一数据集上进行了评测,不过优化思路可以借鉴下,比如:双层次检索提高图检索准确性等。供参考。

文章图片
#RAG#知识图谱
    共 162 条
  • 1
  • 2
  • 3
  • 17
  • 请选择