摘要:多模态大语言模型(MLLMs)正迅猛发展,代表着人工智能发展的前沿方向。然而,其训练和推理效率已成为让多模态大语言模型更易获取、更具可扩展性的核心瓶颈。为应对这些挑战,我们推出了MiniCPM-V 4.5,这是一款拥有80亿参数的模型,旨在实现高效率与强性能。我们在模型架构、数据策略和训练方法上进行了三项核心改进:采用统一的3D重采样器模型架构,可对图像和视频进行高度紧凑的编码;采用统一的学习范式,无需大量数据工程即可实现文档知识学习和文本识别;采用混合强化学习策略,使模型在短推理和长推理模式下均能表现出色。在OpenCompass评估中进行的全面实验结果显示,MiniCPM-V 4.5超越了广泛应用的专有模型(如最新版GPT-4o)以及参数量大得多的开源模型(如Qwen2.5-VL 72B)。值得注意的是,该模型在取得优异性能的同时,还具备极高的效率。例如,在广泛采用的VideoMME基准测试中,MiniCPM-V 4.5在参数量小于300亿的模型中取得了最优性能,且GPU内存占用仅为Qwen2.5-VL 7B的46.7%,推理时间仅为Qwen2.5-VL 7B的8.7%。Huggingface链接:Paper page,论文链接:2509.18154

研究背景和目的

研究背景

随着人工智能技术的飞速发展,多模态大型语言模型(Multimodal Large Language Models, MLLMs)已成为推动AI进步的前沿领域。

这些模型能够深度理解和推理跨模态信息(如文本和图像),在多个领域展现出巨大的应用潜力。然而,MLLMs的训练和推理效率成为制约其广泛应用和可扩展性的核心瓶颈。具体来说,高分辨率图像和视频编码需要大量的视觉标记,导致计算成本高昂;从文档中提取高质量的多模态知识面临复杂布局和多样领域的挑战;以及复杂推理能力训练中存在的效率问题。这些问题共同限制了MLLMs的进一步发展和应用。

研究目的

本研究旨在通过架构创新、数据策略优化和训练方法改进,开发一个高效且性能强大的MLLM模型——MiniCPM-V 4.5。

具体目标包括:

  1. 提高编码效率:通过引入统一的3D-Resampler架构,减少图像和视频编码的视觉标记数量,从而降低计算成本和内存占用。
  2. 简化数据工程:提出一种统一的学习范式,使模型能够直接从文档图像中学习知识和文本识别,减少对外部解析工具的依赖。
  3. 增强推理能力:采用混合强化学习策略,使模型在短推理和长推理模式下均表现出色,提高整体推理效率和准确性。

研究方法

模型架构

MiniCPM-V 4.5的架构主要包括三个核心模块:轻量级视觉编码器、统一的3D-Resampler和LLM解码器。

  1. 轻量级视觉编码器:灵活处理高分辨率图像,采用特殊的分区策略,将图像分割成多个部分,每部分通过交叉注意力机制生成固定长度的序列。
  2. 统一的3D-Resampler:扩展2D-Resampler到3D,同时压缩图像和视频的空间和时间信息。通过联合压缩空间和时间冗余,显著减少视觉标记数量。
  3. LLM解码器:理解图像、视频和文本,生成文本输出。解码器能够以两种不同的风格生成响应:简洁的短推理模式或详细的逐步推理模式。

数据策略

  1. 预训练数据:结合大规模公共图像-标题数据集、精心策划的中文图像-文本对、OCR丰富数据、文档数据和视频标题数据,分阶段优化模型的基础能力。
  2. 统一学习范式:提出一种从文档图像中直接学习知识和文本识别的统一范式,通过动态破坏文本区域并要求模型重建文本,增强模型的鲁棒OCR能力和上下文推理能力。

训练方法

  1. 分阶段预训练:预训练过程分为三个阶段,逐步解冻不同模型组件,引入越来越复杂的数据,优化学习效率。
  2. 监督微调(SFT):首先训练模型的通用交互能力,然后培养专门技能以支持长推理模式和高帧率视频理解。
  3. 强化学习(RL):结合基于规则验证的奖励和基于概率的奖励,优化复杂推理能力,支持短推理和长推理模式的灵活切换。

研究结果

性能表现

  1. 综合多模态理解能力:在OpenCompass评估中,MiniCPM-V 4.5的平均得分达到77.0,超越了广泛使用的专有模型(如GPT-4o-latest)和更大的开源模型(如Qwen2.5-VL 72B)。
  2. 视频理解能力:在VideoMME等视频理解基准测试中表现出色,特别是在高帧率和长视频理解方面展现出强大能力。
  3. OCR和文档分析能力:在OCRBench上取得领先性能,超过专有模型如GPT-4o-latest;在OmniDocBench上实现了一般的MLLMs中最先进的PDF文档解析能力。

效率提升

  1. 推理效率:MiniCPM-V 4.5在推理过程中显著提高了效率,包括短推理和长推理模式。在RL训练中,通过随机交替短推理和长推理样本,实现了两种推理模式的通用性能增强。
  2. 内存和时间效率:在VideoMME基准测试中,MiniCPM-V 4.5仅使用46.7%的GPU内存成本和8.7%的推理时间就达到了30B以下模型的最佳性能。

研究局限

尽管MiniCPM-V 4.5在性能和效率上均取得了显著成果,但该研究仍存在一些局限:

  1. 数据依赖性:模型性能高度依赖于训练数据的质量和多样性,数据工程的质量直接影响模型性能。
  2. 模型大小与效率平衡:虽然MiniCPM-V 4.5在效率上取得了显著成果,但模型大小与效率之间的平衡仍需进一步优化。
  3. 长视频理解:尽管在视频理解方面取得了进展,但对长视频和极端长视频的理解能力仍有待提高。

未来研究方向

基于MiniCPM-V 4.5的研究成果和局限,未来研究可以从以下几个方面展开:

  1. 数据自主性:减少对外部解析工具的依赖,进一步提高模型从文档图像中直接学习知识的能力。
  2. 长视频理解:改进模型对长视频和极端长视频的理解能力,特别是在处理低分辨率视频时的性能。
  3. 模型压缩与加速:探索更高效的模型压缩技术,减少模型参数数量,同时保持或提高模型性能。
  4. 通用推理能力:进一步优化模型的通用推理能力,减少对单一长推理模式的依赖,提高模型在短推理和长推理模式下的通用性和灵活性。
  5. 多语言与多领域支持:扩展模型支持的语言和领域范围,提高模型在不同文化和领域背景下的适用性。

通过上述方向的深入研究,可以进一步提升MLLMs的效率、通用性和可靠性,推动AI技术向更广泛的实际应用场景发展。

Logo

更多推荐