基于AMD InstinctTM MI250 GPU从零开始训练而成的大模型:Motif-2.6B
《Motif-Technologies_Motif-2.6B》
一、引言
论文开篇介绍了 Motif 2.6B,这是一个拥有 26 亿参数的语言模型,是基于 AMD InstinctTM MI250 GPU 从零开始训练而成的。Motif 2.6B 的诞生标志着开发团队朝着构建符合人类价值观的有用、可靠人工智能迈出了第一步。其初次发布的目标是使模型性能能够与 Gemma、Llama、Phi 等知名的开源模型相媲美,尤其是在中小语言模型(sLLM)领域。
二、训练信息
-
硬件设备 :使用了 384 个 MI250 GPU 进行训练。
-
训练时长 :整个训练过程耗时 42 天。
-
训练数据规模 :所采用的训练数据包含了 2.4T(万亿)个 tokens,丰富的数据为模型学习语言模式和知识提供了有力支撑。
三、评估方法与挑战
论文指出,模型发布时开发者通常会基于自己选定的评估设置来呈现基准测试结果,这种做法虽常见且可以理解,但却给跨组织比较不同模型带来了难题。同一模型在不同评估条件下得分可能有所不同,而这些条件细节并非总是被充分披露。缺乏统一标准使得开源社区在解读和信任已报告结果方面面临困难。
鉴于此,论文在进行模型比较时,参考了每个模型开发者在其各自出版物中报告的官方性能分数,以确保评估的客观性和可比性。
四、与其他模型的比较
(一)与 Mistral 7B 的比较(以 Mistral AI 技术报告中的基准和分数为依据)
在不同基准测试中,Motif 2.6B 相对于 Mistral 7B 既有性能优于的情况,也有不如的时候。例如在 HumanEval、MBPP、MATH 以及 GSM8K 等基准上,Motif 2.6B 取得了显著的性能提升,而在 MMLU、HellaSwag、WinoG、PIQA、NQ、TriviaQA 等基准上则表现稍逊一筹。总体来看,平均性能提升为 +34.25%。
(二)与 Gemma 系列的比较
1. 与 Gemma 1 & 2 的比较(基于 Gemma 2 技术报告中的基准和分数)
Motif 2.6B 在与 Gemma 1 & 2 的对比中,在多个基准测试上展现了较为明显的性能优势,如在 GSM8K、ARC-C、MATH、HumanEval、MBPP 等基准上的提升幅度较大,尽管在 DROP 等个别基准上有所下降,但整体平均性能提升达到了 +90.79%。
2. 与 Gemma 3 的比较(基于 Gemma 3 技术报告中的基准和分数)
在与 Gemma 3 的对比中,Motif 2.6B 在部分基准上对比 Gemma 3 1B 和 4B 有不同程度的性能升降。如在 ARC-C、ARC-E、GSM8K、GPQA、MBPP、HumanE 等基准上相对 Gemma 3 4B 有较大提升,但也存在像 HellaS、BoolQ、PIQA、SIQA、TQA、NQ、BBH、Drop 等基准相对 Gemma 3 1B 或 4B 出现性能下降的情况,整体平均性能对比 Gemma 3 1B 提升 +22.04%,对比 Gemma 3 4B 提升 +17.29%。
(三)与 Llama 系列的比较
1. 与 Llama 3 的比较(基于 Llama 3 技术报告中的基准和分数)
通过对比发现,Motif 2.6B 在与 Llama 3 8B 的比较中整体处于劣势,多数基准测试的性能指标都有所下降,平均性能下降了 -15.04%。
2. 与 Llama 3.2 的比较(基于 Llama 3.2 官方博客中的基准和分数)
与 Llama 3.2 相比,Motif 2.6B 在部分基准如 IFEval、GSM8K、MATH、ARC Challenge 等相对 Llama 3.2 1B 有较大幅度提升,但在一些基准相对 Llama 3.2 3B 表现稍弱,整体平均性能相对 Llama 3.2 1B 提升 +41.82%,相对 Llama 3.2 3B 下降 -2.49%。
(四)与 Phi 系列的比较(基于 Phi-3 技术报告中的基准和分数)
从上表可以看出,Motif 2.6B 在与 Phi 系列模型对比中,多数基准测试的性能低于 Phi-3 3.8B 和 Phi-3 7B,仅在个别基准如 MATH、OpenBookQA、HumanEval 等有小幅度提升,整体平均性能相对 Phi-3 3.8B 下降 -9.87%,相对 Phi-3 7B 下降 -13.25%。
(五)基于 Qwen2.5 技术报告中的分数进行比较
论文还指出,当基于 Qwen2.5 技术报告中的基准和分数来比较时,Motif 2.6B 相对于 Llama 3 8B 平均性能提升 +19.27%,相对 Gemma 2 9B 平均性能提升 +1.68%。
这表明评估基准和分数来源的不同会对模型性能比较结果产生较大影响。
五、使用方法
论文最后给出了 Motif 2.6B 的使用示例代码,展示了如何利用 transformers 库来加载模型和分词器,并进行文本生成。通过设置不同的参数,如指定模型路径、使用 cuda 加速、设置生成的最大新 token 数等,可以实现与模型的交互,获取相应的回答。
总体而言,这篇论文详细介绍了 Motif 2.6B 模型的开发背景、训练情况以及与其他多个知名模型在不同基准测试上的性能比较,尽管在部分基准上还有待提升,但也展现了其在一些特定任务上的优势和潜力,为后续的模型优化和应用开发提供了基础和方向。
核心技术表格:
更多推荐


所有评论(0)