基于AMD InstinctTM MI250 GPU从零开始训练而成的大模型：Motif-2.6B

Panesle

878人浏览 · 2025-06-20 22:15:00

Panesle · 2025-06-20 22:15:00 发布

《Motif-Technologies_Motif-2.6B》

一、引言

论文开篇介绍了 Motif 2.6B，这是一个拥有 26 亿参数的语言模型，是基于 AMD InstinctTM MI250 GPU 从零开始训练而成的。Motif 2.6B 的诞生标志着开发团队朝着构建符合人类价值观的有用、可靠人工智能迈出了第一步。其初次发布的目标是使模型性能能够与 Gemma、Llama、Phi 等知名的开源模型相媲美，尤其是在中小语言模型（sLLM）领域。

二、训练信息

硬件设备 ：使用了 384 个 MI250 GPU 进行训练。
训练时长 ：整个训练过程耗时 42 天。
训练数据规模 ：所采用的训练数据包含了 2.4T（万亿）个 tokens，丰富的数据为模型学习语言模式和知识提供了有力支撑。

三、评估方法与挑战

论文指出，模型发布时开发者通常会基于自己选定的评估设置来呈现基准测试结果，这种做法虽常见且可以理解，但却给跨组织比较不同模型带来了难题。同一模型在不同评估条件下得分可能有所不同，而这些条件细节并非总是被充分披露。缺乏统一标准使得开源社区在解读和信任已报告结果方面面临困难。

鉴于此，论文在进行模型比较时，参考了每个模型开发者在其各自出版物中报告的官方性能分数，以确保评估的客观性和可比性。

四、与其他模型的比较

（一）与 Mistral 7B 的比较（以 Mistral AI 技术报告中的基准和分数为依据）

在不同基准测试中，Motif 2.6B 相对于 Mistral 7B 既有性能优于的情况，也有不如的时候。例如在 HumanEval、MBPP、MATH 以及 GSM8K 等基准上，Motif 2.6B 取得了显著的性能提升，而在 MMLU、HellaSwag、WinoG、PIQA、NQ、TriviaQA 等基准上则表现稍逊一筹。总体来看，平均性能提升为 +34.25%。

（二）与 Gemma 系列的比较

1. 与 Gemma 1 & 2 的比较（基于 Gemma 2 技术报告中的基准和分数）

Motif 2.6B 在与 Gemma 1 & 2 的对比中，在多个基准测试上展现了较为明显的性能优势，如在 GSM8K、ARC-C、MATH、HumanEval、MBPP 等基准上的提升幅度较大，尽管在 DROP 等个别基准上有所下降，但整体平均性能提升达到了 +90.79%。

2. 与 Gemma 3 的比较（基于 Gemma 3 技术报告中的基准和分数）

在与 Gemma 3 的对比中，Motif 2.6B 在部分基准上对比 Gemma 3 1B 和 4B 有不同程度的性能升降。如在 ARC-C、ARC-E、GSM8K、GPQA、MBPP、HumanE 等基准上相对 Gemma 3 4B 有较大提升，但也存在像 HellaS、BoolQ、PIQA、SIQA、TQA、NQ、BBH、Drop 等基准相对 Gemma 3 1B 或 4B 出现性能下降的情况，整体平均性能对比 Gemma 3 1B 提升 +22.04%，对比 Gemma 3 4B 提升 +17.29%。

（三）与 Llama 系列的比较

1. 与 Llama 3 的比较（基于 Llama 3 技术报告中的基准和分数）

通过对比发现，Motif 2.6B 在与 Llama 3 8B 的比较中整体处于劣势，多数基准测试的性能指标都有所下降，平均性能下降了 -15.04%。

2. 与 Llama 3.2 的比较（基于 Llama 3.2 官方博客中的基准和分数）

与 Llama 3.2 相比，Motif 2.6B 在部分基准如 IFEval、GSM8K、MATH、ARC Challenge 等相对 Llama 3.2 1B 有较大幅度提升，但在一些基准相对 Llama 3.2 3B 表现稍弱，整体平均性能相对 Llama 3.2 1B 提升 +41.82%，相对 Llama 3.2 3B 下降 -2.49%。

（四）与 Phi 系列的比较（基于 Phi-3 技术报告中的基准和分数）

从上表可以看出，Motif 2.6B 在与 Phi 系列模型对比中，多数基准测试的性能低于 Phi-3 3.8B 和 Phi-3 7B，仅在个别基准如 MATH、OpenBookQA、HumanEval 等有小幅度提升，整体平均性能相对 Phi-3 3.8B 下降 -9.87%，相对 Phi-3 7B 下降 -13.25%。