logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

deepseek-671b怎么开展分布式并行训练

这种规模的大模型的并行训练需要至少256卡并行训练才是有意义的工业落地。可以做8(DP)*8(TP)*4(PP)的并行计算。

#新浪微博
到底了