
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大语言模型基础之‘训练时间估计’
书接上回,相信上篇模型参数量的计算对于大家来说小菜一碟,那本篇将继续介绍大模型的训练时间如何估计。

大语言模型基础之‘显存优化‘
零冗余优化器(Zero Redundancy Optimizer, Zero),该技术由DeepSpeed代码库提出,主要用于解决数据并行中的模型冗余技术,即在数据并行训练中,每个GPU上都会存储一份完整的模型参数,这会占用大量的显存。下面将介绍三种逐步细化模型参数和优化器参数的方案。

大语言模型基础之‘训练时间估计’
书接上回,相信上篇模型参数量的计算对于大家来说小菜一碟,那本篇将继续介绍大模型的训练时间如何估计。

Docker基础入门(一)
容器化技术:以Docker为代表的容器技术,彻底改变了软件交付与部署的范式。当Kubernetes成为集群操作系统的今天,Docker作为容器生态的奠基者,仍在持续推动着云计算范式的演进。本篇将以docker基础入门为引导,探索容器化技术的核心价值。

大语言模型基础之‘可扩展的训练技术‘(二)
📌上篇介绍了3D并行训练,本篇主要介绍三块内容:零冗余优化器、激活重计算、混合精度训练。那么开始吧!🔅🔅🔅。

大语言模型基础之‘可扩展的训练技术’(一)
随着模型参数规模与数据规模的持续扩展,如何“优雅的”在有限计算资源下实现高效模型训练?

大语言模型基础之‘显存优化‘
零冗余优化器(Zero Redundancy Optimizer, Zero),该技术由DeepSpeed代码库提出,主要用于解决数据并行中的模型冗余技术,即在数据并行训练中,每个GPU上都会存储一份完整的模型参数,这会占用大量的显存。下面将介绍三种逐步细化模型参数和优化器参数的方案。

到底了







