logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大语言模型基础之‘训练时间估计’

书接上回,相信上篇模型参数量的计算对于大家来说小菜一碟,那本篇将继续介绍大模型的训练时间如何估计。

文章图片
#深度学习#人工智能#语言模型
大语言模型基础之‘显存优化‘

零冗余优化器(Zero Redundancy Optimizer, Zero),该技术由DeepSpeed代码库提出,主要用于解决数据并行中的模型冗余技术,即在数据并行训练中,每个GPU上都会存储一份完整的模型参数,这会占用大量的显存。下面将介绍三种逐步细化模型参数和优化器参数的方案。

文章图片
#深度学习#人工智能#自然语言处理 +1
大语言模型基础之‘训练时间估计’

书接上回,相信上篇模型参数量的计算对于大家来说小菜一碟,那本篇将继续介绍大模型的训练时间如何估计。

文章图片
#深度学习#人工智能#语言模型
Docker基础入门(一)

容器化技术:以Docker为代表的容器技术,彻底改变了软件交付与部署的范式。当Kubernetes成为集群操作系统的今天,Docker作为容器生态的奠基者,仍在持续推动着云计算范式的演进。本篇将以docker基础入门为引导,探索容器化技术的核心价值。

文章图片
#docker#容器#深度学习 +1
大语言模型基础之‘可扩展的训练技术‘(二)

📌上篇介绍了3D并行训练,本篇主要介绍三块内容:零冗余优化器、激活重计算、混合精度训练。那么开始吧!🔅🔅🔅。

文章图片
#语言模型#人工智能#python
大语言模型基础之‘可扩展的训练技术’(一)

随着模型参数规模与数据规模的持续扩展,如何“优雅的”在有限计算资源下实现高效模型训练?

文章图片
#语言模型#人工智能#自然语言处理
大语言模型基础之‘显存优化‘

零冗余优化器(Zero Redundancy Optimizer, Zero),该技术由DeepSpeed代码库提出,主要用于解决数据并行中的模型冗余技术,即在数据并行训练中,每个GPU上都会存储一份完整的模型参数,这会占用大量的显存。下面将介绍三种逐步细化模型参数和优化器参数的方案。

文章图片
#深度学习#人工智能#自然语言处理 +1
到底了