logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入浅出大模型量化(一):LLM.int8()与GPTQ原理解析

深入浅出大模型量化(一):LLM.int8()与GPTQ原理解析

文章图片
深入浅出大模型量化(三): AWQ,让低比特大模型重获新生

深入浅出大模型量化(三): AWQ,让低比特大模型重获新生

文章图片
#人工智能#机器学习
LLM分布式训练(三):从1D到3D的张量并行切分艺术

LLM分布式训练(三):从1D到3D的张量并行切分艺术

文章图片
#分布式#3d#深度学习
LLM分布式训练(二):流水线并行,让你的大模型“流动”起来!

LLM分布式训练(二):流水线并行,让你的大模型“流动”起来!

文章图片
#分布式#人工智能#深度学习
【LLM】训练一个6B大模型要多少显存?全量微调 vs 参数高效微调

模型参数: 12 GB (FP16)梯度: 12 GB (FP16)优化器状态: 48 GB (FP32 for AdamW)基础显存需求 (不含激活值和杂项): 12 + 12 + 48 = 72 GB这仅仅是模型、梯度和优化器状态的基础开销!还没算上非常可观的激活值占用。即使使用了梯度检查点技术,激活值仍然会占用相当一部分显存(可能几 GB 到几十 GB,取决于配置)。

文章图片
#人工智能#深度学习#机器学习 +3
到底了