logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【DeepSeek-模型解读】DeepSeek-V3模型特性之FP8混合精度训练

受此前低精度训练优势的启发,文章提出了使用FP8数据格式的细粒度混合精度框架用于DeepSeek-V3的训练。尽管低精度训练有巨大的潜力,但经常被激活值、权重、梯度的异常值限制。虽然在推理量化上已经有重大进步,但是低精度技术在大规模语言模型预训练中的成功应用相对较少。为了应对这一挑战并且有效地拓宽FP8格式的​动态范围​,文章引入了​细粒度量化策略​:切片分组和分块分组量化。在提高累加精度。

#深度学习#人工智能#机器学习 +1
到底了