logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练和推理阶段的内存消耗估计

本文以Mixtral-8x22B为例来介绍各个阶段的内存消耗以及推理和训练时的内存消耗。

文章图片
#transformer#算法
LSTM输出输出维度及中间变化(Pytorch版)

最近又回来看LSTM了,是因为并不理解LSTM中的输入输出,以及各个维度的变化都是什么,经过资料收集,发现下面四篇文章综合起来看,理解的最透彻,放上链接:①https://zhuanlan.zhihu.com/p/79064602?ivk_sa=1024320u②https://www.zhihu.com/question/41949741?sort=created③https://blog.cs

#自然语言处理#pytorch#神经网络 +2
到底了