
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
深度学习初始化Xavier、Kaiming
深度学习初始化Xavier和Kaiming初始化,He初始化

深度学习优化器Optimizer-SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW
最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的介绍和公式,其中AdamW算法是Adam算法的改进,SGD在CNN中还有不错的发挥,但在Transformer中却效果一般,如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用,如Llama、OPT、GPT等,即使还有一些新的如Lion等优化器,但大体上了解以上优化器就足够了。

stable diffusion model训练遇到的问题【No module named ‘triton‘】
triton, bug, diffusers训练

深度学习初始化Xavier、Kaiming
深度学习初始化Xavier和Kaiming初始化,He初始化

stable diffusion model训练遇到的问题【No module named ‘triton‘】
triton, bug, diffusers训练

stable diffusion model训练遇到的问题【No module named ‘triton‘】
triton, bug, diffusers训练

深度学习优化器Optimizer-SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW
最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的介绍和公式,其中AdamW算法是Adam算法的改进,SGD在CNN中还有不错的发挥,但在Transformer中却效果一般,如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用,如Llama、OPT、GPT等,即使还有一些新的如Lion等优化器,但大体上了解以上优化器就足够了。

stable diffusion model训练遇到的问题【No module named ‘triton‘】
triton, bug, diffusers训练









