logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习初始化Xavier、Kaiming

深度学习初始化Xavier和Kaiming初始化,He初始化

文章图片
#深度学习#人工智能#神经网络
深度学习优化器Optimizer-SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW

最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的介绍和公式,其中AdamW算法是Adam算法的改进,SGD在CNN中还有不错的发挥,但在Transformer中却效果一般,如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用,如Llama、OPT、GPT等,即使还有一些新的如Lion等优化器,但大体上了解以上优化器就足够了。

文章图片
#深度学习
深度学习初始化Xavier、Kaiming

深度学习初始化Xavier和Kaiming初始化,He初始化

文章图片
#深度学习#人工智能#神经网络
深度学习优化器Optimizer-SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW

最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的介绍和公式,其中AdamW算法是Adam算法的改进,SGD在CNN中还有不错的发挥,但在Transformer中却效果一般,如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用,如Llama、OPT、GPT等,即使还有一些新的如Lion等优化器,但大体上了解以上优化器就足够了。

文章图片
#深度学习
    共 12 条
  • 1
  • 2
  • 请选择