logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从 Residual 到 Hyper-Connections:再到 mHC——用可控的连乘解决可扩展训练的数值稳定性

本文探讨了大语言模型训练中的稳定性优化方法,从Residual、Dense到HC连接方式的演进,重点分析了mHC(Manifold-Constrained Hyper-Connections)的创新设计。mHC通过将连接矩阵约束到双随机流形,解决了HC在深层网络中易出现的梯度爆炸/坍缩问题。具体采用Sinkhorn-Knopp算法将矩阵投影为近似双随机形式,既保留了可学习性,又确保了连乘稳定性,使

#语言模型#算法#深度优先
到底了