
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
从 Residual 到 Hyper-Connections:再到 mHC——用可控的连乘解决可扩展训练的数值稳定性
本文探讨了大语言模型训练中的稳定性优化方法,从Residual、Dense到HC连接方式的演进,重点分析了mHC(Manifold-Constrained Hyper-Connections)的创新设计。mHC通过将连接矩阵约束到双随机流形,解决了HC在深层网络中易出现的梯度爆炸/坍缩问题。具体采用Sinkhorn-Knopp算法将矩阵投影为近似双随机形式,既保留了可学习性,又确保了连乘稳定性,使
到底了







