mHC架构解析｜如何将模型内部信息流稳定下来

字节跳动Seed团队提出Hyper-Connection(HC)架构扩展残差连接，但面临训练不稳定和硬件效率问题。DeepSeek团队提出mHC方案，采用双随机矩阵约束信息流，结合工程优化使27B参数模型训练更稳定高效。该研究为架构创新提供了约束与优化相结合的新范式。

智能研发技术及工具

773人浏览 · 2026-01-15 10:32:04

智能研发技术及工具 · 2026-01-15 10:32:04 发布

还记得那个统治了深度学习近十年的“老古董”——残差连接（Residual Connection）吗？虽然简单，但它有一个超能力：恒等映射。不管网络多深，信息都能像在高速公路上一样直通，不会因为太深而“失忆”（梯度消失）或“发疯”（梯度爆炸），不过以目前大模型的发展速度，从性能角度上来说有点跟不上脚步了。

为此，字节跳动 Seed 团队提出了 Hyper-Connection (HC) 架构，将传统残差路径从一条扩展为多条并行连接，形成“宽通道”信息流。理论上，这显著增强了模型的表征灵活性和非线性建模能力。但现实是残酷的——HC 在实践中极易失稳。

“超连接（HC）”的致命Bug导致模型“崩溃”

俗话说的好 “没有规矩，不成方圆”，这句话放到现在深度学习中也是有很深刻的道理

当HC尝试同时管理多条信息“车道”时，由于缺乏适当的约束，各个车道间的信号强度开始出现不可预测的变化。在某些层，信号被过度放大；在另一些层，信号几乎消失

这种不稳定性直接反映在训练过程中：模型训练到一半突然“崩溃”，损失值急剧上升，梯度变得异常巨大或微小。

这是什么概念？

比如说，假如你是公司CEO，你有四个负责收集公司信息的下属，某一天有个同事请假了，结果这四个人都觉得此事重要，在互相沟通的同时加重此事的程度，到你耳朵里面就是公司所有人当天就要一起跑路了，这是过度放大；再比如说公司楼地基塌陷了（假如）经过四个下属时都觉得不重要不去做，可能到你这里也觉得没有问题，结果公司直接倒了，这就是信号消失可能产生的后果。

除了稳定性问题，HC还面临硬件效率挑战。扩展的残差流需要更多的内存访问，增加了通信成本，在大规模分布式训练中产生了显著的额外开销。

‍mHC：给信息流装上“稳压器”

为了驯服这匹野马，DeepSeek提出了 mHC（Manifold-Constrained Hyper-Connections，流形约束超连接）。

核心思路就一句话：路可以宽，但信号传输必须守恒。

mHC使用数学中的“双随机矩阵”作为约束条件。这类矩阵有两个关键特性：所有元素非负，且每一行和每一列的和都等于1。这确保了在信息流动过程中，不会有信号被过度放大或过度衰减。

mHC使用的Sinkhorn-Knopp算法可以将任意矩阵“投影”为双随机矩阵，就像为混乱的车流设立智能交通信号灯系统。

实验表明，mHC将信号增益的最大波动从3000倍降至1.6倍，实现了三个数量级的稳定化改进。

用大白话解释就是：

以前（HC）：信号在层与层之间传递，有时变成原来的10倍，有时变成0.1倍，几十层叠加后，结果不可控。

现在： mHC规定，不管你怎么混搭，输入信号的总值必须保持不变。这就像在每一层都装了一个自动稳压器，信号再怎么混合，整体幅度依然稳如泰山。

光有理论不够，DeepSeek还是那个极致抠细节的工程狂魔。

他们发现HC虽然计算量（FLOPs）没怎么变，但因为路宽了，搬运数据的开销（I/O）巨大。于是他们祭出了全套工程优化：

1、算子融合：用TileLang手搓高性能Kernel，把读写的操作压缩到了极致。

2、重计算策略：精打细算显存，该扔的扔，该算的算。

3、通信重叠：优化了DualPipe调度，让数据传输和计算像打乒乓球一样无缝衔接。

在27B参数的超大模型上实测：

稳定性： mHC直接修好了HC的“路怒症”，Loss曲线平滑得像婴儿的皮肤，梯度再也不爆炸了。

性能：相比标准基线，mHC在全跑赢；相比不稳定的HC，mHC不仅更稳，效果还更好（比如BBH基准提升了2.1%）。

成本：即使开了四倍宽的通道，训练时间开销仅为 6.7%。这点成本换来模型的稳定性和性能提升，简直是用五菱宏光的成本开出了法拉利的推背感。

总结：架构创新需要结合约束条件形成新范式

DeepSeek这篇论文告诉我们：架构设计不能只顾着“加料”，还得注意“消化”。

通过数学约束和工程优化的双重buff，他们把一个原本“帅但短命”的超连接想法，变成了一个既强又稳、适合大规模落地的实用技术。这一框架为未来的架构创新提供了新范式。双随机矩阵只是众多可能的流形约束之一，研究人员可以探索其他类型的约束条件，以适应不同的学习目标和数据特性。

AMD开发者中国社区

欢迎来到AMD开发者中国社区，我们致力于为全球开发者提供 ROCm、Ryzen AI Software 和 ZenDNN等全栈软硬件优化支持。携手中国开发者，链接全球开源生态，与你共建开放、协作的技术社区。

更多推荐

大模型岗位傻傻分不清？小白程序员必看！收藏这份超全解析，助你轻松入行大模型！

AMD开发者中国社区

OpenCore Legacy Patcher：老Mac升级新系统的5步完整指南

想让你的老款Mac重新焕发生机吗？OpenCore Legacy Patcher是一款强大的开源工具，专门帮助苹果官方已停止支持的Intel Mac设备安装和运行新版macOS系统。通过创新的引导层补丁技术，它打破了苹果的系统硬件限制，为2008年之后的Mac设备提供了延续生命周期的完整解决方案。无论你是想为2012年的MacBook Pro升级到最新macOS，还是让老iMac重获新生，这个工具