1. 近似等效配置(Near-equivalent configurations)

将大型模型中的所有参数想象成控制台上的旋钮,这些旋钮的不同设置可以产生几乎相同的输出。

例如:

- 如果一个神经元将其权重加倍,而下一层将其权重减半,整体计算几乎不会发生变化。
- 或者,几个注意力头可能会学习略有不同但重叠的角色。
- 因为有数十亿个参数,所以有无数微小的调整可以相互补偿。

这些略有不同的设置是近似等效配置,参数空间中的点产生几乎相同的损失值和行为。

当一个模型过度参数化时,这些区域会连接在一起形成宽阔平坦的谷底,而不是孤立的尖锐最小值。

2. 梯度噪声(Noisy gradients)

在训练过程中,我们几乎从不计算整个数据集的损失函数的精确梯度。我们使用一个小批量(mini-batch),一个随机的数据样本,来估算它:

 

\nabla_\theta L_{\text{batch}} \approx \nabla_\theta L_{\text{true}}

这种随机性会给每次更新的方向带来噪声,优化器并非直线下坡,而是每一步都会略微抖动:

稍微向左,稍微向右,总是大致向下,但永远不会完全向下。

这种随机噪声的作用类似于热运动:它会对参数进行恰到好处的抖动,使优化器倾向于避开狭窄的凹陷(尖锐的最小值),并稳定在宽阔、稳定的盆地中,即使损失函数四处漂移,损失也能保持在较低水平。

3. 整合

因此,当我们说:“由于配置近似且梯度噪声较大,大型模型往往会陷入宽阔的盆地”时,我们的意思是:

- 高维参数空间中存在许多几乎可以互换的解。
- 随机优化中的微小随机抖动会将模型推向许多解重叠的区域。

这些重叠区域就像宽阔平缓的盆地,使大型模型既稳健又富有表现力。


那些宽阔的盆地并非人为设计的诡计;它们是一种自然涌现的模式,只要满足以下几个数学条件就会出现:

- 巨大的参数空间,表示同一函数的方式如此之多,以至于解之间相互重叠和连接。
- 随机优化,每一步都是对真实梯度的略带噪声的估计,因此轨迹会抖动。
- 简单的目标(最小化损失),优化器不断下坡,但随机抖动会将其从陡峭的凹陷处推向宽阔、宽容的区域。

结果是,没有任何明确的规则要求“找到一个平坦的最小值”,动力学本身往往会偏向这些区域。

这就像看着一颗弹珠在颠簸的地面上滚动,地面被轻轻摇晃;尖锐的裂缝被跳过,弹珠最终停在重力允许的最宽阔的山谷中。

所以,你可以称之为优化数学中的一种“自然现象”:高维损失曲面的几何形状和梯度下降的随机性共同创造了稳定性。

 

Logo

更多推荐