【人工智能99问】层归一化是什么？(29/99)

层归一化是一种用于深度学习模型的归一化技术，通过对神经网络某一层的所有神经元输出进行标准化处理（沿特征维度），使数据分布保持稳定，从而加速训练并提升模型性能。与批量归一化（BatchNorm）不同，LayerNorm不依赖于批量大小，适用于RNN、Transformer等动态或小批量场景。层归一化通过特征维度的标准化和可学习的仿射变换，在保持模型表达能力的同时，显著提升了训练的稳定性和效率。其不依

9呀

761人浏览 · 2025-08-17 13:05:06

9呀 · 2025-08-17 13:05:06 发布

文章目录

层归一化（Layer Normalization, LayerNorm）详解

层归一化（Layer Normalization, LayerNorm）详解

一、什么是层归一化？

层归一化是一种用于深度学习模型的归一化技术，通过对神经网络某一层的所有神经元输出进行标准化处理（沿特征维度），使数据分布保持稳定，从而加速训练并提升模型性能。与批量归一化（BatchNorm）不同，LayerNorm 不依赖于批量大小，适用于RNN、Transformer等动态或小批量场景。

二、核心作用

稳定训练过程
- 缓解深度网络中的内部协变量偏移（Internal Covariate Shift），即每一层输入分布随参数更新而剧烈变化的问题。
- 通过归一化使每层输入的均值和方差稳定，减少梯度消失/爆炸的风险。
加速收敛
- 使优化问题更平滑（损失函数的Landscape更友好），允许使用更大的学习率。
提升泛化能力
- 隐含的正则化效果，减少对参数初始化和超参数的敏感度。
适应动态结构
- 尤其适合RNN、Transformer等模型（序列长度可变或批量大小不固定的场景）。

三、核心原理

1. 归一化操作

对于输入向量 h（维度为 d），LayerNorm 沿特征维度（而非批量维度）计算均值和方差：
$\mu = \frac{1}{d}\sum_{i=1}^d h_i, \quad \sigma^2 = \frac{1}{d}\sum_{i=1}^d (h_i - \mu)^2$
然后对输入进行标准化：
$\hat{h}_i = \frac{h_i - \mu}{\sqrt{\sigma^2 + \epsilon}} \quad (\epsilon \text{为微小常数，防止除零})$

2. 仿射变换

引入可学习的缩放参数 γ 和偏移参数 β，恢复模型的表达能力：
$\text{Output}_i = \gamma \hat{h}_i + \beta$

γ 和 β 的维度与输入特征维度相同，由模型自动学习。
若归一化过度削弱了某些特征，γ 和 β 可以恢复其原始分布。

3. 与BatchNorm的关键区别

维度	LayerNorm	BatchNorm
归一化方向	沿特征维度（单样本内）	沿批量维度（同特征跨样本）
依赖批量大小	不依赖	依赖（小批量时效果差）
适用场景	RNN、Transformer	CNN

四、为什么LayerNorm有效？

梯度传播更稳定
归一化使每层的输入分布接近标准正态分布（均值为0，方差为1），反向传播时梯度幅度更可控。
对初始化和超参数鲁棒
无论输入特征的原始尺度如何，归一化后分布一致，降低对参数初始值的敏感性。
避免批量统计的局限性
BatchNorm在批量较小时统计不可靠（如NLP中常见的小批量），而LayerNorm直接对单样本归一化，无此问题。
保留序列信息的独立性
在Transformer中，LayerNorm对每个时间步独立归一化，避免跨时间步的统计干扰，适合变长序列。

五、典型应用场景

Transformer架构
- 用于自注意力层和前馈网络后的归一化（如BERT、GPT）。
RNN/LSTM
- 解决长序列训练中梯度不稳定问题。
强化学习
- 稳定策略网络（Policy Network）的训练。
生成模型
- 如GAN、Diffusion Models中的归一化层。

六、代码示例（PyTorch）

import torch
import torch.nn as nn

# 输入形状: (batch_size, seq_len, d_model)
d_model = 512
layer_norm = nn.LayerNorm(d_model, eps=1e-6)

# 随机输入
x = torch.randn(32, 10, d_model)  # 批量32，序列长度10
output = layer_norm(x)            # 归一化后输出

七、总结

层归一化通过特征维度的标准化和可学习的仿射变换，在保持模型表达能力的同时，显著提升了训练的稳定性和效率。其不依赖批量大小的特性使其成为NLP、序列建模等领域的首选归一化方法，也是Transformer等现代架构的核心组件之一。

科技创新，汇聚千年文化底蕴，共筑璀璨首都未来之梦！

欢迎加入北京社区

更多推荐

TypeScript-基本类型

在TS中，**类型别名（Type Aliases）和接口（Interfaces）**是两种定义对象类型的方式。它们在很多情况下可以互换使用，但各自有其特点和最佳应用场景。类型别名是一种为类型创建新名称的方式，就是取一个新的名字。类型别名可以是任何有效的类型，包括基本类型、联合类型、元组等x: number;y: number;age: Age;age: 18,接口是面向对象的概念，因此它定义对象结