Transformer细分两个核心模块，助你轻松理解！

Transformer是由自注意力模块和前馈网络模块组成的网络结构。自注意力模块通过query-key-value机制计算输入间的相关性，前馈网络负责记忆存储。两个模块均采用残差连接和层归一化技术，其中残差连接缓解梯度消失，层归一化加速训练。原始Transformer采用编码器-解码器架构，编码器使用自注意力，解码器引入交叉注意力。该架构可单独构建编码器或解码器模型。文末提供了包含104G学习资源

全栈大佬！

698人浏览 · 2025-08-19 10:32:24

全栈大佬！ · 2025-08-19 10:32:24 发布

Transformer 是由两种模块组合构建的模块化网络结构。

两种模块分别为：注意力模块和全连接前馈模块

其中，自注意力模块由自注意力层（Self-Attention Layer）、残差连接（Residual Connections）和层归一化（Layer Normalization）组成。

全连接前馈模块由全连接前馈层，残差连接和层归一化组成。两个模块的结构如下图所示。

以下详细介绍每个层的原理及作用。

1、注意力模块

（Attention Layer)

注意力层采用加权平均的思想将前文信息叠加到当前状态上。Transformer 的注意力层将输入编码为 query，key，value 三部分，即将输入 {x1, x2, ..., xt} 编码为{(q1, k1, v1),(q2, k2, v2), ...,(qt, kt, vt)}。其中，query 和 key 用于计算自注意力的权重α, value 是对输入的编码。

其计算公式如下：

其中：

sim(q,k) 用于度量两个输入之间的相关程度，softmax 函数用于对此相关程度进行归一化。此外，

qi = Wqxi

ki = Wkxi

vi = Wvxi

Wq, Wk, Wv 分别为 query，key，value 编码器的参数。以序列输入 (x1,x2,x3)为例，最终计算出输出 O3。

Transformer 自注意力如下图所示

计算过程：

2、全连接前馈层

（Fully-connected Feedforwad Layer）

全连接前馈层占据了 Transformer 近三分之二的参数，掌管着 Transformer 模型的记忆。其可以看作是一种 Key-Value 模式的记忆存储管理模块。全连接前馈层包含两层，两层之间由 ReLU 作为激活函数。设全连接前馈层的输入为 v, 全连接前馈层可表示为：

其中，W1 和 W2 分别为第一层和第二层的权重参数，b1 和 b2 分别为第一层和第二层的偏置参数。其中第一层的可看作神经记忆中的 key，而第二层可看作 value。

3、层归一化

（Layer Normalization）

层归一化简单里说就是，把每一层的输入都会保持在均值 0、方差 1 的分布，有助于模型更快学习，避免极值的影响。

层归一化用以加速神经网络训练过程并取得更好的泛化性能。设输入到层正则化层的向量为 v = {vi}n ，i=1。层正则化层将在 v 的每一维度 vi 上都进行层正则化操作。具体地，层正则化操作可以表示为以下公式：

其中，α 和 β 为可学习参数。µ 和 δ 分别是隐藏状态的均值和方差，可由下列公式分别计算：

4、残差连接

（Residual Connections）

引入残差连接可以有效解决梯度消失问题，残差连接简单理解就是把上一层的计算结果带入下一层计算，使用两个矩阵相加就可以实现保留原始信息，例如：y=F(x)+x，x是上一层的计算结果。

在基本的 Transformer 编码模块中包含两个残差连接。

第一个残差连接是将自注意力层的输入由一条旁路叠加到自注意力层的输出上，然后输入给层正则化。

第二个残差连接是将全连接前馈层的输入由一条旁路引到全连接前馈层的输出上，然后输入给层正则化。

上述将层正则化置于残差连接之后的网络结构被称为 Post-LN Transformer。与之相对的，还有一种将层正则化置于残差连接之前的网络结构，称之为 Pre-LN，Transformers。对比两者，Post-LN Transformer 应对表征坍塌的能力更强，但处理梯度消失略弱。而 Pre-LN Transformers 可以更好的应对梯度消失，但处理表征坍塌的能力略弱。

5、Transformer架构

原始的Transformer 采用 Encoder-Decoder 架构。

其包含 Encoder 和 Decoder 两部分。这两部分都是由自注意力模块和全连接前馈模块重复连接构建而成。其整体结构如上图所示。

Encoder 部分由六个级联的 encoder layer 组成，每个encoder layer 包含一个注意力模块和一个全连接前馈模块。其中的注意力模块为自注意力模块（query，key，value 的输入是相同的）。

Decoder 部分由六个级联的decoder layer 组成，每个 decoder layer 包含两个注意力模块和一个全连接前馈模块。其中，第一个注意力模块为自注意力模块，第二个注意力模块为交叉注意力模块（query，key，value 的输入不同）。

Decoder 中第一个 decoder layer 的自注意力模块的输入为模型的输出。其后的 decoder layer 的自注意力模块的输入为上一个 decoderlayer 的输出。Decoder 交叉注意力模块的输入分别是自注意力模块的输出（query）和最后一个 encoder layer 的输出（key，value）。

Transformer 的 Encoder 部分和 Decoder 部分都可以单独用于构造语言模型，分别对应 Encoder-Only 模型和 Decoder-Only 模型。

6、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以点扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述
如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

长沙城市开发者社区

惟楚有才，于斯为盛。欢迎来到长沙！！！茶颜悦色、臭豆腐、CSDN和你一个都不能少~

更多推荐

2025 科技前沿全景：从量子突破到星际凝望的文明跃迁

长沙城市开发者社区

Maple Mono多语言支持：简繁中日字符集兼容

在当今全球化开发环境中，开发者经常需要处理包含简体中文、繁体中文、日文和英文的混合代码。传统等宽字体往往无法完美支持这种多语言场景，导致：- 中英文字符宽度比例失调，表格对齐困难- 标点符号显示不一致，影响代码可读性- 特殊符号和连字功能在多语言环境下失效- 终端图标与中文字符兼容性问题Maple Mono字体通过创新的技术方案，彻底解决了这些痛点，为多语言开发者提供了完美的字体...

长沙城市开发者社区

Graphite直方图分析：图形色彩分布的视觉化工具

还在为图像色彩分布不均衡而烦恼？想要精确掌握图像中的色彩构成却无从下手？Graphite的直方图分析功能为你提供了一套完整的色彩分布视觉化解决方案，让你能够深入理解图像的色彩特性并进行精准的色彩调整。## 什么是直方图分析？直方图（Histogram）是数字图像处理中用于表示像素值分布的重要工具。在Graphite中，直方图分析能够：- **可视化色彩分布**：直观展示RGB各通道的像...