Transformer大模型从入门到精通：收藏这份学习笔记，小白也能看懂！

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？答案只有一个：人工智能（尤其是大模型方向）当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应

程序汪小陈

366人浏览 · 2026-05-09 10:22:28

程序汪小陈 · 2026-05-09 10:22:28 发布

本文详细解析了Transformer架构的核心概念，包括N×和h的区别、Encoder和Decoder的数据流向、残差连接与LayerNorm的作用等。文章深入探讨了Encoder和Decoder的内部机制，解释了多头注意力、交叉注意力、Softmax运算以及采样策略等关键环节。通过图文并茂的解析，帮助初学者理解Transformer模型的工作原理，为深入学习大模型打下坚实基础。

一、核心概念：N× 和 h 的区别

概念	是什么	数量	方向
N×	Encoder/Decoder 的层数	N=6（原论文）	纵向堆叠
h	每层 MHA 内部的头数	h=8（原论文）	横向并行
d_model	隐藏维度	512	—

首先要清楚：图中的 N× 是把整个 Block 重复摞 N 次，不是多个注意力头。多头（h）是 MHA内部的并行机制：把输入拆成 h 份，每份独立算注意力，最后拼回来。这发生在一层里面。

正如开篇那张图，其实只是其中一层。实际架构中存在很多层(层数由自己定义 )如下图所示：

可以堆很多层，而且每层都有自己独立的头。所以，完整数据流如下。

二、完整数据流

2.1 Encoder 端（只跑一次）

2.2 Decoder 端（每生成一个词跑一轮）

三、一层 Encoder Block 内部

每个 Encoder Block 内部有两个残差连接，分别在 MHA 之后和 FFN 之后(残差连接不懂得可以看往期文章Transformer 拆解残差连接：深度学习的“高速公路”，一文看懂它的底层逻辑)
MHA 内部是多头的（原论文 h=8），每个头独立算注意力，最后拼回 512 维

残差连接后该做什么：LayerNorm

残差连接把输入加到 MHA 或 FFN 的输出上：

输出 = x + F(x)

x 是输入，F(x) 是 MHA 或 FFN 处理完的结果。这一步做完之后，数据分布已经变了，经过了注意力矩阵乘法、FFN 的非线性变换，数值范围可能跑偏。LayerNorm 的作用就是把它拉回一个稳定的分布。

具体来说，LayerNorm 做两件事：

为什么比 BatchNorm 更适合 Transformer？因为 LN 是沿着特征维度做归一化的，跟 batch size 无关。推理的时候可能一次只来一句话，BN 会崩，LN 不会。

只要记住：Add 负责"不丢信息"，Norm 负责"稳住分布"。两个绑在一起，让 Transformer 可以堆到几十层都不崩。

一头内部：Scaled Dot-Product Attention

四、Encoder 与 Decoder 的关系

4.1 Encoder 输出流向哪里

Encoder 的输出作为 K 和 V，喂进 Decoder 每一层的 Cross-Attention：

4.2 Decoder 一层内部有两类注意力

Masked MHA：自回归的，每个 token 只能看到它前面的词（用 mask 遮住后面）
Cross-Attention：Encoder 和 Decoder 的桥。Decoder 拿着自己当前的 Q 去 Encoder 的输出里"查"相关信息

4.3 “Output (shifted right)” 是什么

训练时一次性喂整句，但右移一位，用 mask 遮住未来：

目标句子:    我  爱  狗  <end>               │   │   │Decoder 输入: <start>  我  爱  狗Mask：  <start>  只能看自己        我        只能看 <start> 和自己        爱        只能看 <start>、我、爱        狗        只能看 <start>、我、爱、狗

推理时一个一个往外蹦：<start> → “我” → "<start> 我" → “爱” → … → <end>

五、两个 Softmax 的区分

5.1 注意力里的 Softmax

输入：Q·K^T / √d_k 的分数（seq_len 个值）
作用：分数 → 注意力权重（和为 1）
含义：“这句话里，我应该关注哪些词各多少”

举例：

Q("爱") · K("我") = 2.1   →  Softmax  →  0.15  (15% 注意力给"我")Q("爱") · K("爱") = 3.8   →  Softmax  →  0.70  (70% 注意力给"爱")Q("爱") · K("狗") = 0.9   →  Softmax  →  0.15  (15% 注意力给"狗")                                         ─────                                          1.00

5.2 模型末尾的 Softmax

输入：Linear 层输出（vocab_size 维）
作用：logits → 概率分布（和为 1）
含义：“下一个词选哪个的概率最大”

六、Logits → Softmax → Probabilities

Logits 是 Linear 层输出的原始分数，可以是任意实数。Probabilities 是 Softmax 压缩后的 0~1 概率。

Linear 层输出（logits）：  词表里的词:    我    你    他    狗    ...  (共几万个)                  │     │     │     │  原始分数:    3.2  -0.5   1.8   5.1  ...    ← 可以是任何实数        │        ▼  Softmax        │  概率:       0.12  0.01  0.08  0.67  ...    ← 每个在 0~1，总和 = 1

logit 越大，exp 之后差距被指数级放大：

logits:    2.0     3.0     5.0exp:       7.4    20.1   148.4    ← 5.0 甩开其他一大截prob:     0.04    0.11    0.84    ← 几乎独占

七、采样策略：怎么从概率里挑出下一个词

Softmax 给出了 vocab_size 维的概率分布，但怎么选呢？

7.1 先看几个关键参数

参数	做什么	效果
argmax（贪心）	直接取概率最大的那个词	确定性输出，每次都一样，最保守
temperature	先调"冷热"，缩放 logits 差距	低→更确定；高→更多样
top-k	只保留概率最高的 k 个候选	砍掉明显不靠谱的低分项
top-p（核采样）	按累积概率动态截断	比 top-k 灵活，自动适应分布形状

7.2 参数生效顺序

Logits   │   ▼  ① Temperature — 先调"冷热"，放大或压缩分数差距   │   ▼  ② SoftmaxProbabilities（概率分布）   │   ▼  ③ Top-k / Top-p — 筛掉低概率候选项   │   ▼  ④ 从剩余候选中随机采样最终输出 —— 下一个词

这套参数组合决定了模型的"性格"：保守复述还是创造发挥。

八、关键理解：头不跨层

头（h）只在同一层内并行，不跨层。每层 8 个头同时干活，各自管一小段维度（d_model ÷ h = 512 ÷ 8 = 64 维），最后拼回 512 维。跨层传递信息靠的是堆叠整个 Block（N×），不是靠头。

九、回头看整个过程

一个句子经过分词、嵌入向量、位置编码后，进入注意力机制。数据先流进 Encoder 模块，它的任务是算出 K 和 V，在整个推理过程中只算一次。

K、V 从 Encoder 出来后流入 Decoder。Decoder 用自己的 Q 去 Encoder 的 K、V里做交叉注意力，相似度高的向量权重更大，一路向前传到线性层，输出Logits（一组有正有负的原始分数）。Logits 再经 Softmax 压缩到 0~1，变成下一个token 的概率分布。

Decoder是自回归的——所谓自回归，就是用自己刚生成的输出，当作下一轮的输入。每生成一个token 就跑一轮，拼回输入序列末尾，继续预测下一个，直到吐出终止符。这个过程中两处用到 Softmax：一处藏在 Attention分数归一化里，一处守在最后产出概率分布。训练时还会把正确答案右移一位作为Decoder 输入（Teacher Forcing），让模型并行学完整句话。

Transformer 的基本骨架到这里就讲完了。但这只是 2017年的起点。过去几年，DeepSeek 团队在这个架构上做了一系列扎实的工程改进：从 V2的 MLA（多头潜在注意力）把 KV Cache 压缩到原来的 1/8，到 V3 的 MoE细粒度专家路由把激活参数压到总参数的 1/20，再到 V4的混合注意力（CSA+HCA）在百万 token 上下文下把 KV Cache 压到基线的2%——每一步都在回答同一个问题：怎么让 Transformer 跑得更大、更快、更省。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

请添加图片描述

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

北京朝阳AI社区

更多推荐

CC GUI 插件架构剖析：如何为 JetBrains IDE 打造完整的 AI 编程工作台

北京朝阳AI社区

在contos7上面综合部署k8s 使用constainerd zabbix监控和ansible综合控制

3 台虚拟机基础初始化（主机名 / 防火墙 / SELinux / 时间同步）Master 节点安装 Ansible，配置免密、主机清单3 台机器统一安装 Docker、K8s 组件Kubeadm 初始化集群、加入节点、Calico 组网K8s 内部用 yaml 部署 MySQL + Zabbix-Server + Zabbix-WebAnsible 编写 Playbook，一键批量给所有节点装

北京朝阳AI社区

MCP 回包外层结构嵌套问题：原理、排查与开发避坑指南

文章摘要：在MCP协议开发中，JSON-RPC响应解析存在典型陷阱：content数组被错误转换为字符串导致数据污染。故障案例显示，当MCPClient.callTool()返回List<Map>时，下游直接调用.toString()导致LLM收到脏数据而非纯净文本。关键问题包括：未检查isError字段、混淆不同MCP方法的结构差异（如content与contents），以及Git

北京朝阳AI社区

所有评论(0)

查看更多评论

程序汪小陈

@Z987421

已为社区贡献5条内容

Transformer大模型从入门到精通：收藏这份学习笔记，小白也能看懂！

程序汪小陈

一、核心概念：N× 和 h 的区别

二、完整数据流

2.1 Encoder 端（只跑一次）

2.2 Decoder 端（每生成一个词跑一轮）

三、一层 Encoder Block 内部

残差连接后该做什么：LayerNorm

一头内部：Scaled Dot-Product Attention

四、Encoder 与 Decoder 的关系

4.1 Encoder 输出流向哪里

4.2 Decoder 一层内部有两类注意力

4.3 “Output (shifted right)” 是什么

五、两个 Softmax 的区分

5.1 注意力里的 Softmax

5.2 模型末尾的 Softmax

六、Logits → Softmax → Probabilities

七、采样策略：怎么从概率里挑出下一个词

7.1 先看几个关键参数

7.2 参数生效顺序

八、关键理解：头不跨层

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、 入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

所有评论(0)

温馨提示：您尚未绑定手机号

程序汪小陈

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）