Transformer大模型从入门到精通:收藏这份学习笔记,小白也能看懂!
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?答案只有一个:人工智能(尤其是大模型方向)当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应
本文详细解析了Transformer架构的核心概念,包括N×和h的区别、Encoder和Decoder的数据流向、残差连接与LayerNorm的作用等。文章深入探讨了Encoder和Decoder的内部机制,解释了多头注意力、交叉注意力、Softmax运算以及采样策略等关键环节。通过图文并茂的解析,帮助初学者理解Transformer模型的工作原理,为深入学习大模型打下坚实基础。
一、核心概念:N× 和 h 的区别
| 概念 | 是什么 | 数量 | 方向 |
|---|---|---|---|
| N× | Encoder/Decoder 的层数 | N=6(原论文) | 纵向堆叠 |
| h | 每层 MHA 内部的头数 | h=8(原论文) | 横向并行 |
| d_model | 隐藏维度 | 512 | — |
首先要清楚:图中的 N× 是把整个 Block 重复摞 N 次,不是多个注意力头。多头(h)是 MHA内部的并行机制:把输入拆成 h 份,每份独立算注意力,最后拼回来。这发生在一层里面。
正如开篇那张图,其实只是其中一层。实际架构中存在很多层(层数由自己定义 )如下图所示:
可以堆很多层,而且每层都有自己独立的头。所以,完整数据流如下。
二、完整数据流

2.1 Encoder 端(只跑一次)

2.2 Decoder 端(每生成一个词跑一轮)

三、一层 Encoder Block 内部

- 每个 Encoder Block 内部有两个残差连接,分别在 MHA 之后和 FFN 之后(残差连接不懂得可以看往期文章Transformer 拆解残差连接:深度学习的“高速公路”,一文看懂它的底层逻辑)
- MHA 内部是多头的(原论文 h=8),每个头独立算注意力,最后拼回 512 维
残差连接后该做什么:LayerNorm
残差连接把输入加到 MHA 或 FFN 的输出上:
输出 = x + F(x)
x 是输入,F(x) 是 MHA 或 FFN 处理完的结果。这一步做完之后,数据分布已经变了,经过了注意力矩阵乘法、FFN 的非线性变换,数值范围可能跑偏。LayerNorm 的作用就是把它拉回一个稳定的分布。
具体来说,LayerNorm 做两件事:

为什么比 BatchNorm 更适合 Transformer?因为 LN 是沿着特征维度做归一化的,跟 batch size 无关。推理的时候可能一次只来一句话,BN 会崩,LN 不会。
只要记住:Add 负责"不丢信息",Norm 负责"稳住分布"。两个绑在一起,让 Transformer 可以堆到几十层都不崩。
一头内部:Scaled Dot-Product Attention

四、Encoder 与 Decoder 的关系
4.1 Encoder 输出流向哪里
Encoder 的输出作为 K 和 V,喂进 Decoder 每一层的 Cross-Attention:

4.2 Decoder 一层内部有两类注意力

- Masked MHA:自回归的,每个 token 只能看到它前面的词(用 mask 遮住后面)
- Cross-Attention:Encoder 和 Decoder 的桥。Decoder 拿着自己当前的 Q 去 Encoder 的输出里"查"相关信息
4.3 “Output (shifted right)” 是什么
训练时一次性喂整句,但右移一位,用 mask 遮住未来:
目标句子: 我 爱 狗 <end> │ │ │Decoder 输入: <start> 我 爱 狗Mask: <start> 只能看自己 我 只能看 <start> 和自己 爱 只能看 <start>、我、爱 狗 只能看 <start>、我、爱、狗
推理时一个一个往外蹦:<start> → “我” → "<start> 我" → “爱” → … → <end>
五、两个 Softmax 的区分
5.1 注意力里的 Softmax
- 输入:Q·K^T / √d_k 的分数(seq_len 个值)
- 作用:分数 → 注意力权重(和为 1)
- 含义:“这句话里,我应该关注哪些词各多少”
举例:
Q("爱") · K("我") = 2.1 → Softmax → 0.15 (15% 注意力给"我")Q("爱") · K("爱") = 3.8 → Softmax → 0.70 (70% 注意力给"爱")Q("爱") · K("狗") = 0.9 → Softmax → 0.15 (15% 注意力给"狗") ───── 1.00
5.2 模型末尾的 Softmax
- 输入:Linear 层输出(vocab_size 维)
- 作用:logits → 概率分布(和为 1)
- 含义:“下一个词选哪个的概率最大”
六、Logits → Softmax → Probabilities
Logits 是 Linear 层输出的原始分数,可以是任意实数。Probabilities 是 Softmax 压缩后的 0~1 概率。
Linear 层输出(logits): 词表里的词: 我 你 他 狗 ... (共几万个) │ │ │ │ 原始分数: 3.2 -0.5 1.8 5.1 ... ← 可以是任何实数 │ ▼ Softmax │ 概率: 0.12 0.01 0.08 0.67 ... ← 每个在 0~1,总和 = 1
logit 越大,exp 之后差距被指数级放大:
logits: 2.0 3.0 5.0exp: 7.4 20.1 148.4 ← 5.0 甩开其他一大截prob: 0.04 0.11 0.84 ← 几乎独占
七、采样策略:怎么从概率里挑出下一个词
Softmax 给出了 vocab_size 维的概率分布,但怎么选呢?
7.1 先看几个关键参数
| 参数 | 做什么 | 效果 |
|---|---|---|
| argmax(贪心) | 直接取概率最大的那个词 | 确定性输出,每次都一样,最保守 |
| temperature | 先调"冷热",缩放 logits 差距 | 低→更确定;高→更多样 |
| top-k | 只保留概率最高的 k 个候选 | 砍掉明显不靠谱的低分项 |
| top-p(核采样) | 按累积概率动态截断 | 比 top-k 灵活,自动适应分布形状 |
7.2 参数生效顺序
Logits │ ▼ ① Temperature — 先调"冷热",放大或压缩分数差距 │ ▼ ② SoftmaxProbabilities(概率分布) │ ▼ ③ Top-k / Top-p — 筛掉低概率候选项 │ ▼ ④ 从剩余候选中随机采样最终输出 —— 下一个词
这套参数组合决定了模型的"性格":保守复述还是创造发挥。
八、关键理解:头不跨层
头(h)只在同一层内并行,不跨层。每层 8 个头同时干活,各自管一小段维度(d_model ÷ h = 512 ÷ 8 = 64 维),最后拼回 512 维。跨层传递信息靠的是堆叠整个 Block(N×),不是靠头。
九、回头看整个过程
一个句子经过分词、嵌入向量、位置编码后,进入注意力机制。数据先流进 Encoder 模块,它的任务是算出 K 和 V,在整个推理过程中只算一次。

K、V 从 Encoder 出来后流入 Decoder。Decoder 用自己的 Q 去 Encoder 的 K、V里做交叉注意力,相似度高的向量权重更大,一路向前传到线性层,输出Logits(一组有正有负的原始分数)。Logits 再经 Softmax 压缩到 0~1,变成下一个token 的概率分布。
Decoder是自回归的——所谓自回归,就是用自己刚生成的输出,当作下一轮的输入。每生成一个token 就跑一轮,拼回输入序列末尾,继续预测下一个,直到吐出终止符。这个过程中两处用到 Softmax:一处藏在 Attention分数归一化里,一处守在最后产出概率分布。训练时还会把正确答案右移一位作为Decoder 输入(Teacher Forcing),让模型并行学完整句话。
Transformer 的基本骨架到这里就讲完了。但这只是 2017年的起点。过去几年,DeepSeek 团队在这个架构上做了一系列扎实的工程改进:从 V2的 MLA(多头潜在注意力)把 KV Cache 压缩到原来的 1/8,到 V3 的 MoE细粒度专家路由把激活参数压到总参数的 1/20,再到 V4的混合注意力(CSA+HCA)在百万 token 上下文下把 KV Cache 压到基线的2%——每一步都在回答同一个问题:怎么让 Transformer 跑得更大、更快、更省。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐

所有评论(0)