扩散模型DDPM的发展史：从AE、VAE、VQ-VAE到DDPM(含图像加噪、去噪的全过程及U-Net的简介)、DDIM

v_JULY_v

46248人浏览 · 2023-04-30 10:56:28

v_JULY_v · 2023-04-30 10:56:28 发布

前言

2018年我写过一篇博客，叫：《一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》，该文相当于梳理了2019年之前CV领域的典型视觉模型，比如

2014 R-CNN
2015 Fast R-CNN、Faster R-CNN
2016 YOLO、SSD
2017 Mask R-CNN、YOLOv2
2018 YOLOv3

随着2019 CenterNet的发布，特别是2020发布的DETR(End-to-End Object Detection with Transformers)之后，自此CV迎来了生成式下的多模态时代(本文介绍其中有下划线的部分，其他部分下一篇介绍)

	1月	3月	4月	5月	6月	8月	9月	10月	11月
2020				DETR	DDPM			DDIM VisionTransf..
2021	CLIP DALL·E	SwinTransf..							MAE SwinTransf..V2
2022	BLIP		DALL·E 2			StableDiffusion BEiT-3 Midjourney V3
2023	BLIP2	VisualChatGPT GPT4 Midjourney V5	SAM(Segment Anything Model)				DALLE3

但看这些模型接二连三的横空出世，都不用说最后爆火的GPT4，便可知不少CV同学被卷的不行

说到GPT4，便不得不提ChatGPT，实在是太火了，改变了很多行业，使得国内外绝大部分公司的产品、服务都值得用LLM全部升级一遍(比如微软的365 Copilot、阿里所有产品、金山WPS等等)
而GPT4相比GPT3.5或GPT3最本质的改进就是增加了多模态的能力，使得ChatGPT很快就能支持图片的输入形式，从而达到图生文和文生图的效果
而AI绘画随着去年stable diffusion和Midjourney的推出，使得文生图火爆异常，各种游戏的角色设计、网上店铺的商品/页面设计都用上了AI绘画这样的工具，更有不少朋友利用AI绘画取得了不少的创收，省时省力还能赚钱，真香

但面对这么香的技术，其背后的一系列原理到底是什么呢，本文特从头开始，不只是简单的讲一下扩散模型的原理，而是在反复研读相关论文之后，准备把20年起相关的CV多模态模型全部梳理一遍，从VE、VAE、DDPM到ViT/Swin transformer、CLIP/BLIP，再到stable diffusion/Midjourney、GPT4

当然，实际写的时候，会分成两篇甚至多篇文章，比如

第一篇，即本文《AI绘画能力的起源：从VAE、扩散模型DDPM、DETR到ViT/MAE/Swin transformer》
————
但后来
$\rightarrow$ DETR部分移到了此文《一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、DETR(首发于18年，修订于25年)》中
$\rightarrow$ 而ViT部分则移到了此文《一文通透ViT——把图片划分成一个个patch块后再做注意力计算，打破CNN在CV领域的统治地位(含Swin Transformer的详解)》中
第二篇，即下篇《图像生成(AI绘画)的发展史：从CLIP、BLIP、InstructBLIP到DALLE、DALLE 2、DALLE 3、Stable Diffusion(含ControlNet详解)》

就当2020年之后的CV视觉发展史了，且过程中会尽可能写透彻每一个模型的原理，举两个例子

网上介绍VAE的文章都太数学化(更怕那种表面正确其实关键的公式是错的误导人)，如果更边推导边分析背后的理论意义(怎么来的出发点是什么为什么要这么做这么做的意义是什么)，则会更好理解，这就跟变介绍原理边coding实现会更好理解、理解更深一个道理
如果完全展开DDPM推导的所有细节，假定需要100步的话，本文正在朝展开80步而努力，截止5月份之前，绝大部分的中文资料只展开了60步(正在因为只展开了60%，让很多初学者卡到中途)，所以你害怕的不是公式，你只是怕公式的展开不够细致，毕竟对每一个人而言，公式展开越细致越不怕
(如果本文有任何一个公式展开的不够细致、不够一目了然，请随时指出，一定及时二次展开)

第一部分编码器VE与变分自编码器VAE

1.1 AE：编码器(数据 $X$ 压缩为低维表示 $z$ )-解码器(低维表示恢复为原始数据 $\hat{X}$ )架构

自编码器(Autoencoder，简称AE)是一种无监督学习的神经网络，用于学习输入数据的压缩表示。具体而言，可以将其分为两个部分：编码器和解码器

编码器：编码器是一个神经网络，负责将输入数据 $X$ （如图像、文本等）压缩为一个低维表示 $z$ ，且表示为 $z = g(X)$
解码器：解码器是另一个神经网络，负责将编码器生成的低维表示恢复为原始数据 $\hat{X}$ ，且表示为 $\hat{X} = f(z)$

从而最终完成这么一个过程： $X \rightarrow z \rightarrow \hat{X}$ ，而其训练目标即是最小化输入数据 $X$ 与解码器重建数据 $\hat{X}$ 之间的差异，所以自编码器常用的一个损失函数为 $l = || X - \hat{X} || ^2$

这个自编码的意义在于

模型训练结束后，我们就可以认为编码 $z$ 囊括了输入数据 $X$ 的大部分信息，也因此我们可以直接利用 $z$ 表达原始数据，从而达到数据降维的目的
解码器只需要输入某些低维向量 $z$ ，就能够输出高维的图片数据 $\hat{X}$ ，那我们能否把解码器模型直接当做生成模型，在低维空间中随机生成某些向量 $z$ ，再喂给解码器 $f(z)$ 来生成图片呢？

对于第二点，理论上可以这么做，但问题在于

绝大多数随机生成的 $z,f(z)$ 只会生成一些没有意义的噪声，之所以如此，原因在于没有显性的对 $z$ 的分布 $p(z)$ 进行建模，我们并不知道哪些 $z$ 能够生成有用的图片
而且我们用来训练 $f(z)$ 的数据是有限的， $f$ 可能只会对极有限的 $z$ 有响应。而整个低维空间又是一个比较大的空间，如果只在这个空间上随机采样的话，我们自然不能指望总能恰好采样到能够生成有用的图片的 $z$

有问题自然便得探索对应的解决方案，而VAE(自变分编码器，Variational Autoencoders)则是在AE的基础上，显性的对 $z$ 的分布 $p(z)$ 进行建模(比如符合某种常见的概率分布)，使得自编码器成为一个合格的生成模型

1.2 Variational AutoEncoder (VAE)：学习一个分布

1.2.1 VAE：标数据的分布 $\hat{X}$ 和目标分布 $X$ 尽量接近

VAE和GAN一样，都是从隐变量 $Z$ 生成目标数据，具体如下图所示(本1.2节的部分图来自苏剑林)：

先用某种分布随机生成一组隐变量 $Z = \left \{ Z_1,Z_2,\cdots ,Z_k \right \}$ (假设隐变量服从正态分布)
然后这个 $Z$ 隐变量经过一个生成器生成一组数据 $\hat{X} = \left \{ \hat{X_1},\hat{X_2},\cdots ,\hat{X_k} \right \}$

而VAE和GAN都希望这组生成数据的分布 $\hat{X}$ 和目标分布 $X$ 尽量接近，看似美好，但有两个问题

一方面，“尽量接近”并没有一个确定的关于 $\hat{X}$ 和 $X$ 的相似度的评判标准，比如KL散度便不行，原因在于KL散度是针对两个已知的概率分布求相似度的，而 $\hat{X}$ 和 $X$ 的概率分布目前都是未知(只有一批采样数据没有分布表达式)
二方面，经过采样出来的每一个 $Z_k$ ，不一定对应着每一个原来的 $X_k$ ，故最后没法直接最小化 $D^2(X_k,\hat{X_k})$

实际是怎么做的呢？如苏剑林所说，与自动编码器由编码器与解码器两部分构成相似，VAE利用两个神经网络建立两个概率密度分布模型：

其中一个模型用于原始输入数据 $X=\{X_1,...,X_k\}$ 的变分推断，生成隐变量 $Z$ 的变分概率分布 $p(Z|X_k)$ ，称为推断网络
而VAE的核心就是，我们不仅假设 $p(Z)$ 是正态分布，而且假设每个 $p(Z|X_k)$ 也是正态分布。什么意思呢？即针对每个采样点 $X_k$ 获得一个专属于它和 $Z$ 的一个正态分布 $p(Z|X_k)$

换言之，有 $k$ 个 $X$ sample，就有 $k$ 个正态分布 $p(Z|X_k)$ ，毕竟没有任何两个采样点是完全一致的，而后面要训练一个生成器 $\hat{X_k}=f(Z)$ ，希望能够把从分布 $p(Z|X_k)$ 采样出来的一个 $Z_k$ 还原为 $X_k$
$\rightarrow$ 而如果从 $p(Z)$ 中采样一个 $Z_k$ ，没法知道这个 $Z_k$ 对应于真实的 $X_k$ 呢？
$\rightarrow$ 现在 $p(Z|X_k)$ 专属于 $X_k$ ，我们有理由说从这个分布采样出来的 $Z_k$ 可以还原到对应的 $X_k$ 中去
而如何确定这 $k$ 个正态分布呢，众所周知，确定一个正太分布只需确定其均值 $u$ 和方差 $\sigma ^2$ 即可，故可通过已知的 $X_k$ 和假设的 $Z$ 去确定均值和方差，具体可以构建两个神经网络 $\mu _k = f_1(X_k)$ ， $log \sigma _{k}^{2} = f_2(X_k)$ 去计算「值得一提的是，选择拟合 $log \sigma _{k}^{2}$ 而不是直接拟合 $\sigma _{k}^{2}$ ，是因为 $\sigma _{k}^{2}$ 总是非负的，需要加激活函数处理，而拟合 $log \sigma _{k}^{2}$ 不需要加激活函数，因为它可正可负」
另一个模型，则根据生成的隐变量 $Z$ 的变分概率分布 $p(Z)$ ，还原生成原始数据的近似概率分布 $p(\hat{X}|Z)$ ，称为生成网络
因为已经学到了这 $k$ 个正态分布，那可以直接从专属分布 $p(Z|X_k)$ 中采样一个 $Z_k$ 出来，然后经过一个生成器得到 $\hat{X_k} = f(Z_k)$ ，那接下来只需要最小化方差 $D^2(X_k,\hat{X_k})$ 就行

仔细理解的时候有没有发现一个问题？为什么在文章最开头，我们强调了没法直接比较 $X$ 与 $\hat{X}$ 的分布，而在这里，我们认为可以直接比较这俩？注意，这里的 $Z_k$ 是专属于或针对于 $X_k$ 的隐变量，那么和 $\hat{X_k}$ 本身就有对应关系，因此右边的蓝色方框内的“生成器”，是一一对应的生成。

另外，大家可以看到，均值和方差的计算本质上都是encoder。也就是说，VAE其实利用了两个encoder去分别学习均值和方差

1.2.2 VAE的Variational到底是个啥：需要方差持续存在从而带来噪声

这里还有一个非常重要的问题，如苏剑林所说，由于我们通过最小化 $D^2(X_k,\hat{X_k})$ 来训练右边的生成器，最终模型会逐渐使得 $X_k$ 和 $\hat{X_k}$ 趋于一致。但是注意，因为 $Z_k$ 是重新随机采样过的，而不是直接通过均值和方差encoder学出来的，这个生成器的输入 $Z$ 是有噪声的

仔细思考一下，这个噪声的大小其实就用方差来度量。为了使得分布的学习尽量接近，我们希望噪声越小越好，所以我们会尽量使得方差趋于 0
但是方差不能为 0，因为我们还想要给模型一些训练难度。如果方差为 0，模型永远只需要学习高斯分布的均值，这样就丢失了随机性，VAE就变成AE了……这就是为什么VAE要在AE前面加一个Variational：我们希望方差能够持续存在，从而带来噪声
那如何解决这个问题呢？其实保证有方差就行，但是VAE给出了一个优雅的答案：不仅需要保证有方差，还要让所有 $p(Z|X)$ 趋于标准正态分布 $N(0,1)$ ，根据定义可知
$\begin{aligned} p(Z) & =\sum_{X} p(Z \mid X) p(X) \\ & =\sum_{X} \mathcal{N}(0, I) p(X) \\ & =\mathcal{N}(0, I) \sum_{X} p(X) \\ & =\mathcal{N}(0, I) \end{aligned}$
这个式子的关键意义在于告诉我吗：如果所有 $p(Z|X)$ 都趋于 $N(0,1)$ ，那么我们可以保证 $p(Z)$ 也趋于 $N(0,1)$ ，从而实现先验的假设，这样就形成了一个闭环！那怎么让所有 $p(Z|X)$ 趋于 $N(0,1)$ 呢？还是老套路：加loss

到此为止，我们可以把VAE进一步画成：

现在我们来回顾一下VAE到底做了啥。VAE在AE的基础上

一方面，对均值的encoder添加高斯噪声(正态分布的随机采样)，使得decoder(即生成器)有噪声鲁棒性
二方面，为了防止噪声消失，将所有 $p(Z|X)$ 趋近于标准正态分布，将encoder的均值尽量降为 0，而将方差尽量保持住

这样一来，当decoder训练的不好的时候，整个体系就可以降低噪声；当decoder逐渐拟合的时候，就会增加噪声

1.3 VAE的改进：VQ-VAE/VQ-VAE2

1.3.1 什么是VQ-VAE

VQ即Vector Quantised，它编码出的向量是离散的，也就是把VAE做量化，所以VQ-VAE最后得到的编码向量的每个元素都是一个整数

现实生活中，很多信息(声音、图片)都是连续的，你的大部分任务都是一个回归任务。但是等你真正将其表示出来或真正解决这些任务的时候，我们都将其离散化了。图像变成了像素，语音也抽样过了，大部分工作的很好的也都是分类模型(回归任务转换成分类任务)
如果还是之前VAE的模式，就不好把模型做大，分布也不好学
故最终，取而代之的不是去直接预测分布 $z$ ，而是用一个codebook代替。codebook可以理解为聚类的中心，大小一般是K*D（K=8192，Dim=512/768），也就是有8192个长为D的向量

1.3.2 VQ-VAE的算法流程

$x$ 输入编码器得到高宽分别为 $(h,w)$ 的特征图 $f$
然后计算特征图里的向量和codebook里的向量(聚类中心)的相似性
接着把和特征图最接近的聚类中心向量的编号(比如1-8192)存到矩阵 $z$ 里面
训练完成之后，不再需要编码特征 $f$ ，而是取出矩阵 $z$ 中的编号对应的codebook里面的向量，生成一个新的特征图 $f_q$ (经过量化后的特征，即quantised feature)
最后和之前一样，使用 $f_q$ 解码重构原图

此时这个量化特征就非常可控了，因为它们永远都是从codebook里面来的，而非随机生成，这样优化起来相对容易，如下图所示

左图：VQ-VAE的模型结构
其中，红色线的梯度 $\triangledown _{z} L$ 迫使encoder在下一次forword时改变其输出(参数更新)
由于编码器的输出和解码器的输入共享D维空间，梯度包含了编码器如何改变参数以降低损失的有效信息
右图：embedding space可视化。编码器输出 $z(x)$ 会mapped到最相近（nearest）的点 $e_2$

VQ-VAE也可以用来做CV领域的自监督学习，比如BEIT就是把DALL·E训练好的codebook拿来用。将图片经过上面同样的过程quantise成的特征图作为ground truth，自监督模型来训练一个网络

后续还有VL-BEIT (vision language BEIT)的工作，也是类似的思路，只不过是用一个Transformer编码器来做多模态的任务

1.3.2 VQ-VAE2

// 待更

第二部分扩散模型DDPM：先前向加噪后反向去噪继而建立噪声估计模型

在写本部分之前，我反复看了网上很多阐述DDPM的文章，实话说，一开始看到那种一上来就一堆公式的，起初基本看不下去，虽然后来慢慢的都看得下去了，但如果对于一个初次接触DDPM的初学者来说，一上来就一堆公式确实容易把人绕晕，但如果没有公式，则又没法透彻理解背后的算法步骤

两相权衡，本文将侧重算法每一步的剖析，而公式更多为解释算法原理而服务，说白了，侧重原理其次公式，毕竟原理透彻了，公式也就自然而然的能推出来了

言归正传，咱们先来了解下扩散模型的极简发展史

2.1 扩散模型发展史：DDPM、DDIM、improved DDPM、Latent Diffusion Model到DALL·E/DALL·E2

2.1.1 从扩散模型概念的提出到DDPM(含U-Net网络的简介)、DDIM

1 2015年，Sohl-Dickstein提出「扩散模型」的概念

2015年，斯坦福大学的一博士后Sohl-Dickstein通过此篇论文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》提出扩散模型的概念

简单来讲，扩散模型的灵感来自非平衡热力学，通过定义了一个扩散步骤的马尔可夫链，以缓慢地将「符合高斯分布的随机噪声」添加到数据中，然后反转扩散过程以从噪声中构建所需的数据样本

2 2019年，斯坦福的宋飏等人估计数据分布梯度的生成模型

随后，2019年，斯坦福一在读博士宋飏和其导师通过此文《Generative Modeling by Estimating Gradients of the Data Distribution》提出了一种新方法来构建生成模型：即不需要估计数据的概率分布(数据概率的分布类似高维曲面)，相反，它估计的是分布的梯度(分布的梯度可以看成是高维曲面的斜率)

「顺带说一下，后来宋飏等人推出了扩散模型的改进，即DALLE 3的解码器之一致性模型Consistency Models(详见：AI绘画神器DALLE 3的解码器：一步生成的扩散模型之Consistency Models)」

3 2020年6月，UC Berkeley的Jonathan Ho等人正式提出：DDPM

再之后，2020年6月，UC Berkeley的Jonathan Ho等人意识到宋飏的工作可以改进 Sohl-Dickstein的扩散模型，很快，便通过论文《Denoising Diffusion Probabilistic Models》正式提出对于普通扩散模型的改进版：DDPM——全称即论文名称：Denoising Diffusion Probabilistic Models

DDPM主要有两个贡献

一方面，从预测转换图像改进为预测噪声 (即如DiT论文所说，reformulating diffusion models to predict noise instead of pixel，可惜强调这点的文章太少了，可它是DDPM的关键，更是DDPM的本质）
作者认为，每次直接从 $x_{t}$ 预测 $x_{t-1}$ ，这种图像到图像的转化不太好优化，所以直接去预测从 $x_{t}$ 到 $x_{t-1}$ 这一步所添加的噪声 $\varepsilon$ ，这样就简化了问题：毕竟噪声一旦被预测出来， $x_t$ 减去噪声即得 $x_{t-1}$
这种操作就有点类似ResNet的残差结构。每次新增一些层，模型不是直接从 $x$ 去预测 $y$ ，而是让新增的层去预测( $y-x$ )。这样新增层不用全部重新学习，而是学习原来已经学习到的 $x$ 和真实值 $y$ 之间的残差就行(residual)

DDPM采用了一个U-Net 结构的Autoencoder来对 $t$ 时刻的高斯噪声 $z$ 进行预测，训练目标即希望预测的噪声 $f_{\theta}\left(x_{t}, t\right)$ 和真实的噪声 $z$ 一致，所以目标函数为 $f_{\theta}\left(x_{t}, t\right)$ 和 $z$ 之间的 $L_1$ Loss：
$p\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\left\|z-f_{\theta}\left(x_{t}, t\right)\right\|$
$\rightarrow$ 这里的标签 $z$ 是正向扩散过程中，我们每一步真实添加的噪声(所以噪声是已知的，预测噪声时，其可以拿来当作Ground truth)
$\rightarrow$ 这里的 $f_{\varepsilon }$ 就对应了U-Net 模型结构
$\rightarrow$ 至于 $t$ 就是U-Net 的输入 $x_t$ 之外的另一个输入time embedding「类似transformer里的正弦位置编码，主要用于告诉 U-Net模型，现在到了反向过程的第几步，相当于引导U-Net生成」
最终，通过这个简单的 $L_1$ 损失函数，模型就可以训练起来了
二方面，DDPM只预测正态分布的均值
虽然正态分布由均值和方差决定，但作者在这里发现，其实模型不需要学方差，只需要学习均值就行。逆向过程中高斯分布的方差项直接使用一个常数，模型的效果就已经很好，所以就再一次降低了模型的优化难度

为方便大家更好的理解本文，特地解释下什么叫U-Net网络(对应论文为：U-Net: Convolutional Networks for Biomedical Image Segmentation)

在目前绝大部分的图像或视频扩散方法中，主导的骨干网络一般是由一系列卷积和自注意力层构成的 U-Net 架构

它总共有23个卷积层的网络，由一个收缩路径(左侧)和一个扩张路径(右侧)组成

收缩路径遵循卷积网络的典型架构。它由两个3x3卷积(无填充卷积)的重复结构组成，每个卷积后面跟着ReLU和一个2x2最大池化操作，步长为2，用于下采样，在每个下采样步骤中，将特征通道的数量加倍

扩张路径中的每个步骤都包括特征图的上采样，然后是一个2x2卷积(“上卷积”)，将特征通道数量减半，与收缩路径中相应裁剪的特征图进行连接(a concatenation with the correspondingly cropped feature map from the contracting path)，以及两个3x3卷积，每个卷积后面跟着一个ReLU。由于每次卷积都会丢失边界像素(the loss of border pixels in every convolution)，所以裁剪是必要的

在最后一层，使用1x1卷积将每个64个分量的特征向量映射到所需的类别数

人们之所以偏好 U-Net，是因为 Transformer 中全注意力机制的内存需求会随输入序列长度而二次方增长，而在处理视频这样的高维信号时，这样的增长模式会让计算成本变得非常高

当然，在此文《视频生成的原理解析：从Gen2、Emu Video到PixelDance、SVD、Pika 1.0、W.A.L.T》的第六部分你会看到，已有最新的研究把Transformer用做扩散模型的骨干网络

DDPM也有些类似VAE，也可以将其当做一个encoder-decoder的结构，但是有几点区别：

扩散过程是编码器一步步的走到 $x_t$ ，而且是一个固定的过程；而VAE的编码器是可以学习的；
DDPM的每一步输出输出都是同样维度大小的，但对一般的自编码器（AE/VAE等），往往中间的bottleneck特征会比输入小很多
扩散模型有步数step的概念（time step、time embedding），模型要经过很多步才能生成图片，且在所有step中，U-Net都是共享参数的

4 2020年10月，斯坦福的Jiaming Song等人正式提出：DDIM

2020年10月，来自斯坦福大学的Jiaming Song, Chenlin Meng, Stefano Ermon提出DDIM，其对应的论文为《Denoising Diffusion Implicit Models》

去噪扩散概率模型(DDPMs)在不使用对抗训练的情况下实现了高质量的图像生成，但它们需要模拟一个马尔可夫链的多个步骤来生成样本
为了加速采样，作者提出了去噪扩散隐式模型(DDIMs)，这是一类更高效的迭代隐式概率模型，具有与DDPMs相同的训练过程
To accelerate sampling, we present denoising diffusion implicit models (DDIMs), a more efficientclass of iterative implicit probabilistic models with the same training procedure as DDPMs.

具体而言
$\rightarrow$ 在DDPMs中，(图像)生成过程被定义为特定马尔可夫扩散过程的逆过程「In DDPMs, the generative process is defined as the reverse of a particularMarkovian diffusion process」
$\rightarrow$ 作者通过一类非马尔可夫扩散过程来推广DDPMs，这些过程导致相同的训练目标
且这些非马尔可夫过程可以对应于确定性的生成过程，从而产生隐式模型，能够更快地生成高质量样本
作者通过实验证明，DDIMs在wall-clock time方面可以比DDPMs快10到50倍地产生高质量样本，允许在计算和样本质量之间进行权衡，直接在潜在空间中进行语义上有意义的图像插值，并以非常低的误差重建观测

2.1.2 improved DDPM、Diffusion Model Beat GANs、Latent Diffusion Model到DALL·E、DALL·E2

5 2021年2月，OpenAI提出improved DDPM

DDPM使得扩散模型可以在真实数据集上work得很好之后，一下子吸引了很多人的兴趣。因为DDPM在数学上简洁美观，无论正向还是逆向，都是高斯分布，可以做很多推理证明，而且还有很多不错的性质

于此，2021年2月，OpenAI的Alex Nichol和Prafulla Dhariwal推出了 improved DDPM「其对应论文为：《Improved Denoising Diffusion Probabilistic Models》」

improved DDPM相比DDPM做了几点改动：

DDPM的逆向过程中，高斯分布的方差项直接使用一个常数而不用学习
improved DDPM作者就觉得如果对方差也进行学习的话，效果应该会更好，改了之后果然取样和生成效果都好了很多
DDPM添加噪声时采用的线性的variance schedule改为余弦schedule，效果更好(类似学习率从线性改为余弦)
简单尝试了scale大模型之后，生成效果更好

6 2021年5月 Diffusion Model Beat GANs：使用classifier guidance的方法，引导模型进行采样和生成

上面第三点对OpenAI来说，无疑是个好消息。所以improved DDPM的二作和三作马上着手研究，发布了《Diffusion Models Beat GANs on Image Synthesis》这篇论文，比之前的improved DDPM又做了一些改进：

使用大模型：加大加宽网络、使用更多的自注意力头attention head，加大自注意力scale (single-scale attention改为multi-scale attention)
提出了新的归一化方式——Adaptive Group Normalization，相当于根据步数进行自适应的归一化，这个方法是对group归一化的一个改进： $\text{AdaGN}(h,y=[y_s,y_b]) = y_s\text{GroupNorm}(h)+y_b$

上面公式中的 $h$ 是残差块激活函数的输出， $y$ 是一个线性层对时步和后面用到的类别信息的嵌入。组归一化是对输入的通道方向进行分组归一化的归一化方法，可以理解为局部LayerNorm
使用classifier guidance的方法，引导模型进行采样和生成
这样不仅使生成的图片更逼真，而且加速了反向采样过程。论文中，只需要25次采样，就可以从噪声生成图片

所谓classifier guided diffusion
1 即在反向过程训练U-Net的同时，也训练一个简单的图片分类器。这个分类器是在ImageNet上训练的，只不过图片加了很多噪声 (毕竟扩散模型的输入始终是加了很多噪声的，跟真实的ImageNet图片是很不一样的，是从头训练的)
2 当采样 $x_t$ 之后，直接扔给分类器，就可以看到图片分类是否正确，这时候就可以算一个交叉熵目标函数，对应的就得到了一个梯度。之后使用分类器对 $x_t$ 的梯度信息指导扩散模型的采样和生成
3 这个梯度暗含了当前图片是否包含物体，以及这个物体是否真实的信息。通过这种梯度的引导，就可以帮助U-Net将图片生成的更加真实，要包含各种细节纹理，而不是意思到了就行，要和真实物体匹配上

当然，除了最简单最原始的classifier guidance之外，还有很多其它的引导方式
$\rightarrow$ CLIP guidance：将简单的分类器换成CLIP之后，文本和图像就联系起来了。此时不光可以利用这个梯度引导模型采用和生成，而且可以利用文本指导其采样和生成
$\rightarrow$ image侧引导：除了利用图像重建进行像素级别的引导，还可以做图像特征和风格层面的引导，只需要一个gram matrix就行
$\rightarrow$ text 侧：可以用训练好的NLP大模型做引导
以上所有引导方式，都是下面目标函数里的 $y$ ，即模型的输入不光是 $x_{t}$ 和time embedding，还有condition，加了condition之后，可以让模型的生成又快又好 $p\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\left\|z-f_{\theta}\left(x_{t}, t, y\right)\right\|$

且值得一提的是，额外引入一个网络来指导，推理的时候比较复杂 (扩散模型需要反复迭代，每次迭代都需要额外算一个分数)，所以引出了后续2022年7月的一个工作：classifier free guidance

7 2021年12月潜在扩散空间Latent Diffusion Model

2021年年底，此篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》提出了潜在扩散模型，也是后续奠定stable diffusion的核心论文(关于SD详见本系列的另一篇文章《AI绘画原理解析：从CLIP到DALLE1/2、DALLE 3、Stable Diffusion》)

为何要弄这么个隐空间或潜在空间呢？

原因很简单，为了使扩散模型在有限的计算资源上训练，并且保留它们的质量和灵活性，故首先训练了一个强大的预训练自编码器，这个自编码器所学习到的是一个潜在的空间，这个潜在的空间要比像素空间要小的多(可以简单粗暴的理解为就是一个被压缩或被降维的空间)，把扩散模型在这个潜在的空间去训练，大大的降低了对算力的要求，这也是Stable Diffusion比原装Diffusion速度快的原因

8 2022年7月 Classifier-Free Diffusion Guidance

所谓classifier free guidance的方式(对应论文为《Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance》)，只是改变了模型输入的内容，除了 conditional输入外(随机高斯噪声输入加引导信息)，还有 unconditional 的采样输入，两种输入都会被送到同一个 diffusion model，从而让其能够具有无条件和有条件生成的能力

得到有条件输出 $f_{\theta }(x_{t},t,y)$ 和无条件输出 $f_{\theta }(x_{t},t,\phi)$ 后，就可以用前者监督后者，来引导扩散模型进行训练了
最后反向扩散做生成时，我们用无条件的生成，也能达到类似有条件生成的效果，这样一来就摆脱了分类器的限制，所以叫classifier free guidance
比如在训练时使用图像-文本对，这时可以使用文本做指导信号，也就是训练时使用文本作为 $y$ 生成图像。然后 $y$ 把去掉，替换为一个空集 $\phi$ （空的序列），生成另外的输出

总之，扩散模型本来训练就很贵了，classifier free guidance这种方式在训练时需要生成两个输出，所以训练更贵了。但是这个方法确实效果好，所以在GLIDE 、DALL·E2和Imagen里都用了，而且都提到这是一个很重要的技巧，用了这么多技巧之后，GLIDE终于是一个很好的文生图模型了，只用了35亿参数，生成效果和分数比120亿参数的DALL·E还要好

9 2021-2022年 DALL·E/DALL·E2：条件引导生成

2021年，OpenAI一看GLIDE这个方向靠谱，就马上跟进，不再考虑DALL·E的VQ-VAE路线了，而是将GLIDE改为层级式生成（56→256→1024）并加入prior网络等等，于是

Jonathan Ho和他在谷歌研究中心的同事Tim Salimans，与其他地方的团队合作，展示了如何结合大型语言模型的信息与图像生成扩散模型，即用文本（比如“金鱼在海滩上喝可口可乐”）指导扩散过程，从而生成图像，最终得到了DALL·E2 (其具体的训练细节在下一篇文章《AI绘画与多模态原理解析：从CLIP到DALLE 3、Stable Diffusion、MDJ》会重点讲解 ）
总之，DALL·E2 这样的从文本到图像模型成功的背后原因，就是这种“引导扩散”(guided diffusion)过程

回到DDPM，每一个噪声都是在前一时刻增加噪声而来的，从最开始的 $x_0$ 时刻开始，最终得到 $x_T$ 时刻的纯噪声图像。不过问题来是为什么要加噪声？

Diffusion的最终目标是去噪以生成图片，而为了推导出逆向的去噪方法，必须了解增加噪声的原理。同时，添加噪声的过程其实就是不断构建标签的过程。如果在前一时刻可以预测出来后一时刻的噪声，便能很方便地实现还原操作 (就和人走路一样，不管你从哪来，哪怕走过万水千山，最后都可按原路返回至原出发点)
说白了 当你学会了怎么加噪(前向扩散)，就一定能知道怎么去噪(逆向生成)，毕竟知道怎么来也必知道怎么回
且在噪声的添加过程中，每一步都要保持尽量相同的噪声扩散幅度。比如，在给上图加噪的过程中，前期的分布非常均匀，添加一些噪声便可以将原始分布改变，但到后期，需要添加更多的噪声，方可保证噪声扩散幅度相同(这就像往水中加糖，为了使糖的甜味增长相同，后期需要加更多的糖)

所以DDPM为了从随机噪声中直接生成图片，首先需要训练一个噪声估计模型，然后将输入的随机噪声还原成图片，相当于就两个关键，一个是训练过程，一个是推理过程

训练过程：随机生成噪声 $\epsilon$ ，经过 $T$ 步将噪声扩散到输入原始图片 $x_0$ 中，破坏后的图片 $x_T$ ，学习破坏图片的预估噪声 $\epsilon _\theta (x_t,t)$ ，并用L2 loss约束预估噪声 $\epsilon _\theta (x_t,t)$ 与原始输入噪声 $\epsilon$ 的距离
推理过程：即输入噪声，经过预估噪声模型还原成图片

2.2 DDPM的两个过程：从前向过程到逆向过程

2.2.1 前向过程(加噪)：通过高斯噪音随机加噪 $\epsilon$ ——给图片打马赛克

前向过程(forward process)也称为扩散过程(diffusion process)，简单理解就是对原始图片 $x_0$ 通过逐步添加「方差为 $\beta _t$ 的高斯噪声」变成 $x_T$ ，从而达到破坏图片的目的，如下图

在从 $x_{t-1}$ 到 $x_t$ 的过程中，其对应的分布 $q(x_t|x_{t-1})$ 是一个正太分布，且其均值是 $u_t = \sqrt{1-\beta _t }x_{t-1}$ ，方差为 $\beta _t$ ，则有

$q(x_t|x_{t-1}) = N(x_t;u_t = \sqrt{1-\beta _t }x_{t-1},\beta _t \mathbb{I})$

对于这个公式，解释下3点

正态分布的概率密度函数具有以下形式：

$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

顺带帮你再回顾下：正态分布有两个参数：均值 $\mu$ 和方差 $\sigma ^2$ 。其中， $\mu$ 是分布的均值，决定了分布的中心位置， $\sigma$ 是标准差，决定了分布的宽度
上面的方差之所以表示为 $\beta _t \mathbb{I}$ ，原因在于我们一般处于多维情况下，而 $\mathbb{I}$ 是单位矩阵，表明每个维度有相同的标准偏差 $\beta _t$
且 $\beta _t \in (0,1)$ 是事先给定的常量，代表从 $x_{t-1}$ 到 $x_t$ 这一步的方差，且正因为 $\beta _t$ 设置的比较小，所以使得 $q(x_t|x_{t-1})$ 的均值在 $x_{t-1}$ 附近
换言之， $x_t$ 相当于就是在 $x_{t-1}$ 的基础上加了一些噪声，而且是渐进式逐步增加/扩散的，当然从加噪大小的角度上讲，前期加噪较弱，后期加噪加强，所以在DDPM的论文中，作者取 $\beta _1,\cdots \beta _T$ 为从0.0001到0.02的线性递增序列
此外，值得一提的是，因为是马尔可夫链，所以其联合分布便是：
$q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)=q\left(\mathbf{x}_{1}, \mathbf{x}_{2}, \ldots, \mathbf{x}_{T} \mid \mathbf{x}_{0}\right)=\prod_{t=1}^{T} q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)$
如下图所示

对于上面提到的

$q(x_t|x_{t-1})$ 其均值是 $u_t = \sqrt{1-\beta _t }x_{t-1}$ ，方差为 $\beta _t$ ，则有

$q(x_t|x_{t-1}) = N(x_t;u_t = \sqrt{1-\beta _t }x_{t-1},\beta _t \mathbb{I})$

如果接下来，我们定义 $\alpha _t = 1 - \beta_t$ , 且 $\left \{ {\alpha_t} \right \}_{t=1}^{T}$ 『被称为Noise schedule，通常是一些列很小的值』，以及 $\epsilon _{t-1} \sim N(0,1)$ 是高斯噪声(即满足正太分布)，便可以得到 $x_t$ 的采样值

$x_t = \sqrt{\alpha _t}x_{t-1} + \sqrt{1-\alpha _t} \epsilon _{t-1}$

把上述公式迭代变换下，可以直接得出 $x_0$ 到 $x_t$ 的公式，如下：

$x_{t}=\sqrt{\bar{\alpha}_{t}} \boldsymbol{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}$

其中 $\bar{\alpha _t} = \prod_{i=1}^{t} \alpha _i$ ， $\epsilon \sim N(0,1)$ 也是一个高斯噪声

换言之，所以 $x_t$ 在 $x_0$ 条件下的分布就是均值为 $\sqrt{\bar{\alpha _t}}x_0$ , 方差为 $1-\bar{\alpha _t}$ 的正态分布 (下式的意义在于，只需要给出 $x_0$ ，便可以计算出任意时刻 $t$ 的 $x_t$ )

$q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right)$

考虑到可能会有读者对这个 $x_0$ 到 $x_t$ 的一步到位感到困惑，而一般的同类文章不会展开的特别细，故本文细致展开下(能拆10步则10步，确保阅读无障碍)

首先通过 $x_t = \sqrt{\alpha _t}x_{t-1} + \sqrt{1-\alpha _t} \epsilon _{t-1}$ 可知， $x_{t-1} = \sqrt{\alpha _{t-1}}x_{t-2} + \sqrt{1-\alpha _{t-1}} \epsilon _{t-2}$ ，把这个代入到 $x_t$ 的表达式后，再展开即可得
$\begin{aligned} \boldsymbol{x}_{t} & =\sqrt{\alpha_{t}} \boldsymbol{x}_{t-1}+\sqrt{1-\alpha_{t}} \boldsymbol{\epsilon}_{t-1}^{*} \\ & =\sqrt{\alpha_{t}}\left(\sqrt{\alpha_{t-1}} \boldsymbol{x}_{t-2}+\sqrt{1-\alpha_{t-1}} \boldsymbol{\epsilon}_{t-2}^{*}\right)+\sqrt{1-\alpha_{t}} \epsilon_{t-1}^{*} \\ & =\sqrt{\alpha_{t} \alpha_{t-1}} \boldsymbol{x}_{t-2}+\sqrt{\alpha_{t}-\alpha_{t} \alpha_{t-1}} \boldsymbol{\epsilon}_{t-2}^{*}+\sqrt{1-\alpha_{t}} \epsilon_{t-1}^{*} \end{aligned}$

考虑到两个独立正态分布的随机变量之和是正态的，其均值是两个均值之和，其方差是两个方差之和（即标准差的平方是标准差的平方）「比如两个方差不同的高斯分布 $\mathcal{N}(\mathbf{0}, \sigma_1^2\mathbf{I})$ 和 $\mathcal{N}(\mathbf{0}, \sigma_2^2\mathbf{I})$ 相加等于一个新的高斯分布 $\mathcal{N}(\mathbf{0}, (\sigma_1^2 + \sigma_2^2)\mathbf{I})$ 」，然后再通过重参数技巧可得
$x_t \begin{array}{l} =\sqrt{\alpha_{t} \alpha_{t-1}} \boldsymbol{x}_{t-2}+\sqrt{{\sqrt{\alpha_{t}-\alpha_{t} \alpha_{t-1}}}^{2}+{\sqrt{1-\alpha_{t}}}^{2}} \boldsymbol{\epsilon}_{t-2} \\ =\sqrt{\alpha_{t} \alpha_{t-1}} \boldsymbol{x}_{t-2}+\sqrt{\alpha_{t}-\alpha_{t} \alpha_{t-1}+1-\alpha_{t}} \boldsymbol{\epsilon}_{t-2} \\ =\sqrt{\alpha_{t} \alpha_{t-1}} \boldsymbol{x}_{t-2}+\sqrt{1-\alpha_{t} \alpha_{t-1}} \boldsymbol{\epsilon}_{t-2} \\ =\ldots \end{array}$

对此，本文参考文献中的这篇《Understanding Diffusion Models: A Unified Perspective》也解释了这几个步骤

最后定义一个累积混合系数， $\bar{\alpha _t} = \prod_{i=1}^{t}\alpha _i$ ，即 $\sqrt{\bar{\alpha _t}} = \sqrt{\alpha _t} \sqrt{\alpha _{t-1}} \cdots \sqrt{\alpha _1}$ ，可得
$x_t \begin{array}{l} =\sqrt{\prod_{i=1}^{t} \alpha_{i}} \boldsymbol{x}_{0}+\sqrt{1-\prod_{i=1}^{t} \alpha_{i} \boldsymbol{\epsilon}_{0}} \\ =\sqrt{\bar{\alpha}_{t}} \boldsymbol{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \boldsymbol{\epsilon}_{0} \\ \sim \mathcal{N}\left(\boldsymbol{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \boldsymbol{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right) \end{array}$

2.2.2 逆向过程(去噪)：求解真实后验分布 $q(x_{t-1}|x_t)$ —— 复原被加噪的图片使之清晰化

2.2.2.1 没法直接通过 $\mathbf{x}_{0}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon\right)$ 去做逆向

逆向过程就是通过估测噪声，多次迭代逐渐将被破坏的 $x_t$ 恢复成 $x_0$ ，如下图

更具体而言，正向扩散和逆扩散过程都是马尔可夫，唯一的区别就是正向扩散里每一个条件概率的高斯分布的均值和方差都是已经确定的（依赖于 $\beta _t$ 和 $x_0$ ），而逆扩散过程里面的均值和方差需要通过网络学出来，怎么个学法呢？

有人可能要说，直接把上一节得到的 $x_t = \sqrt{\bar{\alpha_t}}x_{0} + \sqrt{1-\bar{\alpha_t}} \epsilon_0$ 移个项不就行了(先把带 $x_0$ 的项移到等式左边，然后所有项各自除以 $\sqrt{\bar{\alpha }}$ ，最后把等式右边的 $1/\sqrt{\bar{\alpha }}$ 提取到括号外边即可)？
$\mathbf{x}_{0}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_0\right)$

但问题在于 $x_t = \sqrt{\bar{\alpha_t}}x_{0} + \sqrt{1-\bar{\alpha_t}} \epsilon_0$ 中的 $\epsilon$ 是个随机变量，意味着 $x_t$ 也是个随机变量，其具体取值由 $\epsilon$ 实际取值决定「相当于现在我们有一个具体的 $x_t$ ，它对应着 $\epsilon$ 的某个取值，但是什么值我们并不知道」，所以我们只能以前向过程的 $\epsilon$ 取值为标签，训练一个模型去估计它，即：
$\mathbf{x}_{\theta}\left(\mathbf{x}_{t}, t\right):=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{\theta}\left(\mathbf{x}_{t}, t\right)\right)$
其中
$\rightarrow$ $\epsilon_\theta (x_t, t)$ 就是所谓的模型，用来近似真实的(即前向过程采样出来的) $\epsilon$
$\rightarrow$ 相应地， $\mathbf{x}_{\theta}\left(\mathbf{x}_{t}, t\right)$ 就是 $x_0$ 的近似，或者，你也可以无视 $\epsilon$ ，直接把 $\mathbf{x}_{\theta}\left(\mathbf{x}_{t}, t\right)$ 视为模型

故，为了训练它，最直接的想法就是用 L2 损失 $\left\|\epsilon-\epsilon_{\theta}\left(\mathbf{x}_{t}, t\right)\right\|^{2}$ 或者 $\left\|\mathbf{x}_{0}-\mathbf{x}_{\theta}\left(\mathbf{x}_{t}, t\right)\right\|^{2}$

理论上没问题，但是实际效果很差，为什么呢？如果直接用 $\mathbf{x}_{\theta}\left(\mathbf{x}_{t}, t\right)$ ，那么中间的 $\mathbf{x}_{2}, \mathbf{x}_{3}, \ldots, \mathbf{x}_{T-1}$ 都没用了，整个 DDPM 就退化成了 VAE 的结构，但是
$\rightarrow$ VAE 的生成模型和后验都是自己学习出来的，二者双向奔赴共同优化去寻找最优解
$\rightarrow$ 而 DDPM 的后验是人为指定的（即 $\mathbf{x}_{0} = 1/{\sqrt{\bar{\alpha}_{t}}}\left(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_0\right)$ ），并且由于 $\bar{\alpha}_{t} \rightarrow 0$ ， $q(x_t|x_0)$ 基本上就是一个标准正态分布，磨灭掉了几乎所有的输入信息，全靠生成模型这一边去恢复，难度未免过大..
所以，实际应用中，我们是一点一点来的，比如先生成 $x_{t-1}$ 、然后 $x_{t-2}$ ……由于每一步的变化都比较小，保留了上一步足够的信息，生成模型的负担就轻了很多
如果我们能够逆转前向过程并从真实分布 $q(x_{t-1}|x_t)$ 采样，就可以从高斯噪声 $x_t \sim N( 0, I )$ 还原出原图分布 $x_0 \sim q(x)$

因为我们可以证明如果前向 $q(x_t|x_{t-1})$ 满足高斯分布且 $\beta _t$ 足够小，其逆向 $q(x_{t-1}|x_t)$ 仍然是一个高斯分布
那样，我们便可以使用「参数为 θ 的U-Net+attention 结构 $p_\theta$ 」去预测这样的一个逆向的分布(类似VAE)：
$p_{\theta}\left(X_{0: T}\right)=p\left(x_{t}\right) \prod_{t=1}^{T} p_{\theta}\left(x_{t-1} \mid x_{t}\right)$
$p_{\theta}\left(x_{t-1} \mid x_{t}\right)=\mathcal{N}\left(x_{t-1} ; \mu_{\theta}\left(x_{t}, t\right), \Sigma_{\theta}\left(x_{t}, t\right)\right)$
不过在DDPM的论文中，作者把条件概率 $p_\theta (x_{t-1}|x_t)$ 的方差直接取了 $\beta _t$ ，而不是上面说的需要网络去估计的 $\Sigma_{\theta}\left(x_{t}, \mathrm{t}\right)$ ，所以说实际上只有均值需要网络去估计
然现在的问题是，我们无法直接去推断 $q(x_{t-1}|x_t)$ ，即 $q(x_{t-1}|x_t)$ is unknown

所以，接下来的问题自然而然就转换成了我们希望求解 $q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$ ，因为我们已知前向过程 $q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)$ ，所以自然想到使用贝叶斯公式：

$q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right) q\left(\mathbf{x}_{t-1}\right)}{q\left(\mathbf{x}_{t}\right)}$

可惜 $q(x_t)$ 和 $q(x_{t-1})$ 是未知的，事情到这里似乎走入了僵局，好在我们发现 $q(x_t|x_0)$ 和 $q(x_{t-1}|x_0)$ 是已知的，这样一变换，下述等式右边的三项就都可知了
$q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right) q\left(\mathbf{x}_{t-1}|x_0\right)}{q\left(\mathbf{x}_{t}|x_0\right)}$
相当于如果给上式加上 $x_0$ 为条件，则立马柳暗花明，而一旦知道了 $x_0,q(x_{t-1}|x_t, x_0)$ ，便可以直接写出
$q\left(x_{t-1} \mid x_{t}, x_{0}\right)=\mathcal{N}\left(x_{t-1} ; \tilde{\mu}\left(x_{t}, x_{0}\right), \tilde{\beta}_{t} \mathbf{I}\right)$

2.2.2.2 因 $q(x_{t-1}|x_t)$ 无法直接求解，故加上 $x_0$ ：问题转换成了求解 $q\left(x_{t-1} \mid x_{t}, x_{0}\right)$

接下来，我们便好好推导下

解释下上面7.1~7.5这5个步骤的推导

7.1依据的是
$P(A|B) = \frac{P(AB)}{P(B)}$

7.2中，分母部分依据的是
$P(AB) = P(A)P(B|A)$
分子部分依据的是
$P(ABC)=P(A)P(B|A)P(C|AB)$

注，此处的A B与上面7.1的A B非同一个具体的指向，只是公式层面的原有表达

7.3依据的是分子分母同时除以 $q(x_0)$

至于7.3到7.4
$\begin{array}{l} =q\left(x_{t} \mid x_{t-1}, x_{0}\right) \frac{q\left(x_{t-1} \mid x_{0}\right)}{q\left(x_{t} \mid x_{0}\right)} \quad 7.3 \\ \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_{t}-\sqrt{\alpha_{t}} x_{t-1}\right)^{2}}{\beta_{t}}+\frac{\left(x_{t-1}-\sqrt{\bar{\alpha}_{t-1}} x_{0}\right)^{2}}{1-\bar{a}_{t-1}}-\frac{\left(x_{t}-\sqrt{\bar{\alpha}_{t}} x_{0}\right)^{2}}{1-\bar{a}_{t}}\right)\right) \quad 7.4 \end{array}$
依据的是
$\rho(\mathrm{x})=\frac{1}{\sqrt{2 \pi \sigma}} \mathrm{e}^{-\frac{1}{2}\left(\frac{\mathrm{x}-\mu}{\sigma}\right)^{2}}$
且由前向扩散过程的特性『别忘了2.2.1节中，有 $q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right)$ 』，可知
$q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}, \mathbf{x}_{0}\right)=q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{1-\beta_{t}} \mathbf{x}_{t-1}, \beta_{t} \mathbf{I}\right)$
$q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_{0},\left(1-\bar{\alpha}_{t-1}\right) \mathbf{I}\right)$
$q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)=\mathcal{N}\left(\mathbf{x}_{t} ; \sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0},\left(1-\bar{\alpha}_{t}\right) \mathbf{I}\right)$

最后，再解释下怎么从7.4到的7.5
$\begin{array}{l} =q\left(x_{t} \mid x_{t-1}, x_{0}\right) \frac{q\left(x_{t-1} \mid x_{0}\right)}{q\left(x_{t} \mid x_{0}\right)} \quad 7.3 \\ \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_{t}-\sqrt{\alpha_{t}} x_{t-1}\right)^{2}}{\beta_{t}}+\frac{\left(x_{t-1}-\sqrt{\bar{\alpha}_{t-1}} x_{0}\right)^{2}}{1-\bar{a}_{t-1}}-\frac{\left(x_{t}-\sqrt{\bar{\alpha}_{t}} x_{0}\right)^{2}}{1-\bar{a}_{t}}\right)\right)\\ =\exp \left(-\frac{1}{2}(\underbrace{\left(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}}\right) x_{t-1}^{2}}_{x_{t-1} \text {}}-\underbrace{\left(\frac{2 \sqrt{\alpha_{t}}}{\beta_{t}} x_{t}+\frac{2 \sqrt{\bar{a}_{t-1}}}{1-\bar{\alpha}_{t-1}} x_{0}\right) x_{t-1}}_{\text {}x_{t-1}\text{}}+\underbrace{C\left(x_{t}, x_{0}\right)})\right) \cdot 7.5 \end{array}$
先举一个最简单的例子，比如对于 $\frac{1}{2} (Ax^2 + Bx + C)$ ，稍加转化下即是 $\frac{1}{2} A(x + \frac{B}{2A})^2 + C$ ，而这个
$\rightarrow$ $A$ 则对应于7.5中的 $\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}}$
$\rightarrow$ $B$ 则对应于7.5中的 $- (\frac{2 \sqrt{\alpha_{t}}}{\beta_{t}} x_{t}+\frac{2 \sqrt{\bar{a}_{t-1}}}{1-\bar{\alpha}_{t-1}} x_{0} )$
且其均值为 $- \frac{B}{2A}$ ，方差为 $\frac{1}{A}$ ，从而有
$\mu_{t}\left(\mathbf{x}_{t}, \mathbf{x}_{0}\right)=\frac{-B}{2 A}$
$\begin{array}{l} =\left(\frac{\sqrt{\alpha_{t}}}{\beta_{t}} \mathbf{x}_{t}+\frac{\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}} \mathbf{x}_{0}\right) /\left(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}}\right) \\ =\left(\frac{\sqrt{\alpha_{t}}}{\beta_{t}} \mathbf{x}_{t}+\frac{\sqrt{\bar{\alpha}_{t-1}}}{1-\bar{\alpha}_{t-1}} \mathbf{x}_{0}\right) \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \cdot \beta_{t} \\ =\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}} \mathbf{x}_{t}+\frac{\sqrt{\bar{\alpha}_{t-1}} \beta_{t}}{1-\bar{\alpha}_{t}} \mathbf{x}_{0} \end{array}$
$\tilde{\beta _t} = \frac{1}{A} = 1 /\left(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}}\right)=1 /\left(\frac{\alpha_{t}-\bar{\alpha}_{t}+\beta_{t}}{\beta_{t}\left(1-\bar{\alpha}_{t-1}\right)}\right)=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \cdot \beta_{t}$

2.2.2.3 $q(x_{t-1}|x_t, x_0)$ 中方差和均值的推导

好，接下来关键来了

根据 $x_{t}=\sqrt{\bar{\alpha}_{t}} \boldsymbol{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}$ ，可知 $x_{0}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(x_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}\right)$ ，代入上面 $\mu _t(x_t,x_0)$ 的表达式可得

${\mu}(x_t,x_0)=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}{\epsilon_0}\right)$

大部分文章对上面这个的推导都是一步到位的，但本文为细致起见，故还是一步步来推导下

首先直接把 $x_{0}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(x_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}\right)$ 和 $\beta _t = 1-\alpha _t$ 代入进去，可得 $\begin{aligned} \boldsymbol{\mu}_{}\left(\boldsymbol{x}_{t}, \boldsymbol{x}_{0}\right) & =\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right) \boldsymbol{x}_{t}+\sqrt{\bar{\alpha}_{t-1}}\left(1-\alpha_{t}\right) \boldsymbol{x}_{0}}{1-\bar{\alpha}_{t}} \\ & =\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right) \boldsymbol{x}_{t}+\sqrt{\bar{\alpha}_{t-1}}\left(1-\alpha_{t}\right) \frac{\boldsymbol{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}}{\sqrt{\bar{\alpha}_{t}}}}{1-\bar{\alpha}_{t}} \end{aligned}$

接下来，我们可以进一步观察到分子中的后半部分有 $\sqrt{\bar{\alpha}_{t-1}}\left(1-\alpha_{t}\right) \frac{\boldsymbol{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}}{\sqrt{\bar{\alpha}_{t}}}$ 这一项，怎么进一步化简呢？
接下来非常关键(截止23年5月份之前，暂时没看到有其他中英文资料解释了这个细节)

好在之前有定义： $\bar{\alpha _t} = \prod_{i=1}^{t}\alpha _i$ ，即 $\sqrt{\bar{\alpha _t}} = \sqrt{\alpha _t} \sqrt{\alpha _{t-1}} \cdots \sqrt{\alpha _1}$ ，从而有 $\sqrt{\bar{\alpha_t}} = \sqrt{\alpha_t} \sqrt{\bar{\alpha_{t-1}}}$
所以我们可以针对这一项 $\sqrt{\bar{\alpha}_{t-1}}\left(1-\alpha_{t}\right) \frac{\boldsymbol{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}}{\sqrt{\bar{\alpha}_{t}}}$ 的分子分母同时除以 $\sqrt{\bar{\alpha_{t-1}}}$ ，得到
$\mu _t(x_t,x_0) = \frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right) \boldsymbol{x}_{t}+\left(1-\alpha_{t}\right) \frac{\boldsymbol{x}_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}}{\sqrt{\alpha_{t}}}}{1-\bar{\alpha}_{t}}$

之后的推导就比较简单了
$u(x_t,x_0) \begin{array}{l} =\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right) \boldsymbol{x}_{t}}{1-\bar{\alpha}_{t}}+\frac{\left(1-\alpha_{t}\right) \boldsymbol{x}_{t}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}}-\frac{\left(1-\alpha_{t}\right) \sqrt{1-\bar{\alpha}_{t}} \boldsymbol{\epsilon}_{0}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}} \\ =\left(\frac{\sqrt{\alpha_{t}}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_{t}}+\frac{1-\alpha_{t}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}}\right) \boldsymbol{x}_{t}-\frac{\left(1-\alpha_{t}\right) \sqrt{1-\bar{\alpha}_{t}}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}} \boldsymbol{\epsilon}_{0} \\ =\left(\frac{\alpha_{t}\left(1-\bar{\alpha}_{t-1}\right)}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}}+\frac{1-\alpha_{t}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}}\right) \boldsymbol{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}} \sqrt{\alpha_{t}}} \boldsymbol{\epsilon}_{0} \end{array}$
以下分别对上面的三行公式做解释说明：
$\rightarrow$ 接着把上阶段2得到的式子的分子拆成三项，且三项中最后两项的分子分母同时乘以 $\sqrt{\alpha _t}$
$\rightarrow$ 然后再把上一步骤中分子三项中的前两项通过提取出 $x_t$ 从而实现合并
$\rightarrow$ 前两项合并之后，再对前两项中第一项的分子分母同时乘以 $\sqrt{\alpha _t}$ ，然后对第三项的分子分母同时除以 $\sqrt{1-\alpha _t}$ ，即可得 $\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}} \sqrt{\alpha_{t}}} \boldsymbol{\epsilon}_{0}$ ，原因很简单，因为： $1-\bar{\alpha_t} = \left ( \sqrt{1-\bar{\alpha _t}} \right )^2$

接下来，针对上面阶段3得到的式子的前两项再做合并，合并中用到了一个细节，即 $\alpha _t \times \bar{\alpha _{t-1}} = \bar{\alpha _t}$ ，原因也同样很简单，根据上面阶段2出现的这个式子 $\sqrt{\bar{\alpha_t}} = \sqrt{\alpha_t} \sqrt{\bar{\alpha_{t-1}}}$ 而来，再之后就更eazy 便不再赘述了
$\mu(x_t,x_0) \begin{array}{l} =\frac{\alpha_{t}-\bar{\alpha}_{t}+1-\alpha_{t}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}} \boldsymbol{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}} \sqrt{\alpha_{t}}} \boldsymbol{\epsilon}_{0} \\ =\frac{1-\bar{\alpha}_{t}}{\left(1-\bar{\alpha}_{t}\right) \sqrt{\alpha_{t}}} \boldsymbol{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}} \sqrt{\alpha_{t}}} \boldsymbol{\epsilon}_{0} \\ =\frac{1}{\sqrt{\alpha_{t}}} \boldsymbol{x}_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}} \sqrt{\alpha_{t}}} \boldsymbol{\epsilon}_{0} \end{array}$

总之，从最终得到的结果可以看出，在给定 $x_0$ 的条件下，后验条件高斯分布的均值只和超参数 $\alpha _t$ 、 $x_t$ 、 $\epsilon_0$ 有关，即

${\mu}(x_t,x_0)=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}{\epsilon_0}\right)$

方差只与超参数 $\alpha$ 有关，即

$\tilde{\beta _t} = \frac{1}{A} = 1 /\left(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}}\right)=1 /\left(\frac{\alpha_{t}-\bar{\alpha}_{t}+\beta_{t}}{\beta_{t}\left(1-\bar{\alpha}_{t-1}\right)}\right)=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \cdot \beta_{t}$

从而通过以上的方差和均值，我们就得到了 $q(x_{t-1}|x_t, x_0)$ 的解析形式

2.3 DDPM如何训练：最小化「噪声估计模型 $\epsilon _\theta (x_t,t)$ 估计的噪声」与「真实噪声」之间的差距

继续下文之前，先总结一下

生成模型的本质是根据给定的样本(训练数据)生成新样本

具体而言，给定一批训练数据 $X$ ，假设其服从某种复杂的真实分布 $p(x)$ ，则给定的训练数据可视为从该真实分布中采样的观测样本 $x$

如果能从这些观测样本 $x$ 中估计出训练数据的真实分布，相当于就可以从该分布(估计出的接近真实分布的分布)中不断的采样出新的样本了，故说白了，生产模型的目标就是估计训练数据的真实分布，并假定其真实分布为 $q(x)$

从而问题自然而然就变成了尽可能缩小估计的分布 $q(x)$ 与真实分布 $p(x)$ 之间的差距

接下来介绍这个模型要怎么优化，即网络该怎么训练：去估计分布 $q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$ 的条件概率 $p_\theta (x_{t-1}|x_t)$ 的均值 $u_\theta (x_t,t)$ 和方差 $\Sigma_{\theta}\left(x_{t}, \mathrm{t}\right)$

与之前介绍的VAE相比，扩散模型的隐变量是和原始数据是同维度的，而且encoder(即扩散/加噪过程)是固定的

2.3.1 确立目标函数

既然扩散模型是隐变量模型，那么我们可以基于变分推断来得到variational lower bound（VLB，又称ELBO）作为最大化优化目标，当然实际训练时一般对VLB取负，即我们要最小化目标分布的负对数似然：

$\begin{aligned} -\log p_{\theta}\left(\mathbf{x}_{0}\right) & \leq-\log p_{\theta}\left(\mathbf{x}_{0}\right)+D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)\right) \\ & =-\log p_{\theta}\left(\mathbf{x}_{0}\right)+\mathbb{E}_{\mathbf{x}_{1: T} \sim q\left(\mathbf{x}_{\left.1: T \mid \mathbf{x}_{0}\right)}\right.}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right) / p_{\theta}\left(\mathbf{x}_{0}\right)}\right] \\ & =-\log p_{\theta}\left(\mathbf{x}_{0}\right)+\mathbb{E}_{q}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}+\log p_{\theta}\left(\mathbf{x}_{0}\right)\right] \\ & =\mathbb{E}_{q}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right] \end{aligned}$

考虑到本文的定位起见，逐一解释下上面推导的每一行

第一行：由 KL 散度的非负性质（KL 散度始终大于等于零），我们得到如下不等式： $-\log p_{\theta}\left(\mathbf{x}_{0}\right) \leq-\log p_{\theta}\left(\mathbf{x}_{0}\right)+D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)\right)$

第二行：将 KL 散度的定义代入上式可得

其中 $E$ 表示期望，即对分布 $q(x_{1:T} | x_0)$ 中的所有可能值求期望

第三行：对上式进行简化，将 $-log p_{\theta }(x_0)$ 项移到期望内部

其中 $E_q$ 表示对分布 $q(x_{1:T} | x_0)$ 中的所有可能值求期望

第四行： $-log p_{\theta }(x_0)$ 和 $+log p_{\theta }(x_0)$ 相互抵消可得

令

$\text { Let } L_{\mathrm{VLB}}=\mathbb{E}_{q\left(\mathbf{x}_{0: T)}\right.}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right] \geq-\mathbb{E}_{q\left(\mathbf{x}_{0}\right)} \log p_{\theta}\left(\mathbf{x}_{0}\right)$

所以 $L_{VLB}$ 就是我们的上界，我们要最小化它，接着进行变形

老规矩，上面整个推导总计九行，下面逐行解释下上面推导的每一行(纵使其他所有文章都不解释，本文也要给你解释的明明白白)

第一行，直接给出了 $L_{\mathrm{VLB}}$ 的定义，即计算概率分布 $q$ 和 $p_{\theta}$ 之间的对数比值的期望(注意，这是咱们的目标)
$L_{\mathrm{VLB}}=\mathbb{E}_{q\left(\mathbf{x}_{0: T)}\right.}\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0: T}\right)}\right]$
考虑到七月SD课的一学员对第一步有疑问，再多解释一下
在第1步中，公式的意思是对于所有可能的的 $x_{0}, x_{1}, \ldots, x_{T}$ 路径，我们要计算中括号内部表达式的期望值

这里是一个联合分布，表示所有 $x_t(t=0,1,...,T)$ 一起的分布，而期望是在这个分布下计算的

这意味着我们在所有这个分布支持的路径上平均这个中括号里的量
所以，如果 $x_{0}, x_{1}, \ldots, x_{T}$ 都服从分布q，那么我们确实是在对中括号里的式子求整体期望

第二行，将条件概率 $q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)$ 和联合概率 $p_{\theta}\left(\mathbf{x}_{0: T}\right)$ 展开为一系列条件概率的乘积
$q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)=\prod_{t=1}^{T} q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)$
考虑到 $p_{\theta}\left(\mathbf{x}_{0: T}\right)$ 实际上就是 $p_{\theta}\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)$ ，所以有
$p_{\theta}\left(\mathbf{x}_{0: T}\right)= p_{\theta }(x_{0}) \prod_{t=1}^{T} p_{\theta }(x_{t} | x_{0: t-1}) = p_{\theta}\left(\mathbf{x}_{T}\right) \prod_{t=1}^{T} p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)$

然后把上述结果分别分别代入 $q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_{0}\right)$ 和 $p_{\theta}(\mathbf{x}_{0:T})$ ，即可得到第二行的结果
$\mathbb{E}_{q}\left[\log \frac{\prod_{t=1}^{T} q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)}{p_{\theta}\left(\mathbf{x}_{T}\right) \prod_{t=1}^{T} p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}\right]$

第三行，将乘积转换为求和，并将 $p_\theta(\mathbf{x}_T)$ 项移到前面
$\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=1}^{T} \log \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}\right]$

第四行，调整求和的范围，使其从2开始，从而达到将 $t=1$ 的项分离出来的目的
$\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}+\log \frac{q\left(\mathbf{x}_{1} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}\right]$

第五行，将 $t$ 项的对数比值分解为两个对数比值的和，其中一个涉及 $\mathbf{x}_{t-1}$ 和 $\mathbf{x}_{t}$ ，另一个涉及 $\mathbf{x}_{t}$ 和 $\mathbf{x}_{0}$ ，相当于补了个 $x_0$
$\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \left(\frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)} \cdot \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right)}\right)+\log \frac{q\left(\mathbf{x}_{1} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}\right]$

这里得着重解释下
把第四行的第二项的分子和分母都乘以 $q(\mathbf{x}_{t-1}|\mathbf{x}_0)$ ，即得
$\log \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}=\log \left(\frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)} \cdot \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right)}\right)$

这里面的关键是，即同时乘以 $q(\mathbf{x}_{t-1}|\mathbf{x}_0)$ 后，怎么就得到上式了呢，分母部分一目了然，直接乘上的 $q(\mathbf{x}_{t-1}|\mathbf{x}_0)$ ，但分子部分呢，明明应该是 $q(x_t|x_{t-1}) q(x_{t-1}|x_0)$ ，则就变成了这个呢： $q(x_{t-1}|x_t,x_0) q(x_t|x_0)$ ？好问题! 原因在于这两个式子是等价的，即(定义为等式1)
$q(x_t|x_{t-1}) q(x_{t-1}|x_0) = q(x_{t-1}|x_t,x_0) q(x_t|x_0)$

为何等价呢，或者说上面这个等式1是怎么来的？其实也简单，因有

p(A, B, C) = p(A|B, C) p(B, C) = p(A|B, C) p(B|C) p(C)

p(A, B, C) = p(B|A, C) p(A, C) = p(B|A, C) p(A|C) p(C)

故有『下面五个等式先后依据：马尔科夫假设倒推、条件概率定义、分母中联合概率定义、分子中联合概率定义、分子分母同时约掉 $q(x_0)$ 』
$\begin{aligned} q\left(x_{t} \mid x_{t-1}\right) &=q\left(x_{t} \mid x_{t-1}, x_{0}\right) \\&= \frac{q\left(x_{t}, x_{t-1}, x_{0}\right)}{q\left(x_{t-1}, x_{0}\right)} \\& =\frac{q\left(x_{t-1} \mid x_{t}, x_{0}\right) q\left(x_{t} \mid x_{0}\right) q\left(x_{0}\right)}{q\left(x_{t-1}, x_{0}\right)} \\ & = \frac{q(x_{t-1}\mid x_{t},x_{0}) q(x_t\mid x_0) q(x_0)}{q(x_{t-1}\mid x_0)q(x_0)} \\ & =\frac{q\left(x_{t-1} \mid x_{t}, x_{0}\right) q\left(x_{t} \mid x_{0}\right)}{q\left(x_{t-1} \mid x_{0}\right)} \end{aligned}$

第六行，将第五行的中间项一分为二，即拆分为两个求和项
$\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right)}+\log \frac{q\left(\mathbf{x}_{1} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}\right]$

第七行，将第五行中间部分得到的两个求和项的第二个求和项的最后一项 $t = T$ 分离出来，说白了，将第二个求和项的范围调整为从1到 $T-1$ ，啥意思呢

首先，第五行中间部分的两个求和项可以表示为
$\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right)} = \sum_{t=2}^{T} \left[ \log \frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)} + \log \frac{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{0}\right)} \right]$

接下来，关键的一步在于，上面中括号里的第二个求和项在求和过程中相邻两项会相互抵消「依据： $log_a{M/N} = log_aM - log_a N$ 」

具体地，当 $t=k$ 时的 $q\left(\mathbf{x}_{k} \mid \mathbf{x}_{0}\right)$ 会和当 $t=k+1$ 时的 $q\left(\mathbf{x}_{k} \mid \mathbf{x}_{0}\right)$ 相互抵消，这样的抵消会发生在每一对相邻的项上，从2到 $T-1$ ，最后，只剩下 $t=T$ 和 $t=2$ 时的两项，即 $\log \frac{q\left(\mathbf{x}_{T} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{1} \mid \mathbf{x}_{0}\right)}$
从而得到最终整个第7行所示的结果，如下
$\mathbb{E}_{q}\left[-\log p_{\theta}\left(\mathbf{x}_{T}\right)+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}+\log \frac{q\left(\mathbf{x}_{T} \mid \mathbf{x}_{0}\right)}{q\left(\mathbf{x}_{1} \mid \mathbf{x}_{0}\right)}+\log \frac{q\left(\mathbf{x}_{1} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}\right]$

第八行，上一行第7行总共4个带log的项，把最后两个log项拆开成4个式子，抵消两个，还分别剩一个 $logq(x_{T}|x_0)$ 、一个 $-logp_\theta(x_0|x_1)$ ，然后 $logq(x_{T}|x_0)$ 与最初4项中的第1项 $-logp_\theta(x_T)$ 合并，即可得到整个第八行的结果
$\mathbb{E}_{q}\left[\log \frac{q\left(\mathbf{x}_{T} \mid \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{T}\right)}+\sum_{t=2}^{T} \log \frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right)}{p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)}-\log p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)\right]$

第九行，将最后一项中的负号移到对数里面，并将整个表达式重写为一系列 KL 散度项的和，这些项分别为 $L_{T}$ 、 $L_{t-1}$ 和 $L_{0}$
$\mathbb{E}_{q}[\underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{T} \mid \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{T}\right)\right)}_{L_{T}}+\sum_{t=2}^{T} \underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}, \mathbf{x}_{0}\right) \| p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)\right)}_{L_{t-1}}-\underbrace{\log p_{\theta}\left(\mathbf{x}_{0} \mid \mathbf{x}_{1}\right)}_{L_{0}}]$
考虑到七月SD课的一学员对这一步有疑问，再多解释一下
对于第9步，KL散度是一种衡量两个概率分布p和q之间差异的方法，这里的公式是在计算q和p之间的KL散度的期望值
尽管KL散度自己就是一个期望值的形式，但这里的 $E_q$ 指的是在分布q下对KL散度本身求期望
这意味着你不仅计算了q和p之间的差异，而且你要考虑所有q分布可能产生的不同序列 $x_{0}, x_{1}, \ldots, x_{T}$ ，对这些序列的KL散度进行平均

最后得到的表达式表示了最初我们想求解的 $L_{\mathrm{VLB}}$ 最终是一系列 KL 散度项之和，我们可以利用这个结果进行参数优化，使得两个概率分布之间的差异最小

2.3.2 拉近估计分布 $p_\theta (x_{t-1}\mid x_t)$ 和真实后验分布 $q(x_{t-1}|x_t,x_0)$

对于上面公式最后第九行得到的结果

首先， $L_T$ 是和优化无关的(由于前向过程 $q$ 没有可学习参数，而 $x_T$ 则是纯高斯噪声，因此 $L_T$ 可以当做常量忽略)，所以不用管，只用看右边的 $L_{t-1}$
然后， $L_{t-1}$ 是KL散度，则可以看做拉近估计分布 $p_\theta (x_{t-1}\mid x_t)$ 和真实后验分布 $q(x_{t-1}|x_t,x_0)$ 这两个分布之间的距离：

对于真实后验分布 $q(x_{t-1}|x_t,x_0)$ ，我们已经在上一节2.2.2节推导出其解析形式，这是一个高斯分布，其均值和方差为
$\tilde{\mu}_{t}=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon_{0}\right)$
$\tilde{\beta}_{t}=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \cdot \beta_{t}$

对于估计分布 $p_\theta (x_{t-1}\mid x_t)$ ，其是我们网络期望拟合的目标分布，也是一个高斯分布，均值用网络估计，方差被设置为了一个和 $\beta_t$ 有关的常数
$p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right), \boldsymbol{\Sigma}_{\theta}\left(\mathbf{x}_{t}, t\right)\right)$
考虑到，如果有两个分布 p,q 都是高斯分布，则他们的KL散度为
$K L(p, q)=\log \frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma_{1}^{2}+\left(\mu_{1}-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}-\frac{1}{2}$
然后因为这两个分布的方差全是常数，和优化无关『说白了，去掉方差 $\sigma$ 相关的项，只留下均值相关的 $(\mu _1 - \mu _2)^2$ 』，所以其实优化目标就是两个分布均值的二范数，从而可得
“ 怎么来的？我再细致解释下，对于这个公式而言
$L_{t} =\mathbb{E}_{q}\left[\left\|\tilde{\boldsymbol{\mu}}_{t}\left(\mathbf{x}_{t}, \mathbf{x}_{0}\right)-\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)\right\|^{2}\right]$

这里的 $\mathbb{E}_{q}$ 是在分布 $q$ 下的期望，当我们 $\tilde{\mu _t}$ 的表达式代入后，得到：
$L_{t}=\mathbb{E}_{q}\left[\left\|\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon\right)-\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)\right\|^{2}\right]$

在这个式子中， $\epsilon$ 是一个服从标准正态分布的随机变量，而 $x_t$ 则取决于 $x_0$ 和 $\epsilon$ 。因此，这个期望 $\mathbb{E}_{q}$ 实际上是在 $x_0$ 和 $\epsilon$ 的联合分布下的期望(在 $x_0$ 和 $\epsilon$ 的所有可能值上取平均)，于是我们得到：
$L_{t}=\mathbb{E}_{\mathbf{x}_{0}, \epsilon}\left[\left\|\frac{1}{\sqrt{\alpha_t}}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}, \epsilon\right)-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon\right)-\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}\left(\mathbf{x}_{0}, \epsilon\right), t\right)\right\|^{2}\right]$
$E_{x_0,\epsilon}$ 代表就是在 $x_0$ 和 $\epsilon$ 的联合分布下的期望， $\epsilon$ 依然是从标准正态分布 $N(0,1)$ 中采样的噪声 ”
这个时候我们可以直接整个网络出来直接学习 $u_\theta (x_t,t)$ ，然后 $u_\theta (x_t,t)$ 再去预测

因为 $x_t$ 是 $u_\theta$ 的输入，其它的量都是常数，所以其中的未知量其实只有 $\epsilon$ ，所以我们干脆把需要学习的 $u_\theta (x_t,t)$ 定义成：
$\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)=\frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon_{\theta}\left(\mathbf{x}_{t}, t\right)\right)$

也就是说，不用网络预测 $\tilde{u_t}(x_t,x_0)$ ，而是用网络 $\epsilon _\theta (x_t,t)$ 先预测噪声 $\epsilon$ (注意，这是个关键步骤)，然后把预测出来的噪声带入到定义好的表达式中去计算出预测的均值即可
所以，最终把 $\boldsymbol{\mu}_{\theta}\left(\mathbf{x}_{t}, t\right)$ 这个公式，代入到步骤3得到的公式中，可得：

经过这样一番推导之后就是个 L2 loss，网络的输入是一张和噪声线性组合的图片，然后要通过 $\epsilon_{\theta}\left(\sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon, t\right)$ 估计出来这个噪声

由上可知，DDPM的关键是训练 $\epsilon _\theta (x_t,t)$ 模型，使其预测的 $\hat{\epsilon }$ 与真实用于破坏的 $\epsilon$ 相近，用L2距离刻画相近程度就好，总之，我们的Loss就是如下公式『相当于训练时，网络输入为 $x_t$ (由 $x_0$ 和噪声 $\epsilon$ 线性组合而成) 和时刻 $t$ ，输出要尽可能的拟合输入的噪声 $\epsilon$ (通过L2 loss约束)』

下图可以总结噪声估计模型的训练过程 (依然是经典的那一套：对比预测噪声predicted noise与真实噪声true noise $\varepsilon$ 之间的差距建loss 反向传播，训练好之后，好预测噪声，毕竟模糊的图片减掉噪声不就得到清晰的图片了么)

而整个训练过程可如下图描述

DDPM论文中对应的伪代码为

2.4 如何通过训练好的DDPM生成图片

通过上文2.2节的最后，我们得知

从最终得到的结果可以看出，在给定 $x_0$ 的条件下

后验条件高斯分布的均值只和超参数 $\alpha _t$ 、 $x_t$ 、 $\epsilon_0$ 有关，即

${\mu}(x_t,x_0)=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}{\epsilon_0}\right)$

方差只与超参数 $\alpha$ 有关，即

$\tilde{\beta _t} = \frac{1}{A} = 1 /\left(\frac{\alpha_{t}}{\beta_{t}}+\frac{1}{1-\bar{\alpha}_{t-1}}\right)=1 /\left(\frac{\alpha_{t}-\bar{\alpha}_{t}+\beta_{t}}{\beta_{t}\left(1-\bar{\alpha}_{t-1}\right)}\right)=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_{t}} \cdot \beta_{t}$

从而通过以上的方差和均值，我们就得到了 $q(x_{t-1}|x_t, x_0)$ 的解析形式

通过2.2节的最后，我们估计到了噪声估测模型 $\epsilon _\theta (x_t,t)$ ，接下来要生成模型就很简单了。从N(0,1)中随机生成一个噪声作为 $X_T$ ，然后再用该模型逐步从估测噪声，并用去噪公式逐渐恢复到 $x_0$ 即可，见如下伪代码

用通俗的语言来说，如何去噪生成清晰图片呢？如上述第4行代码所述，比较模糊的图片 $x_t$ 减掉噪声估计器预测出来的噪声 (只是实际操作时，减掉的是与一个常数 $\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}$ 相乘之后的噪声)，得到的结果乘以 $1/\sqrt{a_t}$ 之后，最后再加上一个带 $\sigma_t$ 的 $z$

换言之，推理时，我们从各项独立的高斯分布 $x_t$ 开始，一共 $T$ 步，每一步其实都是用了一次reparameterization trick

每一步具体来说，我们有了 $x_t$ ，想要得到 $x_{t-1}$ ，因为我们之前逆扩散过程建模有：

$p_{\theta}\left(\mathbf{x}_{t-1} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \mu_{\theta}\left(\mathbf{x}_{t}, t\right), \Sigma_{\theta}^{2}\left(\mathbf{x}_{t}, t\right)\right)$

$=\mathcal{N}\left(\mathbf{x}_{t-1} ; \frac{1}{\sqrt{\alpha_{t}}}\left(\mathbf{x}_{t}-\frac{\beta_{t}}{\sqrt{1-\bar{\alpha}_{t}}} \epsilon_{\theta}\left(\mathbf{x}_{t}, t\right)\right), \beta_{t}\right)$

所以由reparameterization trick我们有：

每一轮都这样迭代，最终就得到了生成的图片，如下图所示

参考文献与推荐阅读

变分自编码器（一）：原来是这么一回事，包含对重参数技巧的介绍
VAE原始论文
关于VAE的几篇文章：一文理解变分自编码器（VAE）、机器学习方法—优雅的模型（一）：变分自编码器（VAE）、
苏剑林关于扩散模型的几篇文章：（一）：DDPM = 拆楼 + 建楼、（二）：DDPM = 自回归式VAE
怎么理解今年 CV 比较火的扩散模型（DDPM）？
知乎上关于扩散模型的几篇文章：全网最简单的扩散模型DDPM教程、Diffusion扩散模型大白话讲解、扩散生成模型: 唯美联姻物理概念与机器学习
Understanding Diffusion Models: A Unified Perspective(写于2022年8月，此文写的非常细致，另，这是其PDF版本)
扩散模型是如何工作的：从0开始的数学原理
What are Diffusion Models?，写于2021年7月
Introduction to Diffusion Models for Machine Learning
关于扩散模型的几篇论文
CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications
Diffusion Models Beat GANs on Image Synthesis
关于DDPM的几篇文章(如果相关文章与本文有冲突，建议以本文为准，因为有些文章有笔误或错误)：DDPM概率扩散模型（原理+代码)、Denoising Diffusion Probabilistic Models (DDPM)、从VAE到DDPM、扩散模型原理解析
大一统视角理解扩散模型Understanding Diffusion Models: A Unified Perspective 阅读笔记
Stable Diffusion一周年：扩散模型编年简史
DALL·E2（生成模型串讲，从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM）
AI生成艺术的底层原理：非平衡物理的扩散模型
Vision Transformer 超详细解读 (原理分析+代码解读) (一)
DETR论文的解读之一
End-to-End Object Detection with Transformers，DETR原始论文
Vision Transformer 超详细解读 (原理分析+代码解读) (二)
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
ViT原始论文，挑战CNN的在CV领域的统治地位
ViT论文逐段精读，这是针对该视频解读的笔记之一(神洛华)、针对该视频解读的笔记之二(MT_Joy)
Vision Transformer 论文 + 详解，Vision Transformer详解by 小绿豆
Masked Autoencoders Are Scalable Vision Learners
MAE原始论文
MAE 论文逐段精读，此文则为对该视频解读所做的笔记
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Swin transformer原始论文
Swin Transformer论文精读，此文是针对该视频解读所做的笔记(神洛华)、Swin-Transformer网络结构详解(by小绿豆)
图解Swin Transformer、如何看待微软亚洲研究院的Swin Transformer？
李宏毅关于生成式AI模型diffusion model/stable diffusion概念讲解
我个人推荐/站台的人邮新书《扩散模型：从原理到实战》
七月在线AIGC下SD/MDJ的原理与实战课 [深度探究AI绘画/多模态]

创作、修改/完善记录

第一大阶段
23年4.28，因要发布AI绘画与CV多模态原理解析的博客，从VAE开始写起
反复理了一个下午，总算把VAE写清楚了，也看了很多同类文章，之前推导看不下去的都能看得下去了
5.1，拆解DDPM的前向过程，其他同类文章对于一个公式可能一步或两三步到位我而言，能拆10步则10步阅读无障碍，不然何必我来写
5.3，连续抠了两天DDPM的推导总算有雏形了
5.4，今天又抠了一天的DDPM公式推导，增加了很多同类文章里没有的细节，很爽这就是我提笔的价值和意义所在了
5.6，完善2.3节
从5.2日起，连抠了整整4天DDPM的前向逆向推导，总算快写清楚了整个推导过程
大家害怕的不是公式，只是怕公式的展开不够细致，毕竟对每一个人而言，公式展开越细致越不怕

且解读 $L_{VLB}$ 九行推导的每一行
解读代码时对每一行代码都加注释
拆解公式时对每一行公式都做解释

已是一个固定的风格，这样人人都能理解
5.10，继续完善2.3节
理解DDPM不难，但里面的公式推导特别多，为了让每位朋友可以一目了然的理解每一个公式的推导
只要能拆开的一定拆开要解释的一定解释
5.12，再次完善2.2.2节逆向过程(去噪)
为让整个推导看下来不费劲，修改部分描述以更流畅，使得最终尽可能就像看小说一样
5.14，开始更新3.1节DETR的部分
5.15，修改完善3.1节DETR结构之前两部分：backbone与encoder
5.16，开始更新3.1节DETR结构的后两部分：decoder和FFN，以及损失函数部分解读
第二大阶段
5.19，修改完善3.1节3.1节DETR结构的后两部分：decoder和FFN，以及损失函数部分解读
尽可能让行文清晰直观一目了然避免看着费劲/别扭
6.6，开始写ViT的部分
且为了尽可能让对ViT的介绍一目了然、清晰明确，做了反复多轮的修改
同时也创造了记录，只用一天便写清楚了ViT的介绍，算有史以来最快速度写清楚一个模型
但ViT这个工作真心6，Google这篇论文也写的真心好每一句话每一个配图都恰到好处(值得反复看好几遍)，有类似感触的第一想到的是OpenAI那篇CLIP论文
6.9，开始写Swin Transformer的部分
6.12，继续写Swin Transformer的部分
6.26，新增扩散模型的极简发展史
6.27，给「2.2.2 逆向过程(去噪)：求解真实后验分布 $q(x_{t-1}|x_t, x_0)$ —— 复原被加噪的图片使之清晰化」和
「2.3 DDPM如何训练：通过噪声估计模型 $\epsilon _\theta (x_t,t)$ 预测真实噪声——最小化估计噪声与真实噪声之间的差距」
这两节的内容分别加了相应的4级标题，以让行文逻辑更清晰
6.28，新增关于「DDPM相比之前扩散模型的两个贡献」
一方面，从预测转换图像改进为预测噪声
二方面，DDPM只预测正态分布的均值

且把扩展模型的发展史单独成为一节，即：2.1 极简发展史：从扩散模型、DDPM、improved DDPM到DALL·E/DALL·E2
6.29，新增一节「1.2.3 VAE的改进：VQ-VAE/VQ-VAE2」
7.5，加了这句话：用通俗的语言来说，如何去噪生成清晰图片呢，如上述第4行代码所述，比较模糊的图片 $x_t$ 减掉噪声估计器预测出来的噪声即可 (只是实际操作时，减掉的是与一个常数 $\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}$ 相乘之后的噪声)
7.22，因第二天我要在「七月在线」的课程上讲stable diffusion的原理，故梳理回顾下本文的前两部分，回顾中顺带润色了相关描述和个别笔误
比如根据参考文献7明确 $x_{t}=\sqrt{\bar{\alpha}_{t}} \boldsymbol{x}_{0}+\sqrt{1-\bar{\alpha}_{t}} \epsilon_{0}$ ，之前2.2.2.3节中有不对的笔误 $x_{0}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}\left(x_{t}-\sqrt{1-\bar{\alpha}_{t}} \epsilon_{t}\right)$
且因此进一步明确
${\mu}(x_t,x_0)=\frac{1}{\sqrt{\alpha_{t}}}\left(x_{t}-\frac{1-\alpha_{t}}{\sqrt{1-\bar{\alpha}_{t}}}{\epsilon_0}\right)$
11.13，优化关于VQ-VAE、条件引导生成相关的内容
关于文生图的一系列模型，其最后本质就两个核心，一个是扩散模型的正向、逆向过程，一个就是这个条件引导生成
11.18，因11.25/26要在fanbook上讲一个SD专题的公开课，围绕：SD原理部署二次开发
故把本文前两部分的内容再重点梳理了下，优化了部分描述
12.15，为了补充对U-net网络的介绍，在“2.1 极简发展史”中补充介绍新增一个最新的研究：把Transformer用做扩散模型的骨干网络
12.26，因为写longlora，而注意到Swin Transformer，故修订Swin Transformer那一节中的部分措辞，以让行文更清晰
24年2.19，因写OpenAI首个视频生成模型sora的原理解析时，阅读到DiT论文，其中这一句说的非常好：reformulating diffusion models to predict noise instead of pixel
故把该句加到了本文中
2.23，修订此节“4.1.1 ViT的架构：Embedding层 + Transformer Encoder + MLP Head”的内容，以更加明确清晰
且补充对U-Net网络的介绍
2.26，增加此部分的内容：2021年12月潜在扩散空间Latent Diffusion Model
3.6，修订VQ-VAE相关的内容
11.13，把「第二部分 DDPM」的部分细节修订了下，主要是：使相关的推导更流畅、自然、清晰
12.4，由于24年12月初，ViT的三位核心作者从Google deepmind集体跳槽到了OpenAI 苏黎世办事处(因为他三都在苏黎世)，而关注到了这三人
故在4.1节的开头体现了ViT的六位一作的姓名
25年8.7日，为了让本文的定位更清晰——专注图像生成的发展起源
特把
$\rightarrow$ DETR部分移到了此文《一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、DETR(首发于18年，修订于25年)》中
$\rightarrow$ 而ViT部分则移到了此文《ViT及其变体的发展史——从ViT、Swin transformer到Meta发布的自监督ViT(即多个具身模型的视觉基座：DINO和DINOv2)、SimDINOv1 v2》中
..