扩散模型（Diffusion Model）——由浅入深的理解

对扩散模型（diffusion model）进行由浅入深的理解

WSLGN

85553人浏览 · 2022-04-27 01:48:54

WSLGN · 2022-04-27 01:48:54 发布

Diffusion Model——由浅入深的理解

概览
扩散过程
逆扩散过程
损失函数
总结
参考

Diffusion model 是一种图片生成的范式，大量的数学公式让许多同学望而却步，但实际研究下来，它的公式推导其实大部分都在射程范围之内。

本文在概览中对Diffusion model抛去细节做一个整体的梳理，而细节的推导会在下文的扩散过程、逆扩散过程、损失函数中展示。如果只想对Diffusion model有一个定性的了解而不关系推导的话，只看概览就可以了。

概览

在这里插入图片描述
扩散模型有两个过程，分别为扩散过程和逆扩散过程。

如上图所示，扩散过程为从右到左（ $X_0 \rightarrow X_T$ ）的过程，表示对图片逐渐加噪，且 $X_{t+1}$ 是在 $X_{t}$ 上加躁得到的，其只受 $X_{t}$ 的影响，因此扩散过程是一个马尔科夫过程。 $X_0$ 表示从真实数据集中采样得到的一张图片，对 $X_0$ 添加 $T$ 次噪声，图片逐渐变得模糊，当 $T$ 足够大时， $X_T$ 为标准正态分布。在训练过程中，每次添加的噪声是已知的，即 $q(X_t|X_{t-1})$ 是已知的，根据马尔科夫过程的性质，我们可以递归得到 $q(X_t|X_0)$ ，即 $q(X_t|X_0)$ 是已知的。扩散过程最主要的就是 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 的推导，推导细节见下文的扩散过程。

如上图所示，逆扩散过程为从左到右（ $X_T \rightarrow X_0$ ）的过程，表示从噪声中逐渐复原出图片。如果我们能够在给定 $X_t$ 条件下知道 $X_{t-1}$ 的分布，即如果我们可以知道 $q(X_{t-1}|X_t)$ ，那我们就能够从任意一张噪声图片中经过一次次的采样得到一张图片而达成图片生成的目的。显然我们很难知道 $q(X_{t-1}|X_t)$ ，因此我们才会用 $p_{Θ}(X_{t-1}|X_t)$ 来近似 $q(X_{t-1}|X_t)$ ， $p_{Θ}(X_{t-1}|X_t)$ 就是我们要训练的网络，在原文中就是个U-Net。而很妙的是，虽然我们不知道 $q(X_{t-1}|X_t)$ ，但是 $q(X_{t-1}|X_tX_0)$ 却是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是可知的，因此我们可以用 $q(X_{t-1}|X_tX_0)$ 来指导 $p_{Θ}(X_{t-1}|X_t)$ 进行训练。逆扩散过程最主要的就是 $q(X_{t-1}|X_tX_0)$ 的推导，推导细节见下文的逆扩散过程。

我们已经明确了要训练 $p_{Θ}(X_{t-1}|X_t)$ ，那要怎么确定目标函数呢？有两个很直接的想法，一个是负对数的最大似然概率，即 $logp_{Θ}(X_0)$ ，另一个是真实分布与预测分布的交叉熵，即 $E_{q(X_0)}logp_{Θ}(X_0)$ ，而显然这两种都不好搞，因此他参考了VAE，不去优化这两个东西，而是优化他们的变分上界(variational lower bound)，定义 $L_{VLB}$ 如下:
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]\tag{1} \\ 可证：L_{VLB} \ge -logp_{Θ}(X_0) \And L_{VLB} \ge -E_{q(X_0)}logp_{Θ}(X_0)$
即 $L_{VLB}$ 减小就代表 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界减小。
且经过推导， $L_{VLB}$ 可写成如下形式：
$L_{VLB} = L_{T} + L_{T-1} + ...+ L_{0}\tag{2}$ $L_{T} = D_{KL}(q(X_T|X_0)||p_{Θ}(X_{T}))\\ L_{t} = D_{KL}(q(X_t|X_{t+1}X_0)||p_{Θ}(X_{t}|X_{t+1})),1 \le t \le T\\ L_{0} = -logp_{Θ}(X_{0}|X_{1})$
由上式不难发现， $L_{t}$ 就是逆扩散过程中 $q(X_{t}|X_{t+1}X_0)$ 和 $p_{Θ}(X_{t}|X_{t+1})$ 的KL散度，这也就是我上面说的，用 $q(X_{t}|X_{t+1}X_0)$ 来指导 $p_{Θ}(X_{t}|X_{t+1})$ 进行训练。这部分主要就是(1)式和(2)式的推导，细节部分见下文的损失函数。

扩散过程

如上图所示，扩散过程为从右到左（ $X_0 \rightarrow X_T$ ）的过程，表示对图片逐渐加噪，且 $X_{t+1}$ 是在 $X_{t}$ 上加躁得到的，其只受 $X_{t}$ 的影响，因此扩散过程是一个马尔科夫过程。且每一步扩散的步长受变量 $\{β_{t} \in (0,1)\}_{t=1}^{T}$ 的影响。 $q(X_{t}|X_{t-1})$ 可写为如下形式，即给定 $X_{t-1}$ 的条件下， $X_{t}$ 服从均值为 $\sqrt{1-β_{t}}X_{t-1}$ ，方差为 $β_{t}I$ 的正态分布:
$q(X_{t}|X_{t-1}) = N(X_t; \sqrt{1-β_{t}}X_{t-1},β_{t}I)\tag{3}$
用重参数化技巧表示 $X_{t}$ ，令 $α_{t}=1-β_{t}$ ，令 $Z_{t} \sim N(0,I), t \ge 0$ ，即:
$X_{t}= \sqrt{α_{t}}X_{t-1}+\sqrt{1-α_{t}}Z_{t-1}\tag{4}$
写多几行:
$X_{t-1}= \sqrt{α_{t-1}}X_{t-2}+\sqrt{1-α_{t-1}}Z_{t-2}\\ X_{t-2}= \sqrt{α_{t-2}}X_{t-3}+\sqrt{1-α_{t-2}}Z_{t-3}\\ ...\\ X_{1}= \sqrt{α_{1}}X_{0}+\sqrt{1-α_{1}}Z_{0}$
易归纳得，令 $\bar{α}_{t}= {\textstyle \prod_{i=1}^{t}α_{i}}$ ：
$X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{α_{1}}}\sqrt{1-α_{1}}Z_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{2}}}\sqrt{1-α_{2}}Z_{1}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{3}}}\sqrt{1-α_{3}}Z_{2}+...+\sqrt{1-α_{t}}Z_{t-1}$
设随机变量 $\tilde{Z}_{t-1}$ 为：
$\tilde{Z}_{t-1}=\frac{\sqrt{\bar{α}_{t}}}{\sqrt{α_{1}}}\sqrt{1-α_{1}}Z_{0}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{2}}}\sqrt{1-α_{2}}Z_{1}+\frac{\sqrt{\bar{α}_{t}}}{\sqrt{\bar{α}_{3}}}\sqrt{1-α_{3}}Z_{2}+...+\sqrt{1-α_{t}}Z_{t-1}$
则 $\tilde{Z}_{t-1}$ 的期望和方差如下：
$E(\tilde{Z}_{t-1})=0\\ D(\tilde{Z}_{t-1})=\frac{{\bar{α}_{t}}}{{α_{1}}}(1-α_{1})+\frac{{\bar{α}_{t}}}{{\bar{α}_{2}}}(1-α_{2})+\frac{{\bar{α}_{t}}}{{\bar{α}_{3}}}(1-α_{3})+...+\frac{{\bar{α}_{t}}}{{\bar{α}_{t}}}(1-α_{t})=1-\bar{α}_{t}$
所以，
$X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\tilde{Z}_{t-1}=\sqrt{\bar{α}_{t}}X_{0}+\sqrt{1-\bar{α}_{t}}\bar{Z}_{t-1}, \bar{Z}_{t-1}\sim N(0,I)\\ q(X_{t}|X_0)=N(X_{t};\sqrt{\bar{α}_{t}}X_0,(1-\bar{α}_t)I)$
至此，我们推出了 $q(X_{t}|X_{t-1})$ 和 $q(X_{t}|X_{0})$ 。

逆扩散过程

如果我们能够在给定 $X_t$ 条件下知道 $X_{t-1}$ 的分布，即如果我们可以知道 $q(X_{t-1}|X_t)$ ，那我们就能够从任意一张噪声图片中经过一次次的采样得到一张图片而达成图片生成的目的。显然我们很难知道 $q(X_{t-1}|X_t)$ ，因此我们才会用 $p_{Θ}(X_{t-1}|X_t)$ 来近似 $q(X_{t-1}|X_t)$ ， $p_{Θ}(X_{t-1}|X_t)$ 就是我们要训练的网络。而很妙的是，虽然我们不知道 $q(X_{t-1}|X_t)$ ，但是 $q(X_{t-1}|X_tX_0)$ 却是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是可知的。
下面对 $q(X_{t-1}|X_tX_0)$ 进行推导:
$q(X_{t-1}|X_tX_0)=\frac{q(X_0X_{t-1}X_t)}{q(X_{0}X_t)}=\frac{q(X_0X_{t-1}X_t)}{q(X_{0}X_{t-1})}\frac{q(X_{0}X_{t-1})}{q(X_{0}X_{t})}=q(X_t|X_{t-1}X_0)*\frac{q(X_{t-1}|X_{0})}{q(X_{t}|X_{0})}\\ \because 扩散过程是马尔科夫过程\\ \therefore q(X_t|X_{t-1}X_0)=q(X_t|X_{t-1})\\ \therefore q(X_{t-1}|X_tX_0)=q(X_t|X_{t-1})*\frac{q(X_{t-1}|X_{0})}{q(X_{t}|X_{0})}$
至此，已经把 $q(X_{t-1}|X_tX_0)$ 用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 进行表示，下面对 $q(X_{t-1}|X_tX_0)$ 的表达式进行推导:
$q(X_t|X_{t-1})=N(X_t; \sqrt{1-β_{t}}X_{t-1},β_{t}I)=\frac{1}{\sqrt{2\pi(1-α_{t})}}exp(-\frac{1}{2}\frac{(X_t-\sqrt{α_t}X_{t-1})^2}{1-α_t})\\ q(X_{t}|X_0)=N(X_{t};\sqrt{\bar{α}_{t}}X_0,(1-\bar{α_t})I)=\frac{1}{\sqrt{2\pi(1-\bar{α}_{t})}}exp(-\frac{1}{2}\frac{(X_t-\sqrt{\bar{α}_t}X_{0})^2}{1-\bar{α}_t})\\ q(X_{t-1}|X_0)=N(X_{t-1};\sqrt{\bar{α}_{t-1}}X_0,(1-\bar{α}_{t-1})I)=\frac{1}{\sqrt{2\pi(1-\bar{α}_{t-1})}}exp(-\frac{1}{2}\frac{(X_{t-1}-\sqrt{\bar{α}_{t-1}}X_{0})^2}{1-\bar{α}_{t-1}})$
$q(X_{t-1}|X_tX_0)=\frac{1}{\sqrt{2\pi\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}}β_t}exp(-\frac{1}{2\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t}(X_{t-1}^{2}-2(\frac{(1-\bar{α}_{t-1})\sqrt{α_t}X_t}{1-\bar{α}_t}+\frac{β_t\sqrt{\bar{α}_{t-1}}X_0}{1-\bar{α}_t})X_{t-1}+C(X_0,X_t))\\ q(X_{t-1}|X_tX_0)=N(X_{t-1};\frac{(1-\bar{α}_{t-1})\sqrt{α_t}X_t}{1-\bar{α}_t}+\frac{β_t\sqrt{\bar{α}_{t-1}}X_0}{1-\bar{α}_t},\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t)\\ \because X_{t}= \sqrt{\bar{α}_{t}}X_{0}+\sqrt{1-\bar{α}_{t}}\bar{Z}_{t-1},\bar{Z}_{t-1}\sim N(0,I)\\ \therefore q(X_{t-1}|X_tX_0)=N(X_{t-1}; \frac{1}{\sqrt{α}_t}X_t-\frac{β_t}{\sqrt{α_t(1-\bar{α}_t)}}\bar{Z}_{t-1} ,\frac{1-\bar{α}_{t-1}}{1-\bar{α}_{t}}β_t),\bar{Z}_{t-1}\sim N(0,I)$
至此，得到了 $q(X_{t-1}|X_tX_0)$ 的分布表达式。
在下文的损失函数中，会介绍我们要怎么用 $q(X_{t-1}|X_tX_0)$ 来监督 $p_{Θ}(X_{t-1}|X_t)$ 进行训练。

损失函数

我们已经明确了要训练 $p_{Θ}(X_{t-1}|X_t)$ ，那要怎么确定目标函数呢？有两个很直接的想法，一个是负对数的最大似然概率，即 $logp_{Θ}(X_0)$ ，另一个是真实分布与预测分布的交叉熵，即 $E_{q(X_0)}logp_{Θ}(X_0)$ ，然而，类似于VAE，由于我们很难对噪声空间进行积分，因此直接优化 $logp_{Θ}(X_0)$ 或 $E_{q(X_0)}logp_{Θ}(X_0)$ 是很困难的，因此我们不会直接优化它们，而是优化 $logp_{Θ}(X_0)$ 的变分下界 $L_{VLB}$ ， $L_{VLB}$ 的定义如下:
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]$
下面证明 $L_{VLB}$ 是 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界，即证明 $L_{VLB} \ge -logp_{Θ}(X_0) \And L_{VLB} \ge -E_{q(X_0)}logp_{Θ}(X_0)$ :
$-logp_{Θ}(X_0) \le -logp_{Θ}(X_0) + D_{KL}(q(X_{1:t}|X_0)||p_{Θ}(X_{1:T}|X_0))\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{1:T}|X_0)})\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)p_{Θ}(X_{0})}{p_{Θ}(X_{0:T})})\\=-logp_{Θ}(X_0)+E_{X_{1:T}\sim q(X_{1:T}|X_0)}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}+log(p_{Θ}(X_{0})))\\=E_{X_{0:T}\sim q(X_{0:T})}(log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})})=L_{VLB}$
$L_{CE}=-\int q(X_0)logp_{Θ}(X_0)dX_0=-E_{q(X_0)}logp_{Θ}(X_0)\\=-E_{q(X_0)}log(\int p_{Θ}(X_{1:T}|X_0)p_{Θ}(X_0)dX_{1:T})\\=-E_{q(X_0)}log(\int p_{Θ}(X_{0:T})dX_{1:T})\\=-E_{q(X_0)}log(\int q(X_{1:T}|X_0)\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)} dX_{1:T})\\=-E_{q(X_0)}(log(E_{q(X_{1:T}|X_0)}\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)}))\\\le-E_{q(X_0)}(E_{q(X_{1:T}|X_0)}log(\frac{p_{Θ}(X_{0:T})}{q(X_{1:T}|X_0)}))\\=E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]=L_{VLB}$
至此，证明了 $L_{VLB}$ 是 $logp_{Θ}(X_0)$ 和 $E_{q(X_0)}logp_{Θ}(X_0)$ 的上界。
下面，对 $L_{VLB}$ 化简：
$L_{VLB} = E_{q(x_{0:T})}[log\frac{q(X_{1:T}|X_0)}{p_{Θ}(X_{0:T})}]\\=E_{q(x_{0:T})}[log\frac{\textstyle \prod_{t=1}^{T}q(X_{t}|X_{t-1})}{p_{Θ}(X_{T}){\textstyle \prod_{t=1}^{T}}p_{Θ}(X_{t-1}|X_t)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=1}^{T}log\frac{q(X_{t}|X_{t-1})}{p_{Θ}(X_{t-1}|X_t)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t}|X_{t-1})}{p_{Θ}(X_{t-1}|X_t)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(X_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log(\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}*\frac{q(X_{t}|X_0)}{q(X_{t-1}|X_0)} )+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}+\sum_{t=2}^{T}log\frac{q(X_{t}|X_0)}{q(X_{t-1}|X_0)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[-logp_{Θ}(X_T)+\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}+log\frac{q(X_{T}|X_0)}{q(X_{1}|X_0)}+log\frac{q(X_{1}|X_{0})}{p_{Θ}(X_{0}|X_1)}]\\=E_{q(x_{0:T})}[log\frac{q(X_T|X_0)}{p_{Θ}(X_T)} +\sum_{t=2}^{T}log\frac{q(X_{t-1}|X_{t}X_0)}{p_{Θ}(X_{t-1}|X_t)}-logp_{Θ}(X_{0}|X_1)]\\=D_{KL}(q(X_T|X_0)||p_{Θ}(X_T))+\sum_{t=2}^{T} D_{KL}(q(X_{t-1}|X_tX_0)||p_{Θ}(X_{t-1}|X_t))-logp_{Θ}(X_{0}|X_1)\\= L_{T} + L_{T-1} + ...+ L_{0}\\where: L_{T} = D_{KL}(q(X_T|X_0)||p_{Θ}(X_{T}))\\ L_{t} = D_{KL}(q(X_t|X_t+1X_0)||p_{Θ}(X_{t}|X_{t+1})),1 \le t \le T\\ L_{0} = -logp_{Θ}(X_{0}|X_{1})$
从 $L_{t}$ 即可看出，对 $p_{Θ}(X_{t}|X_{t+1})$ 的监督就是最小化 $p_{Θ}(X_{t}|X_{t+1})$ 和 $q(X_t|X_{t+1}X_0)$ 的KL散度。

总结

简单的说，我们的目的是希望学习出一个 $p_{Θ}(X_{t-1}|X_t)$ ，即能够从噪声图恢复出原图。
为了达到这一个目的，我们使用 $q(X_{t-1}|X_tX_0)$ 来监督 $p_{Θ}(X_{t-1}|X_t)$ 进行训练， $q(X_{t-1}|X_tX_0)$ 是可以用 $q(X_t|X_0)$ 和 $q(X_t|X_{t-1})$ 表示的，即 $q(X_{t-1}|X_tX_0)$ 是已知的。

本文是我学习过程中的个人理解，有不对的地方希望大家帮忙指出。希望可以抛砖引玉，欢迎大家在评论区和我交流。

参考

武汉城市开发者社区

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士，涵盖了多个领域，包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动，为开发者提供更多的学习和交流机会。

更多推荐

【必学收藏】掌握MCP协议：AI智能体开发者的必备技能，一文读懂大模型生态新标准

武汉城市开发者社区

演练：使用VB开发多智能体协作的荣格八维分析器

荣格八维理论是心理学家卡尔·荣格提出的认知功能理论，后发展为多个分支，其中人气较高的是 MBTI。该理论认为人的认知功能可以分为八种，在不同的位置中担任不同的原型。这些功能随着人的成长而发展，并且具有先天性。通过这个项目，我展示了如何使用 Visual Basic .NET 构建一个复杂的多智能体协作系统。强制工作流：通过硬编码待办事项列表确保分析按预期顺序进行，部分子智能体会强制调用指定的工具具