机器学习笔记之变分推断(四)随机梯度变分推断(SGVI)

上一节介绍了基于平均场假设的变分推断与广义EM算法的关系，本节将介绍通过随机梯度的思想实现变分推断。

静静的喝酒

1678人浏览 · 2022-09-18 16:29:48

静静的喝酒 · 2022-09-18 16:29:48 发布

机器学习笔记之变分推断——随机梯度变分推断

引言

引言

上一节介绍了基于平均场假设的变分推断与广义EM算法的关系，本节将介绍通过随机梯度的思想实现变分推断。

回顾：基于平均场假设的变分推断

基于平均场假设的变分推断通常称为经典变分推断(Classical Variational Inference)。其核心自然是 平均场假设：将隐变量 $\mathcal Z$ 的概率分布 $\mathcal Q(\mathcal Z)$ 看做 $\mathcal M$ 个独立的子概率分布：
$\mathcal Q(\mathcal Z) = \prod_{i=1}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})$
其迭代过程的思想是坐标上升法(Coordinate Ascent)：

求解 $\mathcal Q_j(\mathcal Z^{(j)})$ ，固定除 $\mathcal Q_j(\mathcal Z^{(j)})$ 外的所有分布，并将求解出的 $\hat {\mathcal Q}_i(\mathcal Z^{(i)})$ 替换原始的 $\mathcal Q_j(\mathcal Z^{(j)})$ ：
$\hat {\mathcal Q}_j (\mathcal Z^{(j)}) = \mathop{\arg\max}\limits_{\mathcal Q_j(\mathcal Z^{(j)})} \left\{-\mathcal K\mathcal L \left[\hat \phi (\mathcal X,\mathcal Z^{(j)}) || \mathcal Q_j(\mathcal Z^{(j)})\right]\right\} \\ \mathcal Q(\mathcal Z) = \mathcal Q_1(\mathcal Z^{(1)}) \times \cdots \times \hat {\mathcal Q}_j(\mathcal Z^{(j)}) \times \cdots\times \mathcal Q_{\mathcal M}(\mathcal Z^{(\mathcal M)})$
重复上述步骤，最终第一次迭代结果得到如下形式：
$\mathcal Q(\mathcal Z) = \hat {\mathcal Q}_1(\mathcal Z^{(1)}) \times \cdots \times \hat {\mathcal Q}_{\mathcal M}(\mathcal Z^{(\mathcal M)})$
继续迭代，直到 $\mathcal Q(\mathcal Z)$ 结果稳定且收敛。

经典变分推断的问题

虽然通过坐标上升法能够近似求解隐变量 $\mathcal Z$ 的最优后验概率分布 $P(\mathcal Z \mid \mathcal X)$ ，但 经典变分推断 的问题也是显而易见的：平均场假设这个假设本身过于苛刻。

平均场假设要保证隐变量各分组之间相互独立。而隐变量本身就是基于真实情况人为定义的变量。
实际情况中，定义的隐变量满足平均场假设是极为困难的，因此，经典变分推断基本无法使用于真实任务。

至此，我们在近似求解后验概率分布 $P(\mathcal Z \mid \mathcal X)$ ，就需要对 $P(\mathcal Z \mid \mathcal X)$ 整体进行求解。
本节将从梯度角度对 $P(\mathcal Z \mid \mathcal X)$ 进行求解。

随机梯度变分推断的求解过程

回顾变分推断的推导过程，基于隐变量 $\mathcal Z$ 的最优近似分布 $\hat {\mathcal Q}(\mathcal Z)$ 可进行如下表示：
$\hat {\mathcal Q}(\mathcal Z) = \mathop{\arg\max}\limits_{\mathcal Q(\mathcal Z)} \mathcal L[\mathcal Q(\mathcal Z)] \Rightarrow \hat {\mathcal Q}(\mathcal Z) \approx P(\mathcal Z \mid \mathcal X) \\ \mathcal L[\mathcal Q(\mathcal Z)] = \int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z)}\right] d \mathcal Z$
既然是 通过调整 $\mathcal Q(\mathcal Z)$ 的最值，使得 $\mathcal L[\mathcal Q(\mathcal Z)]$ 达到最大，因此可以尝试使用 梯度上升法(Gradient Ascent) 进行求解。

这里需要进行一些假设：
既然要求解最优的 $\mathcal Q(\mathcal Z)$ ，根据梯度上升法，自然要求解 $\mathcal Q(\mathcal Z)$ 的梯度。

而 $\mathcal Q(\mathcal Z)$ 本身是一个分布，也可以看作成一个概率模型。而概率模型本身可以看作是关于该模型参数的一个函数。因此：定义概率模型 $\mathcal Q(\mathcal Z)$ 的模型参数为 $\phi$ ，最终将求解 $\mathcal Q(\mathcal Z)$ 的梯度转化为求解模型参数 $\phi$ 的梯度：
$\mathcal Q(\mathcal Z \mid \phi)$ 写法是保留之前对概率模型的表达。例如 $P(\mathcal X \mid \theta)$ ，对应的 $\mathcal L[\mathcal Q(\mathcal Z)]$ 公式也需要进行修改。
$\mathcal Q(\mathcal Z) \to \mathcal Q(\mathcal Z \mid \phi) \\ \begin{aligned} \mathcal L[\mathcal Q(\mathcal Z)] & = \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z \mid \phi)}\right] d\mathcal Z \\ & = \mathbb E_{\mathcal Q(\mathcal Z \mid \phi)} \left[\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] \\ & = \mathcal L(\phi) \end{aligned}$
与此同时， $\mathcal L[\mathcal Q(\mathcal Z)]$ 中的变量由 $\mathcal Q(\mathcal Z)$ 变为 $\phi$ ，即 $\mathcal L(\phi)$ 。从而将求解最优 $\hat {\mathcal Q}(\mathcal Z)$ 转化为求解最优参数 $\hat \phi$ ：
$\hat \phi = \mathop{\arg\max}\limits_{\phi} \mathcal L(\phi)$
对梯度 $\nabla_{\phi}\mathcal L(\phi)$ 进行表示：
$\begin{aligned} \nabla_{\phi}\mathcal L(\phi) & = \nabla_{\phi} \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z \mid \phi)}\right] d\mathcal Z \\ & = \nabla_{\phi} \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z \end{aligned}$
根据牛顿-莱布尼兹公式，将积分号 $\int$ 与梯度 $\nabla$ 进行交换：
乘法求导~
$\int_{\mathcal Z \mid \phi} \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right]d\mathcal Z + \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z$

观察第二项： $\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z$ ：

由于 $\phi$ 是概率模型 $\mathcal Q(\mathcal Z \mid \phi)$ 的模型参数，而 $P(\mathcal X,\mathcal Z)$ 是 $\mathcal X,\mathcal Z$ 的联合概率分布，因此与 $\phi$ 无关。因此第二项可变化为：
$\begin{aligned} & - \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z \\ & = -\int_{\mathcal Z \mid \phi} \frac{1}{\mathcal Q(\mathcal Z \mid \phi)} \cdot \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi)d\mathcal Z \\ & = - \int_{\mathcal Z \mid \phi} \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi)d\mathcal Z \end{aligned}$
再次使用牛顿-莱布尼兹公式，将梯度符号 $\nabla$ 还原位置：
$\nabla_{\phi} \int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z$
根据概率密度积分， $\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) d\mathcal Z = 1$ ，第二项相当于对常数1求偏导，最后结果为0。即：
第二项被完整地消掉了~
$\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi}\left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z = -\nabla_{\phi} 1 = 0$

至此， $\nabla_{\phi} \mathcal L(\phi)$ 可表示为：
只剩下了第一项～
$\nabla_{\phi} \mathcal L(\phi) = \int_{\mathcal Z \mid \phi} \nabla_{\phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right]d\mathcal Z$
观察： $\nabla_{\phi}\mathcal Q(\mathcal Z \mid \phi)$ 它并不是概率分布，而是概率分布的梯度。因此没有办法将上式写成期望形式。
但是这里通过技巧 将 $\mathcal Q(\mathcal Z \mid \phi)$ 还原出来：
可以自己反过来推一下~
$\nabla_{\phi}\mathcal Q(\mathcal Z \mid \phi) = \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi)$
将上式带入， $\nabla_{\phi} \mathcal L(\phi)$ 可以表示为：
$\int_{\mathcal Z \mid \phi} \mathcal Q(\mathcal Z \mid \phi) \cdot \nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) \cdot \left[ \log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)\right] d\mathcal Z$
可以将上述积分看作 $\mathcal Q(\mathcal Z \mid \phi)$ 分布的期望形式：
$\nabla_{\phi} \mathcal L(\phi) =\mathbb E_{\mathcal Q(\mathcal Z \mid \phi)}\left\{\nabla_{\phi} \log \mathcal Q(\mathcal Z \mid \phi) \cdot [\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z \mid \phi)]\right\}$
至此，将梯度 $\nabla_{\phi}\mathcal L(\phi)$ 使用期望形式表示出来。后续可以使用蒙特卡洛采样方法对该期望进行近似求解。

至此，每求解一个 $\nabla_{\phi} \mathcal L(\phi)$ ，都可以对 $\mathcal Q(\mathcal Z \mid \phi)$ 概率分布的模型参数 $\phi$ 更新一次，以此类推。
最终可以近似得到概率模型 $\mathcal Q(\mathcal Z \mid \phi)$ 的最优模型参数 $\hat \phi$ ，从而求解概率模型 $\mathcal Q(\mathcal Z \mid \hat \phi)$ 。

下一节将介绍 随机梯度变分推断的问题及其他衍生方法。

相关参考：
机器学习-变分推断4（随机梯度变分推断-SGVI-1）

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...

亚马逊云科技技术品牌专区

物联网主机E6000引领工业自动化的新篇章

亚马逊云科技技术品牌专区

搞 IoT 物联网，你居然要懂这么多种协议...

物联网协议是指在物联网环境中用于设备间通信和数据传输的协议。根据不同的作用，物联网协议可分为传输协议、通信协议和行业协议。传输协议：一般负责子网内设备间的组网及通信。例如 Wi-Fi、Ethernet、NFC、 Zigbee、Bluetooth、GPRS、3G/4G/5G等。这些协议能够确保在网络上传输的数据的安全性和可靠性。通讯协议：主要是运行在传统互联网TCP/IP协议之上的设备通讯协议，负责