（《机器学习》完整版系列）第10章降维与度量学习——10.8 流形学习（等度量映射Isomap算法、局部线性嵌入LLE算法）

拓扑“流形”是指局部与欧氏空间同胚的空间，简言之，形象地理解为：流畅地“拼接”局部超平面（每一个“局部”都能都能视为欧氏空间）。等度量映射策略：将空间中视为一个紧挨一个的“局部”拼接而成，而“局部”视为欧氏空间（定义了欧氏距离）局部线性嵌入策略：它的局部是指$k$近邻，在局部可以用一个超平面替换（低维流形嵌入高维中），且这种嵌入具有“线性关系”不变的特点

人工干智能

331人浏览 · 2023-03-16 14:43:58

人工干智能 · 2023-03-16 14:43:58 发布

提示：
拓扑“流形”是指局部与欧氏空间同胚的空间，简言之，形象地理解为：流畅地“拼接”局部超平面（每一个“局部”都能都能视为欧氏空间）。
等度量映射策略：将空间中视为一个紧挨一个的“局部”拼接而成，而“局部”视为欧氏空间（定义了欧氏距离）
局部线性嵌入策略：它的局部是指 $k$ 近邻，在局部可以用一个超平面替换（低维流形嵌入高维中），且这种嵌入具有“线性关系”不变的特点

流形学习

拓扑“流形”是指局部与欧氏空间同胚的空间，简言之，形象地理解为：流畅地“拼接”局部超平面（每一个“局部”都能都能视为欧氏空间）。这样就易于处理，如，欧氏空间中的曲面可用超平面近似。

等度量映射

策略：将空间中视为一个紧挨一个的“局部”拼接而成，而“局部”视为欧氏空间（定义了欧氏距离），在全局中使用“测地线”作为距离，即若干“局部”线段串起来的最短折线。涉及两个问题：

（1）如何定义“局部”？有两种方案：

邻域：得到 $\varepsilon$ - 邻近图。
近邻：得到 $k$ 近邻图。
这里通常取 $k$ 近邻，因为它本身的确定并不需要欧氏距离，再在其上定义欧氏距离。

（2）求最短折线，有Dijkstra算法或Floyd算法。

综合（1）（2）得到等度量映射的Isomap算法【西瓜书图10.8】。

局部线性嵌入

局部线性嵌入LLE算法是一种“流形学习”：它的局部是指 $k$ 近邻，在局部可以用一个超平面替换（低维流形嵌入高维中），且这种嵌入具有“线性关系”不变的特点，即：高维中存在的线性关系在低维中仍保持不变，反之亦然。

$\mathcal{X}$ 空间（ $d$ 维）中样本集 $\{\boldsymbol{x}_i\}_{i=1}^m$ 中每个样本已编号（下标指示），即样本集对应的下标集为： $\{1,2,\cdots,m\}$ 。每个样本点 $\boldsymbol{x}_i$ 的全部 $k$ 近邻点 $\boldsymbol{x}_j$ 的下标集记为 $Q_i$ ，则 $Q_i$ 为 $\{1,2,\cdots,m\}$ 的子集。又任意点的近邻点个数是一个常数（超参数），不妨设为 $Q$ ，即子集的大小为常数： $Q_i|=Q$ 。
设 $\mathcal{X}$ 空间（ $d$ 维）中的样本点 $\boldsymbol{x}_i$ 降维成 $\mathcal{Z}$ 空间（ $d^{'}$ 维）中点 $\boldsymbol{z}_i$ ，对应的邻域（近邻集） $\mathcal{X}_i$ ，变成了 $\mathcal{Z}_i$ （为行文方便，不妨称它为 $\boldsymbol{z }_i$ 的邻域）。

LLE算法的原理是高、低维两对应邻域内的线性关系一致，即同时有
$\begin{align} \boldsymbol{x}_i=\sum_{j\in Q_i}w_{ij}\boldsymbol{x}_j \tag{10.77} \end{align}$
$\begin{align} \boldsymbol{z}_i=\sum_{j\in Q_i}w_{ij}\boldsymbol{z}_j \tag{10.78} \end{align}$
其中， $\boldsymbol{x}_i$ 为任一样本点， $Q_i$ 为点 $\boldsymbol{x}_i$ 的近邻点集对应的下标集。

当然，这是理想情况，一般情况下有二个问题：一是线性关系本身是“近似”成立，二是不变性也是“近似”成立，因此，我们退而求其次：尽最大可能使其“近似”，这就转化成了优化问题。

（1）在低维邻域 $\mathcal{Z}_i$ 中，设点 ${\boldsymbol{z}}_i$ 的“近似”点 $\hat{\boldsymbol{z}}_i$ 满足式(10.78)，即
$\begin{align} \hat{\boldsymbol{z}}_i=\sum_{j\in Q_i}w_{ij}\boldsymbol{z}_j \tag{10.79} \end{align}$
并对系数作“概率化（亦称规范化、归一化）”（使其和为1）处理，即式(10.78)中， $\sum_{j\in Q_i}w_{ij}=1$ 。

（2）在高维邻域 $\mathcal{X}_i$ 中依式(10.79)的线性关系重构出一个新点 $\hat{\boldsymbol{x}}_i$ 。
$\begin{align} \hat{\boldsymbol{x}}_i=\sum_{j\in Q_i}w_{ij}\boldsymbol{x}_j \tag{10.80} \end{align}$
其中， $\sum_{j\in Q_i}w_{ij}=1$ 。

（3）在高维邻域 $\mathcal{X}_i$ 中，新点 $\hat{\boldsymbol{x}}_i$ 为原样本点 $\boldsymbol{x }_i$ 的“近似”点，它们之间的误差为 $\boldsymbol{x }_i-\hat{\boldsymbol{x}}_i$ 。将数据集的“均方误差最小化”作为优化目标，即【西瓜书式(10.27)】。这是已知数据集中点的坐标求解 $w_{ij}$ ，它能求出闭式解（闭式解是指能用式子表达的解），即解为【西瓜书式(10.28)】。

（4）在低维邻域 $\mathcal{Z}_i$ 中，新点 $\hat{\boldsymbol{z}}_i$ 为原样本点 $\boldsymbol{z }_i$ 的“近似”点，它们之间的误差为 $||\boldsymbol{z }_i-\hat{\boldsymbol{z}}_i||^2$ 。在低维空间中优化目标也为均方误差最小化，即【西瓜书式(10.29)】。但它是已知 $w_{ij}$ （【西瓜书式(10.28)】），求点的坐标。该问题转化为【西瓜书式(10.31)】，即为矩阵的特征分解问题：通过对 $\mathbf{M}$ 进行特征分解，特征值排序后，取 $d^{'}$ 个最小特征值对应的特征向量，组成矩阵 $\mathbf{Z}^{\mathrm{T}}$ 即为所求（参考式(10.17)），该矩阵有 $d^{'}$ 列（即选取的特征向量），但有 $m$ 行，每行对应一个点 $\boldsymbol{z }_i$ ，且点 $\boldsymbol{x }_i$ 与点 $\boldsymbol{z }_i$ 对应。

综上，得到局部线性嵌入LLE算法【西瓜书图10.10】。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：10.7 核化线性降维（线性降维+“核技巧”）
下一篇：10.9 局部线性嵌入公式推导（更正书中的公式）

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...