位置编码（正余弦VS旋转矩阵）

lanlalala

942人浏览 · 2025-10-08 16:18:21

lanlalala · 2025-10-08 16:18:21 发布

文章目录

一、正余弦位置编码
二、旋转位置编码 $^{[2]}$
参考文献

一、正余弦位置编码

1. 原始公式

$\left\{\begin{aligned} &PE(pos,2i) = \sin\left(pos/10000^{2i/d_{\text{model}}}\right) \\ &PE(pos,2i+1) = \cos\left(pos/10000^{2i/d_{\text{model}}}\right) \end{aligned}\right. \tag{1}$

参数含义
- 词在句中的绝对位置 $p os \in [0, n - 1]$ ，其中 $n$ 为词序列长度
- $i∈[0,(d_{\text{model}}/2)-1]$
- $\omega_{2i} = 1/10000^{2i/d_{\text{model}}}$

2. 性质

性质1：可线性表示的相对位置
设2个位置 $PE (t)$ 、 $PE (t + g)$ ，根据三角恒等式，有 $^{\text{[1]}}$ ：
$\begin{aligned} PE(t+g,2i) &= \sin(t \cdot w_{2i} + g \cdot w_{2i}) \\ &= \sin(t \cdot w_{2i})\cos(g \cdot w_{2i}) + \cos(t \cdot w_{2i})\sin(g \cdot w_{2i}) \\ &= PE(t,2i) \cdot PE(g,2i+1) + PE(t,2i+1) \cdot PE(g,2i) \\ &= PE(t,2i) \cdot u + PE(t,2i+1) \cdot v \end{aligned} \tag{2}$
$\begin{aligned} PE(t+g,2i+1) &= \cos\left(t \cdot w_{2i} + g \cdot w_{2i}\right) \\ &= \cos\left(t \cdot w_{2i}\right)\cos\left(g \cdot w_{2i}\right) - \sin\left(t \cdot w_{2i}\right)\sin\left(g \cdot w_{2i}\right) \\ &= PE(t,2i+1) \cdot PE(g,2i+1) - PE(t,2i) \cdot PE(g,2i) \\ &= PE(t,2i+1) \cdot u - PE(t,2i) \cdot v \end{aligned} \tag{3}$
其中 $u$ , $v$ 为关于相对距离 $g$ 的常数，所以可以证明 $PE (t + g)$ 可以由 $PE (t)$ 线性表示。
性质2：从自注意力公式开始推导，内积只和相对位置 $g$ 有关，且对称
- 矩阵 $KV^T$ 中的某元素 $A_{t,t+g}$ 为
  $\begin{aligned} A_{t,t+g} &= \text{Query}_{t} \cdot \text{Key}_{t+g} = \sum_{m=1}^{d} \text{Query}_{t,m} \times \text{Key}_{t+g,m} \\ &= \sum_{m=1}^{d} \left[(E(t,m) + PE(t,m)) W_m^Q\right] \times \left[(E(t+g,m) + PE(t+g,m) W_m^K\right] \end{aligned} \tag{4}$
- 考虑其中的与位置相关的内积项 $^{\text{[1]}}$ :
  $\begin{aligned} PE(t) \cdot PE(t + g) &= \sum_{i=0}^{d/2-1} PE(t, 2i) \cdot PE(t + g, 2i) + \sum_{i=0}^{d/2-1} PE(t, 2i + 1) \cdot PE(t + g, 2i + 1) \\ &= \sum_{i=0}^{d/2-1} \sin (t \cdot w_{2i}) \cdot \sin [(t + g) \cdot w_{2i}] + \sum_{i=0}^{d/2-1} \cos (t \cdot w_{2i}) \cdot \cos [(t + g) \cdot w_{2i}] \\ &= \sum_{i=0}^{d/2-1} \cos (g \cdot w_{2i}) \end{aligned} \tag{5}$
- 结论：
  - 与位置相关的内积项的结果是关于 $g$ 的常数。易知 $PE (t + g) PE (t) = PE (t) PE (t - g)$ ，这表明正余弦编码有对称性 $^{\text{[1]}}$
  - $PE (\cdot)$ 影响可学习参数，即投影矩阵 $W$

3. 与其他方法对比

VS简单线性编码： $PE (p os) = p os$ ，可得 $PE (p os + k) = p os + k = PE (p os) + k$ 。缺点：值域无界导致归一化时不稳定，无维度间关联。正余弦函数值域 $[- 1, 1]$ ，稳定。
VS可学习位置编码：《Attention is all you need》还尝试过采用可学习的位置嵌入，发现两种方法效果基本相同，选正弦版本是因为可以允许模型推断出比训练期间遇到的序列长度更长的序列。（笔者猜测：2种方法效果相近，是因为：虽然 $PE$ 固定，但训练过程中 $PE$ 也参与了 $W$ 的学习）
实际上因为2位置项 $PE$ ，无法直接相乘，会被投影项 $W$ 影响，所以并未达到只与向量和相对位置有关的目的

二、旋转位置编码 $^{[2]}$

1. 目标

相似性计算只依赖向量、相对距离，不依赖其绝对位置
期望的形式（三元函数）： $Q_iK^T_j=g(X_i,X_j,i-j)$

2. 背景（旋转矩阵）

二维旋转矩阵
- 定义： $R(\theta)=\begin{pmatrix} \cos \theta & \sin \theta \\ -\sin \theta & \cos \theta \end{pmatrix}$
- $XR(\theta)$ 的物理意义：对 $X$ 逆时针旋转 $\theta$
- 性质：
  - $R(\theta)^T=R(-\theta)$
  - $R(\theta_1)R(\theta_2)=R(\theta_1+\theta_2)$
高维旋转矩阵
- 定义：假设空间是偶数维的，把原始空间切分成一个个独立正交的二维子空间，在上面做独立的旋转
- 公式：
  - 基础旋转角度序列： $\Theta=(\theta_1,\theta_2,...,\theta_{D/2})$
  - $R(\Theta)=\begin{pmatrix}R(\theta_{1})&0&0&0\\0&R(\theta_{2})&0&0\\0&0&\ldots&0\\0&0&0&R(\theta_{D/2})\end{pmatrix}$
  - 对每个子空间分别做旋转： $R(\Theta)=\begin{pmatrix}R(\theta_{1})&0\\0&R(\theta_{2})\end{pmatrix}=\begin{pmatrix}R(\theta_{1})&0\\0&1\end{pmatrix}\begin{pmatrix}1&0\\0&R(\theta_{2})\end{pmatrix}=\widehat{R}(\theta_{1})\widehat{R}(\theta_{2})$
- 物理意义：在独立的二维子空间做不同角度的旋转
  $XR(\Theta)=(X^1,X^2)\begin{pmatrix}R(\theta_1)&0\\0&R(\theta_2)\end{pmatrix}=(X^1R(\theta_1),X^2R(\theta_2))$

3. 旋转位置编码

动机：把两个向量各自按照 $i, j$ 角度旋转后，再计算点积；新向量的内积带上位置信息；模长未变，夹角增加 $(j - i)$
二维空间的一个解
- 公式：
  $\begin{aligned}{Q_i}&=X_iW_QR(i\theta)\\K_{j}&=X_jW_KR(j\theta)\\Q_iK_j^T&=X_iW_QR(i\theta)R(j\theta)^TW_K^TX_j^T\\&=X_iW_QR(i\theta)R(-j\theta)W_K^TX_j^T\\&=X_iW_QR((i-j)\theta)W_K^TX_j^T\\&=g(X_i,X_j,i-j)\end{aligned}$
- 注意：在投影后做旋转，以便两个 $R$ 项，能合并
高维空间的解
- 公式：
  $\begin{aligned}{Q_i}&=X_iW_QR(i\Theta)\\K_{j}&=X_jW_KR(j\Theta)\\Q_iK_j^T&=X_iW_QR(i\Theta)R(j\Theta)^TW_K^TX_j^T\\&=X_iW_QR(i\Theta)R(-j\Theta)W_K^TX_j^T\\&=X_iW_QR((i-j)\Theta)W_K^TX_j^T\\&=g(X_i,X_j,i-j)\end{aligned}$
- 其中：
  - $i$ 位置的旋转角度序列： $i\Theta=(i\theta_1,i\theta_2,...,i\theta_d)$ ，其中 $\begin{aligned}\theta_k=10000^{-k/d},k\in[1,2,\ldots,d]\end{aligned}$
  - 推导： $\begin{aligned}R(i\Theta)R(j\Theta)^T&=\widehat{R}(i\theta_1)\widehat{R}(i\theta_2)\ldots\widehat{R}(i\theta_d)\widehat{R}(j\theta_d)^T\ldots\widehat{R}(j\theta_2)^T\widehat{R}(j\theta_1)^T\\&=(\widehat{R}(i\theta_1)\widehat{R}(j\theta_1)^T)(\widehat{R}(i\theta_2)\widehat{R}(j\theta_2)^T)\ldots(\widehat{R}(i\theta_d)\widehat{R}(j\theta_d)^T)\\&=\widehat{R}((i-j)\theta_1)\widehat{R}((i-j)\theta_2)\ldots\widehat{R}((i-j)\theta_d)\\&=R((i-j)\Theta)\end{aligned}$
- PS：结合律（任意矩阵都满足），交换率（充要/充分条件：对称阵、对角阵等 $^{[4]}$ ）
整体看下
- 区分度
  - 结论：随着位置的增大，旋转角度不会重复
  - 证明：假设存在 $i, j$ 位置，使得 $j\theta_k-i\theta_k=2m\pi$ ， $m$ 是个整数，那么 $\theta_k=2m\pi/(j-i)$ 。仅当 $\theta_k$ 中有无理数 $\pi$ 时，等式才成立
- 可能的另一个优势：在每个前向传播中的 block 都会做位置编码，故位置信息不像正余弦位置编码（仅在第一个block前做一次位置编码）那样易丢失