🍃作者介绍:25届双非本科网络工程专业,阿里云专家博主,深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系,现专注把 AI 能力落地到实际产品与业务场景。
🦅个人主页:@逐梦苍穹
📕所属专栏:🌩 专栏人工智能; 🌩 专栏速通人工智能相关论文
🐼GitHub主页:https://github.com/XZL-CODE
✈ 您的一键三连,是我创作的最大动力🌹

在这里插入图片描述


1、前言:为什么 Transformer 需要一个"新维度"?

2026年1月,DeepSeek联合北京大学(含创始人梁文锋)发表了一篇名为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》的论文。在大模型架构演进几乎被 MoE(Mixture-of-Experts)全面主导的今天,这篇论文提出了一个新的问题:MoE 是稀疏性唯一的维度吗?

1.1 从工程角度看:语言建模的"内耗"问题

让我们先从工程直觉出发。当你向一个 700B 参数的 LLM 提问"中国首都是哪里"时,模型需要做什么?

答案是:和它回答"量子场论中的规范不变性是什么"走几乎完全相同的神经网络前向路径。这个悖论揭示了当前 Transformer 架构的一个深层缺陷——它没有区分"查字典"和"推理演绎"这两种根本不同的计算需求。

从工程层面量化这个问题:

  • 静态知识检索(Static Knowledge Retrieval):命名实体、固定搭配、高频短语等——这些知识在训练后就是固定的,理论上 O(1) 查表就够了;
  • 组合推理(Compositional Reasoning):多步逻辑、数学推导、代码生成——这些需要深度的神经计算,没有捷径。

然而,现有 MoE 架构的所有稀疏性机制都是"条件计算"(Conditional Computation):根据 token 的隐状态动态路由到不同专家,本质上仍是神经计算。模型只能用"计算"来模拟"检索",这些宝贵的网络层被浪费在了平凡的静态知识重建上。

1.2 从理论角度看:语言建模的"二元性"

更深层地,这篇论文建立在一个理论观察之上:

语言建模 = 组合推理(Compositional Reasoning)+ 静态知识检索(Knowledge Retrieval)

子任务 本质特征 所需原语
组合推理 动态、上下文依赖、深层 神经计算(深度 Attention + FFN)
静态知识检索 固定、局部 N-gram 驱动 查表(Table Lookup)

Transformer 架构缺乏原生的知识查找原语(lookup primitive),导致模型被迫用神经计算层层"重建"本可直接获取的静态知识,这是该论文核心要解决的架构缺陷。

论文的答案是:在 MoE 的"条件计算"稀疏维度之外,引入第二条正交的稀疏轴——条件记忆(Conditional Memory),并通过 Engram 模块将其落地。


2、核心贡献概览

论文的七项核心贡献技术摘要如下:

贡献编号 贡献要点 关键技术词
提出"条件记忆"新稀疏维度 Conditional Memory,Second Axis of Sparsity
设计 Engram 模块 N-gram 哈希、多头寻址、上下文门控、多分支集成
提出稀疏容量分配问题 Sparsity Allocation Problem,ρ 参数
发现 U 型缩放定律 U-shaped Scaling Law,最优 ρ* ≈ 75%~80%
规模化验证至 27B Engram-27B 全面超越等参数等 FLOPs 的纯 MoE 基线
揭示"意外发现" 推理/代码/数学任务的提升幅度 > 知识型任务
算法-系统协同设计 100B 参数记忆表卸载到 CPU,吞吐损失 < 2.8%

最令人意外的是贡献⑥:一个设计用于知识存储的记忆模块,在推理、代码、数学领域的提升反而更大。这个"意外发现"背后的机理,正是整篇论文最深刻的洞见之一,我们在第 6 节详细拆解。


3、Engram 模块:架构设计深析

在这里插入图片描述

Engram(英文词义为"记忆印迹",来自神经科学)是条件记忆的具体实现。它作为一个附加模块嵌入 Transformer 层中,不是每层都激活,而是仅在特定层(实验中为第 2 层和第 15 层)注入。

每个 token 位置 t t t 在 Engram 中经历两个阶段:

阶段1: 稀疏检索 → e t 阶段2: 上下文门控融合 → Y \text{阶段1: 稀疏检索} \to \mathbf{e}_t \quad\quad \text{阶段2: 上下文门控融合} \to \mathbf{Y} 阶段1: 稀疏检索et阶段2: 上下文门控融合Y

H ( ℓ ) ← H ( ℓ ) + Y \mathbf{H}^{(\ell)} \leftarrow \mathbf{H}^{(\ell)} + \mathbf{Y} H()H()+Y

3.1 Sparse Retrieval via Hashed N-grams

第一步:词表压缩(Tokenizer Compression)

标准 BPE 分词器会为语义等价的变体分配不同 ID,例如"Apple"(ID 42)、“apple”(ID 7823)、“APPLE”(ID 19001)——这三个语义相同的词占用了三个独立记忆槽,造成嵌入表碎片化。

Engram 引入词表投影层 P : V → V ′ \mathcal{P}: V \to V' P:VV,将原始 token ID 映射为规范化标识符:

x t ′ = P ( x t ) (统一小写 + NFKC Unicode 规范化) x'_t = \mathcal{P}(x_t) \quad \text{(统一小写 + NFKC Unicode 规范化)} xt=P(xt)(统一小写 + NFKC Unicode 规范化)

效果:对 128k 词表的压缩率达到 23.43%,极大减少了嵌入表冗余。Top-5 归并类别包括空白/换行符(163个变体)、字母’a’(54个变体)等。

第二步:多头哈希(Multi-Head Hashing)

对每个 token 位置 t t t,构造其后缀 N-gram

g t , n = ( x t − n + 1 ′ , ⋯   , x t ′ ) , n ∈ { 2 , 3 } g_{t,n} = (x'_{t-n+1}, \cdots, x'_t), \quad n \in \{2, 3\} gt,n=(xtn+1,,xt),n{2,3}

对每种 N-gram 阶数 n n n 和哈希头 k k k,用确定性哈希函数 φ n , k \varphi_{n,k} φn,k(轻量乘法-XOR 哈希)映射到嵌入表中的行:

z t , n , k ≜ φ n , k ( g t , n ) , e t , n , k = E n , k [ z t , n , k ] z_{t,n,k} \triangleq \varphi_{n,k}(g_{t,n}), \quad \mathbf{e}_{t,n,k} = \mathbf{E}_{n,k}[z_{t,n,k}] zt,n,kφn,k(gt,n),et,n,k=En,k[zt,n,k]

  • 哈希碰撞缓解:使用 K = 8 K=8 K=8 个不同哈希头,不同 N-gram 哈希到同一槽位的概率大幅降低;
  • 素数表大小:每张嵌入表 E n , k \mathbf{E}_{n,k} En,k 的大小 M n , k M_{n,k} Mn,k 取素数,改善哈希分布均匀性;
  • 综合记忆向量:将所有 N-gram 阶数和哈希头的检索结果拼接:

e t ≜ ∏ n = 2 N ∏ k = 1 K e t , n , k \mathbf{e}_t \triangleq \prod_{n=2}^{N} \prod_{k=1}^{K} \mathbf{e}_{t,n,k} etn=2Nk=1Ket,n,k

关键特性:哈希检索是完全确定性的——只要输入 token 序列确定,检索地址就已确定,不依赖模型运行时状态。这是后续系统效率优化的基石。

3.2 Context-aware Gating 机制

哈希检索得到的 e t \mathbf{e}_t et上下文无关的静态先验,面临两个问题:

  1. 哈希碰撞噪声:不同 N-gram 可能哈希到同一槽位;
  2. 一词多义歧义:"苹果"在不同语境下(食物 vs 科技公司)对应不同语义,但静态表中只有一个向量。

门控机制采用类 Attention 的设计,由当前隐状态 h t \mathbf{h}_t ht 动态决定是否采信静态记忆

k t = W K e t , v t = W V e t \mathbf{k}_t = \mathbf{W}_K \mathbf{e}_t, \quad \mathbf{v}_t = \mathbf{W}_V \mathbf{e}_t kt=WKet,vt=WVet

α t = σ  ⁣ ( RMSNorm ( h t ) ⊤ RMSNorm ( k t ) d ) \alpha_t = \sigma\!\left(\frac{\text{RMSNorm}(\mathbf{h}_t)^\top \text{RMSNorm}(\mathbf{k}_t)}{\sqrt{d}}\right) αt=σ(d RMSNorm(ht)RMSNorm(kt))

v ~ t = α t ⋅ v t \tilde{\mathbf{v}}_t = \alpha_t \cdot \mathbf{v}_t v~t=αtvt

其中 σ \sigma σ 是 Sigmoid 函数, α t ∈ ( 0 , 1 ) \alpha_t \in (0,1) αt(0,1) 是门控标量:

  • 若当前上下文"认为"检索到的记忆是可靠的静态知识 → α t ≈ 1 \alpha_t \approx 1 αt1,充分采信;
  • 若上下文不确定(歧义场景)或检测到碰撞噪声 → α t ≈ 0 \alpha_t \approx 0 αt0,直接忽略。

门控之后,还附加一个因果膨胀卷积(Dilated Causal Convolution)扩大感受野:

Y = SiLU ( Conv1D ( RMSNorm ( V ~ ) ) ) + V ~ \mathbf{Y} = \text{SiLU}(\text{Conv1D}(\text{RMSNorm}(\tilde{\mathbf{V}}))) + \tilde{\mathbf{V}} Y=SiLU(Conv1D(RMSNorm(V~)))+V~

卷积核大小 w = 4 w=4 w=4,膨胀系数 δ \delta δ 等于最大 N-gram 阶数,配合残差连接保证信息不丢失。

3.3 与 MoE 的集成:Multi-branch 架构

论文采用 Manifold-Constrained Hyper-Connections( M = 4 M=4 M=4 多分支主干:残差流被扩展为 4 条并行分支,每条分支有独立隐状态 h t ( m ) \mathbf{h}_t^{(m)} ht(m)

Engram 适配多分支时采用参数共享策略

参数类型 策略 原因
稀疏嵌入表 E n , k \mathbf{E}_{n,k} En,k 所有分支共享 记忆"内容"对所有分支相同,减少参数量
Value 投影 W V \mathbf{W}_V WV 所有分支共享 记忆的"值"维度相同
Key 投影 W K ( m ) \mathbf{W}_K^{(m)} WK(m) 每个分支独立 各分支从不同角度"询问"记忆,实现分支特异性门控

每条分支独立计算门控:

α t ( m ) = σ  ⁣ ( RMSNorm ( h t ( m ) ) ⊤ RMSNorm ( W K ( m ) e t ) d ) \alpha_t^{(m)} = \sigma\!\left(\frac{\text{RMSNorm}(\mathbf{h}_t^{(m)})^\top \text{RMSNorm}(\mathbf{W}_K^{(m)} \mathbf{e}_t)}{\sqrt{d}}\right) αt(m)=σ(d RMSNorm(ht(m))RMSNorm(WK(m)et))

最终各分支输出: u t ( m ) = α t ( m ) ⋅ ( W V e t ) \mathbf{u}_t^{(m)} = \alpha_t^{(m)} \cdot (\mathbf{W}_V \mathbf{e}_t) ut(m)=αt(m)(WVet)

工程优化:所有线性投影(1个 W V \mathbf{W}_V WV + 4个 W K ( m ) \mathbf{W}_K^{(m)} WK(m))融合为一次 FP8 矩阵乘法,最大化 GPU 计算利用率。

3.4 系统效率:计算与内存解耦

Engram 在系统层面的核心优势来自其确定性寻址特性。

对比 MoE 路由:

  • MoE 路由:依赖运行时隐藏状态 → 必须先计算才知道路由哪个专家 → 无法提前预取
  • Engram 检索:纯输入序列驱动,地址在 forward 开始前就可计算 → 完全可以异步预取

这使得 Engram 嵌入表可以卸载到主机内存(CPU DRAM),甚至 NVMe SSD:

时间轴并发图:
Layer N-1(GPU 计算)
     ↕ 完全并行
PCIe 传输(CPU → GPU,预取 Layer N 所需 Engram 嵌入)

Layer N(GPU 直接使用已到达的嵌入)
     ↕ 完全并行
PCIe 传输(预取 Layer N+1 所需嵌入)

N-gram 访问遵循 Zipf 分布(幂律分布),这使得多级缓存层次高效可行:

  • GPU HBM:存储超高频 N-gram 嵌入(如 “the”, “is”)
  • Host DRAM:存储中频 N-gram
  • NVMe SSD:存储低频长尾 N-gram

实验验证(H800,100B 参数嵌入表卸载至 CPU):吞吐量损失仅 1.9%~2.8%,工程实用性极强。


4、U 型缩放定律:最优稀疏容量分配

在这里插入图片描述

这是论文最重要的理论发现,直接回答了:在固定总参数预算下,MoE 和 Engram 各分多少?

4.1 定律的发现与直觉

首先定义三个参数指标:

P sparse ≜ P tot − P act P_{\text{sparse}} \triangleq P_{\text{tot}} - P_{\text{act}} PsparsePtotPact

  • P tot P_{\text{tot}} Ptot:总可训练参数量(不含词表 embedding 和 LM Head)
  • P act P_{\text{act}} Pact:每 token 激活参数量,决定训练 FLOPs(计算量)
  • P sparse P_{\text{sparse}} Psparse:非激活参数量,即"免费"的稀疏参数预算

直觉:MoE 和 Engram 都属于"免费"参数——不管有多少 MoE 专家或记忆槽,每次 forward 只激活固定数量,FLOPs 不变。因此 P sparse P_{\text{sparse}} Psparse 是在不增加推理成本的前提下可以自由分配的预算。

定义分配比例 ρ ∈ [ 0 , 1 ] \rho \in [0,1] ρ[0,1](MoE 占稀疏预算的比例):

P MoE ( sparse ) = ρ ⋅ P sparse , P Engram = ( 1 − ρ ) ⋅ P sparse P_{\text{MoE}}^{(\text{sparse})} = \rho \cdot P_{\text{sparse}}, \quad P_{\text{Engram}} = (1-\rho) \cdot P_{\text{sparse}} PMoE(sparse)=ρPsparse,PEngram=(1ρ)Psparse

实验在多个计算规模下扫描 ρ \rho ρ,观察验证集 Loss,发现严格的 U 型曲线

验证 Loss
   ↑
   |  ★                               ◇ (纯 MoE 基线)
   |     ★                         ◇
   |        ★                   ◇
   |           ★★★           ◇◇
   |               ★★ ● ★★◇◇
   |               (最优区间 ρ*≈78%)
   +----+----+----+----+----+----→ ρ
   0%  20%  40%  60%  80% 100%
 纯Engram                    纯MoE

U 型两端各有代价

  • 左端(ρ → 0,Engram 主导):MoE 专家数量不足 → 条件计算能力弱 → 无法应对需要动态推理的任务。记忆可以存储知识,但无法替代推理。
  • 右端(ρ → 1,纯 MoE):没有专用静态知识记忆 → 模型被迫用层层神经计算"重建"固定知识 → 大量网络深度被浪费在平凡任务上。

4.2 MoE vs Engram 的最优分配比例

核心实验数据(两个计算规模):

计算规模 总参数 P tot P_{\text{tot}} Ptot 纯 MoE 损失(ρ=100%) 最优混合损失(ρ≈80%) 改善 Δ \Delta Δ
2 × 10 20 2\times10^{20} 2×1020 FLOPs ~5.7B
6 × 10 20 6\times10^{20} 6×1020 FLOPs ~9.9B 1.7248 1.7109 0.0139

关键结论:

  1. 最优 ρ ≈ 75%~80%*,即将约 20%~25% 的稀疏预算分给 Engram;
  2. 最优比例跨规模稳定,说明这是架构级规律,具有强泛化性;
  3. 即使将 MoE 比例压缩到 ρ ≈ 40%(约只剩 40 个专家),Engram 混合模型仍能追平纯 MoE 基线,说明 Engram 可以部分替代 MoE 的功能。

这个 20%~25% 的 Engram 配额在大规模实验中得到落地验证:Engram-27B 的参数分配比例 ρ = 74.3%,即 55 个路由专家 + 5.7B Engram 记忆表(原本有 72 个路由专家)。

4.3 无限记忆极限下的行为

论文进一步探究:如果不限制 Engram 记忆槽数量,能扩展到多远?

固定 MoE 骨干( P tot ≈ 3 B P_{\text{tot}} \approx 3B Ptot3B),不断扩大 Engram 表(从 2.58×10⁵ 槽到 1.0×10⁷ 槽,最多增加约 130 亿参数),观察验证损失。

结果在对数-对数坐标下呈线性,即严格遵循幂律

L ( N ) ∝ N − α , α > 0 \mathcal{L}(N) \propto N^{-\alpha}, \quad \alpha > 0 L(N)Nα,α>0

  • 记忆越多,模型越好,且改善是可预测的、平滑的;
  • 与 Dense 模型的 Chinchilla 缩放律类似,但 Engram 不增加推理 FLOPs
  • 相比对照方法 OverEncoding(对 N-gram 嵌入取平均),Engram 的扩展效率更高——相同预算下损失改善幅度更大,原因是 Engram 基于上下文动态选取,利用率更高。

这开辟了一个新的扩展维度:计算固定,记忆无限扩展


5、实验结果:大规模验证

5.1 预训练实验(27B 规模)

四个对比模型在 262B tokens 上等 FLOPs 训练:

模型 总参数 激活参数 路由专家 Engram 参数
Dense-4B 4.1B 3.8B 无(Dense FFN)
MoE-27B(基线) 26.7B 3.8B 2共享+72路由(top-6)
Engram-27B 26.7B 3.8B 2共享+55路由(top-6) 5.7B
Engram-40B 39.5B 3.8B 2共享+55路由(top-6) 18.5B

激活参数严格相等(3.8B),训练 token 严格相等(262B),确保 FLOPs 等价对比的公平性。

语言模型损失对比:

模型 Pile 测试 Loss 验证集 Loss
Dense-4B 2.091 1.768
MoE-27B(基线) 1.960 1.634
Engram-27B 1.950 (-0.010) 1.622 (-0.012)
Engram-40B 1.942 (-0.018) 1.610 (-0.024)

5.2 长上下文训练(32K Context)

在预训练后用 YaRN 扩展至 32,768 tokens(30B tokens,5,000 步),关键设计是 Iso-Loss 对照实验:Engram-27B(46k步)与 MoE-27B(50k步)预训练 Loss 完全对齐,消除基础能力差异,使任何性能差异完全归因于架构本身。

结果震撼:在 Iso-Loss 受控设置下,Engram 在复杂长程任务上显著领先:

评测任务 Engram-27B (46k步) MoE-27B (50k步) 提升
多查询 NIAH(MQ) 97.0 84.2 +12.8
变量追踪(VT) 87.2 77.0 +10.2

更令人震惊的极端实验:仅用 82% FLOPs 的 Engram-27B(41k步),在 LongPPL 上即可追平完整训练的 MoE-27B(50k步),在 RULER 上甚至超越

5.3 关键 Benchmark 数据

Engram-27B vs. MoE-27B 完整对比(等参数、等 FLOPs 的公平对比):

知识密集型任务

基准 MoE-27B Engram-27B 提升
MMLU (5-shot) 57.4 60.4 +3.0
MMLU-Redux 60.6 64.0 +3.4
CMMLU (5-shot) 57.9 61.9 +4.0
C-Eval (5-shot) 58.0 62.7 +4.7
CCPM (0-shot) 79.6 87.1 +7.5

推理/代码/数学任务(意外的最大赢家)

基准 MoE-27B Engram-27B 提升
BBH (3-shot) 50.9 55.9 +5.0
ARC-Challenge 70.1 73.8 +3.7
HumanEval 37.8 40.8 +3.0
MATH (4-shot) 28.3 30.7 +2.4
MGSM (8-shot) 46.8 49.4 +2.6

最关键的发现:BBH(通用推理)提升 +5.0,超过了 MMLU(知识检索)的 +3.0。这不符合直觉,背后机理正是第 6 节的分析重点。


6、深度分析:Engram 到底在做什么?

6.1 Engram ≠ 增加模型深度(实验证明)

这是第 6 章最反直觉的结论标题——实际上论文发现恰恰相反

Engram 在功能上等价于增加了模型的有效深度(Effective Depth)

理解这个结论的逻辑起点:现有 LLM 在没有原生知识查找原语的情况下,当处理命名实体(如"Diana, Princess of Wales")时,必须消耗多层 Attention 和 FFN 来逐步"拼凑"出这个实体的语义表示。这是用"计算"来模拟"记忆"——本质上是把多层深度的计算资源浪费在了简单的事实关联上。

Engram 的效果:跳过早期静态特征拼凑阶段,相当于"提前完成"了浅层任务,让后续层可以直接从更成熟的表示出发进行高层推理

6.2 表示对齐与有效深度

论文使用两个可解释性工具进行验证:

LogitLens 分析

方法:将每一层的隐状态投影到词汇表,计算该层输出分布与最终层输出分布之间的 KL 散度。KL 散度越小 = 该层"预测"越接近最终答案 = 表示越成熟。

发现:Engram 变体的 KL 散度在早期层系统性地小于 MoE 基线,且下降更陡峭。这意味着 Engram 模型在更早的层就完成了有效预测所需的表示构建。

CKA 表示对齐分析

方法:使用 Centered Kernel Alignment(CKA)计算 Engram 各层与 MoE 基线各层之间的表示相似性矩阵 S ˉ ∈ [ 0 , 1 ] L × L \bar{S} \in [0,1]^{L \times L} Sˉ[0,1]L×L

定义软对齐指数 a j a_j aj:对每个 Engram 层 j j j,取其与 MoE 各层相似度最高的 top- k k k k = 5 k=5 k=5)层的加权质心:

a j = ∑ i ∈ I j S i , j ⋅ i ∑ i ∈ I j S i , j a_j = \frac{\sum_{i \in \mathcal{I}_j} S_{i,j} \cdot i}{\sum_{i \in \mathcal{I}_j} S_{i,j}} aj=iIjSi,jiIjSi,ji

a j > j a_j > j aj>j 意味着 Engram 第 j j j 层的表示,功能上对应 MoE 基线更深的第 a j a_j aj

实验发现(Few-NERD 命名实体数据集):典型示例是 Engram-27B 的第 5 层,表示与 MoE 基线的第 12 层最为接近

结论:Engram 通过显式知识查找,在参数量不变的前提下,功能性地"加深"了网络。这解释了为什么推理、代码、数学任务受益更大——这些任务需要网络深度,而 Engram 将"浅层任务"从网络深度竞争中解放出来了。

6.3 门控可视化:什么样的 token 激活 Engram

通过可视化 α t \alpha_t αt 值(高值=红色=Engram 被激活),论文揭示了门控机制学到的清晰规律:

高激活(Engram 接管)

语言 激活案例 类型
英语 “Alexander the Great”,“Princess of Wales 多 token 命名实体
英语 By the way”,“in addition to” 程式化短语
中文 四大发明”,“张仲景 成语/历史人名

低激活(骨干 Attention 接管):上下文推理类内容、需要动态关联的语义

这个分工模式与设计意图完全吻合,也从定性角度印证了"条件记忆"概念的有效性。门控机制跨语言泛化,说明 Engram 捕捉的是语言无关的"刻板化语言依赖"(Stereotyped Linguistic Dependencies)规律。

敏感性分析(推理时完全去除 Engram 输出):

任务类型 去除 Engram 后性能保留比例 结论
事实知识(TriviaQA) 仅 29% Engram 是事实知识主要存储库
阅读理解(C3) 高达 93% 上下文推理几乎不依赖 Engram

这个功能二分法精准验证了论文的核心假设:计算(Attention + MoE)与记忆(Engram)分工明确,互补而非冗余


7、与相关工作的定位:RAG、PKM、外部记忆的本质区别

在这里插入图片描述

7.1 对比分析表

对比维度 Engram(本文) RAG PKM/PEER 外部记忆网络
寻址方式 确定性 N-gram 哈希,O(1) 向量相似度检索,O(log N) 学习键值匹配,O(K) 注意力/相似度,O(N)
存储位置 模型内(可卸载 CPU/SSD) 外部向量数据库 模型权重(必须在 GPU) 外部存储系统
知识粒度 词法级(2-3 token N-gram) 段落/文档级 语义键值对 任意结构
可预取性 ✓✓ 完全确定性,可异步预取 ✗ 动态触发 ✗ 依赖运行时状态 ✗ 高延迟外部调用
训练集成 ✓✓ 端到端梯度流 ✗ 通常推理时挂载 ✓ 端到端可训练 ✗ 独立构建
知识时效 固化(训练时),适合稳定模式 实时可更新,适合动态知识 固化,更新代价高 依实现而定
规模扩展 幂律扩展,FLOPs 不变 数据库扩展,检索速度下降 TopK 线性复杂度 受系统架构限制

7.2 与 FFN 键值记忆理论的联系

Geva 等(2021)发现 Transformer 的 FFN 层在功能上等价于键值记忆:第一层矩阵作为"模式检测器"(键),第二层矩阵将信息投影到残差流(值)。这是 Engram 论文最重要的动机之一。

Engram 可以看作对这一发现的工程化延伸:既然 FFN 本质上在做键值记忆查找,为什么不显式设计一个高效的 O(1) 键值记忆模块,而是让 FFN 用矩阵乘法隐式且低效地模拟它?

7.3 与 N-gram 嵌入方法(SCONE、OverEncoding)的区别

已有 N-gram 嵌入方法通常将记忆注入输入层(第0层),与 GPU 计算串行,无法实现通信-计算重叠。Engram 将记忆注入中间层(第2层和第15层),使得 PCIe 数据传输与前一层 GPU 计算并行,大幅降低实际延迟。

核心差异:Engram 在严格等参数/等 FLOPs 受控实验下依然有优势,而已有方法缺乏这类公平对比。


8、对 DeepSeek V4 和行业的启示

8.1 DeepSeek V4 架构技术猜想

论文作者包含 DeepSeek 创始人梁文锋,业界普遍认为这是 DeepSeek V4 的技术预演。基于论文数据,合理的架构猜想:

DeepSeek V4 可能采用 MoE + Engram 双稀疏轴架构

维度 推测 依据
总参数规模 可能远超 V3.2(671B) Engram 参数不增加 FLOPs,可以"免费"加
激活参数 保持同等量级(~37B) DeepSeek 一贯极致效率风格
Engram 参数规模 数百亿(分布于多机 CPU 内存) 100B 参数卸载已验证,开销<3%
路由专家数量 可能从现有数量减少 节省的预算分给 Engram(U型律 ρ*≈78%)
推理架构 PCIe 异步预取 + DRAM 分布式存储 论文已验证工程可行性

8.2 工程路线图:三维参数扩展

这篇论文实质上开辟了大模型参数扩展的第三个维度:

维度1:增加 Dense 参数(Chinchilla 缩放律)
       → FLOPs 正比增长,成本高

维度2:增加 MoE 专家数(条件计算稀疏)
       → FLOPs 不变,但推理时需要专家在 GPU 显存

维度3:增加 Engram 记忆槽(条件记忆稀疏)[NEW]
       → FLOPs 不变,参数可卸载到 CPU/SSD
       → 幂律扩展,无限记忆极限

未来大模型可能走向"三轴协同扩展"策略:在固定激活参数(FLOPs预算)的前提下,同时在三个维度上优化参数分配。

8.3 行业深远影响

1. 重新定义稀疏性的边界:MoE 只是稀疏性的一个维度,Engram 证明了记忆稀疏性的价值,未来还可能出现注意力稀疏(MLA已在做)、激活稀疏等更多维度叠加。

2. 算法-硬件协同设计成核心竞争力:Engram 的可行性依赖于对硬件内存层级结构的深刻理解(PCIe 带宽、Zipf 局部性、异步预取)。这类"算法-系统 co-design"能力将成为顶级 AI 实验室的护城河。

3. 重新思考"什么应该被计算,什么应该被记忆":代码补全中的高频 API 调用模式、数学定理的固定形式、特定领域的术语搭配——这些都可以"记忆化",而无需每次深度计算。

4. 知识双轨存储架构的未来:Engram 负责高频词法级静态模式(训练时固化),RAG 负责长尾动态语义知识(推理时检索),两者面向不同层次、可以共存互补。


9、总结与个人思考

这篇论文在概念层面的贡献不亚于 MoE 本身的提出。它系统性地识别了 Transformer 架构的一个深层缺陷,并提供了一个优雅、可工程化的解决方案。

几点值得深思的洞见

洞见一:"意外发现"不意外

论文发现推理、代码、数学任务提升比知识任务更大,初看违反直觉。但理解了"有效深度"机制后就豁然开朗——Engram 不是直接"提供推理能力",而是通过卸载浅层任务,让现有的计算层深度可以全部用于推理,相当于"间接"提升了推理能力。这个间接效应甚至比直接效应更强大。

洞见二:O(1) 的革命性

Engram 最核心的贡献,不是记忆本身,而是用 O(1) 的确定性哈希替代了 O(N) 或 O(log N) 的相似度检索。这个计算复杂度的跃变,使得参数量与推理成本彻底解耦,开辟了"无限记忆,固定计算"的全新可能。

洞见三:从 PKM/PEER 到 Engram 的工程化飞跃

PKM 等参数化记忆方法已经存在多年,但工程实用性一直是瓶颈。Engram 通过确定性寻址(可预取)、多级缓存(Zipf感知)、FP8 矩阵融合(GPU 效率),将这类方法真正推向了生产可用的阶段。这再次说明:好的想法需要扎实的工程才能落地。

洞见四:DeepSeek 的技术哲学

这篇论文体现了 DeepSeek 一贯的"极致效率"哲学:不追求参数量最大化,而是追求参数效率最大化。Engram 在不增加推理 FLOPs 的前提下,显著提升了模型能力——这是在算力约束下最明智的扩展方向。对于国内 AI 企业在算力受限环境下的研发策略,有重要的参考意义。


论文信息

  • 标题:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
  • 机构:DeepSeek-AI × 北京大学
  • 发表时间:2026 年 1 月
  • 核心关键词:Conditional Memory、Engram、N-gram Hashing、U-shaped Scaling Law、Sparsity Allocation

如果这篇技术解析对你有帮助,欢迎一键三连!后续将持续解读 DeepSeek 最新技术论文,追踪 AI 架构前沿进展。有任何技术问题欢迎在评论区交流。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐