DeepSeek条件记忆架构深析：Engram模块、U型缩放定律与MoE双轴稀疏设计

︶ㄣ释然

770人浏览 · 2026-03-04 19:37:59

︶ㄣ释然 · 2026-03-04 19:37:59 发布

文章目录

1、前言：为什么 Transformer 需要一个"新维度"？
- 1.1 从工程角度看：语言建模的"内耗"问题
- 1.2 从理论角度看：语言建模的"二元性"
2、核心贡献概览
3、Engram 模块：架构设计深析
4、U 型缩放定律：最优稀疏容量分配
5、实验结果：大规模验证
6、深度分析：Engram 到底在做什么？
7、与相关工作的定位：RAG、PKM、外部记忆的本质区别
8、对 DeepSeek V4 和行业的启示
9、总结与个人思考

🍃作者介绍：25届双非本科网络工程专业，阿里云专家博主，深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系，现专注把 AI 能力落地到实际产品与业务场景。
🦅个人主页：@逐梦苍穹
📕所属专栏：🌩 专栏①：人工智能； 🌩 专栏②：速通人工智能相关论文
🐼GitHub主页：https://github.com/XZL-CODE
✈ 您的一键三连，是我创作的最大动力🌹

在这里插入图片描述

1、前言：为什么 Transformer 需要一个"新维度"？

2026年1月，DeepSeek联合北京大学（含创始人梁文锋）发表了一篇名为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》的论文。在大模型架构演进几乎被 MoE（Mixture-of-Experts）全面主导的今天，这篇论文提出了一个新的问题：MoE 是稀疏性唯一的维度吗？

1.1 从工程角度看：语言建模的"内耗"问题

让我们先从工程直觉出发。当你向一个 700B 参数的 LLM 提问"中国首都是哪里"时，模型需要做什么？

答案是：和它回答"量子场论中的规范不变性是什么"走几乎完全相同的神经网络前向路径。这个悖论揭示了当前 Transformer 架构的一个深层缺陷——它没有区分"查字典"和"推理演绎"这两种根本不同的计算需求。

从工程层面量化这个问题：

静态知识检索（Static Knowledge Retrieval）：命名实体、固定搭配、高频短语等——这些知识在训练后就是固定的，理论上 O(1) 查表就够了；
组合推理（Compositional Reasoning）：多步逻辑、数学推导、代码生成——这些需要深度的神经计算，没有捷径。

然而，现有 MoE 架构的所有稀疏性机制都是"条件计算"（Conditional Computation）：根据 token 的隐状态动态路由到不同专家，本质上仍是神经计算。模型只能用"计算"来模拟"检索"，这些宝贵的网络层被浪费在了平凡的静态知识重建上。

1.2 从理论角度看：语言建模的"二元性"

更深层地，这篇论文建立在一个理论观察之上：

语言建模 = 组合推理（Compositional Reasoning）+ 静态知识检索（Knowledge Retrieval）

子任务	本质特征	所需原语
组合推理	动态、上下文依赖、深层	神经计算（深度 Attention + FFN）
静态知识检索	固定、局部 N-gram 驱动	查表（Table Lookup）

Transformer 架构缺乏原生的知识查找原语（lookup primitive），导致模型被迫用神经计算层层"重建"本可直接获取的静态知识，这是该论文核心要解决的架构缺陷。

论文的答案是：在 MoE 的"条件计算"稀疏维度之外，引入第二条正交的稀疏轴——条件记忆（Conditional Memory），并通过 Engram 模块将其落地。

2、核心贡献概览

论文的七项核心贡献技术摘要如下：

贡献编号	贡献要点	关键技术词
①	提出"条件记忆"新稀疏维度	Conditional Memory，Second Axis of Sparsity
②	设计 Engram 模块	N-gram 哈希、多头寻址、上下文门控、多分支集成
③	提出稀疏容量分配问题	Sparsity Allocation Problem，ρ 参数
④	发现 U 型缩放定律	U-shaped Scaling Law，最优 ρ* ≈ 75%~80%
⑤	规模化验证至 27B	Engram-27B 全面超越等参数等 FLOPs 的纯 MoE 基线
⑥	揭示"意外发现"	推理/代码/数学任务的提升幅度 > 知识型任务
⑦	算法-系统协同设计	100B 参数记忆表卸载到 CPU，吞吐损失 < 2.8%

最令人意外的是贡献⑥：一个设计用于知识存储的记忆模块，在推理、代码、数学领域的提升反而更大。这个"意外发现"背后的机理，正是整篇论文最深刻的洞见之一，我们在第 6 节详细拆解。

3、Engram 模块：架构设计深析

在这里插入图片描述

Engram（英文词义为"记忆印迹"，来自神经科学）是条件记忆的具体实现。它作为一个附加模块嵌入 Transformer 层中，不是每层都激活，而是仅在特定层（实验中为第 2 层和第 15 层）注入。

每个 token 位置 $t$ 在 Engram 中经历两个阶段：

$\text{阶段1: 稀疏检索} \to \mathbf{e}_t \quad\quad \text{阶段2: 上下文门控融合} \to \mathbf{Y}$

$\mathbf{H}^{(\ell)} \leftarrow \mathbf{H}^{(\ell)} + \mathbf{Y}$

3.1 Sparse Retrieval via Hashed N-grams

第一步：词表压缩（Tokenizer Compression）

标准 BPE 分词器会为语义等价的变体分配不同 ID，例如"Apple"（ID 42）、“apple”（ID 7823）、“APPLE”（ID 19001）——这三个语义相同的词占用了三个独立记忆槽，造成嵌入表碎片化。

Engram 引入词表投影层 $\mathcal{P}: V \to V'$ ，将原始 token ID 映射为规范化标识符：

$x'_t = \mathcal{P}(x_t) \quad \text{（统一小写 + NFKC Unicode 规范化）}$

效果：对 128k 词表的压缩率达到 23.43%，极大减少了嵌入表冗余。Top-5 归并类别包括空白/换行符（163个变体）、字母’a’（54个变体）等。

第二步：多头哈希（Multi-Head Hashing）

对每个 token 位置 $t$ ，构造其后缀 N-gram：

$g_{t,n} = (x'_{t-n+1}, \cdots, x'_t), \quad n \in \{2, 3\}$

对每种 N-gram 阶数 $n$ 和哈希头 $k$ ，用确定性哈希函数 $\varphi_{n,k}$ （轻量乘法-XOR 哈希）映射到嵌入表中的行：

$z_{t,n,k} \triangleq \varphi_{n,k}(g_{t,n}), \quad \mathbf{e}_{t,n,k} = \mathbf{E}_{n,k}[z_{t,n,k}]$

哈希碰撞缓解：使用 $K = 8$ 个不同哈希头，不同 N-gram 哈希到同一槽位的概率大幅降低；
素数表大小：每张嵌入表 $\mathbf{E}_{n,k}$ 的大小 $M_{n,k}$ 取素数，改善哈希分布均匀性；
综合记忆向量：将所有 N-gram 阶数和哈希头的检索结果拼接：

$\mathbf{e}_t \triangleq \prod_{n=2}^{N} \prod_{k=1}^{K} \mathbf{e}_{t,n,k}$

关键特性：哈希检索是完全确定性的——只要输入 token 序列确定，检索地址就已确定，不依赖模型运行时状态。这是后续系统效率优化的基石。

3.2 Context-aware Gating 机制

哈希检索得到的 $\mathbf{e}_t$ 是上下文无关的静态先验，面临两个问题：

哈希碰撞噪声：不同 N-gram 可能哈希到同一槽位；
一词多义歧义："苹果"在不同语境下（食物 vs 科技公司）对应不同语义，但静态表中只有一个向量。

门控机制采用类 Attention 的设计，由当前隐状态 $\mathbf{h}_t$ 动态决定是否采信静态记忆：

$\mathbf{k}_t = \mathbf{W}_K \mathbf{e}_t, \quad \mathbf{v}_t = \mathbf{W}_V \mathbf{e}_t$

$\alpha_t = \sigma\!\left(\frac{\text{RMSNorm}(\mathbf{h}_t)^\top \text{RMSNorm}(\mathbf{k}_t)}{\sqrt{d}}\right)$

$\tilde{\mathbf{v}}_t = \alpha_t \cdot \mathbf{v}_t$

其中 $\sigma$ 是 Sigmoid 函数， $\alpha_t \in (0,1)$ 是门控标量：

若当前上下文"认为"检索到的记忆是可靠的静态知识 → $\alpha_t \approx 1$ ，充分采信；
若上下文不确定（歧义场景）或检测到碰撞噪声 → $\alpha_t \approx 0$ ，直接忽略。

门控之后，还附加一个因果膨胀卷积（Dilated Causal Convolution）扩大感受野：

$\mathbf{Y} = \text{SiLU}(\text{Conv1D}(\text{RMSNorm}(\tilde{\mathbf{V}}))) + \tilde{\mathbf{V}}$

卷积核大小 $w = 4$ ，膨胀系数 $\delta$ 等于最大 N-gram 阶数，配合残差连接保证信息不丢失。

3.3 与 MoE 的集成：Multi-branch 架构

论文采用 Manifold-Constrained Hyper-Connections（ $M = 4$ ） 多分支主干：残差流被扩展为 4 条并行分支，每条分支有独立隐状态 $\mathbf{h}_t^{(m)}$ 。

Engram 适配多分支时采用参数共享策略：

参数类型	策略	原因
稀疏嵌入表 $\mathbf{E}_{n,k}$	所有分支共享	记忆"内容"对所有分支相同，减少参数量
Value 投影 $\mathbf{W}_V$	所有分支共享	记忆的"值"维度相同
Key 投影 $\mathbf{W}_K^{(m)}$	每个分支独立	各分支从不同角度"询问"记忆，实现分支特异性门控

每条分支独立计算门控：

$\alpha_t^{(m)} = \sigma\!\left(\frac{\text{RMSNorm}(\mathbf{h}_t^{(m)})^\top \text{RMSNorm}(\mathbf{W}_K^{(m)} \mathbf{e}_t)}{\sqrt{d}}\right)$

最终各分支输出： $\mathbf{u}_t^{(m)} = \alpha_t^{(m)} \cdot (\mathbf{W}_V \mathbf{e}_t)$

工程优化：所有线性投影（1个 $\mathbf{W}_V$ + 4个 $\mathbf{W}_K^{(m)}$ ）融合为一次 FP8 矩阵乘法，最大化 GPU 计算利用率。

3.4 系统效率：计算与内存解耦

Engram 在系统层面的核心优势来自其确定性寻址特性。

对比 MoE 路由：

MoE 路由：依赖运行时隐藏状态 → 必须先计算才知道路由哪个专家 → 无法提前预取
Engram 检索：纯输入序列驱动，地址在 forward 开始前就可计算 → 完全可以异步预取

这使得 Engram 嵌入表可以卸载到主机内存（CPU DRAM），甚至 NVMe SSD：

时间轴并发图：
Layer N-1（GPU 计算）
     ↕ 完全并行
PCIe 传输（CPU → GPU，预取 Layer N 所需 Engram 嵌入）

Layer N（GPU 直接使用已到达的嵌入）
     ↕ 完全并行
PCIe 传输（预取 Layer N+1 所需嵌入）

N-gram 访问遵循 Zipf 分布（幂律分布），这使得多级缓存层次高效可行：

GPU HBM：存储超高频 N-gram 嵌入（如 “the”, “is”）
Host DRAM：存储中频 N-gram
NVMe SSD：存储低频长尾 N-gram

实验验证（H800，100B 参数嵌入表卸载至 CPU）：吞吐量损失仅 1.9%~2.8%，工程实用性极强。

4、U 型缩放定律：最优稀疏容量分配

在这里插入图片描述

这是论文最重要的理论发现，直接回答了：在固定总参数预算下，MoE 和 Engram 各分多少？

4.1 定律的发现与直觉

首先定义三个参数指标：

$P_{\text{sparse}} \triangleq P_{\text{tot}} - P_{\text{act}}$

$P_{\text{tot}}$ ：总可训练参数量（不含词表 embedding 和 LM Head）
$P_{\text{act}}$ ：每 token 激活参数量，决定训练 FLOPs（计算量）
$P_{\text{sparse}}$ ：非激活参数量，即"免费"的稀疏参数预算

直觉：MoE 和 Engram 都属于"免费"参数——不管有多少 MoE 专家或记忆槽，每次 forward 只激活固定数量，FLOPs 不变。因此 $P_{\text{sparse}}$ 是在不增加推理成本的前提下可以自由分配的预算。

定义分配比例 $\rho \in [0,1]$ （MoE 占稀疏预算的比例）：

$P_{\text{MoE}}^{(\text{sparse})} = \rho \cdot P_{\text{sparse}}, \quad P_{\text{Engram}} = (1-\rho) \cdot P_{\text{sparse}}$

实验在多个计算规模下扫描 $\rho$ ，观察验证集 Loss，发现严格的 U 型曲线：

验证 Loss
   ↑
   |  ★                               ◇ (纯 MoE 基线)
   |     ★                         ◇
   |        ★                   ◇
   |           ★★★           ◇◇
   |               ★★ ● ★★◇◇
   |               (最优区间 ρ*≈78%)
   +----+----+----+----+----+----→ ρ
   0%  20%  40%  60%  80% 100%
 纯Engram                    纯MoE

U 型两端各有代价：

左端（ρ → 0，Engram 主导）：MoE 专家数量不足 → 条件计算能力弱 → 无法应对需要动态推理的任务。记忆可以存储知识，但无法替代推理。
右端（ρ → 1，纯 MoE）：没有专用静态知识记忆 → 模型被迫用层层神经计算"重建"固定知识 → 大量网络深度被浪费在平凡任务上。

4.2 MoE vs Engram 的最优分配比例

核心实验数据（两个计算规模）：

计算规模	总参数 $P_{\text{tot}}$	纯 MoE 损失（ρ=100%）	最优混合损失（ρ≈80%）	改善 $\Delta$
$2\times10^{20}$ FLOPs	~5.7B	—	—	—
$6\times10^{20}$ FLOPs	~9.9B	1.7248	1.7109	0.0139

关键结论：

最优 ρ ≈ 75%~80%*，即将约 20%~25% 的稀疏预算分给 Engram；
最优比例跨规模稳定，说明这是架构级规律，具有强泛化性；
即使将 MoE 比例压缩到 ρ ≈ 40%（约只剩 40 个专家），Engram 混合模型仍能追平纯 MoE 基线，说明 Engram 可以部分替代 MoE 的功能。

这个 20%~25% 的 Engram 配额在大规模实验中得到落地验证：Engram-27B 的参数分配比例 ρ = 74.3%，即 55 个路由专家 + 5.7B Engram 记忆表（原本有 72 个路由专家）。

4.3 无限记忆极限下的行为

论文进一步探究：如果不限制 Engram 记忆槽数量，能扩展到多远？

固定 MoE 骨干（ $P_{\text{tot}} \approx 3B$ ），不断扩大 Engram 表（从 2.58×10⁵ 槽到 1.0×10⁷ 槽，最多增加约 130 亿参数），观察验证损失。

结果在对数-对数坐标下呈线性，即严格遵循幂律：

$\mathcal{L}(N) \propto N^{-\alpha}, \quad \alpha > 0$

记忆越多，模型越好，且改善是可预测的、平滑的；
与 Dense 模型的 Chinchilla 缩放律类似，但 Engram 不增加推理 FLOPs；
相比对照方法 OverEncoding（对 N-gram 嵌入取平均），Engram 的扩展效率更高——相同预算下损失改善幅度更大，原因是 Engram 基于上下文动态选取，利用率更高。

这开辟了一个新的扩展维度：计算固定，记忆无限扩展。

5、实验结果：大规模验证

5.1 预训练实验（27B 规模）

四个对比模型在 262B tokens 上等 FLOPs 训练：

模型	总参数	激活参数	路由专家	Engram 参数
Dense-4B	4.1B	3.8B	无（Dense FFN）	无
MoE-27B（基线）	26.7B	3.8B	2共享+72路由(top-6)	无
Engram-27B	26.7B	3.8B	2共享+55路由(top-6)	5.7B
Engram-40B	39.5B	3.8B	2共享+55路由(top-6)	18.5B

激活参数严格相等（3.8B），训练 token 严格相等（262B），确保 FLOPs 等价对比的公平性。

语言模型损失对比：

模型	Pile 测试 Loss	验证集 Loss
Dense-4B	2.091	1.768
MoE-27B（基线）	1.960	1.634
Engram-27B	1.950 (-0.010)	1.622 (-0.012)
Engram-40B	1.942 (-0.018)	1.610 (-0.024)

5.2 长上下文训练（32K Context）

在预训练后用 YaRN 扩展至 32,768 tokens（30B tokens，5,000 步），关键设计是 Iso-Loss 对照实验：Engram-27B（46k步）与 MoE-27B（50k步）预训练 Loss 完全对齐，消除基础能力差异，使任何性能差异完全归因于架构本身。

结果震撼：在 Iso-Loss 受控设置下，Engram 在复杂长程任务上显著领先：

评测任务	Engram-27B (46k步)	MoE-27B (50k步)	提升
多查询 NIAH（MQ）	97.0	84.2	+12.8
变量追踪（VT）	87.2	77.0	+10.2

更令人震惊的极端实验：仅用 82% FLOPs 的 Engram-27B（41k步），在 LongPPL 上即可追平完整训练的 MoE-27B（50k步），在 RULER 上甚至超越。

5.3 关键 Benchmark 数据

Engram-27B vs. MoE-27B 完整对比（等参数、等 FLOPs 的公平对比）：

知识密集型任务：

基准	MoE-27B	Engram-27B	提升
MMLU (5-shot)	57.4	60.4	+3.0
MMLU-Redux	60.6	64.0	+3.4
CMMLU (5-shot)	57.9	61.9	+4.0
C-Eval (5-shot)	58.0	62.7	+4.7
CCPM (0-shot)	79.6	87.1	+7.5

推理/代码/数学任务（意外的最大赢家）：

基准	MoE-27B	Engram-27B	提升
BBH (3-shot)	50.9	55.9	+5.0
ARC-Challenge	70.1	73.8	+3.7
HumanEval	37.8	40.8	+3.0
MATH (4-shot)	28.3	30.7	+2.4
MGSM (8-shot)	46.8	49.4	+2.6

最关键的发现：BBH（通用推理）提升 +5.0，超过了 MMLU（知识检索）的 +3.0。这不符合直觉，背后机理正是第 6 节的分析重点。

6、深度分析：Engram 到底在做什么？

6.1 Engram ≠ 增加模型深度（实验证明）

这是第 6 章最反直觉的结论标题——实际上论文发现恰恰相反：

Engram 在功能上等价于增加了模型的有效深度（Effective Depth）

理解这个结论的逻辑起点：现有 LLM 在没有原生知识查找原语的情况下，当处理命名实体（如"Diana, Princess of Wales"）时，必须消耗多层 Attention 和 FFN 来逐步"拼凑"出这个实体的语义表示。这是用"计算"来模拟"记忆"——本质上是把多层深度的计算资源浪费在了简单的事实关联上。

Engram 的效果：跳过早期静态特征拼凑阶段，相当于"提前完成"了浅层任务，让后续层可以直接从更成熟的表示出发进行高层推理。

6.2 表示对齐与有效深度

论文使用两个可解释性工具进行验证：

LogitLens 分析

方法：将每一层的隐状态投影到词汇表，计算该层输出分布与最终层输出分布之间的 KL 散度。KL 散度越小 = 该层"预测"越接近最终答案 = 表示越成熟。

发现：Engram 变体的 KL 散度在早期层系统性地小于 MoE 基线，且下降更陡峭。这意味着 Engram 模型在更早的层就完成了有效预测所需的表示构建。

CKA 表示对齐分析

方法：使用 Centered Kernel Alignment（CKA）计算 Engram 各层与 MoE 基线各层之间的表示相似性矩阵 $\bar{S} \in [0,1]^{L \times L}$ 。

定义软对齐指数 $a_j$ ：对每个 Engram 层 $j$ ，取其与 MoE 各层相似度最高的 top- $k$ （ $k = 5$ ）层的加权质心：

$a_j = \frac{\sum_{i \in \mathcal{I}_j} S_{i,j} \cdot i}{\sum_{i \in \mathcal{I}_j} S_{i,j}}$

$a_j > j$ 意味着 Engram 第 $j$ 层的表示，功能上对应 MoE 基线更深的第 $a_j$ 层。

实验发现（Few-NERD 命名实体数据集）：典型示例是 Engram-27B 的第 5 层，表示与 MoE 基线的第 12 层最为接近。

结论：Engram 通过显式知识查找，在参数量不变的前提下，功能性地"加深"了网络。这解释了为什么推理、代码、数学任务受益更大——这些任务需要网络深度，而 Engram 将"浅层任务"从网络深度竞争中解放出来了。

6.3 门控可视化：什么样的 token 激活 Engram

通过可视化 $\alpha_t$ 值（高值=红色=Engram 被激活），论文揭示了门控机制学到的清晰规律：

高激活（Engram 接管）：

语言	激活案例	类型
英语	“Alexander the Great”，“Princess of Wales”	多 token 命名实体
英语	“By the way”，“in addition to”	程式化短语
中文	“四大发明”，“张仲景”	成语/历史人名

低激活（骨干 Attention 接管）：上下文推理类内容、需要动态关联的语义

这个分工模式与设计意图完全吻合，也从定性角度印证了"条件记忆"概念的有效性。门控机制跨语言泛化，说明 Engram 捕捉的是语言无关的"刻板化语言依赖"（Stereotyped Linguistic Dependencies）规律。

敏感性分析（推理时完全去除 Engram 输出）：

任务类型	去除 Engram 后性能保留比例	结论
事实知识（TriviaQA）	仅 29%	Engram 是事实知识主要存储库
阅读理解（C3）	高达 93%	上下文推理几乎不依赖 Engram

这个功能二分法精准验证了论文的核心假设：计算（Attention + MoE）与记忆（Engram）分工明确，互补而非冗余。

7、与相关工作的定位：RAG、PKM、外部记忆的本质区别

在这里插入图片描述

7.1 对比分析表

对比维度	Engram（本文）	RAG	PKM/PEER	外部记忆网络
寻址方式	确定性 N-gram 哈希，O(1)	向量相似度检索，O(log N)	学习键值匹配，O(K)	注意力/相似度，O(N)
存储位置	模型内（可卸载 CPU/SSD）	外部向量数据库	模型权重（必须在 GPU）	外部存储系统
知识粒度	词法级（2-3 token N-gram）	段落/文档级	语义键值对	任意结构
可预取性	✓✓ 完全确定性，可异步预取	✗ 动态触发	✗ 依赖运行时状态	✗ 高延迟外部调用
训练集成	✓✓ 端到端梯度流	✗ 通常推理时挂载	✓ 端到端可训练	✗ 独立构建
知识时效	固化（训练时），适合稳定模式	实时可更新，适合动态知识	固化，更新代价高	依实现而定
规模扩展	幂律扩展，FLOPs 不变	数据库扩展，检索速度下降	TopK 线性复杂度	受系统架构限制

7.2 与 FFN 键值记忆理论的联系

Geva 等（2021）发现 Transformer 的 FFN 层在功能上等价于键值记忆：第一层矩阵作为"模式检测器"（键），第二层矩阵将信息投影到残差流（值）。这是 Engram 论文最重要的动机之一。

Engram 可以看作对这一发现的工程化延伸：既然 FFN 本质上在做键值记忆查找，为什么不显式设计一个高效的 O(1) 键值记忆模块，而是让 FFN 用矩阵乘法隐式且低效地模拟它？

7.3 与 N-gram 嵌入方法（SCONE、OverEncoding）的区别

已有 N-gram 嵌入方法通常将记忆注入输入层（第0层），与 GPU 计算串行，无法实现通信-计算重叠。Engram 将记忆注入中间层（第2层和第15层），使得 PCIe 数据传输与前一层 GPU 计算并行，大幅降低实际延迟。

核心差异：Engram 在严格等参数/等 FLOPs 受控实验下依然有优势，而已有方法缺乏这类公平对比。

8、对 DeepSeek V4 和行业的启示

8.1 DeepSeek V4 架构技术猜想

论文作者包含 DeepSeek 创始人梁文锋，业界普遍认为这是 DeepSeek V4 的技术预演。基于论文数据，合理的架构猜想：

DeepSeek V4 可能采用 MoE + Engram 双稀疏轴架构

维度	推测	依据
总参数规模	可能远超 V3.2（671B）	Engram 参数不增加 FLOPs，可以"免费"加
激活参数	保持同等量级（~37B）	DeepSeek 一贯极致效率风格
Engram 参数规模	数百亿（分布于多机 CPU 内存）	100B 参数卸载已验证，开销<3%
路由专家数量	可能从现有数量减少	节省的预算分给 Engram（U型律 ρ*≈78%）
推理架构	PCIe 异步预取 + DRAM 分布式存储	论文已验证工程可行性

8.2 工程路线图：三维参数扩展

这篇论文实质上开辟了大模型参数扩展的第三个维度：

维度1：增加 Dense 参数（Chinchilla 缩放律）
       → FLOPs 正比增长，成本高

维度2：增加 MoE 专家数（条件计算稀疏）
       → FLOPs 不变，但推理时需要专家在 GPU 显存

维度3：增加 Engram 记忆槽（条件记忆稀疏）[NEW]
       → FLOPs 不变，参数可卸载到 CPU/SSD
       → 幂律扩展，无限记忆极限

未来大模型可能走向"三轴协同扩展"策略：在固定激活参数（FLOPs预算）的前提下，同时在三个维度上优化参数分配。

8.3 行业深远影响

1. 重新定义稀疏性的边界：MoE 只是稀疏性的一个维度，Engram 证明了记忆稀疏性的价值，未来还可能出现注意力稀疏（MLA已在做）、激活稀疏等更多维度叠加。

2. 算法-硬件协同设计成核心竞争力：Engram 的可行性依赖于对硬件内存层级结构的深刻理解（PCIe 带宽、Zipf 局部性、异步预取）。这类"算法-系统 co-design"能力将成为顶级 AI 实验室的护城河。

3. 重新思考"什么应该被计算，什么应该被记忆"：代码补全中的高频 API 调用模式、数学定理的固定形式、特定领域的术语搭配——这些都可以"记忆化"，而无需每次深度计算。

4. 知识双轨存储架构的未来：Engram 负责高频词法级静态模式（训练时固化），RAG 负责长尾动态语义知识（推理时检索），两者面向不同层次、可以共存互补。

9、总结与个人思考

这篇论文在概念层面的贡献不亚于 MoE 本身的提出。它系统性地识别了 Transformer 架构的一个深层缺陷，并提供了一个优雅、可工程化的解决方案。

几点值得深思的洞见：

洞见一："意外发现"不意外

论文发现推理、代码、数学任务提升比知识任务更大，初看违反直觉。但理解了"有效深度"机制后就豁然开朗——Engram 不是直接"提供推理能力"，而是通过卸载浅层任务，让现有的计算层深度可以全部用于推理，相当于"间接"提升了推理能力。这个间接效应甚至比直接效应更强大。

洞见二：O(1) 的革命性

Engram 最核心的贡献，不是记忆本身，而是用 O(1) 的确定性哈希替代了 O(N) 或 O(log N) 的相似度检索。这个计算复杂度的跃变，使得参数量与推理成本彻底解耦，开辟了"无限记忆，固定计算"的全新可能。

洞见三：从 PKM/PEER 到 Engram 的工程化飞跃

PKM 等参数化记忆方法已经存在多年，但工程实用性一直是瓶颈。Engram 通过确定性寻址（可预取）、多级缓存（Zipf感知）、FP8 矩阵融合（GPU 效率），将这类方法真正推向了生产可用的阶段。这再次说明：好的想法需要扎实的工程才能落地。

洞见四：DeepSeek 的技术哲学

这篇论文体现了 DeepSeek 一贯的"极致效率"哲学：不追求参数量最大化，而是追求参数效率最大化。Engram 在不增加推理 FLOPs 的前提下，显著提升了模型能力——这是在算力约束下最明智的扩展方向。对于国内 AI 企业在算力受限环境下的研发策略，有重要的参考意义。

论文信息

标题：Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
机构：DeepSeek-AI × 北京大学
发表时间：2026 年 1 月
核心关键词：Conditional Memory、Engram、N-gram Hashing、U-shaped Scaling Law、Sparsity Allocation