AMD 的异构 Die / Chiplet 连接方案
涵盖 Infinity Fabric 架构、xGMI / GMI 物理层、CCD↔IOD Chiplet 拓扑、3D V‑Cache TSV 堆叠、多 Socket xGMI、以及 MI300 异构 APU 的 GPU↔CPU Die 互联。所有缩写均附英文全称和中文释义。
零、AMD 互连术语缩写速查表
|
缩写 |
英文全称 |
中文释义 |
|---|---|---|
|
IF / Infinity Fabric |
Infinity Fabric (Scalable Fabric Interconnect) |
AMD 自研可扩展一致性互连架构(协议+控制+数据) |
|
SDF |
Scalable Data Fabric |
可扩展数据织物——承载地址/数据/一致性请求 |
|
SCF |
Scalable Control Fabric |
可扩展控制织物——时钟、电源、温度、RAS 管理 |
|
xGMI |
eXtended Global Memory Interconnect |
Infinity Fabric 片间(Socket↔Socket 或 GPU↔GPU)物理层链路 |
|
GMI |
Global Memory Interconnect |
Infinity Fabric 封装内 Chiplet(CCD↔IOD)物理层链路 |
|
CCD |
Core Complex Die |
Zen 架构 CPU 计算小芯片(含 CCX / Core / L2 / L3) |
|
CCX |
Core Complex |
CCD 内 CPU 核组(Zen 2/3:4核+共享L3;Zen 4:8核共享32MB L3) |
|
IOD / cIOD / sIOD |
I/O Die (client / server I/O Die) |
集中式 I/O 晶粒——内存控制器、PCIe、USB、IF 主控 |
|
TSV |
Through‑Silicon Via |
硅通孔——3D 堆叠 Die 间垂直电信号通道 |
|
SoIC |
System on Integrated Chip (TSMC 3D Hybrid Bonding Tech) |
台积电 3D 混合键合封装工艺(AMD 3D V‑Cache 所用) |
|
NUMA |
Non‑Uniform Memory Access |
非一致内存访问架构 |
|
MOESI |
Modified‑Owned‑Exclusive‑Shared‑Invalid |
x86 缓存一致性协议状态机(AMD IF 使用变种) |
|
FCLK |
Fabric Clock |
Infinity Fabric 数据织物工作频率(影响 IF 带宽与延迟) |
|
UCLK |
Uncore / Memory Controller Clock |
内存控制器时钟 |
|
MCM |
Multi‑Chip Module |
多芯片模块封装 |
|
RDL |
Redistribution Layer |
封装基板重布线层 |
|
APU |
Accelerated Processing Unit |
CPU+GPU 融合处理器 |
|
GCD |
Graphics Compute Die (in MI series) |
AMD Instinct GPU 计算小芯片 |
一、Infinity Fabric(IF)——AMD 互连的核心架构
Infinity Fabric 不是一条"线",而是一套分层统一互连架构,同时用于片内(Core↔L3↔Memory)、Chiplet 间(CCD↔IOD)、Socket 间(CPU↔CPU)和 GPU 间(MI300 / Radeon)。
1️⃣ 两层结构
┌──────────────────────────────────────────────┐
│ Infinity Fabric (IF) │
│ │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ Scalable Data │ │ Scalable Control │ │
│ │ Fabric (SDF) │ │ Fabric (SCF) │ │
│ │ • Req/Addr/Data │ │ • 时钟分发 │ │
│ │ • MOESI Snoop │ │ • 电源状态管理 │ │
│ │ • DVM(TLB Inv) │ │ • RAS/温度传感器 │ │
│ │ • QoS/VC │ │ • 链路训练状态 │ │
│ └────────┬─────────┘ └────────┬─────────┘ │
│ │ 统一绑定到物理层 │ │
│ └──────┬──────────────┘ │
│ GMI / xGMI / PCIe‑based IF │
└──────────────────────────────────────────────┘
-
SDF(Scalable Data Fabric):传输 CPU/GPU 的读写请求、Cache Snoop(MOESI 协议)、数据响应、DVM(Distributed Virtual Memory,TLB Invalidate 广播)。是真正的"一致性织物"。
-
SCF(Scalable Control Fabric):独立于数据通道,传递 Fabric 频率(FCLK)、电压域、Thermal/RAS 事件、链路训练状态。
2️⃣ IF 协议特性
-
基于早期 HyperTransport 演进,但完全重新设计为 Scalable Coherent Fabric
-
支持 全局 MOESI 缓存一致性域(跨 CCD、跨 Socket、跨 GPU GCD)
-
地址经 Hash 后路由到目标 Node(IOD 上的内存控制器或远端 Socket)
-
多 VC(Virtual Channel):Req / Rsp / Snoop / Data 分开,防 Head‑of‑Line Blocking
-
支持 NUMA 感知——BIOS 报告 P‑state / SRAT 表给 OS
二、封装内 Chiplet 互连——GMI(CCD ↔ IOD)
1️⃣ EPYC / Ryzen 的 Chiplet 拓扑
典型 EPYC Genoa(Zen 4):
┌── CCD0 ──┐
├── CCD1 ──┤
│ ... │◄── GMI3 Links (各 CCD 1×或2× GMI x16)
├── CCD11 ─┤
│ │
┌──▼──────────▼───────────┐
│ IOD (6nm) │← 集成 12×DDR5 MC、PCIe 5.0、USB、SATA
│ SDF Router / Home Node│
│ (维护 MOESI Directory) │
└──────────────────────────┘
-
CCD(Core Complex Die):8 核(Zen 4)= 1×CCX(8核共享 32MB L3),无内存控制器
-
IOD(I/O Die):集中式——DRAM 控制器、IF 主控、PCIe Root Complex
-
每个 CCD 通过 GMI(Global Memory Interconnect) 链路连 IOD(Genoa 用 GMI3)
-
GMI3:~32–36 Gb/s/lane,通常 x16 宽度 → 单链路 ~64 GB/s 双向
-
12‑CCD 配置用单 GMI 链路/CCD;4‑CCD 高端型号可开双链路降延迟
-
2️⃣ GMI vs xGMI 区别
|
GMI (封装内) |
xGMI (跨 Socket / GPU) |
|
|---|---|---|
|
全称 |
Global Memory Interconnect |
eXtended Global Memory Interconnect |
|
用途 |
CCD↔IOD(同封装) |
Socket↔Socket(双路 EPYC)、GPU↔GPU(MI300/Radeon) |
|
PHY |
短距 SerDes(封装基板 RDL) |
长距 SerDes(主板 Trace / Cable) |
|
版本 |
GMI2(IF 2.0) / GMI3(IF 3.0/4.0) |
xGMI2 / xGMI3 |
|
通常宽度 |
x16 per CCD |
x16 per link(双路可 3–4 links/Socket) |
3️⃣ 一致性流转示例(跨 CCD 访远端内存)
-
Core 在 CCD‑A 发 Load → L1 Miss → L2 Miss → L3 Miss
-
CCD‑A SDF 发 Snoop 广播给本 Die 它 CCX(无命中)→ 经 GMI 送 IOD
-
IOD Home Node 查目录 → 若需 Snoop 其它 CCD 则广播;否则直接发 DRAM Read 到 MC
-
DRAM 返回数据 → IOD → GMI → CCD‑A → 填入 L3/L2/L1
✅ 对 OS 来说这是一个 单一 NUMA Node/Domain(IOD 内存),但跨 CCD 访问有明显 IF 延迟(~40–80ns 跨 CCD vs ~30ns 同 CCD)
三、Socket 间 / 多路互连——xGMI(eXtended GMI)
双路 EPYC(Rome/Milan/Genoa)
┌──────────┐ xGMI Links ┌──────────┐
│ EPYC A │ ◄── 3~4× xGMI x16 ──► │ EPYC B │
│ IOD ←→ │ (Infinity Fabric) │ IOD ←→ │
│ 8 CCDs │ │ 8 CCDs │
└──────────┘ └──────────┘
-
xGMI 用与 GMI 相同的事务层(SDF),但物理层适应更长距离 SerDes + 均衡
-
双路 Genoa:通常 3 或 4 条 xGMI x16 Links/Socket → 全双工 ~128 GB/s(IF 3.0 典型)
-
一致性域跨两个 Socket → 全局 MOESI + Directory 分布在两片 IOD
-
BIOS 报告 2 NUMA Nodes(可细分 per CCD 集群)
-
xGMI 也用于 AMD Instinct GPU 多卡直连(GPU↔GPU 构成统一 VRAM 空间)
四、3D V‑Cache——垂直异构 Die 连接(TSV + Hybrid Bonding)
1️⃣ 结构(Ryzen 5800X3D / 7000X3D / EPYC 9004X)
┌──────────────────────┐ ← L3 Cache Die (SRAM, 64MB, 无逻辑)
│ TSV ↑↓ 混合键合界面 │ (Cu‑to‑Cu Direct Bond, ~9–17μm pitch)
├──────────────────────┤ ← CCD (Zen 3/4/5, 面朝 substrate)
│ L3$ 原 32MB + 新增 │
│ Core / L2 / 控制 │
└──────────────────────┘
-
额外 SRAM Die 通过 TSV(Through‑Silicon Via) 垂直连通 CCD
-
键合方式:台积电 SoIC(System on Integrated Chip)Face‑to‑Back Hybrid Bonding——直接铜‑铜介质键合,无微凸块(micro‑bump)
-
互连密度 >> 传统 μ‑bump(约 200× 2D MCM 密度,>15× 传统 3D μ‑bump)
-
L3 Cache 控制器在 CCD 内扩展——SRAM Die 对 Core 来说是 L3 的继续(同延迟量级,略高数 cycle)
2️⃣ 与 Horizontal Chiplet(GMI)对比
|
水平 Chiplet (CCD↔IOD GMI) |
垂直 3D V‑Cache (CCD↔SRAM TSV) |
|
|---|---|---|
|
介质 |
封装基板 RDL + SerDes |
TSV + Hybrid Bond Cu Pad |
|
延迟 |
数十 ns(SerDes 序列化) |
接近原生 L3(+数 cycle) |
|
带宽 |
受 GMI 宽度限制 |
极宽(数千 TSV 并行) |
|
异构性 |
计算 Die + I/O Die |
计算 Die + Cache‑only Die |
五、异构计算 Die 互联——MI300X / MI325X(CPU+GPU APU 封装)
AMD Instinct MI300X 系列将 Zen 4 cIOD(CPU Die 片段)+ GCD(GPU Compute Die)+ HBM3 控制器 Die 封装在同一 MCM:
-
GPU GCD↔GCD:通过片上 Infinity Fabric 互联(类 xGMI,短距 SerDes),构成统一 VRAM 地址空间
-
CPU Die↔GPU Die:IF Link(SDF 层一致),支持 CPU 与 GPU 间 有限缓存一致性 / Unified Virtual Address(UVA)
-
HBM3 Die(Base Die / Silicon Interposer):2.5D 封装(CoWoS / 等效),提供高带宽内存访问
-
xGMI 还可用于多卡 MI300 间 GPU↔GPU 直连(~400–896 GB/s 双向)
六、关键设计参数与注意点
|
项目 |
说明 |
|---|---|
|
FCLK∶UCLK 比 |
IF 频率(FCLK)与内存控制器(UCLK)需同步或成整数比(如 1∶1、1∶2),失配会降频 IF |
|
跨 CCD 延迟 |
同 CCD L3 hit ~30ns;跨 CCD 经 GMI ~60–80ns → 建议线程绑核( |
|
xGMI Link Width |
双路可配 3 或 4 Links——多 Link 增带宽但占 PCIe Lane |
|
3D V‑Cache 散热 |
SRAM Die 在 CCD 上方影响热阻——二代放 SRAM 于 CCD 下方(Face‑to‑Back 反向)改善散热 |
|
NUMA 拓扑 |
BIOS PPTT/SRAT 报告 CCD 分组 → Linux |
七、与 ARM CMN CCG 简要对照
|
维度 |
ARM CMN CCG/CML |
AMD Infinity Fabric (GMI/xGMI) |
|---|---|---|
|
协议 |
AMBA CHI → CCIX/CXL/CHI C2C |
私有 SDF(MOESI Coherent Fabric,HT 衍生) |
|
Die‑to‑Die PHY |
UCIe / XSR / PCIe(Gen5) CXS IF |
GMI(封装内 SerDes)/ xGMI(长距 SerDes) |
|
3D 堆叠 |
无原生(靠封装外挂) |
TSV + Hybrid Bond(3D V‑Cache) |
|
多 Die SMP |
CML_SMP 模式,跨 Die PoC |
多 CCD + IOD 或 双 Socket xGMI 同一一致性域 |
|
异构加速器 |
CXL Type‑2/CCIX |
GPU Die(MI300)via IF;外接 GPU 走 PCIe+CXL 可选 |
更多推荐

所有评论(0)