AMD 的异构 Die / Chiplet 连接方案

dadaobusi

135人浏览 · 2026-06-16 10:45:16

dadaobusi · 2026-06-16 10:45:16 发布

涵盖 Infinity Fabric 架构、xGMI / GMI 物理层、CCD↔IOD Chiplet 拓扑、3D V‑Cache TSV 堆叠、多 Socket xGMI、以及 MI300 异构 APU 的 GPU↔CPU Die 互联。所有缩写均附英文全称和中文释义。

零、AMD 互连术语缩写速查表

缩写	英文全称	中文释义
IF / Infinity Fabric	Infinity Fabric (Scalable Fabric Interconnect)	AMD 自研可扩展一致性互连架构（协议+控制+数据）
SDF	Scalable Data Fabric	可扩展数据织物——承载地址/数据/一致性请求
SCF	Scalable Control Fabric	可扩展控制织物——时钟、电源、温度、RAS 管理
xGMI	eXtended Global Memory Interconnect	Infinity Fabric 片间（Socket↔Socket 或 GPU↔GPU）物理层链路
GMI	Global Memory Interconnect	Infinity Fabric 封装内 Chiplet（CCD↔IOD）物理层链路
CCD	Core Complex Die	Zen 架构 CPU 计算小芯片（含 CCX / Core / L2 / L3）
CCX	Core Complex	CCD 内 CPU 核组（Zen 2/3：4核+共享L3；Zen 4：8核共享32MB L3）
IOD / cIOD / sIOD	I/O Die (client / server I/O Die)	集中式 I/O 晶粒——内存控制器、PCIe、USB、IF 主控
TSV	Through‑Silicon Via	硅通孔——3D 堆叠 Die 间垂直电信号通道
SoIC	System on Integrated Chip (TSMC 3D Hybrid Bonding Tech)	台积电 3D 混合键合封装工艺（AMD 3D V‑Cache 所用）
NUMA	Non‑Uniform Memory Access	非一致内存访问架构
MOESI	Modified‑Owned‑Exclusive‑Shared‑Invalid	x86 缓存一致性协议状态机（AMD IF 使用变种）
FCLK	Fabric Clock	Infinity Fabric 数据织物工作频率（影响 IF 带宽与延迟）
UCLK	Uncore / Memory Controller Clock	内存控制器时钟
MCM	Multi‑Chip Module	多芯片模块封装
RDL	Redistribution Layer	封装基板重布线层
APU	Accelerated Processing Unit	CPU+GPU 融合处理器
GCD	Graphics Compute Die (in MI series)	AMD Instinct GPU 计算小芯片

一、Infinity Fabric（IF）——AMD 互连的核心架构

Infinity Fabric 不是一条"线"，而是一套分层统一互连架构，同时用于片内（Core↔L3↔Memory）、Chiplet 间（CCD↔IOD）、Socket 间（CPU↔CPU）和 GPU 间（MI300 / Radeon）。

1️⃣ 两层结构

┌──────────────────────────────────────────────┐
│          Infinity Fabric (IF)                │
│                                              │
│  ┌──────────────────┐  ┌──────────────────┐ │
│  │ Scalable Data    │  │ Scalable Control │ │
│  │ Fabric (SDF)     │  │ Fabric (SCF)     │ │
│  │ • Req/Addr/Data  │  │ • 时钟分发       │ │
│  │ • MOESI Snoop    │  │ • 电源状态管理   │ │
│  │ • DVM(TLB Inv)   │  │ • RAS/温度传感器 │ │
│  │ • QoS/VC         │  │ • 链路训练状态   │ │
│  └────────┬─────────┘  └────────┬─────────┘ │
│           │ 统一绑定到物理层     │            │
│           └──────┬──────────────┘            │
│              GMI / xGMI / PCIe‑based IF       │
└──────────────────────────────────────────────┘

SDF（Scalable Data Fabric）：传输 CPU/GPU 的读写请求、Cache Snoop（MOESI 协议）、数据响应、DVM（Distributed Virtual Memory，TLB Invalidate 广播）。是真正的"一致性织物"。
SCF（Scalable Control Fabric）：独立于数据通道，传递 Fabric 频率（FCLK）、电压域、Thermal/RAS 事件、链路训练状态。

2️⃣ IF 协议特性

基于早期 HyperTransport 演进，但完全重新设计为 Scalable Coherent Fabric
支持 全局 MOESI 缓存一致性域（跨 CCD、跨 Socket、跨 GPU GCD）
地址经 Hash 后路由到目标 Node（IOD 上的内存控制器或远端 Socket）
多 VC（Virtual Channel）：Req / Rsp / Snoop / Data 分开，防 Head‑of‑Line Blocking
支持 NUMA 感知——BIOS 报告 P‑state / SRAT 表给 OS

二、封装内 Chiplet 互连——GMI（CCD ↔ IOD）

1️⃣ EPYC / Ryzen 的 Chiplet 拓扑

典型 EPYC Genoa（Zen 4）：

┌── CCD0 ──┐
         ├── CCD1 ──┤
         │  ...     │◄── GMI3 Links (各 CCD 1×或2× GMI x16)
         ├── CCD11 ─┤
         │          │
      ┌──▼──────────▼───────────┐
      │      IOD (6nm)           │← 集成 12×DDR5 MC、PCIe 5.0、USB、SATA
      │   SDF Router / Home Node│
      │   (维护 MOESI Directory) │
      └──────────────────────────┘

CCD（Core Complex Die）：8 核（Zen 4）= 1×CCX（8核共享 32MB L3），无内存控制器
IOD（I/O Die）：集中式——DRAM 控制器、IF 主控、PCIe Root Complex
每个 CCD 通过 GMI（Global Memory Interconnect） 链路连 IOD（Genoa 用 GMI3）
- GMI3：~32–36 Gb/s/lane，通常 x16 宽度 → 单链路 ~64 GB/s 双向
- 12‑CCD 配置用单 GMI 链路/CCD；4‑CCD 高端型号可开双链路降延迟

2️⃣ GMI vs xGMI 区别

	GMI (封装内)	xGMI (跨 Socket / GPU)
全称	Global Memory Interconnect	eXtended Global Memory Interconnect
用途	CCD↔IOD（同封装）	Socket↔Socket（双路 EPYC）、GPU↔GPU（MI300/Radeon)
PHY	短距 SerDes（封装基板 RDL）	长距 SerDes（主板 Trace / Cable）
版本	GMI2(IF 2.0) / GMI3(IF 3.0/4.0)	xGMI2 / xGMI3
通常宽度	x16 per CCD	x16 per link（双路可 3–4 links/Socket）

3️⃣ 一致性流转示例（跨 CCD 访远端内存）

Core 在 CCD‑A 发 Load → L1 Miss → L2 Miss → L3 Miss
CCD‑A SDF 发 Snoop 广播给本 Die 它 CCX（无命中）→ 经 GMI 送 IOD
IOD Home Node 查目录 → 若需 Snoop 其它 CCD 则广播；否则直接发 DRAM Read 到 MC
DRAM 返回数据 → IOD → GMI → CCD‑A → 填入 L3/L2/L1

✅ 对 OS 来说这是一个 单一 NUMA Node/Domain（IOD 内存），但跨 CCD 访问有明显 IF 延迟（~40–80ns 跨 CCD vs ~30ns 同 CCD）

三、Socket 间 / 多路互连——xGMI（eXtended GMI）

双路 EPYC（Rome/Milan/Genoa）

┌──────────┐      xGMI Links       ┌──────────┐
│ EPYC A   │ ◄── 3~4× xGMI x16 ──► │ EPYC B   │
│ IOD ←→  │   (Infinity Fabric)   │ IOD ←→  │
│ 8 CCDs  │                        │ 8 CCDs  │
└──────────┘                        └──────────┘

xGMI 用与 GMI 相同的事务层（SDF），但物理层适应更长距离 SerDes + 均衡
双路 Genoa：通常 3 或 4 条 xGMI x16 Links/Socket → 全双工 ~128 GB/s（IF 3.0 典型）
一致性域跨两个 Socket → 全局 MOESI + Directory 分布在两片 IOD
BIOS 报告 2 NUMA Nodes（可细分 per CCD 集群）
xGMI 也用于 AMD Instinct GPU 多卡直连（GPU↔GPU 构成统一 VRAM 空间）

四、3D V‑Cache——垂直异构 Die 连接（TSV + Hybrid Bonding）

1️⃣ 结构（Ryzen 5800X3D / 7000X3D / EPYC 9004X）

┌──────────────────────┐  ← L3 Cache Die (SRAM, 64MB, 无逻辑)
│  TSV ↑↓ 混合键合界面  │    (Cu‑to‑Cu Direct Bond, ~9–17μm pitch)
├──────────────────────┤  ← CCD (Zen 3/4/5, 面朝 substrate)
│  L3$ 原 32MB + 新增  │
│  Core / L2 / 控制    │
└──────────────────────┘

额外 SRAM Die 通过 TSV（Through‑Silicon Via） 垂直连通 CCD
键合方式：台积电 SoIC（System on Integrated Chip）Face‑to‑Back Hybrid Bonding——直接铜‑铜介质键合，无微凸块（micro‑bump）
互连密度 >> 传统 μ‑bump（约 200× 2D MCM 密度，>15× 传统 3D μ‑bump）
L3 Cache 控制器在 CCD 内扩展——SRAM Die 对 Core 来说是 L3 的继续（同延迟量级，略高数 cycle）

2️⃣ 与 Horizontal Chiplet（GMI）对比

	水平 Chiplet (CCD↔IOD GMI)	垂直 3D V‑Cache (CCD↔SRAM TSV)
介质	封装基板 RDL + SerDes	TSV + Hybrid Bond Cu Pad
延迟	数十 ns（SerDes 序列化）	接近原生 L3（+数 cycle）
带宽	受 GMI 宽度限制	极宽（数千 TSV 并行）
异构性	计算 Die + I/O Die	计算 Die + Cache‑only Die

五、异构计算 Die 互联——MI300X / MI325X（CPU+GPU APU 封装）

AMD Instinct MI300X 系列将 Zen 4 cIOD（CPU Die 片段）+ GCD（GPU Compute Die）+ HBM3 控制器 Die 封装在同一 MCM：

GPU GCD↔GCD：通过片上 Infinity Fabric 互联（类 xGMI，短距 SerDes），构成统一 VRAM 地址空间
CPU Die↔GPU Die：IF Link（SDF 层一致），支持 CPU 与 GPU 间 有限缓存一致性 / Unified Virtual Address（UVA）
HBM3 Die（Base Die / Silicon Interposer）：2.5D 封装（CoWoS / 等效），提供高带宽内存访问
xGMI 还可用于多卡 MI300 间 GPU↔GPU 直连（~400–896 GB/s 双向）

六、关键设计参数与注意点

项目	说明
FCLK∶UCLK 比	IF 频率（FCLK）与内存控制器（UCLK）需同步或成整数比（如 1∶1、1∶2），失配会降频 IF
跨 CCD 延迟	同 CCD L3 hit ~30ns；跨 CCD 经 GMI ~60–80ns → 建议线程绑核（`taskset`/`numactl`）
xGMI Link Width	双路可配 3 或 4 Links——多 Link 增带宽但占 PCIe Lane
3D V‑Cache 散热	SRAM Die 在 CCD 上方影响热阻——二代放 SRAM 于 CCD 下方（Face‑to‑Back 反向）改善散热
NUMA 拓扑	BIOS PPTT/SRAT 报告 CCD 分组 → Linux `numactl -H`可见

七、与 ARM CMN CCG 简要对照

维度	ARM CMN CCG/CML	AMD Infinity Fabric (GMI/xGMI)
协议	AMBA CHI → CCIX/CXL/CHI C2C	私有 SDF（MOESI Coherent Fabric，HT 衍生）
Die‑to‑Die PHY	UCIe / XSR / PCIe(Gen5) CXS IF	GMI（封装内 SerDes）/ xGMI（长距 SerDes）
3D 堆叠	无原生（靠封装外挂）	TSV + Hybrid Bond（3D V‑Cache）
多 Die SMP	CML_SMP 模式，跨 Die PoC	多 CCD + IOD 或双 Socket xGMI 同一一致性域
异构加速器	CXL Type‑2/CCIX	GPU Die（MI300）via IF；外接 GPU 走 PCIe+CXL 可选