涵盖 Infinity Fabric 架构、xGMI / GMI 物理层、CCD↔IOD Chiplet 拓扑、3D V‑Cache TSV 堆叠、多 Socket xGMI、以及 MI300 异构 APU 的 GPU↔CPU Die 互联。所有缩写均附英文全称和中文释义。


零、AMD 互连术语缩写速查表

缩写

英文全称

中文释义

IF / Infinity Fabric

Infinity Fabric (Scalable Fabric Interconnect)

AMD 自研可扩展一致性互连架构(协议+控制+数据)

SDF

Scalable Data Fabric

可扩展数据织物——承载地址/数据/一致性请求

SCF

Scalable Control Fabric

可扩展控制织物——时钟、电源、温度、RAS 管理

xGMI

eXtended Global Memory Interconnect

Infinity Fabric 片间(Socket↔Socket 或 GPU↔GPU)物理层链路

GMI

Global Memory Interconnect

Infinity Fabric 封装内 Chiplet(CCD↔IOD)物理层链路

CCD

Core Complex Die

Zen 架构 CPU 计算小芯片(含 CCX / Core / L2 / L3)

CCX

Core Complex

CCD 内 CPU 核组(Zen 2/3:4核+共享L3;Zen 4:8核共享32MB L3)

IOD / cIOD / sIOD

I/O Die (client / server I/O Die)

集中式 I/O 晶粒——内存控制器、PCIe、USB、IF 主控

TSV

Through‑Silicon Via

硅通孔——3D 堆叠 Die 间垂直电信号通道

SoIC

System on Integrated Chip (TSMC 3D Hybrid Bonding Tech)

台积电 3D 混合键合封装工艺(AMD 3D V‑Cache 所用)

NUMA

Non‑Uniform Memory Access

非一致内存访问架构

MOESI

Modified‑Owned‑Exclusive‑Shared‑Invalid

x86 缓存一致性协议状态机(AMD IF 使用变种)

FCLK

Fabric Clock

Infinity Fabric 数据织物工作频率(影响 IF 带宽与延迟)

UCLK

Uncore / Memory Controller Clock

内存控制器时钟

MCM

Multi‑Chip Module

多芯片模块封装

RDL

Redistribution Layer

封装基板重布线层

APU

Accelerated Processing Unit

CPU+GPU 融合处理器

GCD

Graphics Compute Die (in MI series)

AMD Instinct GPU 计算小芯片


一、Infinity Fabric(IF)——AMD 互连的核心架构

Infinity Fabric 不是一条"线",而是一套分层统一互连架构,同时用于片内(Core↔L3↔Memory)、Chiplet 间(CCD↔IOD)、Socket 间(CPU↔CPU)和 GPU 间(MI300 / Radeon)。

1️⃣ 两层结构

┌──────────────────────────────────────────────┐
│          Infinity Fabric (IF)                │
│                                              │
│  ┌──────────────────┐  ┌──────────────────┐ │
│  │ Scalable Data    │  │ Scalable Control │ │
│  │ Fabric (SDF)     │  │ Fabric (SCF)     │ │
│  │ • Req/Addr/Data  │  │ • 时钟分发       │ │
│  │ • MOESI Snoop    │  │ • 电源状态管理   │ │
│  │ • DVM(TLB Inv)   │  │ • RAS/温度传感器 │ │
│  │ • QoS/VC         │  │ • 链路训练状态   │ │
│  └────────┬─────────┘  └────────┬─────────┘ │
│           │ 统一绑定到物理层     │            │
│           └──────┬──────────────┘            │
│              GMI / xGMI / PCIe‑based IF       │
└──────────────────────────────────────────────┘
  • SDF(Scalable Data Fabric):传输 CPU/GPU 的读写请求、Cache Snoop(MOESI 协议)、数据响应、DVM(Distributed Virtual Memory,TLB Invalidate 广播)。是真正的"一致性织物"。

  • SCF(Scalable Control Fabric):独立于数据通道,传递 Fabric 频率(FCLK)、电压域、Thermal/RAS 事件、链路训练状态。


2️⃣ IF 协议特性

  • 基于早期 HyperTransport 演进,但完全重新设计为 Scalable Coherent Fabric

  • 支持 全局 MOESI 缓存一致性域(跨 CCD、跨 Socket、跨 GPU GCD)

  • 地址经 Hash 后路由到目标 Node(IOD 上的内存控制器或远端 Socket)

  • 多 VC(Virtual Channel):Req / Rsp / Snoop / Data 分开,防 Head‑of‑Line Blocking

  • 支持 NUMA 感知——BIOS 报告 P‑state / SRAT 表给 OS


二、封装内 Chiplet 互连——GMI(CCD ↔ IOD)

1️⃣ EPYC / Ryzen 的 Chiplet 拓扑

典型 EPYC Genoa(Zen 4):

┌── CCD0 ──┐
         ├── CCD1 ──┤
         │  ...     │◄── GMI3 Links (各 CCD 1×或2× GMI x16)
         ├── CCD11 ─┤
         │          │
      ┌──▼──────────▼───────────┐
      │      IOD (6nm)           │← 集成 12×DDR5 MC、PCIe 5.0、USB、SATA
      │   SDF Router / Home Node│
      │   (维护 MOESI Directory) │
      └──────────────────────────┘
  • CCD(Core Complex Die):8 核(Zen 4)= 1×CCX(8核共享 32MB L3),无内存控制器

  • IOD(I/O Die):集中式——DRAM 控制器、IF 主控、PCIe Root Complex

  • 每个 CCD 通过 GMI(Global Memory Interconnect)​ 链路连 IOD(Genoa 用 GMI3)

    • GMI3:~32–36 Gb/s/lane,通常 x16 宽度 → 单链路 ~64 GB/s 双向

    • 12‑CCD 配置用单 GMI 链路/CCD;4‑CCD 高端型号可开双链路降延迟


2️⃣ GMI vs xGMI 区别

GMI (封装内)

xGMI (跨 Socket / GPU)

全称

Global Memory Interconnect

eXtended Global Memory Interconnect

用途

CCD↔IOD(同封装)

Socket↔Socket(双路 EPYC)、GPU↔GPU(MI300/Radeon)

PHY

短距 SerDes(封装基板 RDL)

长距 SerDes(主板 Trace / Cable)

版本

GMI2(IF 2.0) / GMI3(IF 3.0/4.0)

xGMI2 / xGMI3

通常宽度

x16 per CCD

x16 per link(双路可 3–4 links/Socket)


3️⃣ 一致性流转示例(跨 CCD 访远端内存)

  1. Core 在 CCD‑A 发 Load → L1 Miss → L2 Miss → L3 Miss

  2. CCD‑A SDF 发 Snoop 广播给本 Die 它 CCX(无命中)→ 经 GMI 送 IOD

  3. IOD Home Node 查目录 → 若需 Snoop 其它 CCD 则广播;否则直接发 DRAM Read 到 MC

  4. DRAM 返回数据 → IOD → GMI → CCD‑A → 填入 L3/L2/L1

✅ 对 OS 来说这是一个 单一 NUMA Node/Domain(IOD 内存),但跨 CCD 访问有明显 IF 延迟(~40–80ns 跨 CCD vs ~30ns 同 CCD)


三、Socket 间 / 多路互连——xGMI(eXtended GMI)

双路 EPYC(Rome/Milan/Genoa)

┌──────────┐      xGMI Links       ┌──────────┐
│ EPYC A   │ ◄── 3~4× xGMI x16 ──► │ EPYC B   │
│ IOD ←→  │   (Infinity Fabric)   │ IOD ←→  │
│ 8 CCDs  │                        │ 8 CCDs  │
└──────────┘                        └──────────┘
  • xGMI 用与 GMI 相同的事务层(SDF),但物理层适应更长距离 SerDes + 均衡

  • 双路 Genoa:通常 3 或 4 条 xGMI x16 Links/Socket → 全双工 ~128 GB/s(IF 3.0 典型)

  • 一致性域跨两个 Socket → 全局 MOESI + Directory 分布在两片 IOD

  • BIOS 报告 2 NUMA Nodes(可细分 per CCD 集群)

  • xGMI 也用于 AMD Instinct GPU 多卡直连(GPU↔GPU 构成统一 VRAM 空间)


四、3D V‑Cache——垂直异构 Die 连接(TSV + Hybrid Bonding)

1️⃣ 结构(Ryzen 5800X3D / 7000X3D / EPYC 9004X)

┌──────────────────────┐  ← L3 Cache Die (SRAM, 64MB, 无逻辑)
│  TSV ↑↓ 混合键合界面  │    (Cu‑to‑Cu Direct Bond, ~9–17μm pitch)
├──────────────────────┤  ← CCD (Zen 3/4/5, 面朝 substrate)
│  L3$ 原 32MB + 新增  │
│  Core / L2 / 控制    │
└──────────────────────┘
  • 额外 SRAM Die 通过 TSV(Through‑Silicon Via)​ 垂直连通 CCD

  • 键合方式:台积电 SoIC(System on Integrated Chip)Face‑to‑Back Hybrid Bonding——直接铜‑铜介质键合,无微凸块(micro‑bump)

  • 互连密度 >> 传统 μ‑bump(约 200× 2D MCM 密度,>15× 传统 3D μ‑bump)

  • L3 Cache 控制器在 CCD 内扩展——SRAM Die 对 Core 来说是 L3 的继续(同延迟量级,略高数 cycle)

2️⃣ 与 Horizontal Chiplet(GMI)对比

水平 Chiplet (CCD↔IOD GMI)

垂直 3D V‑Cache (CCD↔SRAM TSV)

介质

封装基板 RDL + SerDes

TSV + Hybrid Bond Cu Pad

延迟

数十 ns(SerDes 序列化)

接近原生 L3(+数 cycle)

带宽

受 GMI 宽度限制

极宽(数千 TSV 并行)

异构性

计算 Die + I/O Die

计算 Die + Cache‑only Die


五、异构计算 Die 互联——MI300X / MI325X(CPU+GPU APU 封装)

AMD Instinct MI300X 系列将 Zen 4 cIOD(CPU Die 片段)+ GCD(GPU Compute Die)+ HBM3 控制器 Die​ 封装在同一 MCM:

  • GPU GCD↔GCD:通过片上 Infinity Fabric 互联(类 xGMI,短距 SerDes),构成统一 VRAM 地址空间

  • CPU Die↔GPU Die:IF Link(SDF 层一致),支持 CPU 与 GPU 间 有限缓存一致性 / Unified Virtual Address(UVA)

  • HBM3 Die(Base Die / Silicon Interposer):2.5D 封装(CoWoS / 等效),提供高带宽内存访问

  • xGMI 还可用于多卡 MI300 间 GPU↔GPU 直连(~400–896 GB/s 双向)


六、关键设计参数与注意点

项目

说明

FCLK∶UCLK 比

IF 频率(FCLK)与内存控制器(UCLK)需同步或成整数比(如 1∶1、1∶2),失配会降频 IF

跨 CCD 延迟

同 CCD L3 hit ~30ns;跨 CCD 经 GMI ~60–80ns → 建议线程绑核(taskset/numactl

xGMI Link Width

双路可配 3 或 4 Links——多 Link 增带宽但占 PCIe Lane

3D V‑Cache 散热

SRAM Die 在 CCD 上方影响热阻——二代放 SRAM 于 CCD 下方(Face‑to‑Back 反向)改善散热

NUMA 拓扑

BIOS PPTT/SRAT 报告 CCD 分组 → Linux numactl -H可见


七、与 ARM CMN CCG 简要对照

维度

ARM CMN CCG/CML

AMD Infinity Fabric (GMI/xGMI)

协议

AMBA CHI → CCIX/CXL/CHI C2C

私有 SDF(MOESI Coherent Fabric,HT 衍生)

Die‑to‑Die PHY

UCIe / XSR / PCIe(Gen5) CXS IF

GMI(封装内 SerDes)/ xGMI(长距 SerDes)

3D 堆叠

无原生(靠封装外挂)

TSV + Hybrid Bond(3D V‑Cache)

多 Die SMP

CML_SMP 模式,跨 Die PoC

多 CCD + IOD 或 双 Socket xGMI 同一一致性域

异构加速器

CXL Type‑2/CCIX

GPU Die(MI300)via IF;外接 GPU 走 PCIe+CXL 可选


Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐