GPU高速互联技术NVLink和PCIe

行业过去尝试用PCIe交换技术做Scale-Up，但NVLink被视为黄金标准；为了对标NVLink，业界新兴的UALink即为专门的加速器Scale-Up互联协议，支持千余节点和超大带宽。此外，CXL提供CPU到加速器或内存扩展的缓存一致性协议，也是Scale-Up架构中常见的技术之一。

zshield

2241人浏览 · 2025-08-30 21:46:32

zshield · 2025-08-30 21:46:32 发布

在AI智算中心中，横向扩展（Scale-Out）与纵向扩展（Scale-Up）分别对应不同的互联层面和技术选型。Scale-Out指跨服务器节点的扩展：各机柜或节点通过网卡与交换机互连，构建数千至数万个GPU/节点的大规模集群。此场景下常用Ethernet或Infiniband网络。Ethernet（尤其是经过UEC优化的超以太网）以广泛部署著称，可利用低成本交换设备实现大规模互联，支持多达数百万终端；InfiniBand则提供传统的低时延、RDMA能力，曾是HPC的主流后端网络。Scale-Out网络关注的是带宽密度、拥塞控制与容错，UEC和Infiniband均支持RDMA以提供算集群内部高效数据流；最新的UEC也专注于“极致带宽和低时延特性”来挑战Infiniband。

Scale-Up指单个服务器或超级节点内部的扩展：在机架或节点内将多块GPU、加速卡连接起来，实现“超节点”级别的并行计算。Scale-Up互联强调极低时延和共享内存语义。例如NVIDIA DGX系列内置NVSwitch以实现多达数十块GPU内存一致访问；ASIC厂商亦推出各类加速器SoC和CXL互联，以供CPU与加速器共享内存。STH指出，行业过去尝试用PCIe交换技术做Scale-Up，但NVLink被视为黄金标准；为了对标NVLink，业界新兴的UALink即为专门的加速器Scale-Up互联协议，支持千余节点和超大带宽。此外，CXL提供CPU到加速器或内存扩展的缓存一致性协议，也是Scale-Up架构中常见的技术之一。

具体技术定位归纳如下：

PCIe：通用I/O互连技术，用于服务器主板内CPU与GPU/NIC/SSD等设备连接，主要在Scale-Up层面上提供通道（但原生不具备跨节点互连）。未来PCIe 6.0/7.0可以通过光学互连或远程PCIe扩展卡进行节点间连接，但目前主要局限于机内互连。
CXL：基于PCIe的缓存一致互连标准，用于CPU和加速器/内存之间共享内存、资源聚合，典型用于单服务器内部Scale-Up（例如内存池化或GPU直连内存访问），强调高带宽和缓存一致性。
UEC / 超以太网：增强型以太网通信栈，定位于Scale-Out场景。它利用以太网技术优势，加入低延迟RDMA、优先流控等特性，面向成千上万节点的AI/HPC集群网络互联。
UALink：开源加速器Scale-Up互连协议，定位类似NVLink但开放标准。它在一个超节点内提供高带宽（≥200Gbps通道）、低延迟、GPU显存共享等能力，允许不同厂商GPU/加速器协同工作。
NVLink：NVIDIA专有的Scale-Up互连技术，用于GPU–GPU或GPU–CPU连接。通过NVSwitch可实现数十GPU的全连接网络，具备超低延迟和显存共享功能，广泛用于NVIDIA高端AI系统。
InfiniBand：标准HPC互连网络，适用于Scale-Out。InfiniBand以超低延迟（微秒级）和硬件级RDMA著称，是很多AI训练集群的后端网络首选。当前InfiniBand阵营也在与以太网阵营争夺AI互联标准席位。

综上，在AI计算中心，Scale-Up和Scale-Out架构需要不同互联技术的协同：Scale-Up内网互联（PCIe、CXL、UALink/NVLink）负责节点内各加速单元的高速协同与内存访问；Scale-Out网络（UEC以太网、Infiniband等）则负责节点间数据通信与任务分发。各类技术在实际部署中会根据应用特点取舍。例如，企业AI集群往往使用Ethernet+Infiniband做Scale-Out网络，同时在节点内采用NVLink/CXL实现GPU加速器的高效互连。

GPU 网络互联技术PCIe和NVLink

为应对大模型在并行策略、带宽、延迟与可扩展性上的严苛诉求，业界先后推出多种 GPU 互联技术，从板级总线到芯片级交换、从节点内高速链路到跨节点 RDMA 网络，层层递进、互为补充。下文按演进顺序逐一剖析这些技术的架构特点、性能边界与适用场景。

网络互联在分布式系统中至关重要。在分布式系统中，网络提供必要的连接，可分为单卡、多卡和多机互联。单卡内的网络用于计算神经网络，而多卡之间的互联（即 GPU 互联）通常采用 PCIe 或各种高带宽通信网络。多机之间的互联（即服务器互联）通常采用远程直接内存访问（RDMA）网络。如下图所示：

（一）PCIe

PCIe（Peripheral Component Interconnect Express）作为一种传统的高速串行计算机扩展总线标准，在早期的 GPU 连接中应用广泛，常用于 GPU 与 CPU 之间的连接。它采用端对端的数据传输链路，链路两端各接入一个设备。

PCIe的带宽由两个主要因素共同决定：PCIe代数（Gen）和通道数量（xN）。PCIe代数决定了每个通道的数据传输速率，通道数量则决定了有多少个这样的通道并行工作。PCIe 设备可根据需求使用不同数量的通道（如 x1、x4、x8、x16 等），总带宽为单通道带宽乘以通道数。例如，PCIe 4.0 x16 的总带宽是单通道带宽的 16 倍。

图二、GPU与CPU间通过 PCIe交换机进行硬件互联

如图，在 DGX-1 系统中，多个 GPU 通过 PCIe 交换机连接CPU形成平衡的树状结构。然而，随着 GPU 计算需求的不断提升，PCIe 的局限性愈发明显。与 CPU 和 DRAM 之间的互连相比，PCIe 速度较慢，成为 GPU 加速的性能瓶颈。在多 GPU 系统中，当 GPU 数量增多时，PCIe 容易出现带宽竞争的情况，导致数据传输延迟增加。以 PCIe 3.0 为例，其 16 通道的带宽为 32GB/s，在面对大模型训练中大量数据的高速传输需求时，显得捉襟见肘。尽管 PCIe 不断升级，到 PCIe 6.0 时传输速率高达 64GT/s，16 通道带宽达到 256GB/s，但在 GPU 多卡通信场景下，其效率仍难以满足需求。特别是在 GPU 进行并行计算时，PCIe 链路接口的串并转换会产生网络延时，并且 GPU 发出的信号需先传递到 PCIe Switch，PCIe Switch 的数据处理又会造成额外延时，再加上 PCIe 总线与存储器地址分离，每次访问内存都会加重网络延迟，这些因素综合起来严重影响了 GPU 并行计算的效率。在一些早期搭建的科研计算平台中，使用 PCIe 互联多块 GPU 训练中型图像识别模型时，就因带宽限制和延迟问题，导致训练周期比预期延长了 30%。

PCIeSwitch 具备连接和交换双重功能，可以让一个 PCIe 端口识别和连接更多设备，解决通道数量不够的问题，并可以将多条 PCIe 总线连接在一起，从而形成一个高速网络，实现多设备通信，简言之 PCIe Switch 相当于 PCIe 的拓展器。

从2022年正式发布PCIe 6.0，PCIe SIG组织好像也急不可耐地直接启动了PCIe 8.0规范，把PCIe 8.0提上日程。根据PCIe SIG的计划，2028年实现256 GT/s的速率和x16双向1 TB/s带宽。

此外，为了确保PCIe 8.0 互连的可靠性、可用的信噪比、一致的性能、可接受的信号损失、信号完整性和电源效率，PCI-SIG 现在正在审查一种新的互连技术，同时保持与上一代 PCIe 实现的向后兼容性。该规范还将引入协议增强功能以优化带宽使用，以及提高电源效率的方法。

PCIe 8.0强确实是强，但是的确是有点仓促了：目前市场上PCIe 6.0产品仍处于部署初期阶段，大多集中在数据中心级别硬件中，PCI-SIG计划在2025年上半年完成PCIe 7.0规范，并随后于2028年发布PCIe 8.0规范。按照时间来看，三年翻一倍速度也是PCIe的老传统了，但是真的要用到产业里，怎么也得2030年了。

不过PCIe本来就很重要，PCIe 8.0肯定是大势所趋了。

PCIe互连芯片行业竞争格局呈现头部集中态势，前五大厂商占据超90%的市场份额。博通是全球最大的PCIe交换芯片生产商，处于领先地位。微芯科技等厂商也占据一定份额，属于第一梯队。澜起科技在PCIe Retimer芯片领域全球排名第二，是国内该领域的重要力量。国内企业虽市占率目前不高，但发展迅速，逐步缩小与国际巨头差距。

PCIe互连芯片行业重点企业

（二）NVLink

2014年，NVIDIA在不断提升显卡性能的同时，基于早期消费级的SLI技术（Scalable Link Interface），推出了用于GPU高速互联的新协议——NVLink，彻底突破了PCIe协议对GPU对外数据传输速率的限制。该技术在NVIDIA 2016年推出的DGX-1系统中成功商用，实现了8个P100 GPU的高速互联，带宽达到160 GB/s，相较当时的PCIe 3.0技术实现了5倍性能提升。

NVLink1-serve

随后，NVLink技术一路高歌猛进，每一代更新都实现了带宽的倍增：NVLink 2.0（Volta架构）达到300GB/s，NVLink 3.0（Ampere架构）提升至600GB/s，NVLink 4.0（Hopper架构）实现了900GB/s，NVLink 5.0（Blackwell架构）更将带宽推至1.8TB/s，支持最多576个GPU在一个域内互联，展现了卓越的可扩展性。

与传统的PCIe连接相比，NVLink提供了显著的带宽提升和极低的通信延迟，使多个GPU能够高效共享内存资源，从而成为训练大规模AI模型和进行科学计算的关键使能技术。时至今日，NVLink已经发展成为AI和高性能计算(HPC)领域最重要的互连标准之一。

NNVLink架构及原理

物理层结构与SerDes技术

Technology

NVLink技术的物理层基于高速SerDes（串行器/解串行器）实现，这是其卓越带宽性能的硬件基础。SerDes技术在高速互连中扮演着关键角色，负责将并行数据转换为高速串行信号进行传输。在最新的GB200芯片中，每个B200 GPU集成了72对200G SerDes，支持1.8TB/s的NVLink 5.0链路带宽。这些SerDes链路通过极细间距的微凸块与封装基板连接，实现了高密度布线，为GPU间提供了超高速的通信通道。

NVLink的物理层采用差分信号传输方式，通过多对导线并行传输数据。每一条NVLink通道由多个差分对组成，支持高速信号传输。第四代NVLink实现了每通道25Gbps的数据速率，而第五代进一步提升了这一数值。物理层还包含了时钟数据恢复（CDR）和自适应均衡技术，确保在高速传输下信号的完整性。这些技术进步使得NVLink能够在保持低功耗的同时，实现远超PCIe的带宽性能。

协议栈设计

Technology

NVLink的协议栈分为三层：物理层（PHY）、数据链路层（DL）和交易层（TL）。这种分层设计与网络协议栈类似，每一层承担特定功能：

· 物理层：处理最底层的电气信号、时钟恢复和串行化/反串行化操作。

· 数据链路层：负责错误检测和纠正、流量控制以及链路管理。NVLink使用基于CRC的错误检测和重传机制确保数据可靠性。

· 交易层：处理高层事务，如读写请求和响应，以及缓存一致性协议。

NVLink协议针对GPU通信模式进行了优化，特别适合处理小数据包和顺序交付。与PCIe相比，NVLink协议开销更小，能够更有效地利用可用带宽。此外，NVLink实现了完全缓存一致性，允许CPU和GPU共享统一的内存地址空间，无需开发者手动维护数据一致性。

内存一致性模型

Technology

NVLink的一个重要特性是实现了内存一致性模型，允许GPU直接访问彼此的内存而不需要CPU干预。这种一致性是通过地址映射和监听过滤器实现的。当GPU需要访问另一个GPU的内存时，NVLink会将远程内存映射到本地地址空间，使得访问远程内存就像访问本地内存一样简单。

这种内存一致性模型对于简化多GPU编程具有重要意义。开发者可以使用统一的内存视图，而不需要显式地在GPU之间移动数据。NVLink还支持原子操作，允许多个GPU同时操作同一内存地址而不会产生数据竞争，这对于并行算法设计极为重要。

拓扑结构与NVSwitch

Technology

NVLink支持多种拓扑结构，包括网状连接、星型连接以及通过NVSwitch的全互联结构。NVSwitch是英伟达开发的专门用于NVLink网络的交换芯片，它允许多个GPU全互联，每个GPU对之间都能同时以最高带宽通信。

NVLink Switch协同NVLink释放数据传输能力。NVLink Switch通过连接多个 NVLink，实现机架内和机架间全速度的GPU通信，达到1.8TB/ 双向直接 GPU 到 GPU互联速率，极大地扩展服务器内多GPU的输入和输出能力。NVLink Switch还配备NVIDIA可扩展分层聚合和缩减协议（SHARP）™ 引擎，优化网络内缩减和多播加速，进一步提高了通信效率。

最新一代NVSwitch支持最多72个GPU的全互联，提供1,800GB/s的all-to-all带宽，总聚合带宽高达130TB/s——比第一代提高了800倍。NVSwitch使用分布式交换架构，内含多个交换芯片协同工作，管理复杂的路由和拥塞控制，防止网络中出现瓶颈。

目前，NVLink Switch已经发展到4.0版本。

（三）PCIe VS NVLink

SerDes速率作为高速传输的底层技术，SerDes的速率发展一直是跑在最前面的，这就好像只有掌握了高速路/高架桥/高速铁轨的修造技术，才可能有实际的高速车/高铁运行一样。所以，包括以太网在内，PCIe与NVlink单通道的速率一般都小于同时期的SerDes速率。与PCIe等应用速率的提升不一样，SerDes的速率发展主要取决于物理层芯片制程的发展，芯片制程越高，栅极越小，功耗越低，SerDes速率越高。当前SerDes速率已经由112Gbps向224Gbps发展，其芯片也由5-7nm向3nm发展。

前面我们已经讲过PCIe与NVLink的总速率，总速率除以通道数即单通道的传输速率，这也是影响pcb设计与加工最重要的一个因素。下面就来直接看不同代际间PCIe与NVlink的速率变化，下面是我自己做的一张速率发展图。从图中也印证了我们之前讲的SerDes速率均高于PCIe/NVlink的速率。

与PCIe 相比，NVLink明显的优势就是高带宽和低延迟，我们先来看看他们的速度对比。传统的PCIe5.0x16规格下互联速度为128GB每秒，而第四代NVLink的规格下，直接达到900GB每秒，也就是PCIe的7倍多（参考下图）

另外，为了更直观地区别他们之间的数据传输差距，从下图可以看出，传统的PCIe数据交互方式是CPU与GPU之间的数据交互，图中可以看出带宽非常的细窄，而NVLink的交互方式直接绕开了CPU，通过GPU和GPU直连的方式进行数据交互，传输的通道非常地宽敞。

如果对于注重GPU之间数据通信的大规模训练来说，NVLink无疑是最佳性能选择，这也就是目前NVLink在人工智能领域大行其道的主要原因。虽然NVLink的价格目前不菲，但是综合时间成本和效率对比的话，它的训练效率和性价比还是比PCIe高出很多的。

图：PCIe和NVLink的区别

两者优缺点比较具体如下表所示：

PCIe广泛应用于各种计算机硬件设备，包括显卡、声卡、网卡等。由于其良好的兼容性和扩展性，PCIe已成为计算机系统中不可或缺的一部分。

NVLink主要用于高性能计算和数据中心领域，特别是在需要将多个GPU连接在一起以加速计算任务的应用中。NVLink的高带宽和低延迟特性使其成为此类应用的理想选择。

附其他GPU高速互联技术：

（一）GPUDirect

GPUDirect 是推出的一项重要技术，它允许第三方 PCIe 设备（尤其是 InfiniBand 主机通道适配器 HCA）直接访问 GPU 设备内存，而无需 CPU 协助或通过主内存进行数据传输。这一特性显著提高了节点间 GPU 通信的效率，因为它减少了 CPU 的负担，并且能够实现更快速的数据传输。

GPUDirect 通过 GPU 供应商提供的操作系统内核扩展，返回 GPU 设备内存的直接内存访问（DMA）总线映射。这意味着，当用户创建 InfiniBand 区域时，InfiniBand 驱动程序会调用相关例程获取 DMA 映射，最终将正常的 InfiniBand 虚拟内存结构返回给用户程序。这样，用户程序就可以像操作正常的 CPU 内存一样，直接对 GPU 设备内存进行操作，从而实现高效的数据传输和处理。

此外，GPUDirect 技术还包括 GPUDirect RDMA（远程直接内存访问），它进一步扩展了 GPUDirect 的功能，允许在不同节点的 GPU 之间直接传输数据，而无需 CPU 的介入。这在高性能计算和数据中心环境中尤其有用，因为它可以显著减少延迟并提高整体系统的性能。

图五、GPUDirect 1.0 vs. GPUDirect RDMA

如图，展示两种GPUDirect传输数据方式，其中GPUDirect 1.0的数据传输需要经过CPU和系统内存中转，路径冗长，导致效率较低。GPUDirect RDMA则允许InfiniBand网卡直接访问GPU内存，绕过CPU和系统内存，实现GPU到GPU的高效、直接传输。

（二）Infiniband

Infiniband（IB) 是专为 RDMA（远程直接内存访问）设计的网络，从硬件级别保证了可靠传输。RDMA是一种允许计算机在不经过CPU干预的情况下直接访问另一台计算机内存的技术，通常用于节点间的通信。它就像连接不同城市的铁路或长途公路，适合长距离、大规模数据的传输，虽然速度可能不如NVLink快，但在跨节点通信中具有高效、稳定的特点。

Infiniband 具备更高的带宽和更低的时延，非常适合高性能计算、大数据分析等对 IO 高并发、低时延要求极高的场景。在大模型训练的分布式系统中，Infiniband 能够为多机之间的互联提供高效的数据传输通道。

图六、GPU机器内互联 vs. 机器间互联

如图，展示了多机 GPU 集群网络架构：机器内（红色）实现 GPU 互连，跨机（蓝色）通过基于InfiniBand的RDMA 通信，经基础网络设备（黑色）连接，支撑分布式并行计算的高速数据交互，比如多机多GPU训练。

在一些大型的数据中心中，采用 Infiniband 网络连接各个计算节点，可实现节点之间数百 GB/s 甚至更高的带宽传输。然而，Infiniband 的缺点也较为明显，其成本较高，不仅需要配备专门的 IB 网卡，还需使用 IB 交换机，这使得整个系统的建设成本大幅增加，在一定程度上限制了其在一些对成本较为敏感的场景中的广泛应用。谷歌在训练大型语言模型时，就采用了 Infiniband 网络构建数据中心集群，尽管成本高昂，但凭借其高带宽和低延迟特性，大幅提升了模型训练速度，助力其在人工智能领域保持领先地位。

（三）RoCE

RoCE（RDMA over Converged Ethernet）是基于以太网实现 RDMA 功能的技术。与 Infiniband 不同，RoCE 可以使用普通的以太网交换机，这大大降低了硬件成本。它通过在以太网上实现 RDMA 协议，使得数据可以直接远程访问内存，无需操作系统内核过多介入，从而不占用 CPU 资源，显著提高数据传输性能并降低延迟。在实际应用中，对于一些对成本较为敏感且对网络性能有一定要求的大模型训练场景，RoCE 成为了一种较为理想的选择。

图七、使用GPU的典型TCP/IP应用程序与使用RoCE RDMA的应用程序之间的区别

如图，对比了两台计算机间传统TCP/IP（蓝色）与 RDMA-RoCE（绿色）的通信流程，前者数据需经CPU、内核缓冲区，依赖CPU处理，开销大。后者数据则直接在用户缓冲区与NIC间传输，绕过CPU和内核，减少延迟与CPU负载，提升通信效率。RDMA通过网卡直接访问远程内存，实现了用户空间到用户空间的零拷贝传输，而TCP/IP需内核协议栈处理，性能更低。

实际应用上，在一些中小企业构建的智算平台中，采用 RoCE 技术连接多台服务器，既满足了大模型训练对网络性能的基本要求，又有效控制了成本。某初创的自然语言处理公司，使用基于 RoCE 的网络架构搭建 GPU 集群，在训练智能客服对话模型时，以较低成本实现了高效的数据传输，支撑模型快速迭代优化。不过，RoCE 需要支持 RoCE 的网卡，这在一定程度上对硬件选型有一定的限制。

选型方面，在GPU小集群规模内，可以采用IB或者RoCE网络，两者各有优缺点，根据实际的资金和技术积累来选择，而且RoCE网络内端到端尽量控制在3-5跳以内。对于超过万卡GPU的大集群规模，则IB网络比较稳妥，采用RoCE则需要相对投入更大量的人力和物力。

为了更加清晰的反映出GPU各互联网络技术的性能指标，总结下表如下：

GPU互联网络性能比较

NVLink的挑战者：

挑战者一：UALink供应商的联盟。

UALink是走得比较快的一种开放协议，AMD是其中核心的存在。

去年10月28日，AMD、AWS、谷歌和思科等九家巨头宣布正式成立UALink联盟（Ultra Accelerator Link Consortium，简称UALink联盟），主推AI服务器Scale UP互连协议——UALink。而今，博通中途退出，开始大力推广自家的Scale-Up Ethernet（SUE）技术，新增AWS、Astera两家公司。目前，UALink联盟已公开邀请新成员加入，国内已有盛科、联想、澜起科技、联动等公司加入成为贡献者成员。

之所以提到AMD，是因为UALink的技术核心主要来自AMD。考虑到针对终态进行设计，以及共同对抗行业垄断的目的，AMD将其迭代多年的Infinity Fabric协议贡献出来，促成UALink联盟的成立，希望在更多行业伙伴的助力下，持续发挥原生为GPU互连场景设计的优势，使其成为行业的开放标准。

今年4月，UA Link 1.0标准正式发布。UALink 1.0规范定义了一种高速、低延迟的互连，支持每通道200 GT/s的最大双向数据速率，可配置为 x1、x2 或 x4，四通道链路在发射和接收方向上都能实现高达800 GT/s。一个 UALink 系统支持多达1024个加速器（GPU、NPU或其他），这些加速器通过UALink交换机连接，每个加速器分配一个端口和一个10位唯一标识符，用于精确路由。UALink电缆长度针对<4米进行了优化，可在64B/640B有效负载下实现<1 μs的往返延迟。这些链路支持跨一到四个机架的确定性性能。

UALink协议栈包括四个硬件优化层：物理层、数据链路层、事务层和协议层。物理层使用标准以太网组件（例如 200GBASE-KR1/CR1），并包括通过 FEC 减少延迟的修改；数据链路层将来自事务层的64字节flit打包为640字节单元，应用CRC和可选的重试逻辑，该层还处理设备间消息传递并支持UART风格的固件通信；事务层实现压缩寻址，简化数据传输，在实际工作负载下协议效率高达 95%，还支持直接内存作，例如加速器之间的读取、写入和原子事务，从而保持本地和远程内存空间之间的顺序。

UALink还集成多项数据中心级功能，包括硬件加密（UALinkSec）、多租户隔离、虚拟化分区，以及通过标准接口（如PCIe和以太网）进行统一管理。

相比封闭的专用方案，UALink 强调开放生态，由多家供应商共同推进设备和交换机的研发，更重要的是，UALink在加速器、交换芯片、Retimer等互连技术上保持中立立场，不偏向特定厂商，目标是建立开放创新的技术生态系统。

UALink预计首款产品将在12~18个月内推向市场。值得注意的是，在UALink 1.0标准诞生之前，新思科技就推出了UALink的IP解决方案。新思的UALink IP 解决方案将提供每通道高达200 Gbps的带宽和内存共享功能，以扩展（向上）加速器连接。

挑战者二：华为UB-Mesh，用单一协议解决一切。

刚刚提到的华为UB-Mesh即将在下个月宣布开源。华为的UB在业界一直被很看好。

UB-Mesh架构采用低基数交换机聚合四路接口，以无阻塞的方式管理跨机架连接。通过横向扩展2D的full mesh结构下的四个机架，形成4D层级互联。四个机架形成的pod总规模可达1024个NPU。也就是说，在大规模集群中，UB-Mesh能够实现1024张NPU的全互联，这么来看，数量和上面的NVLink 1.0相当。不过，UB-Mesh还可以可通过super pod扩展至8000张NPU，这是一个非常惊人的数字。

华为将这种数据中心规模的AI架构定义为SuperNode，将多达1,000,000个处理器（CPU、GPU、NPU）、池内存、SSD、NIC和交换机统一到一个系统中，并将每芯片带宽从100 Gbps上升到10 Tbps（1.25 TB/s，超出了PCIe 8.0设置的范围），时延从微秒减少到~150 ns，整体设计从异步DMA转向同步加载/存储语义。允许灵活地重复使用所有高速SERDES连接，甚至支持通过以太网运行以实现向后兼容性。

根据华为的介绍，虽然用于训练和推理的 AI 数据中心应该像一个大型固有并行处理器一样运行，但它们由单独的机架、服务器、CPU、GPU、内存、SSD、NIC 、交换机和其他组件组成，这些组件使用不同的总线和协议相互联接，如UPI、PCIe、CXL、RoCE、NVLink、UALink、TCP/IP和即将推出的超级以太网。协议转换需要电力，增加延迟和成本，并引入潜在的故障点，所有这些因素都可以在拥有数百万个处理器的千兆瓦级数据中心中进行灾难性扩展。

但是华为却不同，华为的思路则是“一统天下”，提出了UB-Mesh的统一框架，使任何端口无需转换即可与任何其他端口通信。这种简单性减少了转换延迟，简化了设计，并且仍然在需要时留出了通过以太网运行的空间，从本质上将整个数据中心转换为UB-Mesh 连接的相干超级节点。

挑战者三：博通的以太网方案SUE。

英伟达有NVLink和开放的NV，AMD走了UALink的路，博通想出了另一条路——以太网，也就是SUE。

博通认为这是对英伟达和AMD的一种还击，因为以太网的好处就是更开放。

根据博通的说法，SUE架构虽非由第三方组织制定的标准，但由于其基于以太网规范设计，能够与当前数据中心广泛采用的以太网交换机芯片生态系统兼容。“我们编写了规格书并公开发布在网络上，任何人都可以自由采用。市场上以太网交换机芯片供应商众多，SUE的开放规格可以说是实现了多方共赢。”而且，SUE对所有公司开放使用，无需像NVLink那样必须获得英伟达的授权。

今年6月，博通更新Scale Up Ethernet（SUE）规范。SUE在多XPU系统中提供XPU间的通信。每个SUE实例可配置为1、2 或4个端口，实现200G、400G、800G等多种速率，并可在全交换或网状拓扑中构建大规模XPU集群。

SUE提供了包括类AXI接口、通用命令/响应事务、多流量类别映射、数据包级可靠传输、严格/无序两种排序模式及负载均衡等功能，其协议栈支持操作打包、低延迟FEC、链路层重试（LLR）及多种流控机制（如PFC和CBFC）。通过采用优化报头格式（如AFH Gen 1/2）和标准以太网兼容封装，SUE在提升传输效率和降低延迟的同时，保持了与现有以太网生态的兼容性，形成一个开放、可扩展的互联解决方案。

总之，博通对SUE框架的优化是多维度的。以太网研究本身应用时间也长，继续沿用以太网无疑是非常具有吸引力的。所以，博通这个最初积极参与了UALink的开发工作的厂商，随着项目的推进，博通可能是突然发现以太网“尚能饭否”，所以对UALink的态度发生了转变。

挑战者四：不同厂商的私有协议。

除了上述的开放协议和PCIe，一些厂商还在使用自己的私有协议。

AWS自己的AI芯片用自己的私有协议NeuronLink实现横向扩展，通过增加交换托盘提升整体互连能力。该方案的底层基于PCIe Gen协议构建，例如NeuronLink V3版本使用PCIe Gen5.0作为物理层，每个通道单向传输速率可达32Gbit/s，并通过多通道聚合实现高带宽通信。在具体部署中，亚马逊的Trn2-Ultra64超级服务器在机柜间采用AEC（有源光缆）进行连接，机柜内部则使用DAC（直接连接铜缆）。

谷歌方面，自己的TPU才采用自己的私有互连协议ICI，该协议具备高度可编程性，使软件能够灵活适应运行时的复杂需求，在机柜内部，组件之间通过DAC（直连铜缆）进行连接；而在机柜之间，则采用OCS（光电路交换机）实现高速光交换。

TPU v4的互联拓扑采用三维环面（3D Torus）结构，以4×4×4的方式将芯片组织成立方体形态。每个机架部署64颗TPU v4芯片和16台CPU主机，机柜内不同托盘间的TPU通过DAC互联。在此基础上，Google使用OCS光交换技术将64个这样的立方体连接在一起，最终构建出包含4096个TPU的TPU v4超级计算机系统。

免责声明：以上信息均为作者从网络渠道收集汇总而来，仅供学习，侵权必删。

广州城市开发者社区

欢迎加入我们的广州开发者社区，与优秀的开发者共同成长！

更多推荐

大数据与人工智能专业毕设选题 “精品合集”：优质选题推荐

广州城市开发者社区

世界模型崛起，AI路线之争喧嚣再起

区别于宽泛意义上的大语言模型，世界模型并非通过可获取的语言、图像及视频来理解现实场景，而是通过大量数据学习现实世界的物理规则，实施因果推理，从而预测、生成合乎现实规律的未来。更核心的桎梏在于，大语言模型的认知局限于文本符号的线性关联，缺乏对物理世界的三维空间建模能力与动态因果推理能力。当AI需要从虚拟交互走向物理世界的实际应用，从单一任务响应升级为复杂场景的自主决策，纯文本驱动的模型架构已难以承载

广州城市开发者社区

通往通用人工智能的关键一步？DeepMind放大招，3D世界最强AI智能体SIMA 2

在后续训练中，SIMA 2 自身的经验数据可用于训练下一个、能力更强的智能体版本。SIMA 2 现在能比其前身理解更复杂、更细微的指令，并且在执行这些指令时成功率更高，尤其是在那些它从未训练过的情景或游戏中，例如新的维京生存游戏 ASKA，或 MineDojo（一个流行开放世界沙盒游戏 Minecraft 的研究用实现）。SIMA 2 的新架构集成了 Gemini 强大的推理能力，帮助它理解用户的