前言

英伟达(NVIDIA)的GPU早已超越了图形渲染的范畴,成为驱动人工智能、科学计算、数据中心和高性能计算的“引擎”。其GPU硬件架构的持续创新是这场变革的核心驱动力。今天,就让我们把时钟拨回20多年前,重温英伟达GPU发展的光辉历程!

什么是GPU架构呢?
GPU架构(通常以代号命名,如Fermi, Ampere)定义了GPU的核心设计蓝图,包括:

  1. 流式多处理器(SM):GPU的核心计算单元,包含CUDA核心、Tensor Core、RT Core(光追核心)、寄存器文件、共享内存、加载/存储单元、特殊功能单元等。架构演进很大程度上是SM结构的革新。

  2. 内存层次结构:寄存器、共享内存(SM内)、L1/L2缓存、全局显存(GDDR/HBM)及其带宽、容量和访问机制。

  3. 互连结构:SM之间、SM与内存控制器/缓存之间的通信方式(如NVIDIA NVLink, PCIe)。

  4. 并行处理模型:如何组织和管理成千上万个线程的执行(Warp调度、线程块、网格)。

  5. 专用硬件单元:如用于AI的Tensor Core、用于光线追踪的RT Core、用于视频编解码的NVENC/NVDEC等。

换句话说,一种GPU架构,就代表了一种GPU的硬件设计思想,设计理念。整体发展情况如下表所示:
在这里插入图片描述

1、架构发展史

1.1 Tesla架构 (G80, GT200系列 - GeForce 8/9, GTX 200)

——首款支持CUDA通用并行计算架构的GPU

核心创新:

引入统一着色器架构:顶点、像素、几何着色器使用相同的处理器(称为流处理器SP,即CUDA核心的前身),大幅提升硬件利用率。

首次实现真正的硬件多线程:一个SM能并发处理多个线程块(Block)的多个线程束(Warp)。

奠定CUDA编程模型硬件基础:线程层次结构(Thread, Block, Grid)、共享内存、屏障同步。

影响: 开启了GPU通用计算(GPGPU)的新纪元,GPU不再局限于图形。

1.1.1 流处理器SP

SP是Tesla架构中执行实际计算工作的最基本单元。主要负责执行标准的单精度浮点(FP32) 和整数(INT32) 运算。例如最基本的加减乘除、比较、逻辑运算、类型转换等。

1.1.2 特殊功能单元SFU

SFU是一个专用函数单元,用于执行一些计算复杂、耗时较长的特殊数学函数。专门处理一些超越函数和复杂运算,例如:

  1. 三角函数: sin, cos, tan, asin, acos, atan 等。
  2. 指数和对数函数: exp, log, log2, log10 等。
    倒数、平方根、倒数平方根: rcp, sqrt, rsqrt。这些在图形光照计算(如归一化)中极其常用。

设计目的:

解放SP: 这些复杂函数如果让通用的SP来模拟计算,会消耗大量的时钟周期,严重降低效率。让专门的硬件(SFU)来执行,速度极快。
提高能效和面积效率: 专用电路为特定功能优化,比通用单元执行相同任务更快、更省电、占用的芯片面积也更小。

工作模式: SFU通常是流水线化的,可以接受一个操作数,然后经过多个时钟周期计算出结果,但同时可以处理多个请求,保持高吞吐。

从这里可以看出,SP主要是执行一些线性运算,而SFU主要执行一些非线性运算,流水线的设计,进一步提升了指令的处理效率,关于流水线的相关知识,可以参考CPU流水线技术全面解读(尽管这篇文章讲的并不是GPU的流水线设计,但基本思想都是一致的)。


1.2 Fermi架构 (GF100/110系列 - GeForce GTX 400/500, Tesla M/F 系列)

——大幅提升计算效率、可靠性和可编程性,巩固CUDA在HPC和科学计算中的地位
在这里插入图片描述

核心创新:

真正的缓存层次: 首次引入可配置的L1缓存(每个SM)和统一的L2缓存(芯片级),显著减少访问全局内存的延迟和带宽压力(后续提出的NVLink可以看作是在此基础之上的延伸和拓展,其基本思想就是,能本地处理的数据就本地处理,尽量减少全局内存和CPU的压力)。

增强的SM: 将32个CUDA核心组织为一个更强大的SM。支持双精度浮点(FP64)计算(性能约为单精度FP32的1/2),ECC内存支持提升可靠性

NVIDIA GigaThread Engine: 更先进的全局调度器,高效地将线程块分发到SM。

Nexus 多GPU技术: 改进SLI/多GPU通信。

更快的原子操作和更强大的并发内核执行。

影响: 成为首个完整的GPU计算架构,被广泛用于早期HPC和科学计算应用。确立了现代GPU架构的基本框架。

什么是HPC呢?
HPC(High Performance Computing)即高性能计算,核心目标是解决单台普通计算机(如您的个人电脑或普通服务器)无法在合理时间内完成的、极其复杂和计算密集的问题。其利用强大的计算资源和并行处理技术,将巨大的计算任务分解成许多小部分,同时在多个处理器(CPU核心、GPU加速器等)上运行,从而显著缩短计算时间。完美地诠释了计算机硬件设计的基本哲学:空间换时间。


1.3 Kepler架构 (GK104/110/210系列 - GeForce GTX 600/700, Tesla K系列)

——追求极致性能和功耗
在这里插入图片描述
核心创新:
SMX (Kepler SM): 大幅增加SM规模(192个CUDA核心/SM)。引入动态并行(允许GPU线程在GPU上动态生成新线程网格)和Hyper-Q(允许多个CPU核心同时向单个GPU发送任务,减少空闲)。

GPU Boost 技术: 动态调整核心频率,在功耗和温度限制内最大化性能。

寄存器文件改进: 容量更大,支持更多线程驻留。

纹理性能提升: 改进的纹理单元和缓存。

影响: GK110(Tesla K20/K40/K80)在HPC领域取得巨大成功,助力多台超级计算机登顶Top500。GeForce GTX 680成为一代经典游戏卡。极高的能效比使其在数据中心普及。

1.4 Maxwell架构 (GM107/204/206/200系列 - GeForce GTX 750 Ti/900, Tesla M系列)

——极致能效比优化,提升单位面积性能

核心创新:

SMM (Maxwell SM): 重新设计SM结构,显著提升效率。虽然CUDA核心数减少到128个/SM,但通过改进的调度器(每个Warp调度器管理更多线程)和指令发射机制(更宽),实现了更高的IPC(每时钟周期指令数)。

大幅改进的能效: 制程优化(28nm成熟期)和架构优化共同作用,性能功耗比达到新高度。

第三代Delta Color Compression: 更高效的无损显存带宽压缩技术。

Voxel Global Illumination (VXGI): 首个支持实时全局光照的硬件架构(软件层面)。

影响: GeForce GTX 750 Ti成为“神卡”,以极低功耗提供良好性能。Maxwell证明了在架构层面进行深度优化可以带来巨大的能效收益。

1.5 Pascal架构 (GP100/102/104/106/107/108系列 - GeForce GTX 10/Titan Xp, Tesla P100/V100)

——拥抱AI浪潮,提升HPC性能,引入高速互连。
在这里插入图片描述
制程飞跃: 采用16nm FinFET工艺,集成度大幅提升。

NVLink 1.0: 高速GPU-GPU和GPU-CPU互连(远高于PCIe带宽),极大加速多GPU和异构计算(尤其在Tesla P100/V100)。

HBM2 显存: 在高端芯片(GP100)首次采用堆叠式高带宽显存(HBM2),提供革命性的显存带宽(Tesla P100)。

统一内存与Page Migration Engine: 简化编程模型,允许CPU和GPU共享统一的虚拟地址空间,硬件自动迁移数据。

增强的FP16支持: 为深度学习推理提供更高吞吐量。

影响: Tesla P100/V100成为AI训练和HPC的绝对主力,奠定了NVIDIA在AI硬件领域的领导地位。GeForce GTX 10系列性能强劲。

1.5.1 NVLink 1.0技术简介

随着显卡的性能越来越强,且应用场景中算力要求不断攀升,“一机多卡”的情况开始逐渐出现,同时对数据传输的带宽需求也越来越高,传统的PCI-E总线标准已经不能满足要求了,这时候亟需一种新的总线架构。
在这里插入图片描述
基于此,英伟达在2014年提出了NVLink
在这里插入图片描述
PCI-E总线双向带宽不足32GB/s,而NVLink 1.0双向总带宽可达160GB/s(每链接 40GB / 秒) 采用 NRZ(非归零)信号编码,每个时钟周期传输 1 位数据。NVLink 使用差分对传输,包含 8 条子通道,每条子通道运行在 20Gbps。协议栈基于定制的点对点通信,优化了数据包格式,减少了传输开销。
NVLink的连接方式
从物理层来说,NVLink中的差分对与车载CAN网络的差分传输类似吗?

虽然二者本质都是 “差分对 + 差分传输”,但因应用场景需求不同,会有不同的差异。
在这里插入图片描述

1.6 Volta架构 (GV100系列 - Tesla V100, Titan V)

——为AI和高性能计算量身定制,革命性创新
在这里插入图片描述

核心创新:

Tensor Core: 革命性的专用硬件单元!专为深度学习的矩阵乘累加(尤其是FP16混合精度)优化,提供远超传统CUDA核心的吞吐量(如V100的125 TFLOPS Tensor性能 vs 15.7 TFLOPS FP32)。

增强的SM (Volta SM): 独立线程调度(Independent Thread Scheduling),允许线程束内的线程更细粒度地独立调度,提高并行效率,尤其对不规则工作负载有益。更大的共享内存和寄存器文件。

NVLink 2.0: 更高带宽(300GB/s双向)。

制程: 12nm FFN。

影响: Tesla V100成为AI训练和高性能计算的标杆。Tensor Core彻底改变了AI计算的格局,开启了AI硬件加速的新篇章。Titan V是首款消费级Tensor Core显卡。

1.6.1 Tensor Core

这部分内容是重点中的重点,因为这部分是英伟达专门为AI神经网络计算设计的硬件单元。
在这里插入图片描述
Tensor Core三步硬件加速流程:

1.6.1.1 数据输入(低精度存储,提升吞吐量)

从 GPU 显存中读取待计算的 两个 16x16 半精度(FP16)矩阵(记为 Matrix A、Matrix B),并送入张量核心的专用寄存器。

1.6.1.2 硬件级矩阵运算(单指令完成,跳过冗余)

张量核心执行专用矩阵乘法指令(如 NVIDIA 的 HMMA 指令),直接计算 A(16x16) × B(16x16),得到一个 16x16 的中间结果矩阵(FP16)。

关键优势:传统 GPU 需用数十条通用指令(如单元素乘法、循环累加)完成 16x16 矩阵运算,而张量核心用 1 条指令直接完成,运算延迟降低 90% 以上。

1.6.1.3 高精度累加(兼顾速度与精度)

将中间结果矩阵 C,与之前运算的 “累积结果矩阵 D”(用单精度 FP32 存储,避免精度损失)进行累加,最终输出更新后的累积矩阵 D。

为什么用 FP32 累加?深度学习训练需较高精度避免梯度消失 / 爆炸,FP16 负责 “快速计算”,FP32 负责 “保存结果精度”,实现 “速度与精度的平衡”。

张量核心通过 “低精度(FP16/FP8)做计算、高精度(FP32)做累加” 的硬件设计,用单条专用指令完成深度学习的核心矩阵运算,跳过通用 GPU 的冗余指令流程,同时通过数据精度的 “差异化使用” 兼顾吞吐量与计算精度,最终实现百倍于传统 GPU 的深度学习加速。

还有一点,相较于传统的CUDA核和CPU内核,Tensor Core减少了将中间计算结果写回缓存,再读缓存的操作,这一来一回又节省了数据搬运的成本,使得Tensor Core在进行AI相关的线性计算时,大大优于传统的计算内核。

1.7 Turing架构 (TU102/104/106/116系列 - GeForce RTX 20/Titan RTX, Quadro RTX, Tesla T4)

——将AI和光线追踪引入消费级图形和创意应用

核心创新:

RT Core: 专用硬件单元,用于加速光线追踪中的边界体积层次结构(BVH)遍历和光线-三角形求交计算,实现实时光线追踪(Real-Time Ray Tracing)。

Tensor Core (第二代): 继承自Volta,支持更广泛的数据类型(INT8, INT4)和深度学习推理加速,并驱动DLSS(深度学习超级采样) 技术,利用AI提升渲染分辨率和帧率。

Turing SM: 融合了Volta的独立线程调度,并针对图形和计算进行了优化。引入并发浮点和整数执行。

GDDR6 显存: 提供高带宽。

图灵编码器 (NVENC): 第七代编码器,显著提升视频编码质量(如直播、录制)。

影响: GeForce RTX 20系列首次将实时光线追踪带给游戏玩家,开启图形渲染新时代。DLSS成为游戏性能提升的关键技术。Tesla T4凭借Tensor Core在AI推理市场大放异彩。

1.7.1 硬件光追

在英伟达 GPU 硬件架构数十年的迭代历程中,每一次核心模块的突破,都对应着计算需求与应用场景的深刻变革。从 CUDA 核心奠定通用计算基石,到 Tensor Core 开启 AI 加速新纪元,再到 NVLink 与 NVSwitch 打破多 GPU 互联壁垒,架构的演进始终围绕 “更高效地处理复杂计算任务” 这一核心目标。在图灵(Turing)架构中,一项专为解决图形渲染 “真实感瓶颈” 而生的硬件单元 —— 光线追踪核心(RT Core),成为自 CUDA 诞生以来最具颠覆性的创新之一,彻底改写了图形计算领域的技术格局。​

在图像三维建模中,不直接生成光照相关像素点,而是先构建三维物理世界再添加模拟光照,从而在三维空间中构建出 “可交互、可复用、符合物理规律”的虚拟场景,并非单纯输出一张静态光照图。这个模拟整体光照的过程,就是光追​
在这里插入图片描述
在此之前,“模拟真实世界光线传播” 始终依赖软件层面的算法模拟:通过CPU或通用GPU(GPGPU)的流处理器(SP)执行光线追踪计算,不仅需要消耗大量算力用于光线与物体的相交测试、BVH(包围盒层次结构)遍历等重复操作,难以平衡 “渲染精度” 与 “实时性” 的矛盾 —— 即便是高端 GPU,也仅能在低分辨率、简单场景下实现有限的光线追踪效果,差强人意。

在这一背景下,图灵架构首次将光线追踪这一 “专用任务” 从通用计算中剥离,通过硬件化的 RT Core 实现针对性加速。RT Core 专为光线与几何体的相交测试、BVH 层级遍历等核心流程设计,能够以硬件级并行能力,将原本需要数千个 CUDA 核心周期完成的光线追踪计算,压缩至数十个周期内完成,算力效率提升数十倍。

RT Core 可与与图灵架构中的 Tensor Core 形成 “软硬协同”—— 前者负责高效生成光线追踪原始图像,后者则通过 AI 驱动的 DLSS(深度学习超级采样)技术解决光追图像的噪点问题,二者共同构建起 “实时高保真渲染” 的技术闭环,让曾经仅能在离线渲染中实现的逼真光影效果,首次走进消费级游戏、实时仿真等场景。

与Tensor Core一样,RT Core也是将总的计算任务进行拆分,用专门的硬件去承担专门的运算任务,从整体上加速计算。

1.7.2 DLSS 1.0 深度学习超采样技术

DLSS 1.0 让 AI 事先学习很多低分辨率(如 1080P)与高分辨率(如 8K)的游戏画面,AI 通过对比两者的区别,总结规律并生成算法。在游戏运行时,显卡运用 Tensor Core 和该算法只做低分辨率的渲染,输出时靠 AI 算法 “脑补” 出高分辨率(如 4K)的画面。
在这里插入图片描述
毕竟是第一代的DLSS,一旦“脑补”出的画面不理想,就会破坏整个画面的协调性与光影效果。所以在动态画面中容易出现大量的鬼影与噪点,画面质量较差。

英伟达这么做也是一种新的硬件应用思路,Tensor Core本来是为加速深度学习任务而生,但用户不可能人人都去做AI方面的研究,英伟达利用 Tensor Core 来实现 DLSS 技术,是基于其在深度学习计算方面的优势,为用户提供更好的游戏体验和性能优化。这样既减轻了显卡其他计算单元(如 CUDA 核心)的负担,又能让用户在不升级硬件的情况下,享受到高分辨率游戏画面带来的视觉体验。

1.8 Ampere架构 (GA100/102/104/106系列 - GeForce RTX 30, A100/A40/A10/A16/A2, H100 PCIe)

——统一AI训练/推理、科学计算、图形和光线追踪,实现前所未有的性能和效率。
在这里插入图片描述

核心创新:

第三代Tensor Core:

支持结构化稀疏(Sparsity),利用神经网络中的稀疏性,理论上将Tensor Core吞吐量翻倍(如A100的稀疏模式达624 TFLOPS FP16)。

支持新的数据类型:TF32(TensorFloat-32,介于FP16和FP32之间,AI训练加速)、FP64(HPC性能大幅提升)、BFLOAT16。

第二代RT Core: 提升光线追踪性能,支持动态模糊加速。

革命性的SM (Ampere SM):

双FP32数据路径: 大部分CUDA核心可以同时执行FP32和INT32操作(或两个FP32操作),FP32理论峰值吞吐量翻倍(相比Turing)。

更大的L1缓存/共享内存组合(192KB/SM),可灵活配置。

多实例GPU(MIG): (主要在A100/H100)将单个物理GPU划分为多个(最多7个)安全隔离的“小GPU”,优化GPU利用率。

显存: GA100使用HBM2e(A100),消费级使用GDDR6X(带宽显著提升)。支持PCIe 4.0。

NVLink 3.0:(A100/H100)更高带宽(600GB/s双向)。

影响: A100成为数据中心AI和HPC的绝对王者。GeForce RTX 30系列在游戏和创作领域性能飞跃。Ampere将NVIDIA在多个计算领域的领导地位推向新高度。

1.8.1 稀疏性张量加速

什么是稀疏性张量加速,意义又是什么呢?以下是英伟达官网的说法。

英伟达(NVIDIA)针对深度神经网络推理任务,开发了一套基于2:4结构化稀疏模式的、简洁通用的网络稀疏化方案。该方案的实施步骤如下:首先,使用密集权重对神经网络进行初始训练;随后,对网络执行细粒度结构化剪枝;最后,通过额外的训练步骤,对剩余的非零权重进行微调优化。经过在视觉处理、目标检测、图像分割、自然语言建模机器翻译等多个领域的数十个网络上进行测试验证,该方法实现了神经网络推理精度的几乎无损失。

也就是说,在神经网络训练结束后,发现一部分参数并没有那么重要,因此进行了剪枝处理,去掉了这些元素,但去掉后整个网络的性能会小幅度下降,为了弥补性能上的损失,会再进行一次微调。

在这里插入图片描述
具体流程如下:

1.8.1.1 密集训练(Dense Training)

先按常规方式训练一个 “密集模型”(即所有权重均为非零值),不需要提前考虑稀疏性。这一步的目标是让模型先学到基本的特征表示,为后续剪枝保留有价值的权重打下基础。

1.8.1.2 结构化剪枝(Structured Pruning)

在密集模型基础上,按2:4 结构化稀疏模式进行剪枝 —— 即每 4 个连续权重中,保留 2 个最重要的非零值,将另外 2 个设为 0(零值权重)。

1.8.1.3 微调(Structured Pruning)

剪枝后模型可能出现精度下降(虽然 2:4 模式的影响很小),因此需要用少量额外的训练步骤对剩余的非零权重进行微调,恢复甚至提升精度。
目的:通过微调让模型适应剪枝后的权重分布,补偿剪枝带来的信息损失,最终实现 “几乎无精度损失” 的稀疏模型。
技巧:微调时学习率通常设得较小(如初始学习率的 1/10),避免破坏已学到的特征。

关于对上述图片中的详细流程,需要较大篇幅,后续会单独写一篇帖子讲解。

1.9 Hopper架构 (GH100系列 - H100, H200)

——面向超大规模AI训练和巨型模型(如大语言模型LLM),以及高性能计算和数据分析。

核心创新:

第四代Tensor Core: 引入Transformer Engine。这是一种新的硬件单元和软件层,专门为Transformer网络(LLM的核心)优化。它动态管理FP8和FP16精度(必要时自动转换),结合新的FP8数据类型,在保持模型精度的同时,大幅提升训练速度和推理吞吐量(相比A100,训练速度提升高达9倍)。

革命性的互连:

NVLink Switch System: 突破性的新互连架构,允许多达256个GPU通过高速交换机互连,提供近线性的扩展性,支持万亿参数模型的训练。

NVLink 4.0: 更高带宽(900GB/s双向)。

增强的SM (Hopper SM):

新的线程块集群(Thread Block Cluster) 概念:允许协作的线程块直接在共享内存中通信和同步,提升可编程性和某些算法的性能。

分布式共享内存: 集群内线程块可访问彼此的共享内存。

DPX 指令: 加速动态规划算法(用于生物信息学、机器人等)。

第二代MIG: 更精细的划分和QoS控制。

显存: HBM3(H100)或HBM3e(H200),提供超高带宽(H200高达4.8TB/s)和大容量(H200高达141GB)。

制程: 基于TSMC 4nm工艺定制优化。

机密计算: 硬件级安全特性保护AI模型和数据。

影响:H100/H200是训练当今最先进大语言模型(如GPT-4, Claude, Llama等)的主力军。NVLink Switch System解决了超大规模模型训练的扩展性瓶颈。Hopper代表了面向AI未来的架构方向。

1.9.1 NVLink Switch 互联架构

关于NVLink Switch(有时简称为NVSwitch),可以视为NVLink技术的升级版本。它不仅显著提高了通信带宽,还增强了系统的可靠性。

假如有8个GPU需要点对点互联,那么总共需要7*8/2=28个NVLink。当GPU的数量上升的时候,NVLink数量将会急剧上升。且不说联接复杂,每台GPU有没有配置如此多的NVLink通道也是个问题。
在这里插入图片描述
还可能存在一个问题,一旦某个联接出现了故障,则直接影响了两个GPU之间的通讯。
在这里插入图片描述
NVSwitch则很好地解决了这个问题,比方说我们将8卡的NVLink互联架构换成了如下的方式。那么仅使用两台Switch Chip就实现了物理上的通讯备份。假如GPU 1的line 1出现故障,那么与Switch Chip 2相连的line 2会继续工作,保持整个通讯网络的畅通,仅仅是带宽受限而已。
在这里插入图片描述
总地来说,NVSwitch互联架构具有以下几个好处:

  1. 摆脱了物理上复杂的接线,在网络上GPU较多时尤其明显。
  2. 通信有了物理“备份”,通讯可靠性得到提升。
  3. 有了NVSwitch,只需增加单GPU的NVLink通道数,即可增加GPU的通信带宽。事实上,在最新的NVSwitch架构下,通信带宽已经提升到了1.8TB/s
  4. NVSwitch数量不变,且单个GPU所支持的通道数量不变,仅增加NVSwitch的通道数,即可轻松增加系统中GPU的数量(如下图,将NVSwitch的通道数由8个提升到了16个,那么可同时支持16个GPU可靠通信)。
    在这里插入图片描述

可以说,英伟达通过NVLink解决了通信带宽的问题,而通过NVSwitch解决了通信的节点数量问题。

2 后记

2.1 参考资料

  1. 英伟达官方文档:《NVIDIA A100 Tensor Core GPU Architecture》
  2. 哔哩哔哩:NVIDIA十代GPU架构回顾(从Fermi费米到Volta伏特)【AI芯片】GPU架构02
  3. 哔哩哔哩:十分钟看懂光线追踪到底是怎么追的?
  4. 哔哩哔哩:【GPU互联革命史】PCIe到NVLink,再到NVSwitch的成长故事——看GPU如何推动AI与高性能计算!
  5. 哔哩哔哩:【硬核科普】免费提升画质和帧数?详解DLSS2.0的工作原理与作用
  6. 哔哩哔哩:A100安装Nvlink过程
  7. 《算力芯片——高性能CPU/GPU/NPU微架构分析》濮元恺 2024-08-01 电子工业出版社

2.2 拓展资料

  1. 哔哩哔哩:RTX 2080 Ti评测:感受12年来GPU最大革命(3)
  2. 哔哩哔哩:基于现代化光线追踪简要概述(RTX系列显卡
  3. 哔哩哔哩:上帝视角看GPU

2.3 结束语

英伟达硬件架构的发展史,不仅仅是英伟达硬件架构设计师智慧的集中体现,也是半导体加工工艺的进化史,这篇文章并未涉及半导体工艺的相关内容,有关内容可以看芯片的几纳米说的是什么?简直就是微观世界的奇迹!

英伟达GPU架构的每一次重大更新,都在重新让GPU释放新的活力,同时也在重新定义计算的边界。对于开发者而言,深入理解这些架构特性,是优化CUDA程序、释放GPU极致性能的关键。你最欣赏哪一代英伟达架构的创新呢?

后续我们还有更加精彩的内容,比方说:浮点运算单元的硬件设计PCIe通讯原理CUDA编程等等等等,敬请关注!!!

Logo

更多推荐