logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

常见GPU算力比较(X100计算卡,GX100)

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。* 4090 的 AD102-300 核心中每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT

文章图片
常见GPU算力(V100,GV100)

注意到,完整 GV100 核心有 6 组 GPC,每组 GPC 包含 7 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GV100 核心共有 84 个 SM 单元,但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。每个 SM 单元中有 8 个 Tensor Co

文章图片
常见GPU算力(A100,GA100)

注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计

文章图片
常见GPU算力(5090&5090D,GB202-300&GB202-250)

注意到,完整 GB202 核心有 12 组 GPC,每组 GPC 包含 8 组 TPC(4090 的 AD102 中是 6 组),单个 TPC 中含有两个 SM 单元,因此完整 GB202 核心共有 192 个 SM 单元,但 GB202-300 只开启其中的 170 个。每个 SM 单元中有 4 个 Tensor Core,因此 GB202-300 总共含有 680 个 Tensor Core。

文章图片
常见GPU算力比较(历代游戏卡皇)

22 GB 是常见的手动扩显存的魔改卡。2、Tensor Core 算力。1、CUDA Core 算力。

文章图片
常见GPU算力(4090&4090D,AD102-300&AD102-250)

支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4,不支持 FP64。启用稀疏计算(2:4 模式)加速后,在神经网络权重中,强制每 4 个连续元素中至少 2 个为零,Tensor Core 硬件自动跳过零值计算,有效吞吐量翻倍。注意到,完整 AD102 核心有 12 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 AD102

文章图片
常见GPU算力(5090&5090D,GB202-300&GB202-250)

注意到,完整 GB202 核心有 12 组 GPC,每组 GPC 包含 8 组 TPC(4090 的 AD102 中是 6 组),单个 TPC 中含有两个 SM 单元,因此完整 GB202 核心共有 192 个 SM 单元,但 GB202-300 只开启其中的 170 个。每个 SM 单元中有 4 个 Tensor Core,因此 GB202-300 总共含有 680 个 Tensor Core。

文章图片
常见GPU算力比较(历代游戏卡皇)

22 GB 是常见的手动扩显存的魔改卡。2、Tensor Core 算力。1、CUDA Core 算力。

文章图片
常见GPU算力比较(X100计算卡,GX100)

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率,第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。* 4090 的 AD102-300 核心中每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT

文章图片
常见GPU算力(3090&3090Ti,GA102-300&GA102-350)

注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元

文章图片
    共 12 条
  • 1
  • 2
  • 请选择