Dolphin期材个人主页

@qq_45351564

Dolphin期材

2023-03-15 14:15:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

常见GPU算力比较（X100计算卡，GX100）

* 第一项为 Tensor Core 计算 FP8、FP16、BF16、TF32 时的加速频率，第二项为 Tensor Core 计算 FP64 和 CUDA Core 计算 FP32、FP64 时的加速频率。* 4090 的 AD102-300 核心中每个 SM 单元中有 128 个 CUDA 计算单元，其中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT

常见GPU算力（V100，GV100）

注意到，完整 GV100 核心有 6 组 GPC，每组 GPC 包含 7 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GV100 核心共有 84 个 SM 单元，但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。每个 SM 单元中有 8 个 Tensor Co

常见GPU算力（A100，GA100）

注意到，完整 GA100 核心有 8 组 GPC，每组 GPC 包含 8 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA100 核心共有 128 个 SM 单元，但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计

常见GPU算力（5090&5090D，GB202-300&GB202-250）

注意到，完整 GB202 核心有 12 组 GPC，每组 GPC 包含 8 组 TPC（4090 的 AD102 中是 6 组），单个 TPC 中含有两个 SM 单元，因此完整 GB202 核心共有 192 个 SM 单元，但 GB202-300 只开启其中的 170 个。每个 SM 单元中有 4 个 Tensor Core，因此 GB202-300 总共含有 680 个 Tensor Core。

常见GPU算力比较（历代游戏卡皇）

22 GB 是常见的手动扩显存的魔改卡。2、Tensor Core 算力。1、CUDA Core 算力。

常见GPU算力（4090&4090D，AD102-300&AD102-250）

支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4，不支持 FP64。启用稀疏计算（2:4 模式）加速后，在神经网络权重中，强制每 4 个连续元素中至少 2 个为零，Tensor Core 硬件自动跳过零值计算，有效吞吐量翻倍。注意到，完整 AD102 核心有 12 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 AD102

常见GPU算力（5090&5090D，GB202-300&GB202-250）

常见GPU算力比较（历代游戏卡皇）

22 GB 是常见的手动扩显存的魔改卡。2、Tensor Core 算力。1、CUDA Core 算力。

常见GPU算力比较（X100计算卡，GX100）

常见GPU算力（3090&3090Ti，GA102-300&GA102-350）

注意到，完整 GA102 核心有 7 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA102 核心共有 84 个 SM 单元，但 GA102-300 只开启其中的 82 个，GA102-350 开启全部的 84 个 SM 单元。值得注意的是，从 3090 开始（包括后续的 4090 和 5090），每个 SM 中只有 2 个 FP64 计算单元

共 12 条

请选择