A100与A800 算力

A800 的带宽从 A100 的 600GB/s 降为 400GB/s，H800 的具体参数尚未公开，据彭博社报道，它的带宽只有 H100（900 GB/s）的约一半，执行同样的 AI 任务时，H800 会比 H100 多花 10% -30% 的时间。A100 的 FP32（指用 4 字节进行编码存储的计算）算力达到 19.5 TFLOPS（1 TFLOPS 即每秒进行一万亿次浮点运算），H10

文章共432字 · 阅读需要大约2分钟

一键AI生成摘要，助你高效阅读

问答

AIGC东瀚

7952人浏览 · 2023-07-25 23:27:46

AIGC东瀚 · 2023-07-25 23:27:46 发布

A100 、H100 则既有单卡高算力，又有提升卡间数据传输的高带宽。A100 的 FP32（指用 4 字节进行编码存储的计算）算力达到 19.5 TFLOPS（1 TFLOPS 即每秒进行一万亿次浮点运算），H100 的 FP32 算力更高达 134 TFLOPS，是竞品 AMD MI250 的约 4 倍。

A100、H100 还提供高效数据传输能力，尽可能减少算力闲置。英伟达的独家秘籍是自 2014 年起陆续推出的 NVLink、NVSwitch 等通信协议技术。用在 H100 上的第四代 NVLink 可将同一服务器内的 GPU 双向通信带宽提升至 900 GB/s（每秒传输 900GB 数据），是最新一代 PCle（一种点对点高速串行传输标准）的 7 倍多。

去年美国商务部对 GPU 的出口规定也正是卡在算力和带宽这两条线上：算力上线为 4800 TOPS，带宽上线为 600 GB/s。

A800 和 H800 算力和原版相当，但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s，H800 的具体参数尚未公开，据彭博社报道，它的带宽只有 H100（900 GB/s）的约一半，执行同样的 AI 任务时，H800 会比 H100 多花 10% -30% 的时间。一名 AI 工程师推测，H800 的训练效果可能还不如 A100，但更贵。

即使如此，A800 和 H800 的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构，各公司推出的 AI 芯片或 GPU 芯片，现在主要用来做 AI 推理，难以胜任大模型预训练。简单来说，AI 训练是做出模型，AI 推理是使用模型，训练对芯片性能要求更高。