NVIDIA Tesla GPU系列P40参数性能——不支持半精度(FP16)模型训练

Tesla GPU系列P40不支持半精度(FP16)模型训练。因为它没有Tensor core。训练bert非常慢，想要加速，了解到半精度混合训练，能提速一倍，研究了下混合精度，以及其对设备的要求。发现当前设备不能使用半精度混合训练。NVIDIA Tesla系列GPU适用于高性能计算（HPC）、深度学习等超大规模数据计算，Tesla系列GPU能够处理解析PB级的数据，速度比使用传统CPU快几个数量

文章共1,074字 · 阅读需要大约4分钟

一键AI生成摘要，助你高效阅读

问答

凝眸伏笔

32081人浏览 · 2021-01-21 22:14:57

凝眸伏笔 · 2021-01-21 22:14:57 发布

Tesla GPU系列P40不支持半精度(FP16)模型训练。因为它没有Tensor core。

训练bert非常慢，想要加速，了解到半精度混合训练，能提速一倍，研究了下混合精度，以及其对设备的要求。发现当前设备不能使用半精度混合训练，了解了个寂寞...

NVIDIA Tesla系列GPU适用于高性能计算（HPC）、深度学习等超大规模数据计算，Tesla系列GPU能够处理解析PB级的数据，速度比使用传统CPU快几个数量级，NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品，云服务器吧分享NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比：

NVIDIA Tesla GPU系列P4、T4、P40以及V100

NVIDIA Tesla系列GPUP4、T4、P40以及V100性能规格参数对比表，提供的实例GN4（Nvidia M40）、GN5（Nvidia P100）、GN5i（Nvidia P4）及GN6（Nvidia V100），也会基于NVIDIA Tesla GPU系列。【主要关注第3行：P40不支持半精度(FP16)模型训练】

来看看这些芯片内部的集成电路情况：

Tensor Core：我们知道在深度学习中大量的运算都是在高维矩阵（张量 Tensor）间进行的，Tensor Core可以让tensor的计算速度急速上升。Tensor Core专业执行矩阵数学运算，适用于深度学习和某些类型的HPC。Tensor Core执行融合乘法加法，其中两个4*4 FP16矩阵相乘，然后将结果添加到4*4 FP16或FP32矩阵中，最终输出新的4*4 FP16或FP32矩阵。NVIDIA将Tensor Core进行的这种运算称为混合精度数学，因为输入矩阵的精度为半精度，但乘积可以达到完全精度。碰巧的是，Tensor Core所做的这种运算在深度学习训练和推理中很常见。Tensor Core在GPU里处理的是大型矩阵运算，而不是简单地单指令流多数据流标量运算。虽然它在执行标量运算时的表现很糟糕，但它可以将更多的操作打包到同一个芯片区域。