在win系统下测试工具比较多,现在 N 卡多用于深度学习,有时候会在 Linux下进行 N 卡测试。

测试工具 gpu-burn: Multi-GPU CUDA stress test,github地址:https://github.com/wilicc/gpu-burn

动手能力强的同学可以直接看 README.md 文档。我来说下我的测试过程。

补充一点,现在各种信息鱼龙混杂,遇到问题先找官网资料!

主要原理:利用Nvidia发布的Cuda镜像,在容器里编译后测试。用到的软件:

  • CentOS/Ubuntu 等发行版系统;
  • N卡驱动,尽量用最新的驱动;
  • Docker-ce 和 nvidia-container-runtime
  • Nvidia 发布的Cuda镜像
  • gpu-burn

步骤:

1、安装系统和nvidia驱动

系统下载可以到阿里云和国内镜像源,安装可以自行搜索;

驱动安装可以到Nvidia官网下载 Linux 驱动,安装过程也很简单。

驱动地址给个官方路径:Official Drivers | NVIDIA

安装完成,可以通过 nvidia-smi 进行验证,能看到显卡信息即正常。

2、安装 docker 和 nvidia-container-runtime

docker的安装可以参考阿里云的步骤,或者直接看官方资料。

安装 nvidia-container-runtime,参考文档,安装也比较简单:

https://github.com/NVIDIA/nvidia-container-runtime

nvidia-container-runtime 是帮助docker在容器里调用到宿主机GPU。

3、nvidia发布的docker镜像

cuda镜像的Docker Hub地址:nvidia/cuda Tags | Docker Hub

比如:docker pull nvidia/cuda:11.2.0-cudnn8-devel-ubuntu18.04

在选镜像的时候注意,一般下载devel版本,不要选在runtime版本,devel版本,开发用的包比较完整,一般选cudnn装好的版本,开发cuda,cudnn一般是必备的,最最重要的是cuda版本不要太高,不能高于刚刚安装的驱动支持的cuda版本,其他的根据你的爱好去选就好了。

这个过程比较考验你的网速了,现在的cuda的镜像都要2G+了

4、下载gpu burn开始测试

从github下载最新版本:GitHub - wilicc/gpu-burn: Multi-GPU CUDA stress test

https://github.com/NVIDIA/nvidia-container-runtime/archive/refs/heads/main.zip

下载好,上传到服务器上,比如放在 gputest 目录下,开始启动容器测试。

先解压:unzip main.zip

docker run -it --rm -v /gputest:/gputest nvidia/cuda:11.2.0-cudnn8-devel-ubuntu18.04 bash

自动进入容器,进入 /gputest 目录,可以看到帮助文件  cat README.md

开始测试:

# To build GPU Burn,需要指定 cuda 路径
make CUDAPATH=/usr/local/cuda-<version>

# 先查看帮助
./gpu_burn -h
GPU Burn
Usage: gpu_burn [OPTIONS] [TIME]

-m X	Use X MB of memory.
-m N%	Use N% of the available GPU memory.  Default is 90%
-d	Use doubles
-tc	Try to use Tensor cores
-l	Lists all GPUs in the system
-i N	Execute only on GPU N
-h	Show this help message

Examples:
  gpu-burn -d 3600 # burns all GPUs with doubles for an hour
  gpu-burn -m 50% # burns using 5017651154300f the available GPU memory
  gpu-burn -l # list GPUs
  gpu-burn -i 2 # burns only GPU of index 2
root@3f6c1167dd43:/gputest/gpu-burn-master# 

# 根据帮助进行测试
gpu-burn -d 3600  # 测试所有 GPU 一小时

nvidia-smi -l 查看 gpu利用率

或者通过gpustat,gpustat 通过pip安装。

Logo

秉承“创新、开放、协作、共享”的开源价值观,致力于为大规模开源开放协同创新助力赋能,打造创新成果孵化和新时代开发者培养的开源创新生态!支持公有云使用、私有化部署以及软硬一体化私有部署。

更多推荐