k8s调度gpu服务时出现nvidia-container-cli: device error: no-gpu-has-xxxMiB-to-run: unknown device
在yaml的env种指定NVIDIA_VISIBLE_DEVICES: all
·
背景:
我司使用的是阿里的gpushare进行的gpu共享,在调度pod时发现明明存在显存且显卡能够正常识别 但是在做调度时仍然会出现此异常。
解决方案:
在yaml的env种指定NVIDIA_VISIBLE_DEVICES: all, 如下:
.....
containers:
-name: xxx
image: http://xxxx:xx
resources:
limit:
aliyun.com/gpu-mem: 1
env:
- name: NVIDIA_VISIBLE_DEVICES
value: all
更多推荐
已为社区贡献1条内容
所有评论(0)