深度学习中的调度主要是围绕着GPU卡展开的。目前主流的调度平台有三种:

Slurm。最为通用的,以物理GPU卡为单位进行调度。

Mecos和K8s。以容器的方式调度。

都是开源的平台。

 

另外,Deep Learning领域调度的BCM(Bright Computing Management)产品,可以提供集群管理功能,并集成了Slurm模块和主流的DL框架(如TensorFlow和Cafe)

业务规模比较大的时候可以采用。

Logo

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐