SLURM (Simple Linux Utility for Resource Management)是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统。

今天给大家介绍一款开源Slurm web监控平台,它主要用来监控集群的节点、作业、作业分布、队列、QoS,资源预留等等。该平台具有丰富的图示:集群机架图,节点拓扑图,队列使用情况甘特图等。并且支持多集群统一监控。

该系统已经在国外的大型集群中经过实践验证。

下面给大家介绍下这个开源系统的功能。

01

作业

作业页面包含:分配给作业的core核数占比,作业状态情况,核数在partition中的使用情况,核数在QoS中的分布情况等。

下方同时展示了作业列表,可查看单个作业详情。

作业详情:

02

Racks

所谓rack,就是服务器机架,通过页面来展示监控物理服务器节点位置和状态。通过不同的颜色来表示不同的资源繁忙状态。

03

Jobs Map
 

Jobs Map翻译过来就是作业在节点间和节点内的分布情况。系统仍然是通过机架图的形式来展示作业分布和资源使用情况。

04

3D 机房

3D机房通过机房内机架的位置信息,模拟整个机房的3D图形,实现虚拟现实与资源使用情况的结合,来观察节点使用情况,更容易定位位置与问题。

05

Partition队列

Partition是Slurm中的队列概念。队列是调度系统的基础,资源以队列为维度进行定义和分配,每个作业将被提交到一个队列中,基于队列维度的资源情况,调度器对作业进行调度和分发到节点运行。

06

QOS

QOS(Quality of Service)。它是影响作业调度的重要参数指标。QoS包含很多维度的内容,默认只有作业优先级和是否可被抢占。根据集群的实际情况,可以为作业和队列定义不同的QoS。

07

Rerservation预留

资源预留,为某用户提前在一段时间内预留足够的资源来运行大型作业。对于大型集群来说,它是一个重要功能。在保证调度公平的同时,能够对于特例作业给予一定的资源支持。

08

甘特图

甘特图的目的是现实一段时间内,不同状态的作业基于节点/QOS的状态展示。下面就是基于节点和QOS来展示作业的情况。

09

拓扑图

根据机房网络的实际情况,通过配置文件绘制节点拓扑图。通过force graph力图来展示。通过点击上面的节点组来展示节点,点击节点能够展示节点详情。

10

用户及权限
 

用户管理主要通过集成openldap来管理。权限是基于角色的功能访问控制(RBAC)。通过为每个用户组或用户来设置不同的角色来控制页面的功能访问。总体权限控制比较简单,但是基本够用。

以上就是该平台系统的主要功能了。虽然是开源,但是并非开箱可用,需要自行编译。编译过程中也需要解决一些问题才能编译通过,这可能是开源的通病了。

如需编译后的安装包可关注本公众号: HPCLIB,发送暗号:“sd” 。

更多HPC相关服务,欢迎来询!


以下为HPC技术交流群,欢迎大家入群讨论任何与HPC相关技术内容:

 

Logo

秉承“创新、开放、协作、共享”的开源价值观,致力于为大规模开源开放协同创新助力赋能,打造创新成果孵化和新时代开发者培养的开源创新生态!支持公有云使用、私有化部署以及软硬一体化私有部署。

更多推荐