logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

拥抱高性能计算:将Slurm集成为K8s调度程序

SUNK是一个开源项目(将于 2024 年初发布),它将 Kubernetes 容器化部署和 GitOps 引入 Slurm,并将 Slurm 调度程序插件集成到 Kubernetes。本质上,SUNK 将 Slurm 集成为 Kubernetes 调度程序,并允许 Slurm 作业在 Kubernetes 内运行。这创造了更加无缝的体验,在同一中央平台上支持爆发式和批量工作负载,并允许开发人员利

文章图片
#kubernetes#容器#云原生
面向E级高性能计算的软件栈(五)

4. 使用示例在本节中,我们提出了一个PMIx接口的实际用例,该用例基于用户级故障缓解(ULFM)规范来支持开放MPI中的容错,该规范加强了检测并协调对故障事件的响应。响应故障是一个复杂的问题,因为系统中的各种组件都可能报告事件,例如网络驱动程序、来自故障MPI通信的带内检测、MPI进程资源环境、系统范围的资源管理器RAS服务、交换机和SNMP陷阱。类似地,多个组件可能对错误事件感兴趣并作...

到底了