
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了Kubernetes 调度系统的内部机制,并成功构建、部署了一个自定义的 Scheduler 插件。然后采用nginx完整示例演示自定义Scheduler 插件如何发挥作用的

承接前文博客 Kubeflow 快速入门实战(一)。补充Kubeflow pipelines ,katib,KServer,Training Operators (分布式训练)

本篇主要介绍了 volcano 在多 Kubernetes 集群中的任务调度能力和混部场景在的调度策略相关教程

主要是介绍了 Kubernetes 云原生相关技术在,大模型研发流程里面应用。探讨云原生和大模型的关系。然后提供了一份单机版本的 Kubernetes 的搭建示例,调度 GPU 资源

针对对当前大模型训练和推理场景下,硬件网络,存储,内存,显卡的优化技术做了一个盘点综述。主要涉及(RDMA,InfiniBand,RoCE,NCCL,NVMe-oF )等

本篇详细介绍网络拓扑感知调度和负载感知重新调度策略。并利用 8 台节点的 Kubernetes 的环境模拟。网络拓扑结构调度。模拟高负载重新调度

实现 qwen 2.5 7b 模型微调实验,并打包好模型最后发布到 huggingface

本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例,阐述 SGLang 的不同场景的用法。单机,分布式和 MoE 架构的模型部署等

通过 vLLM 并行策略部署满血版本的 DeepSeek-R1-0528 685B。硬件环境是 2*(8 H800)。实验全过程包含所有细节。可以直接复用部署命令和过程

本文主要介绍了 Kubeflow 的主要功能和能力,适用场景,基本用法。以及Notebook,piplines,katib,KServer 的入门级示例








