logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Kubernetes 自定义Scheduler插件开发(入门实战)

本文介绍了Kubernetes 调度系统的内部机制,并成功构建、部署了一个自定义的 Scheduler 插件。然后采用nginx完整示例演示自定义Scheduler 插件如何发挥作用的

文章图片
#kubernetes#容器#云原生
Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer

承接前文博客 Kubeflow 快速入门实战(一)。补充Kubeflow pipelines ,katib,KServer,Training Operators (分布式训练)

文章图片
#云原生
Volcano 进阶实战 (三) - (多集群 / 离线混部)调度

本篇主要介绍了 volcano 在多 Kubernetes 集群中的任务调度能力和混部场景在的调度策略相关教程

文章图片
#云原生
大模型(LLM)基础Kubernetes环境 构建

主要是介绍了 Kubernetes 云原生相关技术在,大模型研发流程里面应用。探讨云原生和大模型的关系。然后提供了一份单机版本的 Kubernetes 的搭建示例,调度 GPU 资源

文章图片
#kubernetes#容器#云原生
大模型(LLM)高性能网络综述(一)

针对对当前大模型训练和推理场景下,硬件网络,存储,内存,显卡的优化技术做了一个盘点综述。主要涉及(RDMA,InfiniBand,RoCE,NCCL,NVMe-oF )等

文章图片
#MPI
Volcano 进阶实战 (二) - (网络拓扑/负载感知)调度

本篇详细介绍网络拓扑感知调度和负载感知重新调度策略。并利用 8 台节点的 Kubernetes 的环境模拟。网络拓扑结构调度。模拟高负载重新调度

文章图片
#云原生#kubernetes
Qwen2.5 7B 极简微调训练

实现 qwen 2.5 7b 模型微调实验,并打包好模型最后发布到 huggingface

文章图片
#深度学习#人工智能#阿里云
SGLang 实战介绍 (张量并行 / Qwen3 30B MoE 架构部署)

本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例,阐述 SGLang 的不同场景的用法。单机,分布式和 MoE 架构的模型部署等

文章图片
vLLM用2*(8 H800)部署DeepSeek-R1-0528-685B

通过 vLLM 并行策略部署满血版本的 DeepSeek-R1-0528 685B。硬件环境是 2*(8 H800)。实验全过程包含所有细节。可以直接复用部署命令和过程

文章图片
Kubeflow 快速入门实战(一) - 简介 / Notebooks

本文主要介绍了 Kubeflow 的主要功能和能力,适用场景,基本用法。以及Notebook,piplines,katib,KServer 的入门级示例

文章图片
#机器学习#云原生
    共 19 条
  • 1
  • 2
  • 请选择