K8S， AI 大模型推理优化的新选择！

▼最近直播超级多，预约保你有收获今晚直播：《大模型Agent应用落地实战》—1—AI 大模型训练和推理Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面，Kubernetes 帮助用户标准化异构资源和运行时环境、简化运维流程；另一方面，AI 这种重度依赖 GPU 的场景可以利用 K8S 的弹性优势节省资源成本。在 AIGC/大模型的这波浪潮下，以

musicml

1093人浏览 · 2024-02-29 08:18:12

musicml · 2024-02-29 08:18:12 发布

▼最近直播超级多，预约保你有收获

今晚直播：《大模型Agent应用落地实战》

—1—

AI 大模型训练和推理

Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面，Kubernetes 帮助用户标准化异构资源和运行时环境、简化运维流程；另一方面，AI 这种重度依赖 GPU 的场景可以利用 K8S 的弹性优势节省资源成本。在 AIGC/大模型的这波浪潮下，以 Kubernetes 上运行 AI 应用将变成一种事实标准。

大模型训练和推理是企业重要应用，但企业往往面临着 GPU 管理复杂、资源利用率低，以及全生命周期管理中工程效率低下等挑战。通过创建 kubernetes 集群，使用 KServe + vLLM 部署推理服务。适用于以下场景：

大模型训练：基于 Kubernetes 集群微调开源大模型，可以屏蔽底层资源和环境的复杂度，快速配置训练数据、提交训练任务，并自动运行和保存训练结果。
大模型推理：基于 Kubernetes 集群部署推理服务，可以屏蔽底层资源和环境的复杂度，快速将微调后的大模型部署成推理服务，将大模型应用到实际业务场景中。
GPU 共享推理：支持 GPU 共享调度能力和显存隔离能力，可将多个推理服务部署在同一块 GPU 卡上，提高 GPU 的利用率的同时，也能保证推理服务的稳定运行。

—2—

vLLM 大模型推理加速器

即使在高端 GPU 上，提供 LLM 模型的速度也可能出奇的慢，平均推理速度大约5秒，vLLM 是一种快速且易于使用的 LLM 推理引擎。它可以实现比 Huggingface Transformer 网络结构高 10 倍甚至至 20 倍的吞吐量。它支持连续批处理以提高吞吐量和 GPU 利用率， vLLM 支持分页注意力以解决内存瓶颈，在自回归解码过程中，所有注意力键值张量（KV 缓存）都保留在 GPU 内存中以生成下一个令牌。

vLLM 是一个快速且易于使用的 LLM 推理和服务库。
vLLM 支持了并行取样，如下所示：

vLLM 支持了对多个输出进行采样，如下所示：

—3—

KServe 大模型推理平台

KServe 是一个与云无关的标准大模型推理平台，专为大模型应用高度可扩展而构建，KServe 封装了自动扩展、网络、健康检查和服务器配置的复杂性，为大模型应用部署带来了 GPU 自动扩展、零扩缩放和金丝雀发布等先进的服务特性。它使得生产大模型应用服务变得简单、可插拔，它提供了以下特性：

跨机器学习框架，提供高性能标准化推理协议。
支持现代无服务器推理工作负载，具有基于请求在 CPU 和 GPU 的自动缩放（包括缩放至零）。
使用ModelMesh 支持高可扩展性、密度封装和智能路由。
简单且可插入的生产服务：用于推理、预/后处理、监控和可解释性。
高级部署：金丝雀部署、Pipeline、InferenceGraph。

—4—

领取《AI 大模型技术直播》

我们梳理了下 AI 大模型应用开发的知识图谱，包括12项核心技能：大模型内核架构、大模型开发 API、开发框架、向量数据库、AI 编程、AI Agent、缓存、算力、RAG、大模型微调、大模型预训练、LLMOps 等。

为了帮助同学们掌握 AI 大模型应用开发技能，我们准备了一系列免费直播干货，扫码全部领取！

END

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub