▼最近直播超级多,预约保你有收获

今晚直播:《大模型Agent应用落地实战

1

AI 大模型训练和推理

Docker 容器和 Kubernetes 已经成为越来越多 AI 应用首选的运行环境和平台。一方面,Kubernetes 帮助用户标准化异构资源和运行时环境、简化运维流程;另一方面,AI 这种重度依赖 GPU 的场景可以利用 K8S 的弹性优势节省资源成本。在 AIGC/大模型的这波浪潮下,以 Kubernetes 上运行 AI 应用将变成一种事实标准。

大模型训练和推理是企业重要应用,但企业往往面临着 GPU 管理复杂、资源利用率低,以及全生命周期管理中工程效率低下等挑战。通过创建 kubernetes 集群,使用 KServe + vLLM 部署推理服务。适用于以下场景:

  • 大模型训练:基于 Kubernetes 集群微调开源大模型,可以屏蔽底层资源和环境的复杂度,快速配置训练数据、提交训练任务,并自动运行和保存训练结果。

  • 大模型推理:基于 Kubernetes 集群部署推理服务,可以屏蔽底层资源和环境的复杂度,快速将微调后的大模型部署成推理服务,将大模型应用到实际业务场景中。

  • GPU 共享推理:支持 GPU 共享调度能力和显存隔离能力,可将多个推理服务部署在同一块 GPU 卡上,提高 GPU 的利用率的同时,也能保证推理服务的稳定运行。

2

vLLM 大模型推理加速器

即使在高端 GPU 上,提供 LLM 模型的速度也可能出奇的慢,平均推理速度大约5秒,vLLM 是一种快速且易于使用的 LLM 推理引擎。它可以实现比 Huggingface Transformer 网络结构高 10 倍甚至至 20 倍的吞吐量。它支持连续批处理以提高吞吐量和 GPU 利用率, vLLM 支持分页注意力以解决内存瓶颈,在自回归解码过程中,所有注意力键值张量(KV 缓存)都保留在 GPU 内存中以生成下一个令牌。

ace2ecac87da2021bbfa003bba088dce.png

  • vLLM 是一个快速且易于使用的 LLM 推理和服务库。

  • vLLM 支持了并行取样,如下所示:

15c74e49a26951c818da228272cb950e.gif

  • vLLM 支持了对多个输出进行采样,如下所示:

8160b54e8e90ef5710212e924b93d77c.gif

3

KServe 大模型推理平台

KServe 是一个与云无关的标准大模型推理平台,专为大模型应用高度可扩展而构建,KServe 封装了自动扩展、网络、健康检查和服务器配置的复杂性,为 大模型应用部署带来了 GPU 自动扩展、零扩缩放和金丝雀发布等先进的服务特性。它使得生产大模型应用服务变得简单、可插拔,它提供了以下特性:

9bcde0c7f52e95a8ef6f56056703b157.png

  • 跨机器学习框架,提供高性能标准化推理协议。

  • 支持现代无服务器推理工作负载,具有基于请求在 CPU 和 GPU 的自动缩放(包括缩放至零)。

  • 使用ModelMesh 支持 高可扩展性、密度封装和智能路由。

  •  简单且可插入的生产服务:用于推理、预/后处理、监控和可解释性。

  • 高级部署:金丝雀部署、Pipeline、InferenceGraph。

4

领取《AI 大模型技术直播

我们梳理了下 AI 大模型应用开发的知识图谱,包括12项核心技能:大模型内核架构、大模型开发 API、开发框架、向量数据库、AI 编程、AI Agent、缓存、算力、RAG、大模型微调、大模型预训练、LLMOps 等。

ef4415cbd7151159166f48493f3049e0.png

为了帮助同学们掌握 AI 大模型应用开发技能,我们准备了一系列免费直播干货扫码全部领取

54f3a833beef05fa4f53c24a4a7005fa.png

END

Logo

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐