logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

显存不够用怎么办,量化与重计算策略在 vLLM 中的实战

本文详解 vLLM 在 ROCm 环境下解决显存不足的实战策略。通过 FP8 量化降低权重占用,利用激活值重计算以时间换空间,并优化 Block Size 减少碎片。这些方法显著提升 AMD GPU 上的大模型并发能力与推理效率。

#vLLM
深入解析 ROCm 7.x 新特性,看它如何加速大模型推理

本文深入解析 ROCm 7.x 新特性,揭示其如何通过 hipBLASLt 稀疏优化、HIP 编译器指令调度及 vLLM 异步执行流,显著提升大模型推理效率。实测显示长上下文场景延迟降低 20%,为高并发应用提供稳定高性能支持。

用官方 Docker 镜像在 MI300X 上跑通 Llama 3.1,省时又稳当

本文详解如何利用官方 Docker 镜像在 AMD MI300X 上快速部署 Llama 3.1。通过 ROCm 7.x 与 vLLM 的深度优化,支持 BF16 及 FP8 量化,显著降低环境配置成本并提升推理吞吐,是大模型高效落地的稳定方案。

#vLLM
从零开始在 Instinct GPU 上部署 vLLM,避开环境配置那些坑

摘要 本文提供了一份在AMD ROCm环境下编译部署PyTorch的完整实战指南。主要内容包括:1)环境准备与权限配置,强调用户组设置和编译器版本检查;2)驱动验证与GPU架构识别,通过rocm-smi和rocminfo工具确认硬件状态;3)源码编译关键步骤,重点说明PYTORCH_ROCM_ARCH等环境变量设置;4)部署优化实践,介绍vLLM服务的显存调优和启动参数配置。文章针对ROCm平台的

#vLLM
到底了