logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型长文本推理显存不够用,ROCm 7.x 量化与重计算实战技巧

本文详解 ROCm 7.x 环境下大模型长文本推理的显存优化方案。通过 FP8 量化与激活值重计算实战技巧,有效解决 HIP out of memory 报错,在单卡资源有限时实现上下文翻倍,助力开发者低成本部署百亿参数模型。

PyTorch 模型迁移 Instinct GPU 实录,自定义算子兼容性问题怎么解

本文实录 PyTorch 模型迁移至 AMD Instinct GPU 的全过程,重点解决 ROCm 环境适配与自定义算子兼容难题。通过 Triton 重写算子替代 CUDA C++ 扩展,成功提升推理性能并确保精度,为开发者提供高效的 GPU 迁移实战指南。

用 vLLM 在 Instinct 显卡上抗高并发,显存优化与吞吐实测数据分享

本文分享在 Instinct 显卡上利用 vLLM 实现高并发推理的实战经验。通过 PagedAttention 优化显存碎片、FlashAttention 提升吞吐及动态批处理调优,显著降低延迟。实测数据显示,ROCm 7.x 环境下系统性能大幅提升,为企业级大模型部署提供高效解决方案。

#vLLM#Instinct GPU
DevCloud 上跑通第一个 ROCm 7.x 推理服务,vLLM 配置避坑指南

本文详解在 DevCloud 平台部署 ROCm 7.x 推理服务的实战指南。涵盖镜像选择避坑、设备健康诊断脚本编写及 vLLM 参数调优策略,重点解决显存分配与网络挂载难题,助开发者快速构建稳定的大模型推理环境。

#vLLM#DevCloud
到底了