登录社区云,与社区用户共同成长
邀请您加入社区
API Shader Stage Control
免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖
更多推荐
生产级大模型服务部署,vLLM 多卡并行与监控告警方案
本文详解生产级大模型服务部署方案,聚焦 vLLM 多卡并行优化与监控告警体系。通过 CPU 亲和性绑定提升通信效率,结合 DCGM、Prometheus 及 Grafana 构建全链路可观测性,有效解决长尾延迟与资源瓶颈,保障高并发场景下的大模型服务稳定运行。
长上下文推理延迟降两成,ROCm 7.x 新特性深度解析
本文深度解析 ROCm 7.x 新特性,揭示其如何通过 hipBLASLt 稀疏计算与异步流优化,使长上下文推理延迟降低 20%。结合 vLLM 框架实测,展示 AMD Instinct MI300X 在大模型场景下的性能飞跃,为构建高效推理服务提供关键技术支持。
从零搭建 AMD 推理栈,PyTorch 源码编译与显存调优全记录
本文详解从零搭建 AMD 推理栈全流程,涵盖 PyTorch 源码编译、显存调优及多卡部署。通过精准配置 ROCm 环境与 PagedAttention 参数,解决兼容性瓶颈,大幅提升大模型在 AMD 显卡上的推理效率与稳定性。
扫一扫分享内容
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
所有评论(0)