登录社区云,与社区用户共同成长
邀请您加入社区
AMD 为了推广它的 GPU 算力卡,在中国地区推出了注册开发者用户就送 200 小时算力的活动。拿到算力之后可以搞点什么事情呢?这次 AMD 提供的云 GPU 算力还是很强的,GPU 是 Radeon Pro W7900D(gfx1100),显存容量是 48G。就这个显存大小来说,不少百亿级别参数的开源模型都是可以拿来玩一下。这一次我们就用注册账号赠送的算力,结合开源的 LTX-Video 大模
本文详解 AMD Instinct GPU 显存优化技巧,涵盖 PagedAttention 参数调优、gpu-memory-utilization 安全设置及 FP8 量化落地。通过精细化配置解决大模型推理 OOM 难题,显著提升 ROCm 环境下服务稳定性与吞吐效率。
本文详解多卡并行推理实战,聚焦 vLLM 张量并行配置与性能测试。通过优化 PCIe 拓扑检查、进程绑核及高并发压力测试,帮助开发者在 AMD GPU 上突破显存瓶颈,精准定位系统拐点,大幅提升大模型推理吞吐量与稳定性。
本文详解如何用 Python 脚本调用本地 vLLM 服务,实现 OpenAI 接口对接。通过封装健壮客户端处理流式输出、异常重试及耗时监控,助力开发者将大模型推理从命令行测试迈向生产级应用,提升 AMD ROCm 环境下的工程落地效率。
本文详解在 DevCloud 上从零部署 vLLM 推理服务的全流程。涵盖 Ubuntu 环境配置、ROCm 驱动安装验证及 PyTorch 源码编译关键技巧,助开发者快速在 AMD GPU 上搭建高效大模型推理平台。
本文详解 vLLM 在 AMD Instinct GPU 上的优化配置,解决显存溢出难题。通过调整 gpu-memory-utilization 预留缓冲、优化 block-size 适应不同序列场景,以及利用 FP8 量化大幅降低显存占用,帮助开发者在 ROCm 环境下实现大模型推理的稳定高效运行。
本文详解在 AMD 显卡上源码编译 PyTorch 和 vLLM 的实战流程,重点解析通过设置 PYTORCH_ROCM_ARCH 变量解决非法指令报错的关键技巧。文章涵盖架构确认、环境配置及依赖优化,帮助开发者构建高效稳定的 ROCm 大模型推理环境,显著提升显存利用率与生成速度。
本文详解 AMD 显卡部署大模型全流程,聚焦 ROCm 7.x 与 vLLM 环境搭建。从权限配置、驱动验证到 PyTorch 源码编译,提供关键避坑指南,助开发者高效运行推理服务,释放 GPU 算力潜能。
本文详解如何利用 ROCm 即用型容器解决大模型推理部署中的环境冲突难题。通过官方预优化镜像,开发者可快速拉起 vLLM 服务,实现从开发到生产的环境一致性,大幅降低 AMD GPU 上的大模型部署门槛,提升运维效率。
本文详解 vLLM 在 AMD 显卡上的完整落地流程,涵盖从 ROCm 环境配置、源码编译避坑到显存调优与服务监控。通过实战指南帮助开发者解决依赖陷阱与 OOM 问题,实现大模型在 AMD GPU 上的高效推理部署。