2600_96323192 个人主页

@2600_96323192

2600_96323192

2026-06-15 19:02:53 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

别再手动编译了，用 Docker 在 Instinct GPU 上三分钟跑通 vLLM

本文详解如何利用 ROCm 7.x 官方 Docker 镜像，在 AMD Instinct GPU 上三分钟快速部署 vLLM。通过一键启动 Llama 3.1 模型并支持 BF16 与 FP8 量化，彻底告别手动编译地狱，实现开发到生产环境的一致性，大幅提升大模型推理效率。

#vLLM

手把手教你用 Docker 封装 ROCm 推理环境，一次构建到处运行

本文详解如何利用 Docker 封装 ROCm 推理环境，解决 AMD GPU 部署中的依赖难题。通过编写生产级 Dockerfile 及配置关键启动参数，实现 vLLM 在 DevCloud 或本地的一次构建、到处运行，大幅提升大模型推理服务的部署效率与稳定性。

#vLLM

GitHub 协作规范：如何让多人维护的 ROCm 项目不翻车

本文详解 GitHub 协作规范在多人维护 ROCm 项目中的关键作用。通过强制功能分支策略、基于真实硬件的 CI/CD 流水线及严格的代码审查，有效解决环境差异导致的构建失败与隐式依赖问题，确保 AMD GPU 生态下的代码质量与稳定性。

避坑指南，Github 上那些标榜支持 ROCm 的项目到底能不能信

本文揭秘 Github 上标榜支持 ROCm 项目的真伪鉴别技巧。通过检查 Commit 频率、深挖 Issue 区及验证代码特化分支，帮助开发者快速识别“伪支持”项目，避开编译报错陷阱。文章重点推荐 LLaMA-Factory 和 SGLang 等经过生产验证的 ROCm 生态核心项目，助力高效部署 AMD 大模型推理服务。

我在 Github 上给 SGLang 提了个 PR，顺便修好了一个性能 Bug

本文记录作者在 AMD MI300X 集群上优化 SGLang 推理性能的经历。通过调整 Block Size 对齐 Wavefront 尺寸，解决显存带宽利用率低的问题，并成功向 Github 提交 PR。文章分享 ROCm 生态下的调试技巧与开源协作心得，助力开发者提升 AI 推理效率。

Github 上值得关注的 ROCm 项目，别再只盯着官方文档看

本文精选 GitHub 上高活跃度的 ROCm 项目，涵盖 HIPify 代码迁移、SGLang 与 TileLang 推理加速及 LLaMA-Factory 微调实践。助开发者避开僵尸仓库，掌握 AMD GPU 生态核心工具，高效构建大模型应用。

#HIPify

从旁观到贡献，如何在 Github 参与 ROCm 开源项目共建

本文详解如何从提交 Issue 起步，深度参与 ROCm 开源项目共建。通过 SGLang 与 TileLang 实战案例，指导开发者利用 rocprof 定位性能瓶颈，规范撰写 PR 完成代码贡献。掌握 GitHub 协作流程，助力开发者打破心理壁垒，从旁观者成长为异构计算专家。

Windows 下 Vulkan 后端配置指南，榨干 AMD 核显 AI 算力

本文详解 Windows 下利用 Vulkan 后端配置指南，解决 AMD 核显运行大模型时的兼容难题。通过 LM Studio 与 Ollama 实战教程，助您轻松榨干 Strix Halo 架构 AI 算力，实现高效本地推理，避开 ROCm 部署陷阱。

告别显存焦虑，32GB 内存轻松运行 32B 大模型实战记录

本文实战记录如何在 32GB 内存笔记本上流畅运行 32B 大模型。基于 AMD Strix Halo 统一内存架构，彻底告别显存焦虑。通过优化 GPU 卸载设置，实现高效本地推理，为开发者提供低成本部署大语言模型的实用指南。

Windows 环境下 Vulkan 后端配置，Ollama 与 LM Studio 避坑手册

本文详解 Windows 环境下 Vulkan 后端配置，聚焦 Ollama 与 LM Studio 在 AMD Strix Halo 架构的避坑指南。通过更新显卡驱动、调优环境变量及可视化监控，解决 GPU 识别与显存分配难题，确保本地大模型高效推理。

#LM Studio

共 114 条

请选择