登录社区云,与社区用户共同成长
邀请您加入社区
API Shader Stage Control
免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖
更多推荐
生产级大模型服务部署,vLLM 多卡并行与监控告警方案
本文详解生产级大模型服务部署方案,聚焦 vLLM 多卡并行优化与监控告警体系。通过 CPU 亲和性绑定提升通信效率,结合 DCGM、Prometheus 及 Grafana 构建全链路可观测性,有效解决长尾延迟与资源瓶颈,保障高并发场景下的大模型服务稳定运行。
Strix Halo 部署避坑指南,从驱动配置到模型量化的真实经验
本文详解 Strix Halo 部署避坑指南,涵盖驱动选型与模型量化策略。针对 Ryzen AI Max+统一内存架构,推荐原生 Windows+Vulkan 后端,并指出 Q5_K_M 为最佳量化格式。通过配置 HSA_OVERRIDE_GFX_VERSION 解决编译报错,结合 KV Cache 监控优化性能,助开发者高效落地端侧 AI 应用。
Strix Halo 核显跑 Qwen3-Coder 30B,Vulkan 零拷贝推理实战
本文详解 Strix Halo 核显利用 Vulkan 零拷贝技术,在 Windows 原生环境下流畅运行 Qwen3-Coder 30B 模型。通过源码编译 llama.cpp 与参数调优,实现近百 token/s 的本地代码推理,为开发者提供高效、隐私安全的 AI 编程辅助实战方案。
扫一扫分享内容
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
所有评论(0)