sglang compile_deep_gemm

Luchang-Li

697人浏览 · 2025-10-24 09:34:36

Luchang-Li · 2025-10-24 09:34:36 发布

官方给的用法：

python3 -m sglang.compile_deep_gemm --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

这个用法比较含糊其辞

其实只需要把模型启动命令的

python3 -m sglang.launch_server这个改成python3 -m sglang.compile_deep_gemm

按照启动模型的方式一样来启动compile_deep_gemm，例如多机仍然需要多机启动。

此外，需要设置环境变量SGLANG_DG_CACHE_DIR(早期版本为SGL_DG_CACHE_DIR)指定缓存目录，并且以后launch_server启动模型也要加上这个从而提升模型启动速度。

默认存储目录在~/.cache/deep_gemm。

# Force redirect deep_gemm cache_dir
os.environ["DG_JIT_CACHE_DIR"] = os.getenv(
    "SGL_DG_CACHE_DIR", os.path.join(os.path.expanduser("~"), ".cache", "deep_gemm")
)

PD分离则P/D都可以分别编译一遍并且汇集结果。

另一种途径就是设置环境变量SGLANG_DG_CACHE_DIR后，正常启动模型，并且进行一些推理，这个目录也会有cache文件可以使用。

加入AMD AI开发者计划！

免费领 150 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

[Bug已解决] cholesky_solve 批处理多 batch CUDA float64 在 ROCm gfx942 上数值不接近解决方案

AMD开发者中国社区

30 分钟，手把手带你从 0 到 1 跑通一个高性能 Token 服务

AMD开发者中国社区

【本地部署 BAAI/bge-m3 嵌入服务，Dify 私有知识库接入教程】

本文基于 vLLM+Docker 部署 BGE-M3 向量服务，详解参数、调优，手把手完成 Dify 知识库集成落地

AMD开发者中国社区

所有评论(0)

查看更多评论

Luchang-Li

@u013701860

已为社区贡献6条内容

sglang compile_deep_gemm

Luchang-Li

所有评论(0)

温馨提示：您尚未绑定手机号

Luchang-Li