官方给的用法:

python3 -m sglang.compile_deep_gemm --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

这个用法比较含糊其辞

其实只需要把模型启动命令的

python3 -m sglang.launch_server这个改成python3 -m sglang.compile_deep_gemm

按照启动模型的方式一样来启动compile_deep_gemm,例如多机仍然需要多机启动。

此外,需要设置环境变量SGLANG_DG_CACHE_DIR(早期版本为SGL_DG_CACHE_DIR)指定缓存目录,并且以后launch_server启动模型也要加上这个从而提升模型启动速度。

默认存储目录在~/.cache/deep_gemm。

# Force redirect deep_gemm cache_dir
os.environ["DG_JIT_CACHE_DIR"] = os.getenv(
    "SGL_DG_CACHE_DIR", os.path.join(os.path.expanduser("~"), ".cache", "deep_gemm")
)

PD分离则P/D都可以分别编译一遍并且汇集结果。

另一种途径就是设置环境变量SGLANG_DG_CACHE_DIR后,正常启动模型,并且进行一些推理,这个目录也会有cache文件可以使用。

Logo

免费领 200 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐