sglang compile_deep_gemm
·
官方给的用法:
python3 -m sglang.compile_deep_gemm --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code
这个用法比较含糊其辞
其实只需要把模型启动命令的
python3 -m sglang.launch_server这个改成python3 -m sglang.compile_deep_gemm
按照启动模型的方式一样来启动compile_deep_gemm,例如多机仍然需要多机启动。
此外,需要设置环境变量SGLANG_DG_CACHE_DIR(早期版本为SGL_DG_CACHE_DIR)指定缓存目录,并且以后launch_server启动模型也要加上这个从而提升模型启动速度。
默认存储目录在~/.cache/deep_gemm。
# Force redirect deep_gemm cache_dir
os.environ["DG_JIT_CACHE_DIR"] = os.getenv(
"SGL_DG_CACHE_DIR", os.path.join(os.path.expanduser("~"), ".cache", "deep_gemm")
)
PD分离则P/D都可以分别编译一遍并且汇集结果。
另一种途径就是设置环境变量SGLANG_DG_CACHE_DIR后,正常启动模型,并且进行一些推理,这个目录也会有cache文件可以使用。
更多推荐


所有评论(0)