英伟达L20显卡SGlang方式部署Qwen3-235B-A22-FP8
本文介绍了在单机8张L20显卡上使用SGLang方式部署Qwen3-235B-A22-FP8大模型的方法,文中提供了详细命令和参数说明。
·
本文为单机8张L20通过SGlang方式部署Qwen3-235B-A22-FP8模型,在进行部署前需要保证当前机器显存足够(至少250G),已经部署docker、显卡驱动为12.4及其以上版本。
原本是通过vllm部署该模型,但是在使用工具链调用流式输出时,发现得到的回答不能保证完整准确的返回结构,故切换至SGlang方式部署,如需了解vllm方式部署请留言。
1、镜像准备
Qwen3模型
下载地址:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-FP8
命令方式下载需要本地安装python环境,或者你可以选择直接网页下载模型单个文件的方式下载,更多下载方式请参考模型页面“下载模型”。
# 安装魔塔库 pip install modelscope # 单次下载完整库 modelscope download --model Qwen/Qwen3-235B-A22B-FP8 --local_dir /下载文件保存路径
SGlang镜像
docker hub下载或者参考以下地址(下载时注意系统类型)
下载地址:https://docker.aityp.com/i/search?search=0.4.6
当前下载方式需要依赖docker环境,如需要在windows系统下载则需要安装Docker Desktop。
# 拉去镜像 docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.6.post5-cu124 # 标签转换 docker tag swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.6.post5-cu124 docker.io/lmsysorg/sglang:v0.4.6.post5-cu124 # 镜像保存为本地文件 docker save -o D:\docker\sglang_v0.4.6.post5-cu124.tar docker.io/lmsysorg/sglang:v0.4.6.post5-cu124
2、模型部署
参考地址:
Qwen官方文档:https://qwen.readthedocs.io/zh-cn/latest/deployment/sglang.html
SGLang官方文档:https://docs.sglang.ai/get_started/install.html
# 加载镜像 docker load -i sglang_v0.4.6.post5-cu124.tar # 模型启动命令 docker run -d \ --gpus all \ --name sglang \ --entrypoint /bin/bash \ --shm-size 32g \ --ipc-host \ --network host \ -v/run/vllmApp/model:/home/model \ lmsysorg/sglang:y0.4.6.post5-cu124 \ python3 -m sglang.launch server --model-path /home/model/Qwen3-235B-A22B-FP8 --served-model-name Qwen3-235B-A22B-PP8 --port 32000 --host 0.0.0.0 --tensor-parallel-size 8 --guantization fp8 --reasoning-parser qwen3 --tool-call-parser qwen25 --enable-ep-moe 参数说明: --gpus all # 使用全部GPU --ipc-host --network host # 使用主机网络 -v/run/vllmApp/model:/home/model # 目录挂载 --model-path # 模型路径,根据挂载目录决定 --served-model-name #模型名称 --port # 使用端口 --host # 容器与宿主机网络联通(设置此参数外部才能调用模型) --tensor-parallel-size 8 # 模型部署卡数 --reasoning-parser qwen3 # 解析思考内容 --tool-call-parser qwen25 # 解析工具调用 --enable-ep-moe # 让框架支持moe模型,主要解决192分块的问题
更多推荐
所有评论(0)