本文为单机8张L20通过SGlang方式部署Qwen3-235B-A22-FP8模型,在进行部署前需要保证当前机器显存足够(至少250G),已经部署docker、显卡驱动为12.4及其以上版本。

        原本是通过vllm部署该模型,但是在使用工具链调用流式输出时,发现得到的回答不能保证完整准确的返回结构,故切换至SGlang方式部署,如需了解vllm方式部署请留言。

1、镜像准备

Qwen3模型

下载地址:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-FP8

命令方式下载需要本地安装python环境,或者你可以选择直接网页下载模型单个文件的方式下载,更多下载方式请参考模型页面“下载模型”。

# 安装魔塔库
pip install modelscope
​
# 单次下载完整库
modelscope download --model Qwen/Qwen3-235B-A22B-FP8 --local_dir /下载文件保存路径

SGlang镜像

docker hub下载或者参考以下地址(下载时注意系统类型)

下载地址:https://docker.aityp.com/i/search?search=0.4.6

当前下载方式需要依赖docker环境,如需要在windows系统下载则需要安装Docker Desktop。

# 拉去镜像
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.6.post5-cu124
​
# 标签转换
docker tag  swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.6.post5-cu124  docker.io/lmsysorg/sglang:v0.4.6.post5-cu124
​
# 镜像保存为本地文件
docker save -o D:\docker\sglang_v0.4.6.post5-cu124.tar docker.io/lmsysorg/sglang:v0.4.6.post5-cu124

2、模型部署

参考地址:

Qwen官方文档:https://qwen.readthedocs.io/zh-cn/latest/deployment/sglang.html

SGLang官方文档:https://docs.sglang.ai/get_started/install.html

# 加载镜像
docker load -i sglang_v0.4.6.post5-cu124.tar
​
# 模型启动命令
docker run -d \
--gpus all \
--name sglang \
--entrypoint /bin/bash \
--shm-size 32g \
--ipc-host \
--network host \
-v/run/vllmApp/model:/home/model \
lmsysorg/sglang:y0.4.6.post5-cu124 \
python3 -m sglang.launch server --model-path /home/model/Qwen3-235B-A22B-FP8 --served-model-name Qwen3-235B-A22B-PP8 --port 32000 --host 0.0.0.0 --tensor-parallel-size 8 --guantization fp8 --reasoning-parser qwen3 --tool-call-parser qwen25 --enable-ep-moe
​
参数说明:
    --gpus all  # 使用全部GPU
    --ipc-host  
    --network host # 使用主机网络
    -v/run/vllmApp/model:/home/model  # 目录挂载
    --model-path  # 模型路径,根据挂载目录决定
    --served-model-name  #模型名称
    --port  # 使用端口
    --host  # 容器与宿主机网络联通(设置此参数外部才能调用模型)
    --tensor-parallel-size 8  # 模型部署卡数
    --reasoning-parser qwen3  # 解析思考内容
    --tool-call-parser qwen25  # 解析工具调用
    --enable-ep-moe  # 让框架支持moe模型,主要解决192分块的问题
Logo

更多推荐