vLLM + Open WebUI 本地部署 QwQ-32B 模型
·
目录
一、模型概述
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,能够思考和推理的 QwQ 可以在下游任务中实现显着增强的性能,尤其是难题。
QwQ-32B 是中型推理模型,能够实现与最先进的推理模型(如 DeepSeek-R1、o1-mini)相比的竞争性能。

二、环境配置
- 这里我使用的是两张 40G 显存的 A100
conda create -n QwQ-32B python=3.11
conda activate QwQ-32B
pip install vllm
三、QWQ-32B 模型下载
- 使用 Hugging Face 的官方下载工具 cli
pip install -U huggingface_hub
- 更换镜像源
export HF_ENDPOINT=https://hf-mirror.com
- 这里也可以直接写进~/.bashrc

- 下载模型
huggingface-cli download --resume-download Qwen/QwQ-32B --local-dir ./QwQ-32B --local-dir-use-symlinks False
#--local-dir后面的参数可以替换成自己的实际保存路径
四、vLLM 配置
- 这里附上官方项目地址:vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs
- 通过 pip 进行安装
pip install vllm
- 加载模型
CUDA_VISIBLE_DEVICES=0,1 vllm serve ./QwQ-32B --max-model-len 16384 --tensor-parallel-size 2 --enforce-eager
# CUDA_VISIBLE_DEVICES:指定使用的GPU
# vllm serve ./QwQ-32B:指定下载好的模型路径
# max-model-len:可以根据自己的GPU显存大小动态调整
# tensor-parallel-size:Tensor并行数量建议和GPU的数量一致。
# enforce-eager:允许CUDA Graph优化,这可以提高推理速度并减少延迟

五、代码测试
-
导入OpenAI库
from openai import OpenAI
- 实例化OpenAI客户端
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
- 创建消息
prompt = "在单词\"strawberry\"中,总共有几个R?"
messages = [
{"role": "user", "content": prompt}
]
- 获得回复
response = client.chat.completions.create(
model="./QwQ-32B",
messages=messages,
)
print(response.choices[0].message.content)
- 测试结果

六、Open WebUI
-
添加环境变量
export ENABLE_OLLAMA_API=False # 禁止后台尝试连接 Ollama
export OPENAI_API_BASE_URL=http://127.0.0.1:8000/v1
export DEFAULT_MODELS="./QwQ-32B"
- 启动服务
open-webui serve


- 测试:在单词"strawberry"中,总共有几个R?

七、引用
@misc{qwq32b,
title = {QwQ-32B: Embracing the Power of Reinforcement Learning},
url = {https://qwenlm.github.io/blog/qwq-32b/},
author = {Qwen Team},
month = {March},
year = {2025}
}
@article{qwen2.5,
title={Qwen2.5 Technical Report},
author={An Yang and Baosong Yang and Beichen Zhang and Binyuan Hui and Bo Zheng and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoran Wei and Huan Lin and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Yang and Jiaxi Yang and Jingren Zhou and Junyang Lin and Kai Dang and Keming Lu and Keqin Bao and Kexin Yang and Le Yu and Mei Li and Mingfeng Xue and Pei Zhang and Qin Zhu and Rui Men and Runji Lin and Tianhao Li and Tianyi Tang and Tingyu Xia and Xingzhang Ren and Xuancheng Ren and Yang Fan and Yang Su and Yichang Zhang and Yu Wan and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zihan Qiu},
journal={arXiv preprint arXiv:2412.15115},
year={2024}
}
更多推荐


所有评论(0)