VLLM部署qwen3.5模型关闭思考模式方法（含vllm离线部署qwen3.5避坑指南）

摘要：针对Qwen3.5系列模型默认开启思考模式导致响应延迟的问题，通过修改chat_template.jinja文件成功关闭该功能。具体操作为替换文件末尾{%-if add_generation_prompt%}部分的第152行内容为第150行内容，适用于vllm部署的qwen3.5-9B模型。注意事项包括：需使用vllm-openai v0.17.0+或nightly版本镜像；离线部署时需确保

liuzixuan2010

1158人浏览 · 2026-03-31 18:11:28

liuzixuan2010 · 2026-03-31 18:11:28 发布

Qwen3.5系列模型默认开启了思考模式，但存在思考时间过长的问题，尝试了很多方法都无法关闭思考模式，最终通过修改chat_template.jinja文件实现。亲测适用于vllm部署的qwen3.5-9B模型，原则上其他模型应该也适用。具体方法：

打开下载的chat_template.jinja文件，打到最后，{%- if add_generation_prompt %}那一块，如图所示：

2、用第150行内容覆盖第152行即可，如图所示：

3、保存文件后，重新部署模型即可运行。

Notes1: 使用vllm镜像部署qwen3.5系列模型时，要使用vllm/vllm-openai:v0.17.0以上版本，或者使用vllm/vllm-openai:nightly版本镜像。

Notes2: 在离线部署qwen3.5系列模型时，用命令行下载的merges.txt、tokenizer.json和vocab.json等文件都是网络链接，而不是真实，必须用下载方式下载真实文件才可使用（通过比对文件大小可以确认是否下载到真实文件），否则在离线环境中部署模型时，会报错：

fast_tokenizer = TokenizerFast.from_file(fast_tokenizer_file)

Exception: expected value at line 1 column 1

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

基于vLLM部署Gemma-4-E2B多模态大模型和调用API 服务

基于vLLM的推理引擎大幅提升模型响应速度，FastAPI接口可直接集成到业务系统中，适用于智能问答、图片分析、多模态交互等实际应用场景。多模态大模型，实现图片+文本的多模态问答功能，并通过FastAPI封装为可视化API服务，最终完成本地接口测试。服务启动后，自动加载Processor和Gemma模型到GPU，加载完成后可接收外部请求。成功部署Google Gemma-4-E2B-it多模态大模

AMD开发者中国社区

PyTorch手写数字识别实战包：含训练好的CNN模型、完整可运行代码与MNIST数据集

直接下载就能跑的PyTorch手写数字识别项目，基于经典MNIST数据集，内置LeNet风格卷积神经网络结构。包含预处理脚本、训练主程序cnn_mnist_pytorch.py、已训练完成的模型参数modelpara.pth（准确率95%+），以及标准MNIST数据目录（raw/和processed/子文件夹）。所有代码带中文注释，无需额外安装或修改路径，Python环境配好PyTorch后即可一

AMD开发者中国社区

ESXi 支持哪些 GPU 直通？NVIDIA/AMD 全系列兼容与配置指南

GPU 直通（PCIe Passthrough）是 VMware ESXi 提供的硬件虚拟化技术，通过直接将物理 GPU 设备分配给单台虚拟机独占使用，绕过 ESXi 虚拟化层的资源调度，让虚拟机获得完整的 GPU 算力与功能支持，性能损耗低于 5%，可实现与物理机几乎一致的运行体验。ESXi 对 GPU 直通的支持非常完善，核心兼容型号为 NVIDIA V100/A100/RTX 全系列和 AM