VLLM部署qwen3.5模型关闭思考模式方法(含vllm离线部署qwen3.5避坑指南)
摘要:针对Qwen3.5系列模型默认开启思考模式导致响应延迟的问题,通过修改chat_template.jinja文件成功关闭该功能。具体操作为替换文件末尾{%-if add_generation_prompt%}部分的第152行内容为第150行内容,适用于vllm部署的qwen3.5-9B模型。注意事项包括:需使用vllm-openai v0.17.0+或nightly版本镜像;离线部署时需确保
Qwen3.5系列模型默认开启了思考模式,但存在思考时间过长的问题,尝试了很多方法都无法关闭思考模式,最终通过修改chat_template.jinja文件实现。亲测适用于vllm部署的qwen3.5-9B模型,原则上其他模型应该也适用。具体方法:
- 打开下载的chat_template.jinja文件,打到最后,{%- if add_generation_prompt %}那一块,如图所示:

2、用第150行内容覆盖第152行即可,如图所示:

3、保存文件后,重新部署模型即可运行。
Notes1: 使用vllm镜像部署qwen3.5系列模型时,要使用vllm/vllm-openai:v0.17.0以上版本,或者使用vllm/vllm-openai:nightly版本镜像。
Notes2: 在离线部署qwen3.5系列模型时,用命令行下载的merges.txt、tokenizer.json和vocab.json等文件都是网络链接,而不是真实,必须用下载方式下载真实文件才可使用(通过比对文件大小可以确认是否下载到真实文件),否则在离线环境中部署模型时,会报错:
fast_tokenizer = TokenizerFast.from_file(fast_tokenizer_file)
Exception: expected value at line 1 column 1
更多推荐

所有评论(0)