Qwen3.5系列模型默认开启了思考模式,但存在思考时间过长的问题,尝试了很多方法都无法关闭思考模式,最终通过修改chat_template.jinja文件实现。亲测适用于vllm部署的qwen3.5-9B模型,原则上其他模型应该也适用。具体方法:

  1. 打开下载的chat_template.jinja文件,打到最后,{%- if add_generation_prompt %}那一块,如图所示:

2、用第150行内容覆盖第152行即可,如图所示:

3、保存文件后,重新部署模型即可运行。

Notes1: 使用vllm镜像部署qwen3.5系列模型时,要使用vllm/vllm-openai:v0.17.0以上版本,或者使用vllm/vllm-openai:nightly版本镜像。

Notes2: 在离线部署qwen3.5系列模型时,用命令行下载的merges.txt、tokenizer.json和vocab.json等文件都是网络链接,而不是真实,必须用下载方式下载真实文件才可使用(通过比对文件大小可以确认是否下载到真实文件),否则在离线环境中部署模型时,会报错:

fast_tokenizer = TokenizerFast.from_file(fast_tokenizer_file)

Exception: expected value at line 1 column 1

Logo

免费领 100 小时云算力,进群参与显卡、AI PC 幸运抽奖

更多推荐