
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
你的分支和 main 分支最后一次共同拥有的那个版本你从 B 创建了 feature 分支main 后来提交了 C你提交了 D、EBase = BCurrent = E(你的分支)Incoming = C(main分支)
存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th
deepseek的每个大模型参数都那么大,还是没有qwen3.6-35b等更平民化。我是不是可以理解deepseek使用了更多的显存以空间换时间你的理解。更准确地说:DeepSeek 不是简单地“用更多显存换时间”,而是采用了,本质上是在。
【环境】单张A100 80GB显存【vllm0.19.0(同等效果)】在0.19.0中,遇到了:1.无法使用0.9.1中的--task参数;2.去除参数启动后,原本只需占用1GB~,却异常占用70GB+显存;下面将分别分析上述两个问题。
docker run -it --gpus all --network=host --ipc=host --rm --name qwen3.5-test \-v /home/vllm-models/Qwen3___5-35B-A3B:/home/vllm-models/Qwen3___5-35B-A3B \--entrypoint /bin/bash \vllm/vllm-openai
completion建议 ≤ 8192,总 Token 控制在 32768 内128K 扩展场景:需 YaRN 配置 + 充足显存,completion可适度放宽,但仍需预留 messages 空间优先保证输入完整性,再调整生成长度,避免因 completion 过大导致上下文截断。
想着KV cache也不小,能把这个减小了也行,尝试了一下,观察了vllm启动的日志,突然发现不一样了,如果kv-cache-dtype设置为fp8的话,vllm自动退回V0引擎启动模型(默认在Ampere、Hopper等较新的架构上使用V1引擎),然后就启动成功了!单位搞建设,配了台双4090的工作站,想着终于能部署个大点的模型了,根据显存大小,打算部署Qwen3的30B模型,结果反复遇到问题…
18w → 26w,并发大致降 3 成左右;用 fp8 可大幅缓解。
2026-05-07T07:07:32.57启动开始。2026-05-07T06:44:35启动开始。2026-05-07T06:47:57启动完毕。2026-05-07T07:11:44启动完毕。大模型:Qwen3.6-35B-A3B。--enforce-eager开启。--enforce-eager关闭。







