bloglin99999 个人主页

@qq_33043025

bloglin99999

2022-07-08 17:08:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

vscode中可视化的合并分支，在“合并编辑器中解析”中“与基线进行比较”是什么意思

你的分支和 main 分支最后一次共同拥有的那个版本你从 B 创建了 feature 分支main 后来提交了 C你提交了 D、EBase = BCurrent = E（你的分支）Incoming = C（main分支）

#编辑器 #vscode #ide

qwen3.6-35-a3b关闭思考

存在问题：不管打开或关闭思考模式，偶尔还是会输出小片段的思考过程在回答中，即思考过程并不会100%不输出，甚至会填充至content字段中。按设计，思考过程应该只填充至reasoning_content字段中的。关键参数：extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th

#数据结构 #windows

离线部署Qwen 和 DeepSeek

deepseek的每个大模型参数都那么大，还是没有qwen3.6-35b等更平民化。我是不是可以理解deepseek使用了更多的显存以空间换时间你的理解。更准确地说：DeepSeek 不是简单地“用更多显存换时间”，而是采用了，本质上是在。

#人工智能 #算法

vllm不同版本启动qwen3-embedding-0.6B

【环境】单张A100 80GB显存【vllm0.19.0（同等效果）】在0.19.0中，遇到了：1.无法使用0.9.1中的--task参数；2.去除参数启动后，原本只需占用1GB~，却异常占用70GB+显存；下面将分别分析上述两个问题。

vllm/vllm-openai镜像只进入容器，不启动模型

docker run -it --gpus all --network=host --ipc=host --rm --name qwen3.5-test \-v /home/vllm-models/Qwen3___5-35B-A3B:/home/vllm-models/Qwen3___5-35B-A3B \--entrypoint /bin/bash \vllm/vllm-openai

qwen3-32B的maxTokens设置

completion建议 ≤ 8192，总 Token 控制在 32768 内128K 扩展场景：需 YaRN 配置 + 充足显存，completion可适度放宽，但仍需预留 messages 空间优先保证输入完整性，再调整生成长度，避免因 completion 过大导致上下文截断。

vllm单机双卡部署Qwen3 30B FP8模型踩坑记录

想着KV cache也不小，能把这个减小了也行，尝试了一下，观察了vllm启动的日志，突然发现不一样了，如果kv-cache-dtype设置为fp8的话，vllm自动退回V0引擎启动模型（默认在Ampere、Hopper等较新的架构上使用V1引擎），然后就启动成功了！单位搞建设，配了台双4090的工作站，想着终于能部署个大点的模型了，根据显存大小，打算部署Qwen3的30B模型，结果反复遇到问题…

将qwen3.5-35B的token有18w调整为26w会影响并发量吗

18w → 26w，并发大致降 3 成左右；用 fp8 可大幅缓解。

vllm启动大模型测试enforce-eager参数

2026-05-07T07:07:32.57启动开始。2026-05-07T06:44:35启动开始。2026-05-07T06:47:57启动完毕。2026-05-07T07:11:44启动完毕。大模型：Qwen3.6-35B-A3B。--enforce-eager开启。--enforce-eager关闭。

qwen3.6-35b-a3b关闭思考-AI问答效果比对（文心）

共 67 条

请选择