logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vscode中可视化的合并分支,在“合并编辑器中解析”中“与基线进行比较”是什么意思

你的分支和 main 分支最后一次共同拥有的那个版本你从 B 创建了 feature 分支main 后来提交了 C你提交了 D、EBase = BCurrent = E(你的分支)Incoming = C(main分支)

#编辑器#vscode#ide
qwen3.6-35-a3b关闭思考

存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th

#数据结构#windows
离线部署Qwen 和 DeepSeek

deepseek的每个大模型参数都那么大,还是没有qwen3.6-35b等更平民化。我是不是可以理解deepseek使用了更多的显存以空间换时间你的理解。更准确地说:DeepSeek 不是简单地“用更多显存换时间”,而是采用了,本质上是在。

#人工智能#算法
vllm不同版本启动qwen3-embedding-0.6B

【环境】单张A100 80GB显存【vllm0.19.0(同等效果)】在0.19.0中,遇到了:1.无法使用0.9.1中的--task参数;2.去除参数启动后,原本只需占用1GB~,却异常占用70GB+显存;下面将分别分析上述两个问题。

vllm/vllm-openai镜像只进入容器,不启动模型

docker run -it --gpus all --network=host --ipc=host --rm --name qwen3.5-test \-v /home/vllm-models/Qwen3___5-35B-A3B:/home/vllm-models/Qwen3___5-35B-A3B \--entrypoint /bin/bash \vllm/vllm-openai

qwen3-32B的maxTokens设置

completion建议 ≤ 8192,总 Token 控制在 32768 内128K 扩展场景:需 YaRN 配置 + 充足显存,completion可适度放宽,但仍需预留 messages 空间优先保证输入完整性,再调整生成长度,避免因 completion 过大导致上下文截断。

vllm单机双卡部署Qwen3 30B FP8模型踩坑记录

想着KV cache也不小,能把这个减小了也行,尝试了一下,观察了vllm启动的日志,突然发现不一样了,如果kv-cache-dtype设置为fp8的话,vllm自动退回V0引擎启动模型(默认在Ampere、Hopper等较新的架构上使用V1引擎),然后就启动成功了!单位搞建设,配了台双4090的工作站,想着终于能部署个大点的模型了,根据显存大小,打算部署Qwen3的30B模型,结果反复遇到问题…

将qwen3.5-35B的token有18w调整为26w会影响并发量吗

18w → 26w,并发大致降 3 成左右;用 fp8 可大幅缓解。

vllm启动大模型测试enforce-eager参数

2026-05-07T07:07:32.57启动开始。2026-05-07T06:44:35启动开始。2026-05-07T06:47:57启动完毕。2026-05-07T07:11:44启动完毕。大模型:Qwen3.6-35B-A3B。--enforce-eager开启。--enforce-eager关闭。

    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择