logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm不同版本启动qwen3-embedding-0.6B

【环境】单张A100 80GB显存【vllm0.19.0(同等效果)】在0.19.0中,遇到了:1.无法使用0.9.1中的--task参数;2.去除参数启动后,原本只需占用1GB~,却异常占用70GB+显存;下面将分别分析上述两个问题。

vllm/vllm-openai镜像只进入容器,不启动模型

docker run -it --gpus all --network=host --ipc=host --rm --name qwen3.5-test \-v /home/vllm-models/Qwen3___5-35B-A3B:/home/vllm-models/Qwen3___5-35B-A3B \--entrypoint /bin/bash \vllm/vllm-openai

qwen3-32B的maxTokens设置

completion建议 ≤ 8192,总 Token 控制在 32768 内128K 扩展场景:需 YaRN 配置 + 充足显存,completion可适度放宽,但仍需预留 messages 空间优先保证输入完整性,再调整生成长度,避免因 completion 过大导致上下文截断。

qwen3.6-35-a3b关闭思考

存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th

#数据结构#windows
“auto” tool choice requires --enable-auto-tool-choice and --tool-call-parser to be set

在模型vllm启动时,添加两个参数:# --enable-auto-tool-choice --tool-call-parser hermes。参考:https://blog.csdn.net/qq_42869979/article/details/146226982。

skill和mcp的区别

LLM 与外部工具 / 服务通信的标准化协议,统一接口格式,解决 “怎么连”。Skill(技能):Agent 可执行的功能单元,含工具调用、提示词、业务逻辑,解决 “能做什么、怎么做”。功能上:现在的 Skill = 早期 “MCP 工具 + 硬编码 Prompt 逻辑”,本质是同一个东西。架构上:Skill 是把原来混在 MCP 里的业务知识 / 流程拆出来,单独标准化、工程化。目的:解决 MC

qwen3.6-35-a3b关闭思考

存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th

#数据结构#windows
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择