
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
【环境】单张A100 80GB显存【vllm0.19.0(同等效果)】在0.19.0中,遇到了:1.无法使用0.9.1中的--task参数;2.去除参数启动后,原本只需占用1GB~,却异常占用70GB+显存;下面将分别分析上述两个问题。
docker run -it --gpus all --network=host --ipc=host --rm --name qwen3.5-test \-v /home/vllm-models/Qwen3___5-35B-A3B:/home/vllm-models/Qwen3___5-35B-A3B \--entrypoint /bin/bash \vllm/vllm-openai
completion建议 ≤ 8192,总 Token 控制在 32768 内128K 扩展场景:需 YaRN 配置 + 充足显存,completion可适度放宽,但仍需预留 messages 空间优先保证输入完整性,再调整生成长度,避免因 completion 过大导致上下文截断。
存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th
在模型vllm启动时,添加两个参数:# --enable-auto-tool-choice --tool-call-parser hermes。参考:https://blog.csdn.net/qq_42869979/article/details/146226982。
打算长期使用或部署:采用的方式更规范。
LLM 与外部工具 / 服务通信的标准化协议,统一接口格式,解决 “怎么连”。Skill(技能):Agent 可执行的功能单元,含工具调用、提示词、业务逻辑,解决 “能做什么、怎么做”。功能上:现在的 Skill = 早期 “MCP 工具 + 硬编码 Prompt 逻辑”,本质是同一个东西。架构上:Skill 是把原来混在 MCP 里的业务知识 / 流程拆出来,单独标准化、工程化。目的:解决 MC
存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}原本qwen3-32b是可直接通过enable_th







