
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【V100显卡】 用vllm本地部署 QWEN3
:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现,【这里是最大的坑】 因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

【V100显卡】 用vllm本地部署 QWEN3
:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现,【这里是最大的坑】 因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

【V100显卡】 用vllm本地部署 QWEN3
:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现,【这里是最大的坑】 因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

到底了







