logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【V100显卡】 用vllm本地部署 QWEN3

:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现,【这里是最大的坑】 因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

文章图片
#ubuntu#nlp
【V100显卡】 用vllm本地部署 QWEN3

:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现,【这里是最大的坑】 因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

文章图片
#ubuntu#nlp
【V100显卡】 用vllm本地部署 QWEN3

:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现,【这里是最大的坑】 因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

文章图片
#ubuntu#nlp
到底了