weixin_41019325 个人主页

@weixin_41019325

weixin_41019325

2024-03-17 17:49:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【V100显卡】用vllm本地部署 QWEN3

:/mnt/data/wen/wen/hub/models/JunHowie/Qwen3-14B-GPTQ-Int8 这个路径换成自己的模型路径。---指定Attention计算的后端实现，【这里是最大的坑】因为v100不支持flash attn 所以要用以前的办法。---- 配置PyTorch的CUDA内存分配器。希望大家也能布起来 vllm的kv cache做的还是可以的。海鲜市场可以买到配

#ubuntu #nlp

【V100显卡】用vllm本地部署 QWEN3

#ubuntu #nlp

【V100显卡】用vllm本地部署 QWEN3

#ubuntu #nlp

到底了