Yanc_L 个人主页

Yanc_L

2024-06-17 21:48:05 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

infnaninf。

找到代码中的low_cpu_mem_usage=True改为False。

chatglm3推理报错：too many values to unpack (expected 2)原因是transformers版本过高，修改为transformers==4.41.2。

忘记修改Mapping中的映射地址导致upload文件后文件去到默认的tmp文件夹。

infnaninf。

多卡推理，设置tensor_parallel_size=2，服务：Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了😵‍💫。环境：2* A100 40G。模型：qwen2-7B。

3卡，tensor_parallel_size=3，tensor并行的数量一定要能被attentionheads整除。4卡，tensor_parallel_size=4，推理速度4s。双卡v10032G部署结果如下，推理时长16s。

首次尝试vllm部署qwen遇到的一些问题。

lora微调过程中出现loss持续为0。

共 12 条

请选择