Free?grit 个人主页

@qq_45673733

Free?grit

2023-07-26 16:08:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

使用ray + vllm + deviceplugin + helm做双机并推跑qwen3-235b-a22b模型

本文总结了双机并推部署过程中的关键经验与误区。1) 只需使用自带Ray的vllm镜像，无需额外部署Ray集群；2) Ray-head节点可同时承担计算任务；3) 统一镜像确保环境一致性；4) 建议使用RDMA网络提升通信效率；5) Qwen3-235B需特定版本支持。最后展示了Qwen3-8B多机并推的成功案例，并附有相关技术文档参考。

#开发语言

报错解决：Detected non-NVML platform: could not load NVML library: libnvidia-ml.so.1: cannot open

出现报错：Detected non-NVML platform: could not load NVML library: libnvidia-ml.so.1: cannot open。也能看到卡，就是用helm装device-plugin的时候报这个错，搞不懂，后来发现只需要重新再执行一次。但是看docker的运行时已经改为了nvidia-container-runtime，而且。

#k8s

llmperf 大模型性能测试工具怎么用，输出参数解读

衡量「预填(prefill) + 首 token 生成」这一步的延迟，对交互体验影响极大。同样提供 p25–p99、mean、min、max、stddev 等统计量，帮助查看尾部延迟情况。GenAI‑Perf/LLMPerf 工具会忽略空响应，保证 TTFT 测量有效性e2e包含了 prompt 发送、模型推理、token 流式接收以及网络传输等所有环节。用于衡量单次完整对话请求的响应速度。

#测试工具

llmperf 大模型性能测试工具怎么用，输出参数解读

#测试工具

llmperf 大模型性能测试工具怎么用，输出参数解读

#测试工具

到底了