高并发压力测试，vLLM 在 AMD 集群上的吞吐量极限

2600_96323197

4人浏览 · 2026-06-26 19:59:30

2600_96323197 · 2026-06-26 19:59:30 发布

压测环境搭建与基准设定

在 AMD Instinct GPU 集群上跑通 vLLM 只是第一步，真正的挑战在于摸清它的吞吐量极限。很多团队在部署完成后，往往凭感觉估算并发能力，结果在生产流量洪峰到来时出现延迟抖动甚至服务雪崩。为了避免这种情况，我们需要一套严谨的高并发压力测试方案。

本次测试基于 ROCm 7.x 软件栈，硬件选用多卡互联的 Instinct MI300X 集群。环境准备阶段，除了常规的驱动安装和 PyTorch 编译外，最关键的是确保 RCCL（ROCm 版集合通信库）在多卡间通信正常。建议使用官方提供的 Docker 镜像启动容器，并在宿主机映射所有 GPU 设备。启动 vLLM 服务时，务必开启 PagedAttention 并合理设置显存利用率：

vllm serve meta-llama/Llama-3-70B-Instruct \
    --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.92 \
    --max-num-batched-tokens 8192 \
    --port 8000

这里将显存占用锁定在 92%，是为了给内核态驱动和突发流量预留缓冲空间，防止因瞬时峰值导致 OOM 崩溃。max-num-batched-tokens 参数则直接决定了单次批处理的上限，需根据模型上下文长度动态调整。

执行高并发流量模拟

环境就绪后，不能仅靠 curl 发送几个请求就草率结论。我们需要使用 vLLM 自带的 benchmark_serving.py 脚本来模拟真实世界的流量特征。该脚本支持自定义并发数、请求速率以及输入输出长度分布，能够复现生产环境中长短序列混合的场景。

假设我们要测试系统在 50 到 500 并发区间内的表现，可以构造如下命令：

python benchmark_serving.py \
    --backend vllm \
    --dataset-name sharegpt \
    --request-rate 100 \
    --num-prompts 2000 \
    --host localhost \
    --port 8000

测试过程中，重点记录三个核心指标：每秒请求数（RPS）、每秒生成 Token 数（Token/s）以及首字延迟（TTFT）。为了绘制完整的性能曲线，建议采用阶梯式加压法：从低并发开始，每隔 5 分钟增加一批并发用户，直到系统响应时间超过阈值或错误率飙升。这种渐进式压测能帮助我们清晰观察到系统从“线性增长”到“性能拐点”的全过程。

性能拐点分析与瓶颈定位

在实际测试中，你会发现随着并发数上升，吞吐量并不会无限增长。通常在某个临界点（例如并发数达到 300 左右），Token/s 的增长曲线会变平甚至下滑，而延迟则呈指数级上升。这就是系统的性能拐点。

造成这一现象的原因主要有两点：一是显存带宽饱和。Instinct GPU 虽然拥有巨大的 HBM 带宽，但在高并发下，频繁的 KV Cache 读取操作会占满总线，导致计算单元等待数据；二是上下文切换开销。当活跃序列数超过 GPU 调度器的最优处理范围时，CPU 与 GPU 之间的指令同步延迟会显著增加，拖慢整体推理速度。

通过 ROCm 自带的 rocprof 工具进行内核级剖析，可以直观看到哪些算子耗时最长。如果发现问题集中在内存拷贝（Memcpy）或注意力机制（Attention Kernel）上，说明当前配置已触及硬件物理极限。此时，单纯增加并发数已无意义，反而会导致服务质量下降。

限流策略与容量规划建议

面对性能拐点，盲目扩容并非良策，合理的限流与调度才是生产环境的生存之道。基于压测数据，我们可以制定以下策略：

动态批处理限制：在 vLLM 启动参数中设置 --max-num-seqs，强制限制单个批次内的最大序列数。这能有效防止长尾请求阻塞短请求，保证高优先级任务的低延迟。
请求排队机制：在网关层引入令牌桶算法，当后端并发达到阈值的 80% 时，对新请求进行排队或降级处理，避免瞬间流量击穿服务。
横向扩容参考：若业务需求量确实超过单集群上限，可依据压测得出的“单卡最大有效 RPS"来计算所需节点数。例如，若单卡稳定支撑 20 RPS，而目标流量为 1000 RPS，则至少需要部署 50 张卡，并预留 20% 的冗余以应对故障转移。

通过这些实测数据支撑的决策，我们不仅能避免资源浪费，还能确保系统在高峰期依然稳如磐石。对于正在评估 AMD 算力方案的团队，亲手复现一次这样的压测流程，远比看十份理论文档更有价值。

200 小时 GPU 算力已就位，快来领取：https://marketing.csdn.net/questions/Q2604140858304426315?utm_source=AIpaper