大模型性能测试实战方案

EvalScope 是一款功能强大且易用的大模型性能测试工具，通过本文的实战案例，我们了解了如何配置参数、执行测试以及解读结果。无论是研究模型性能瓶颈，还是优化生产环境中的模型服务，EvalScope 都是一个不可或缺的工具。

程序员雷叔 · 2025-09-24 16:04:14 发布

随着大模型在各个领域的广泛应用，如何评估模型的性能成为了一个关键问题。EvalScope 是魔塔社区推荐的一款大模型性能测试工具，能够帮助开发者快速、准确地评估模型的运行效率和效果。在本文中，我们将以一个实际的代码示例为基础，详细讲解如何使用 EvalScope 对大模型进行性能测试。

EvalScope 是一款专为大语言模型（LLM）设计的性能测试工具。它支持多种评估场景，如并发请求测试、生成效果评估等。无论是研究人员还是开发者，都可以通过 EvalScope 快速了解模型在不同配置下的性能表现。

EvalScope 的主要优势包括：

下面，我们将通过一个示例代码，讲解如何使用 EvalScope 对 Qwen2.5-72b-Instruct 模型进行性能测试。

首先，我们需要定义测试任务的配置参数。以下是一个完整的参数配置代码：

定义好配置后，我们调用 run_perf_benchmark 函数来运行性能测试：

run_perf_benchmark 是 EvalScope 的核心函数，用于执行性能测试，并返回测试结果。结果通常包含以下几个重要指标：

运行上述代码后，EvalScope 会输出一系列性能指标，例如：

2025-06-03 20:20:55,706 - evalscope - INFO -
Percentile results:
+-------------+----------+---------+----------+-------------+--------------+---------------+----------------+---------------+
| Percentiles | TTFT (s) | ITL (s) | TPOT (s) | Latency (s) | Input tokens | Output tokens | Output (tok/s) | Total (tok/s) |
+-------------+----------+---------+----------+-------------+--------------+---------------+----------------+---------------+
| 10% | 15.1141 | 0.0882 | 0.1049 | 262.4325 | 2007 | 2000 | 3.8448 | 7.7841 |
| 25% | 31.1864 | 0.0934 | 0.1087 | 264.1612 | 2062 | 2000 | 3.8609 | 7.9151 |
| 50% | 55.4061 | 0.1001 | 0.1154 | 267.4154 | 2094 | 2000 | 7.4793 | 14.7673 |
| 66% | 278.7469 | 0.1047 | 0.1193 | 517.0088 | 2108 | 2000 | 7.5327 | 15.3588 |
| 75% | 288.3666 | 0.1075 | 0.122 | 518.0238 | 2115 | 2000 | 7.5716 | 15.4634 |
| 80% | 294.7443 | 0.109 | 0.1235 | 518.9852 | 2120 | 2000 | 7.5892 | 15.5148 |
| 90% | 308.0031 | 0.1125 | 0.1258 | 520.2213 | 2286 | 2000 | 7.6231 | 15.6416 |
| 95% | 311.3684 | 0.1158 | 0.1274 | 520.9045 | 2412 | 2000 | 7.6404 | 15.7481 |
| 98% | 313.7558 | 0.1267 | 0.1298 | 521.3258 | 2516 | 2000 | 7.6503 | 16.5007 |
| 99% | 314.6385 | 0.1411 | 0.1305 | 521.5658 | 2560 | 2000 | 7.6545 | 16.711 |
+-------------+----------+---------+----------+-------------+--------------+---------------+----------------+---------------+
2025-06-03 20:20:55,707 - evalscope - INFO - Save the summary to: ./outputs\xxxxxx

-收集测试数据进行汇总

结果解读：

• Throughput（吞吐量）：表示每秒处理了 1500 个请求。
• Latency（延迟）：p50 表示中位数延迟为 120 毫秒，p90 表示 90% 的请求延迟小于 150 毫秒，p99 表示最慢的 1% 请求延迟为 200 毫秒。
• Success Rate（成功率）：98.5% 的请求成功返回结果。