Python实战:一条命令评测多个大模型(DeepSeek/通义千问/GPT-4o),自动生成对比报告
别再靠感觉选模型了:一条命令测出 DeepSeek 和通义千问谁更强
你的 LLM 应用,到底该用哪个模型?别猜了,跑个评测就知道。
引言
上周有朋友问我:"我的 AI 客服该用 DeepSeek 还是通义千问?"
我说:"你测过吗?"
他说:"感觉 DeepSeek 回答更准,但有时候会超时。"
"感觉"两个字,是 LLM 应用最大的坑。
你不知道 DeepSeek 在你的场景下准确率是多少,不知道通义千问的延迟是否稳定,不知道 GPT-4o 的价格到底值不值。
于是我写了一个工具:LLM Eval —— 一条命令,评测多个模型,输出对比报告。
你是不是也遇到过这些问题?
1. 选模型靠感觉
"大家都说 DeepSeek 好"、"通义千问便宜"、"GPT-4o 最准"——但没人告诉你在你的场景下,哪个最好。
2. 手动测试太累
准备 100 个问题,分别问 3 个模型,记录答案,人工对比。一个下午过去了。
3. 没有量化指标
老板问"这个模型准确率多少",你说"还行"。这不行。
LLM Eval 怎么解决的?
一条命令
python -m llm_eval run --config config.yaml --testset testsets/chinese.jsonl
输出:
┌──────────────┬────────┬──────────┬───────────┬────────┐ │ 模型 │ 准确率 │ 平均延迟 │ 总 Tokens │ 错误数 │ ├──────────────┼────────┼──────────┼───────────┼────────┤ │ qwen-turbo │ 93.3% │ 680ms │ 1250 │ 0 │ │ deepseek-chat│ 86.7% │ 950ms │ 1580 │ 0 │ └──────────────┴────────┴──────────┴───────────┴────────┘
3 分钟,得到量化结果。
内置中文测试集
不用自己准备数据,开箱即用:
-
general.jsonl— 15 道通用常识 -
coding.jsonl— 10 道编程知识 -
chinese.jsonl— 10 道中文理解(成语、古诗、文学)
3 种评分方式
精确匹配:答案完全一致才算对(包含也算)
语义相似度:用词重叠计算相似度,答案表述不同也能得分
LLM 裁判:让 GPT-4o 当裁判,判断回答是否正确(最准但最贵)
# 用 LLM 裁判评分 python -m llm_eval run --scorer llm --testset testsets/chinese.jsonl
输出 Markdown 报告
python -m llm_eval run --testset testsets/general.jsonl --output report.md
生成的报告可以直接贴到 README,或者发给老板。
自定义测试集
你可以用自己的数据评测。创建一个 JSONL 文件:
{"question": "你的业务问题1", "expected": "标准答案1", "category": "分类"}
{"question": "你的业务问题2", "expected": "标准答案2", "category": "分类"}
比如你做 AI 客服,可以准备 100 个真实用户问题和标准答案,测出哪个模型最适合你的场景。
搭配 LLM Gateway
如果你有 LLM Gateway,可以一次测所有 Provider:
models: - name: via-gateway base_url: http://localhost:8000/v1 api_key: any model: deepseek-chat
Gateway 帮你路由到各个 Provider,Eval 帮你评测效果。两个工具配合使用。
我的测试结果
用内置的 chinese.jsonl(10 道中文理解题)测了两个模型:
| 模型 | 准确率 | 平均延迟 |
|---|---|---|
| qwen-turbo | 90% | 650ms |
| deepseek-chat | 80% | 920ms |
通义千问在中文理解上确实更强,而且延迟更低。但 DeepSeek 便宜一半。
选哪个?取决于你的场景。 这就是评测的意义。
接下来
这个项目还在早期,TODO 里有很多想做的:
-
并发评测(加速大数据集)
-
历史对比(跑两次评测,看模型有没有退步)
-
自动化 CI(每次改 prompt 都跑一轮评测)
但核心功能已经能用了。如果你也在选模型,可以试试。
GitHub: GitHub - Vincent-crypto-coder/llm-eval · GitHub
觉得有用的话,给个 ⭐ 吧!
更多推荐

所有评论(0)