Python实战：一条命令评测多个大模型（DeepSeek/通义千问/GPT-4o），自动生成对比报告

Vincentt___

195人浏览 · 2026-06-12 09:00:00

Vincentt___ · 2026-06-12 09:00:00 发布

别再靠感觉选模型了：一条命令测出 DeepSeek 和通义千问谁更强

你的 LLM 应用，到底该用哪个模型？别猜了，跑个评测就知道。

引言

上周有朋友问我："我的 AI 客服该用 DeepSeek 还是通义千问？"

我说："你测过吗？"

他说："感觉 DeepSeek 回答更准，但有时候会超时。"

"感觉"两个字，是 LLM 应用最大的坑。

你不知道 DeepSeek 在你的场景下准确率是多少，不知道通义千问的延迟是否稳定，不知道 GPT-4o 的价格到底值不值。

于是我写了一个工具：LLM Eval —— 一条命令，评测多个模型，输出对比报告。

你是不是也遇到过这些问题？

1. 选模型靠感觉

"大家都说 DeepSeek 好"、"通义千问便宜"、"GPT-4o 最准"——但没人告诉你在你的场景下，哪个最好。

2. 手动测试太累

准备 100 个问题，分别问 3 个模型，记录答案，人工对比。一个下午过去了。

3. 没有量化指标

老板问"这个模型准确率多少"，你说"还行"。这不行。

LLM Eval 怎么解决的？

一条命令

python -m llm_eval run --config config.yaml --testset testsets/chinese.jsonl

输出：

┌──────────────┬────────┬──────────┬───────────┬────────┐
│ 模型         │ 准确率 │ 平均延迟 │ 总 Tokens │ 错误数 │
├──────────────┼────────┼──────────┼───────────┼────────┤
│ qwen-turbo   │ 93.3%  │ 680ms   │ 1250      │ 0      │
│ deepseek-chat│ 86.7%  │ 950ms   │ 1580      │ 0      │
└──────────────┴────────┴──────────┴───────────┴────────┘

3 分钟，得到量化结果。

内置中文测试集

不用自己准备数据，开箱即用：

general.jsonl — 15 道通用常识
coding.jsonl — 10 道编程知识
chinese.jsonl — 10 道中文理解（成语、古诗、文学）

3 种评分方式

精确匹配：答案完全一致才算对（包含也算）

语义相似度：用词重叠计算相似度，答案表述不同也能得分

LLM 裁判：让 GPT-4o 当裁判，判断回答是否正确（最准但最贵）

# 用 LLM 裁判评分
python -m llm_eval run --scorer llm --testset testsets/chinese.jsonl

输出 Markdown 报告

python -m llm_eval run --testset testsets/general.jsonl --output report.md

生成的报告可以直接贴到 README，或者发给老板。

自定义测试集

你可以用自己的数据评测。创建一个 JSONL 文件：

{"question": "你的业务问题1", "expected": "标准答案1", "category": "分类"}
{"question": "你的业务问题2", "expected": "标准答案2", "category": "分类"}

比如你做 AI 客服，可以准备 100 个真实用户问题和标准答案，测出哪个模型最适合你的场景。

搭配 LLM Gateway

如果你有 LLM Gateway，可以一次测所有 Provider：

models:
  - name: via-gateway
    base_url: http://localhost:8000/v1
    api_key: any
    model: deepseek-chat

Gateway 帮你路由到各个 Provider，Eval 帮你评测效果。两个工具配合使用。

我的测试结果

用内置的 chinese.jsonl（10 道中文理解题）测了两个模型：

模型	准确率	平均延迟
qwen-turbo	90%	650ms
deepseek-chat	80%	920ms

通义千问在中文理解上确实更强，而且延迟更低。但 DeepSeek 便宜一半。

选哪个？取决于你的场景。 这就是评测的意义。

接下来

这个项目还在早期，TODO 里有很多想做的：

并发评测（加速大数据集）
历史对比（跑两次评测，看模型有没有退步）
自动化 CI（每次改 prompt 都跑一轮评测）

但核心功能已经能用了。如果你也在选模型，可以试试。

GitHub: GitHub - Vincent-crypto-coder/llm-eval · GitHub

觉得有用的话，给个 ⭐ 吧！

亚马逊云科技技术品牌专区

更多推荐

AWS（亚马逊云服务）全面介绍：从入门到核心服务解析

AWS（Amazon Web Services）是亚马逊公司提供的全球领先的云计算平台，于 2006 年正式推出。它通过互联网提供按需付费的云计算服务，包括计算、存储、数据库、网络、分析、机器学习、人工智能、物联网、安全等广泛的基础设施和技术平台。AWS 的核心价值在于帮助企业摆脱自建数据中心的沉重负担，实现弹性伸缩、按需付费、快速创新和全球部署。AWS 作为云计算领域的开创者和领导者，以其丰富的

亚马逊云科技技术品牌专区

鸿蒙新特性——Gauge 仪表盘组件详解

亚马逊云科技技术品牌专区

智能电话机器人是什么？企业如何挑选合规且高性价比的外呼系统？

在沟通质量上，机器人按照预设的标准化话术和流程进行对话，确保每次沟通内容一致，且具备情感识别能力，能根据客户的语调调整回复策略，提供更具同理心的服务。简单来说，智能电话机器人是一种基于人工智能技术，通过整合自动语音识别（ASR）、自然语言处理（NLP）和语音合成（TTS）等核心技术，实现自动化批量拨打电话并与用户进行自然语言交互的系统。而在金融催收与账单提醒场景中，合规的智能电话机器人能够以温和、