别再靠感觉选模型了:一条命令测出 DeepSeek 和通义千问谁更强

你的 LLM 应用,到底该用哪个模型?别猜了,跑个评测就知道。

引言

上周有朋友问我:"我的 AI 客服该用 DeepSeek 还是通义千问?"

我说:"你测过吗?"

他说:"感觉 DeepSeek 回答更准,但有时候会超时。"

"感觉"两个字,是 LLM 应用最大的坑。

你不知道 DeepSeek 在你的场景下准确率是多少,不知道通义千问的延迟是否稳定,不知道 GPT-4o 的价格到底值不值。

于是我写了一个工具:LLM Eval —— 一条命令,评测多个模型,输出对比报告。

你是不是也遇到过这些问题?

1. 选模型靠感觉

"大家都说 DeepSeek 好"、"通义千问便宜"、"GPT-4o 最准"——但没人告诉你在你的场景下,哪个最好。

2. 手动测试太累

准备 100 个问题,分别问 3 个模型,记录答案,人工对比。一个下午过去了。

3. 没有量化指标

老板问"这个模型准确率多少",你说"还行"。这不行。

LLM Eval 怎么解决的?

一条命令

python -m llm_eval run --config config.yaml --testset testsets/chinese.jsonl

输出:

┌──────────────┬────────┬──────────┬───────────┬────────┐
│ 模型         │ 准确率 │ 平均延迟 │ 总 Tokens │ 错误数 │
├──────────────┼────────┼──────────┼───────────┼────────┤
│ qwen-turbo   │ 93.3%  │ 680ms   │ 1250      │ 0      │
│ deepseek-chat│ 86.7%  │ 950ms   │ 1580      │ 0      │
└──────────────┴────────┴──────────┴───────────┴────────┘

3 分钟,得到量化结果。

内置中文测试集

不用自己准备数据,开箱即用:

  • general.jsonl — 15 道通用常识

  • coding.jsonl — 10 道编程知识

  • chinese.jsonl — 10 道中文理解(成语、古诗、文学)

3 种评分方式

精确匹配:答案完全一致才算对(包含也算)

语义相似度:用词重叠计算相似度,答案表述不同也能得分

LLM 裁判:让 GPT-4o 当裁判,判断回答是否正确(最准但最贵)

# 用 LLM 裁判评分
python -m llm_eval run --scorer llm --testset testsets/chinese.jsonl

输出 Markdown 报告

python -m llm_eval run --testset testsets/general.jsonl --output report.md

生成的报告可以直接贴到 README,或者发给老板。

自定义测试集

你可以用自己的数据评测。创建一个 JSONL 文件:

{"question": "你的业务问题1", "expected": "标准答案1", "category": "分类"}
{"question": "你的业务问题2", "expected": "标准答案2", "category": "分类"}

比如你做 AI 客服,可以准备 100 个真实用户问题和标准答案,测出哪个模型最适合你的场景。

搭配 LLM Gateway

如果你有 LLM Gateway,可以一次测所有 Provider:

models:
  - name: via-gateway
    base_url: http://localhost:8000/v1
    api_key: any
    model: deepseek-chat

Gateway 帮你路由到各个 Provider,Eval 帮你评测效果。两个工具配合使用。

我的测试结果

用内置的 chinese.jsonl(10 道中文理解题)测了两个模型:

模型 准确率 平均延迟
qwen-turbo 90% 650ms
deepseek-chat 80% 920ms

通义千问在中文理解上确实更强,而且延迟更低。但 DeepSeek 便宜一半。

选哪个?取决于你的场景。 这就是评测的意义。

接下来

这个项目还在早期,TODO 里有很多想做的:

  • 并发评测(加速大数据集)

  • 历史对比(跑两次评测,看模型有没有退步)

  • 自动化 CI(每次改 prompt 都跑一轮评测)

但核心功能已经能用了。如果你也在选模型,可以试试。


GitHub: GitHub - Vincent-crypto-coder/llm-eval · GitHub

觉得有用的话,给个 ⭐ 吧!

更多推荐