🌐 全球大模型能力排名榜单

2026年5月 · 综合 Intelligence Index · GPQA Diamond · 代码 · 推理
数据来源:Artificial Analysis · LLM Stats · Vellum AI


🟣 S 梯队 — 顶尖前沿

排名 模型 开发商 综合指数 GPQA 开源 擅长领域
🥇 1 GPT-5.5 (xhigh) OpenAI 60 93% 综合、代码、推理
🥈 2 GPT-5.5 (high) OpenAI 59 92% 综合、多模态
🥉 3 Claude Opus 4.7(推理增强) Anthropic 57 92% 推理、写作、代码
4 Gemini 3.1 Pro Preview Google 57 91% 代码、多模态
5 Claude Mythos Preview Anthropic 56 95% ★ 推理全球第一

★ Claude Mythos Preview 的 GPQA Diamond 得分 95%,为当前全球最高。


🟢 A 梯队 — 强力竞争者

排名 模型 开发商 综合指数 GPQA 开源 擅长领域
6 Grok 4 xAI 55 89% 综合、速度
7 Kimi K2.6 月之暗面 54 91% 开源第一、推理
8 GLM-5 智谱AI 53 87% 中文、代码
NEW 9 DeepSeek V4-Pro 深度求索 53 90.1% 代码、性价比极高
10 DeepSeek V3.2 深度求索 52 86% 开源、性价比

💡 DeepSeek V4-Pro:2026年4月24日发布,1.6T 参数 / 49B 激活,支持 100万 token 上下文,MIT 开源,定价仅 $3.48/M tokens,比 GPT-5.5 便宜约 8 倍


🟡 B 梯队 — 高效主力

排名 模型 开发商 综合指数 GPQA 开源 擅长领域
11 Claude Sonnet 4.6 Anthropic 51 84% 效率、写作
12 Gemini 3.1 Flash Google 49 82% 速度、性价比
13 GPT-5 (standard) OpenAI 48 81% 综合
14 DeepSeek V4-Flash 深度求索 47 83% 速度、极低成本
15 GLM-4.7 Thinking 智谱AI 47 83% 开源代码
16 Llama 4 Maverick Meta 46 78% 开源多模态
17 Qwen3-235B (MoE) 阿里巴巴 45 79% 中文开源

⚪ C 梯队 — 实用选择

排名 模型 开发商 综合指数 GPQA 开源 擅长领域
18 DeepSeek R1 深度求索 44 76% 推理、开源
19 Mistral Large 3 Mistral 41 72% 欧洲、开源
20 GPT-4o OpenAI 38 67% 多模态经典
21 Llama 3.3 70B Meta 34 58% 本地部署

📌 关键结论

维度 最强模型
综合能力第一 GPT-5.5 (xhigh) · 指数 60
推理能力第一 Claude Mythos Preview · GPQA 95%
开源综合第一 Kimi K2.6 · 指数 54
性价比之王 DeepSeek V4-Pro · $3.48/M tokens
国产最强闭源 GLM-5 · 指数 53
本地部署推荐 Llama 3.3 70B / DeepSeek V4-Flash

说明: 综合指数基于 Artificial Analysis Intelligence Index,融合 GPQA Diamond(博士级推理)、SWE-Bench(代码)、AIME 2025(数学)、MMLU-Pro(知识)等多项基准。排名为预览版数据,仅供参考,实际表现因任务类型而异。

Logo

更多推荐