easyllm 个人主页

@easyllm

easyllm

2025-03-20 16:00:48 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Anthropic Claude Opus 4.6实测

而OpenAI的gpt-5.2-high（67.4%）相比gpt-5.1-high（69.7%）则出现了2.3个百分点的回落，代际升级并非总能带来全面提升。- 闭源阵营竞争激烈：在闭源商用模型中，qwen3-max-think-2026-01-23（72.8%）、hunyuan-2.0-thinking-20251109（71.9%）、doubao-seed-1-8-251215（71.7%）均超

智谱 GLM-5 实测

近期各厂商发布的新模型中，qwen3-max-think-2026-01-23以72.8%位居榜首，gemini-3-pro-preview以72.5%紧随其后，hunyuan-2.0-thinking-20251109达到71.9%。GLM-5的71.0%在新模型中处于前列。：准确率相近的doubao-seed-1-8-251215（71.7%）成本仅7.3元/千次，doubao-seed-1-

#人工智能

OpenAI GPT-5.3-chat实测

gpt-5.3-chat（70.6%）与GLM-4.7（71.5%）、gemini-3-flash-preview（71.5%）基本处于同一水平线，但与榜首的Doubao-Seed-2.0-pro（76.5%）和第二名gemini-3.1-pro-preview（74.8%）仍有一定差距。对比同为闭源的claude-opus-4.6（70.5%，96.5元），gpt-5.3-chat准确率基本持平

#人工智能

谷歌Gemini 3.1 Flash-Lite实测

对比同系的gemini-3.1-pro-preview（74.8%，250.5元，53s）和gemini-3-pro-preview（72.5%，247.3元，64s），gemini-3.1-flash-lite-preview在准确率上存在约20个百分点的差距。：然而，上述模型的平均耗时均在100s以上（DeepSeek-V3.2-Think为144s，Doubao-Seed-2.0-lite为

#人工智能

OpenAI GPT-5.4 非思考模式实测

在该区间附近，gpt-5-2025-08-07（68.9%，31.9元）以更低的花费提供了明显更高的准确率，而GLM-4.6（68.1%，37.6元）同样在准确率上大幅领先。：对比其他厂商的轻量或非推理版本，如gemini-3-flash-preview（71.5%，53.5元）、step-3.5-flash（64.2%，9.8元）等，gpt-5.4在准确率上并不占优，但在响应速度上保持领先。：新

#人工智能

智谱 GLM-5-Turbo 实测

官方发布的ZClawBench基准显示，GLM-5-Turbo在龙虾场景中的表现相比GLM-5有显著提升，在多项关键任务上整体领先于多家主流模型。：在近期发布的新模型中，GLM-5-Turbo（71.5%）的准确率与Doubao-Seed-2.0-mini（71.8%）、doubao-seed-1-8-251215（71.7%）基本持平，但低于Doubao-Seed-2.0-pro（76.5%）、

#人工智能

OpenAI GPT-5.4 Mini实测

在排名相近的区间内，MiniMax-M2.7（67.7%，第35位）、qwen3-max-2026-01-23（67.6%，第37位）与gpt-5.4-mini-high接近。：相比上一代gpt-5-mini-high（61.3%，排名第86位），gpt-5.4-mini-high（67.5%，排名第38位）提升了6.2个百分点，排名前进了48位。在OSWorld-Verified上，GPT-5.

#人工智能

小米 MiMo-V2-Pro 实测

值得关注的是，开源阵营中不乏在中文综合能力上超越MiMo-V2-Pro的选手：qwen3.5-plus（74.6%，22.9元）、Qwen3.5-27B（72.4%，25元）、GLM-4.7（71.5%，52.5元）、Kimi-K2.5-Thinking（71.3%，77.1元）等开源模型均以相近甚至更低的成本实现了更高的准确率。- 向上看，qwen3-max-think-2026-01-23（7

#人工智能

小米 MiMo-V2-Omni 实测

MiMo-V2-Omni（68.6%，第30位）作为全模态旗舰居首，MiMo-V2-Flash-think-0204（68.2%，第32位）作为纯文本推理模型紧随其后，MiMo-V2-Pro（67.6%，第39位）提供均衡选择，MiMo-V2-Flash-think（62.0%，第80位）则覆盖轻量场景。从准确率来看，MiMo-V2-Omni与同档位模型基本持平，略高于MiMo-V2-Pro和GL

#人工智能

OpenAI GPT-5.4 Nano实测

OpenAI在发布GPT-5.4 Mini的同时，还推出了产品线中体量最小、成本最低的GPT-5.4 Nano。官方对这款模型的定位非常明确：它是GPT-5.4家族中最小、最便宜的版本，专为速度和成本优先的场景而生，推荐用于分类、数据提取、排序以及处理简单辅助任务的编码子智能体。在OpenAI设想的多模型协作架构中，GPT-5.4负责规划和最终判断，GPT-5.4 Mini执行中等复杂度子任务，而

#人工智能

共 67 条

请选择