
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在OSWorld-Verified基准上,GPT-5.4达到了75.0%的成功率,超过了人类表现的72.4%,远超GPT-5.2的47.3%。:在近期发布的新模型中,gpt-5.4-high(72.6%)的表现超过了GLM-4.7(71.5%)、ERNIE-5.0(70.9%)、DeepSeek-V3.2-Think(70.9%)等模型,但与榜首的Doubao-Seed-2.0-pro(76.5%
gpt-5.3-chat(70.6%)与GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)基本处于同一水平线,但与榜首的Doubao-Seed-2.0-pro(76.5%)和第二名gemini-3.1-pro-preview(74.8%)仍有一定差距。对比同为闭源的claude-opus-4.6(70.5%,96.5元),gpt-5.3-chat准确率基本持平
2025年4月15日发布的 Doubao-1.5-thinking-pro 凭借长思维链和强化学习技术,在医疗、教育、金融等8大类别中展现了突出的推理性能。时隔两个月,其升级版 doubao-seed-1-6-thinking-250615 于6月15日正式推出,进一步优化了模型架构。

而OpenAI的gpt-5.2-high(67.4%)相比gpt-5.1-high(69.7%)则出现了2.3个百分点的回落,代际升级并非总能带来全面提升。- 闭源阵营竞争激烈:在闭源商用模型中,qwen3-max-think-2026-01-23(72.8%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)均超
评测结论:百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。

OpenAI、Google、Meta、Anthropic的大模型,哪家强?!!!

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)

字节豆包:以“综合实力派”的形象,在多个领域展现出强大的通用能力。阿里千问:凭借“模型矩阵”的优势,力求覆盖所有需求,打法全面。智谱AI:则以“专业领域尖刀”的姿态,在特定行业形成壁垒。深度求索:瞄准“高端性能”和“科研突破”,目标是技术高地。阶跃星辰:作为“潜力黑马”,未来表现值得期待。

【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。








