logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenAI GPT-5.4实测

在OSWorld-Verified基准上,GPT-5.4达到了75.0%的成功率,超过了人类表现的72.4%,远超GPT-5.2的47.3%。:在近期发布的新模型中,gpt-5.4-high(72.6%)的表现超过了GLM-4.7(71.5%)、ERNIE-5.0(70.9%)、DeepSeek-V3.2-Think(70.9%)等模型,但与榜首的Doubao-Seed-2.0-pro(76.5%

#人工智能
OpenAI GPT-5.3-chat实测

gpt-5.3-chat(70.6%)与GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)基本处于同一水平线,但与榜首的Doubao-Seed-2.0-pro(76.5%)和第二名gemini-3.1-pro-preview(74.8%)仍有一定差距。对比同为闭源的claude-opus-4.6(70.5%,96.5元),gpt-5.3-chat准确率基本持平

#人工智能
新一代豆包推理大模型Doubao-Seed-1.6-think来了,能力全面突破!

2025年4月15日发布的 Doubao-1.5-thinking-pro 凭借长思维链和强化学习技术,在医疗、教育、金融等8大类别中展现了突出的推理性能。时隔两个月,其升级版 doubao-seed-1-6-thinking-250615 于6月15日正式推出,进一步优化了模型架构。

文章图片
Anthropic Claude Opus 4.6实测

而OpenAI的gpt-5.2-high(67.4%)相比gpt-5.1-high(69.7%)则出现了2.3个百分点的回落,代际升级并非总能带来全面提升。- 闭源阵营竞争激烈:在闭源商用模型中,qwen3-max-think-2026-01-23(72.8%)、hunyuan-2.0-thinking-20251109(71.9%)、doubao-seed-1-8-251215(71.7%)均超

医疗行业|12个分类、18科目,110个大模型应用实测横评!

评测结论:百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。

文章图片
#DeepSeek
参数量5B~20B中等尺寸大模型03.13——CLiB大模型排行榜

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)

文章图片
#人工智能#语言模型#DeepSeek
国产大模型“基模五强”硬核对决:旗舰性能、领域专精与价格厮杀!

字节豆包:以“综合实力派”的形象,在多个领域展现出强大的通用能力。阿里千问:凭借“模型矩阵”的优势,力求覆盖所有需求,打法全面。智谱AI:则以“专业领域尖刀”的姿态,在特定行业形成壁垒。深度求索:瞄准“高端性能”和“科研突破”,目标是技术高地。阶跃星辰:作为“潜力黑马”,未来表现值得期待。

文章图片
#人工智能
大模型评测【行业应用篇】医疗行业|「专业知识考试-中医学与中药学」大模型应用实测03.27

【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。

文章图片
参数量20B以上大模型03.13——CLiB大模型排行榜

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

文章图片
#人工智能#python#前端
    共 28 条
  • 1
  • 2
  • 3
  • 请选择