
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
评测结论:百度系最新大模型得分第一!,腾讯系混元大模型排名第二,DeepSeek排名第七,和腾讯系模型是排名前10中唯二的开源模型。

OpenAI、Google、Meta、Anthropic的大模型,哪家强?!!!

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。输出价格单位:(元/M tok)

字节豆包:以“综合实力派”的形象,在多个领域展现出强大的通用能力。阿里千问:凭借“模型矩阵”的优势,力求覆盖所有需求,打法全面。智谱AI:则以“专业领域尖刀”的姿态,在特定行业形成壁垒。深度求索:瞄准“高端性能”和“科研突破”,目标是技术高地。阶跃星辰:作为“潜力黑马”,未来表现值得期待。

【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。

评测维度:医疗、教育、法律、行政公务、推理与数学计算、语言与指令遵从。

随着AI技术的普及,越来越多的平台推出了免费的大模型API,吸引了不少开发者和企业尝试。但免费是否意味着效果打折?在实际应用中,它们的表现能否满足需求?我们通过评测来一探究竟。我们精选了15个大模型,它们均能长期提供免费API,但不包括那些限时免费、新用户短期体验的模型。

关键结论:✅ 国产文科统治力:文心4.5文科均分97.3(历史96/政治100),超Gemini 14分!⚠️ 海外理科壁垒:Gemini理科96.7分(生物/化学双满分),唯一压制国产的领域。💥 GPT全线崩盘:GPT-4o理科最高仅物理69分(未进前50),总分比文心低31.3分。

总结显著增强:行政公务、推理与数学计算 大幅优化。 变弱:金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。 基本稳定:心理健康、语言与指令遵从变化极小。

【关键发现】1.国产优势:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型2.专精特长生:腾讯在医疗、金融领域领先openAI/Google在推理计算和行政领域强势深度求索在语言理解表现优异3.性价比标杆:免费模型:GLM系列两款(医疗/金融场景适用)极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语








