
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2025年4月15日发布的 Doubao-1.5-thinking-pro 凭借长思维链和强化学习技术,在医疗、教育、金融等8大类别中展现了突出的推理性能。时隔两个月,其升级版 doubao-seed-1-6-thinking-250615 于6月15日正式推出,进一步优化了模型架构。

开源大模型竞争,现在是Llama、Qwen和DeepSeek三足鼎立之势,谁优谁劣,我们直接上榜单!

教育行业大模型选型必读1.闭卷考试!独家评测集:用最新K12真题(小学-高中全学科)构建“闭卷考场”,108个模型同台竞技,数据污染率<5%(传统评测集污染率超60%)2.价格透明对比:40元/M tokens的阿里系模型VS 2元/M tokens的字节系、腾讯系模型,谁更值?3.四大选型禁区:>60元但得分<75的模型被列入不推荐名单(附避坑清单)4.核心结论直出:教学核心环节必须用专用模型,

总结显著增强:行政公务、推理与数学计算 大幅优化。 变弱:金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。 基本稳定:心理健康、语言与指令遵从变化极小。

【关键发现】1.国产优势:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型2.专精特长生:腾讯在医疗、金融领域领先openAI/Google在推理计算和行政领域强势深度求索在语言理解表现优异3.性价比标杆:免费模型:GLM系列两款(医疗/金融场景适用)极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语

AI大模型在小学奥数考试的综合表现总结1. 核心优势顶尖答题能力商用模型(如gemini-2.5、DeepSeek-R1)在奥数题解中已接近人类专家水平。高稳定性与覆盖率商用模型在优秀(≥90分)和良好(80-89分)区间占比超70%,具备大规模教学应用的坚实技术基础。开源潜力可挖掘DeepSeek-R1等头部开源模型证明,通过针对性优化,开源方案可达到商用标杆水平。2. 局限性长尾效应显著低分模

【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。

【评测结论】:百度系模型得分第一,豆包、腾讯系混元系列模型分列2-5名,deepseek排名第6,其中hunyuan-large是前5中唯一一个开源模型。

【评测结论】:百度得分第一,豆包第二,deepseek第四,腾讯系混元系列模型占据第3和第5名,其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

DeepSeek-v3-0324总分提高了15%,算是稳步提升。而在法律和行政公务领域却有超出预期的巨幅改进,涨幅分别高达55%、41%。相比之下,在金融领域却只有3%的微小提升。








