
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
教育行业大模型选型必读1.闭卷考试!独家评测集:用最新K12真题(小学-高中全学科)构建“闭卷考场”,108个模型同台竞技,数据污染率<5%(传统评测集污染率超60%)2.价格透明对比:40元/M tokens的阿里系模型VS 2元/M tokens的字节系、腾讯系模型,谁更值?3.四大选型禁区:>60元但得分<75的模型被列入不推荐名单(附避坑清单)4.核心结论直出:教学核心环节必须用专用模型,

相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于

相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于

总结显著增强:行政公务、推理与数学计算 大幅优化。 变弱:金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。 基本稳定:心理健康、语言与指令遵从变化极小。

【关键发现】1.国产优势:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型2.专精特长生:腾讯在医疗、金融领域领先openAI/Google在推理计算和行政领域强势深度求索在语言理解表现优异3.性价比标杆:免费模型:GLM系列两款(医疗/金融场景适用)极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语

相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于

AI大模型在小学奥数考试的综合表现总结1. 核心优势顶尖答题能力商用模型(如gemini-2.5、DeepSeek-R1)在奥数题解中已接近人类专家水平。高稳定性与覆盖率商用模型在优秀(≥90分)和良好(80-89分)区间占比超70%,具备大规模教学应用的坚实技术基础。开源潜力可挖掘DeepSeek-R1等头部开源模型证明,通过针对性优化,开源方案可达到商用标杆水平。2. 局限性长尾效应显著低分模

【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。

【评测结论】:百度系模型得分第一,豆包、腾讯系混元系列模型分列2-5名,deepseek排名第6,其中hunyuan-large是前5中唯一一个开源模型。

【评测结论】:百度得分第一,豆包第二,deepseek第四,腾讯系混元系列模型占据第3和第5名,其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
