logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型选型实战指南|教育行业:108个模型「闭卷考试」实测,这3类应用场景直接抄作业!

教育行业大模型选型必读1.闭卷考试!独家评测集:用最新K12真题(小学-高中全学科)构建“闭卷考场”,108个模型同台竞技,数据污染率<5%(传统评测集污染率超60%)2.价格透明对比:40元/M tokens的阿里系模型VS 2元/M tokens的字节系、腾讯系模型,谁更值?3.四大选型禁区:>60元但得分<75的模型被列入不推荐名单(附避坑清单)4.核心结论直出:教学核心环节必须用专用模型,

文章图片
大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?

相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于

文章图片
大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?

相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于

文章图片
新版DeepSeek-R1-0528多项能力变弱!虽然推理能力变强

总结显著增强:行政公务、推理与数学计算 大幅优化。  变弱:金融(↓4.9)、法律(↓1.6)、教育(↓1.6)、医疗(↓1.6) 均有所下降,其中金融领域降幅较大。  基本稳定:心理健康、语言与指令遵从变化极小。  

文章图片
5月推理大模型榜单|国产紧追,多个细分领域评分领先国外,字节航母(豆包)多项Top1!

【关键发现】​​1.国产优势​​:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型​​2.专精特长生​​:腾讯在医疗、金融领域领先openAI/Google在推理计算和行政领域强势深度求索在语言理解表现优异​​3.性价比标杆​​:免费模型:GLM系列两款(医疗/金融场景适用)极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语

文章图片
大模型评测【开源篇】Qwen大模型|同样的基座,推理模型Qwq相比常规模型Qwen-instruct,到底哪里更强?

相比instruct模型,qwq总分提高了13%,十分可观。最突出的改进,除了“推理与数学计算”提升21%外,“法律”及“行政公务”都有大幅提高,分别达到20%、27%。“推理与数学计算”方面的改进在我们预料之中,然而“法律”及“行政公务”方面的显著效果却没有那么显而易见。但仔细琢磨后会发现,医疗/教育/金融/心理健康等领域都更偏向考察知识的熟记程度,而法律/行政公务(特别是后者的行测题)更依赖于

文章图片
大模型评测【行业应用篇】教育行业-小学奥数|「AI老师」离我们还有多远?106个大模型实测横评04.22

AI大模型在小学奥数考试的综合表现总结1. 核心优势顶尖答题能力商用模型(如gemini-2.5、DeepSeek-R1)在奥数题解中已接近人类专家水平。高稳定性与覆盖率商用模型在优秀(≥90分)和良好(80-89分)区间占比超70%,具备大规模教学应用的坚实技术基础。开源潜力可挖掘DeepSeek-R1等头部开源模型证明,通过针对性优化,开源方案可达到商用标杆水平。2. 局限性长尾效应显著低分模

文章图片
大模型评测【行业应用篇】医疗行业|「专业知识考试-中医学与中药学」大模型应用实测03.27

【评测结论】:百度系模型得分第一,豆包、腾讯系混元大模型、deepseek分列2-4名,,其中deepseek是前5中唯一一个开源模型。

文章图片
大模型评测【行业应用篇】医疗行业|「专业知识考试-临床医学」大模型实测03.27

【评测结论】:百度系模型得分第一,豆包、腾讯系混元系列模型分列2-5名,deepseek排名第6,其中hunyuan-large是前5中唯一一个开源模型。

文章图片
大模型评测【行业应用篇】教育行业|「初中学科考试」大模型应用实测03.28

【评测结论】:百度得分第一,豆包第二,deepseek第四,腾讯系混元系列模型占据第3和第5名,其中deepseek是前五中唯一的开源模型。各科目完整评测题集及结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

文章图片
    共 26 条
  • 1
  • 2
  • 3
  • 请选择