百度文心一言4.5大模型评测来啦，有意外，有惊喜

本次主要对文心一言4.5模型进行知识百科的问答测评，

fu1766731950

1484人浏览 · 2025-03-18 10:42:01

fu1766731950 · 2025-03-18 10:42:01 发布

本次主要对文心一言4.5模型进行知识百科的问答测评，总共测评20个题目，答对16个题目

测评结论

模型的响应速度很快，几乎是秒级响应，输入内容就直接开始输出对应的答案。
指令的遵循和理解是有待提升的，输出的格式其实没有那么的直接和规整。
针对于百科问答仍然有局限性，有些内容还是回答错误。但整体回答的准确率相比其他模型还是可以的。
个别题目本身可能较难，对于回答错误的题目。换做其他模型也是常错题，对比的模型有kimi、GPT-4o、O3-mini、deepseek V3

想交流AI实战经验、获取一线AI情报的，🔍🔍：fushuai713

备注：职位_来源，如电商运营_CSDN

测试展现

由于测的内容偏多，篇幅有限，只展示其中的一部分。

指令遵循问题

针对这道题并没有给出具体答案，只是模型做了一下自己的分析。

回答错误

正确答案：《二战中的指挥官》

正确答案：第九话

正确答案：联发科Helio X30

注意：回答错误的题目，对其他模型也是常错的题。

回答正确的题目较多，在这里就不做出每个题目详细的展示。

意外case

评测过程中发现了一个奇怪事情，就是如果某个题目有一定的难度或者逻辑推理。他时不时的会进行卡死，并且如果能输出也要反应比较长时间。

不知道是巧合还是它里面有什么样的策略，这个等稍后我们再尝试，看能不能复现。

本来以为是服务器繁忙导致了这样的报错。

但是在换了个题目之后，还是能够秒级反应输出结果。

再输入之前输出报错题目，又会出现那种长时间反应最终报错的情况。

后续

后面会对4.5模型在自媒体的应用进行评测，还会对X1模型进行测试，此外还有Gemini、grok3等系列deep research的测评文章

希望小伙伴们点击下面链接👇🏻👇🏻并关注，持续分享一线的AI情报。

https://mp.weixin.qq.com/s/SNykqFN0r-toHNQ1ZSU65ghttps://mp.weixin.qq.com/s/SNykqFN0r-toHNQ1ZSU65g

文心大模型

更多推荐

cover

一文看懂！ChatGPT与国内主流大模型全方位大对决

文心大模型

cover

国内AI大模型邮件生成能力对比：文心一言ERNIE 4.0 VS 通义千问Max

文心大模型

cover

windows11家庭版安装docker启动dify调用文心一言大模型

文心大模型

所有评论(0)

查看更多评论

fu1766731950

已为社区贡献1条内容

文心大模型4.5系列模型开源查看更多

ERNIE-4.5-VL-424B-A47B-Paddle

424亿参数多模态模型，端到端训练。

工业应用部署便捷高效，适配电商等场景。

视觉多模态理解

ERNIE-4.5-300B-A47B-Paddle

3000亿参数，长文本与语义生成力强。

适用于篇章代码等任务，逻辑内容优势显著。

文本生成

ERNIE-4.5-VL-28B-A3B-Paddle

280亿参数融合视语言模态

适配复杂场景，解析生成高效

视觉多模态理解

ERNIE-4.5-21B-A3B-Paddle

210亿参数平衡容量与资源，语义创作高效。

支持灵活调优，适配中等文本任务。

文本生成

ERNIE-4.5-0.3B-Paddle

30亿参数极简版，轻量化场景推理速度极快。

适配实时文本生成需求，兼具语义理解能力。

文本生成