国内大语言模型对比评测(三)

针对国产大模型的横空出世并不断打磨其性能,这次评测我们将覆盖国内所有开源的大语言模型(如下),也针对大家常用功能的设计了测试问题,用于评测其生成结果的优劣。测试问题统一为中文,用于为国内用户使用大语言模型提供参考。

我们所用到的国产大语言模型如下:

百度文心大模型3.5

阿里通义大模型

腾讯混元大模型

讯飞星火认知大模型

抖音云雀大模型

智谱清言

百川智能

MINIMAX

我们所涉及的测试问题主要涉及以下方面自然语言理解推理创造性情感和意图分析语言多样性和翻译多学科知识融合偏见和伦理鲁棒性数学推理医学诊断多模态理解和生成


评测系列文章:


九. 数学

测试问题:"找出数列 2,4,8,16,…的下一个数"
评测结果:国产大语言模型在简单的数学推理结果均正确,其中百度文心3.5、抖音云雀、智谱清言思维链条较为完整

百度文心一言3.5

阿里通义千问

腾讯混元

讯飞星火

抖音云雀

智谱清言

百川智能

MINIMAX

十. 医学

测试问题:"一名患者出现发热、头痛和关节疼痛,可能的诊断是什么?"
评测结果:国产大语言模型在医学诊断中结果几乎一致

百度文心一言3.5

阿里通义千问

腾讯混元

讯飞星火

抖音云雀

智谱清言

百川智能

MINIMAX

十一. 多模态

测试问题:
(1) 文本到图像
1. 生成特定场景的图像: "请生成一幅描绘夜晚巴黎街头,街边有一家热闹的咖啡馆的图像。"
2. 基于描述创建艺术作品: "请根据梵高的画风,创作一幅展示乡村风景、有旋转的星空和鲜艳的月亮的图画。"
(2) 图像到文本
1. 图像描述: 提供一张图片,让模型描述图片中发生的事情或图片的内容。
2. 图像故事讲述: 提供一系列图片,让模型根据图片顺序编织一个故事。
(3) 交互式问题
1. 解决问题: "根据这张厨房的照片,告诉我如何重新组织以节省空间?"
2. 教育活动: "使用这些动物的图片,为儿童创作一个关于动物习性的教育故事。"
(4) 数据分析
1. 图表解读: 提供一个复杂的数据图表,让模型解释图表所展示的数据趋势和重要信息。
2. 照片数据提取: "从这张商店收据的照片中提取出所有商品和它们的价格。"

评测结果:
(1)文本到图像:除了MINIMAX外其大模型均可生成满足文本的图像
(2)图像到文本:第一档:百度文心、阿里通义千问、智谱清言。第二档:讯飞星火
(3)交互式问题:所有的大模型在与图片交互上结果均不佳
(4)数据分析:第一档:阿里通义千问。第二档:百度文心、讯飞星火、智谱清言。

腾讯混元、抖音云雀、百川智能具有文生图但不具备图生文功能。MINIMAX只具备文生文功能。


图像描述
图像故事描述
厨房
动物
数据图表
收据

百度文心一言3.5

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图




(2) 图像到文本 图像描述
(2) 图像到文本 图像故事描述




(3) 交互式问题 解决问题
(3) 交互式问题 教育活动
(4)数据分析 图表解读
(4)数据分析 照片数据提取
文心一言在图生文中单图结果不错生成了图像中的人物名称,但是在多图中出现自己编造的内容,结果和图片关系不大;在交互式问题中结果有些欠缺,均出现了自己编造的内容,且无法识别多个图片的输入;在数据分析图表中结果有些欠缺,具体数值均是错误的,但在趋势分析中是部分内容正确,部分内容编造,在照片数据提取中,无法提取有效结果.

阿里通义千问

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图




(2) 图像到文本 图像描述
(2) 图像到文本 图像故事描述




(3) 交互式问题 解决问题
(3) 交互式问题 教育活动
(4)数据分析 图表解读
(4)数据分析 照片数据提取
通义千问在图生文中单图结果生成结果较详细但是有一些细节的识别不准确,在多图生成中对于图像内容的理解识别比较到位;在交互式问题中结果不佳,几乎无法实现交互;在数据分析中表现优异,生成结果均正确

腾讯混元

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图
腾讯混元只支持文生图,多模态功能欠缺

讯飞星火

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图
(2) 图像到文本 图像描述



(2) 图像到文本 图像故事描述
(3) 交互式问题 解决问题




(3) 交互式问题 教育活动

(4)数据分析 图表解读
(4)数据分析 照片数据提取
讯飞星火在图生文单图中生成了简单准确的结果,在多图中出现了与图片几乎无关的故事;在交互式问题中单图和图片内容有交互性,但在多图中无法识别出输入的多个图片;在数据分析中两个测试结果表现均不佳,图表数据结果几乎都不正确,照片数据虽然提取出了购买物品,但未准确识别出其价格

抖音云雀

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图
抖音云雀只支持文生图,多模态功能欠缺

智谱清言

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图
(2) 图像到文本 图像描述




(2) 图像到文本 图像故事描述
(3) 交互式问题 解决问题




(3) 交互式问题 教育活动

(4)数据分析 图表解读
(4)数据分析 照片数据提取
智谱清言在图生文中结果优秀,皆给出了和图片内容相一致的结果;在交互式问题中生成结果显示无法具有满意的交互性;在数据分析中,对于图表和图片数据皆无法正确识别

百川智能

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图
百川智能暂无图生文功能,多模态功能欠缺

MINIMAX

(1) 文本到图像 文 → 图
(1) 文本到图像 文 → 图
MINIMAX缺少多模态功能

总结

针对国产免费使用的大语言模型,我们基于不同方面的问题去测试模型并给出一个基础结果和主观评价。希望通过该工作以帮助各位读者找到满足自己需求的大语言模型,提高大家的工作学习效率。

对于大模型生成结果给出一个综合排档:

第一档:阿里通义千问、百度文心、智谱清言、讯飞星火

第二档:腾讯混元、百川智能、抖音云雀

第三档:MINIMAX


后续我们仍会继续精进测评结果!!!


Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐