国内大语言模型对比评测（三）

针对国产免费使用的大语言模型，我们基于不同方面的问题去测试模型并给出一个基础结果和主观评价。希望通过该工作以帮助各位读者找到满足自己需求的大语言模型，提高大家的工作学习效率。对于大模型生成结果给出一个综合排档：第一档：阿里通义千问、百度文心、智谱清言、讯飞星火第二档：腾讯混元、百川智能、抖音云雀第三档：MINIMAX后续我们仍会继续精进测评结果！！！

文章共3,812字 · 阅读需要大约13分钟

一键AI生成摘要，助你高效阅读

问答

zhangchuangzhuang

17351人浏览 · 2024-02-21 21:19:03

zhangchuangzhuang · 2024-02-21 21:19:03 发布

国内大语言模型对比评测（三）

针对国产大模型的横空出世并不断打磨其性能，这次评测我们将覆盖国内所有开源的大语言模型（如下），也针对大家常用功能的设计了测试问题，用于评测其生成结果的优劣。测试问题统一为中文，用于为国内用户使用大语言模型提供参考。

我们所用到的国产大语言模型如下：

我们所涉及的测试问题主要涉及以下方面：自然语言理解、推理、创造性、情感和意图分析、语言多样性和翻译、多学科知识融合、偏见和伦理、鲁棒性、数学推理、医学诊断、多模态理解和生成。

评测系列文章：

国内大语言模型对比评测（一）
自然语言理解
推理
创造性
情感和意图分析

国内大语言模型对比评测（二）
语言多样性和翻译
多学科知识融合
偏见和伦理
鲁棒性

国内大语言模型对比评测（三）
数学推理
医学诊断
多模态理解和生成

文章目录

国内大语言模型对比评测（三）
九. 数学
十. 医学
十一. 多模态

总结

九. 数学

测试问题："找出数列 2,4,8,16,…的下一个数"

评测结果：国产大语言模型在简单的数学推理结果均正确，其中百度文心3.5、抖音云雀、智谱清言思维链条较为完整

百度文心一言3.5

阿里通义千问

腾讯混元

讯飞星火

抖音云雀

智谱清言

百川智能

MINIMAX

十. 医学

测试问题："一名患者出现发热、头痛和关节疼痛，可能的诊断是什么？"

评测结果：国产大语言模型在医学诊断中结果几乎一致

百度文心一言3.5

阿里通义千问

腾讯混元

讯飞星火

抖音云雀

智谱清言

百川智能

MINIMAX

十一. 多模态

测试问题：
(1) 文本到图像
1. 生成特定场景的图像: "请生成一幅描绘夜晚巴黎街头，街边有一家热闹的咖啡馆的图像。"
2. 基于描述创建艺术作品: "请根据梵高的画风，创作一幅展示乡村风景、有旋转的星空和鲜艳的月亮的图画。"
(2) 图像到文本
1. 图像描述: 提供一张图片，让模型描述图片中发生的事情或图片的内容。
2. 图像故事讲述: 提供一系列图片，让模型根据图片顺序编织一个故事。
(3) 交互式问题
1. 解决问题: "根据这张厨房的照片，告诉我如何重新组织以节省空间？"
2. 教育活动: "使用这些动物的图片，为儿童创作一个关于动物习性的教育故事。"
(4) 数据分析
1. 图表解读: 提供一个复杂的数据图表，让模型解释图表所展示的数据趋势和重要信息。
2. 照片数据提取: "从这张商店收据的照片中提取出所有商品和它们的价格。"

评测结果：
（1）文本到图像：除了MINIMAX外其大模型均可生成满足文本的图像
（2）图像到文本：第一档：百度文心、阿里通义千问、智谱清言。第二档：讯飞星火
（3）交互式问题：所有的大模型在与图片交互上结果均不佳
（4）数据分析：第一档：阿里通义千问。第二档：百度文心、讯飞星火、智谱清言。

腾讯混元、抖音云雀、百川智能具有文生图但不具备图生文功能。MINIMAX只具备文生文功能。

图像描述
图像故事描述
厨房
动物
数据图表
收据

百度文心一言3.5

(1) 文本到图像文 → 图

(2) 图像到文本图像描述

(2) 图像到文本图像故事描述

(3) 交互式问题解决问题

(3) 交互式问题教育活动

(4）数据分析图表解读

(4)数据分析照片数据提取

文心一言在图生文中单图结果不错生成了图像中的人物名称，但是在多图中出现自己编造的内容，结果和图片关系不大；在交互式问题中结果有些欠缺，均出现了自己编造的内容，且无法识别多个图片的输入；在数据分析图表中结果有些欠缺，具体数值均是错误的，但在趋势分析中是部分内容正确，部分内容编造，在照片数据提取中，无法提取有效结果.

阿里通义千问

(1) 文本到图像文 → 图