logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CompassArena新升级:Judge Copilot提升竞技体验,新一代Bradley-Terry模型还原模型真实能力

引入搜索功能的控制变量后,具备搜索功能的模型(标记为 w/search)的排名发生了显著变化。值得注意的是,Hunyuan-Pro w/search 和 Spark-v4.0-Ultra w/search 的排名在控制搜索功能后并未发生明显变化,这表明这些模型的能力估计较为准确,受搜索功能的影响较小。相比之下,其他排名靠前的大模型,如 GLM-4-Plus、Hunyuan-Pro 和 Qwen2-

文章图片
#语言模型#人工智能
T-Eval:大模型智能体能力评测基准解读 | ACL 2024

AI Agent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了更全面地评估模型的工具使用能力,司南及合作伙伴团队推出了T-Eval评测基准,相关成果论文已被ACL 2024主会录用。

文章图片
#人工智能#AIGC#深度学习 +1
多模态模型评测神器 | OpenCompass MMBench 了解一下!

MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。

文章图片
#人工智能#github#语言模型 +2
到底了