简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
CompassArena新升级:Judge Copilot提升竞技体验,新一代Bradley-Terry模型还原模型真实能力
引入搜索功能的控制变量后,具备搜索功能的模型(标记为 w/search)的排名发生了显著变化。值得注意的是,Hunyuan-Pro w/search 和 Spark-v4.0-Ultra w/search 的排名在控制搜索功能后并未发生明显变化,这表明这些模型的能力估计较为准确,受搜索功能的影响较小。相比之下,其他排名靠前的大模型,如 GLM-4-Plus、Hunyuan-Pro 和 Qwen2-
T-Eval:大模型智能体能力评测基准解读 | ACL 2024
AI Agent(智能体)作为大模型的重要应用模式,能够通过使用外部工具来执行复杂任务,完成多步骤的工作流程。为了更全面地评估模型的工具使用能力,司南及合作伙伴团队推出了T-Eval评测基准,相关成果论文已被ACL 2024主会录用。
多模态模型评测神器 | OpenCompass MMBench 了解一下!
MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集,可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题 ,覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。
到底了