
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
进入 2026 年,全球大模型技术持续加速演进,新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标,转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力,在编程、推理、工具调用与信息检索等关键方向不断提升,全面增强解决实际问题的能力。与此同时,中国大模型在全球舞台上持续受到关注,越来越多模型在海外社区引发热议,展现出中国在大模型日益增强的技术实力与创新活力。司南持续关注大模型

MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试,包含七个任务,涵盖多种问题格式:多项选择题、填空题(有选项和无选项)、患者-医生问答对。

实验结果表明,经过微调的视频模型在空间推理方面表现出强大的能力,并且在各项指标上持续超越领先的视觉语言模型(VLMs)。为全面评估视频模型的推理能力,研究团队在 VR-Bench 上进行了系统实验,评测了多种最新的商用与开源视频生成模型。大规模实验表明,基于视频的推理在复杂任务上优于基于文本的推理(如 VLM),尤其在迷宫类型、视觉风格及难度变化等分布偏移下表现更强。此外,研究团队在 VR-Ben

一个统一且全面的基准,用于评估视频生成、条件视频生成及视频理解中的感知与预测能力。PAI-Bench 包含 2,808 个真实世界场景案例,并设计了与任务对齐的评测指标,以量化物理合理性及领域特定推理能力。基于两大基本范式:文本到视频(T2V)和图像到视频(I2V),涵盖 6 类规则的 40 个代表性任务,共 622 个高质量标注实例。一个以事件为中心的危机舆情数据集,涵盖 463 个危机事件及其

面对通用人工智能技术持续突破与应用场景日益多元的趋势,升级后的司南评测体系构建了涵盖底层算力、通用模型、具身智能、安全可信与垂直行业在内的完整评测链条,致力于为行业提供统一、权威的技术评价标准,推动 AI 能力与实际需求紧密结合,助力通用人工智能在各领域实现安全、可信和高效的落地应用。在通用人工智能时代加速到来的背景下,专业、公正、开放的评测体系是确保人工智能安全、高效发展的关键环节,它不仅是技术

WorldScore 是用于世界生成的统一基准测试,包括一个精选数据集,其中包含 3000 个测试示例,包含静态和动态、室内和室外、逼真和风格化复杂的世界场景,并通过可控性、质量和动态性这三个关键方面评估生成的世界。

凭借对文本、图像、语音等多模态数据的融合处理能力,多模态大模型实现了更为丰富、全面的理解与生成,在复杂场景中表现得更接近人类水平,已然成为人工智能领域的重要发展方向。然而,随着评测基准的激增,数据污染问题日益凸显,导致模型在评测中“记住”答案,从而高估了模型性能,降低了评测基准的可信度。为解决这一问题,司南推出了多模态模型,评测数据,包含多项细分评估维度,确保测试数据的新颖性和客观性,从而真实评估

2025 年伊始,尤其是春节假期前后一段时间,大模型领域犹如一场科技盛宴,每一天都为我们带来前所未有的惊喜与震撼。其中,DeepSeek 发布的 DeepSeek-R1 模型尤为瞩目,它不仅刷新了行业标准,更以其卓越的表现和创新的技术,在全球范围内引发了广泛关注,成为这一时期当之无愧的“话题王”。司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布!本次榜单囊括了国内外

一个专门为评估多模态大语言模型在具身智能任务中精细动作能力而设计的新基准,包含 1,368 个精心挑选的视频和 19,562 个三模态问答对,覆盖物理交互、时序因果关系、意图理解和评估判断四大认知维度。一个专为评估文本驱动图像编辑效果而设计的基准套件,收录了多样的源图像、丰富的编辑提示及不同方法生成的编辑结果,并提供近 4,000 个样本的人类平均意见分。面向化学领域的多模态推理基准,旨在评估多模

研究团队在四个预训练多模态模型上开展实验:Qwen2.5VL-7B、InternVL2.5-8B、llava-v1.6-mistral-7B 和 GPT-4o。对于前三个开源 MLLM,在未经过精调和基于 Q-Real 训练集使用任务特定精调框架进行精调后的两种设置下进行评估,对于 GPT-4o,仅在 Q-Real Bench 上直接测试其性能,不进行额外设置。主要发现ObjectQA。








