
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
值得注意的是,开源模型 Ovis2.6-30B-A3B 以 54.37 分排名第五,Step3-VL-10B 以 51.88 分排名第六,两者均为参数量相对较小的开源模型(30B 和 10B),却在推理维度超越了多款大参数闭源模型,这表明推理能力的提升并不完全依赖于参数规模的扩展。Claude-Opus-4-6 以 91.97 分夺冠,Kimi-k2.5(90.05 分)和 SenseNova-V

从 Shell 基准的风险挖掘,到 MENTOR 框架的自进化防御,研究团队致力于为大模型进入垂直行业应用建立一套可量化的安全标准。然而,教育、金融和管理仅仅是起点。随着 AI 深入医疗、法律等更多核心领域,隐性风险的形态将更加复杂。未来的研究将重点关注如何让模型不仅学会遵守规则,更能理解规则背后的价值观,最终实现从外挂式防御向内化式安全的跨越。司南将持续关注并跟进 Shell 基准的迭代更新,欢

多模态大模型的崛起,正在重新定义我们理解与使用 AI 的方式。当模型能够像人类一样,将图像、文本、语音、视频等信息自然融会贯通时,它便获得了更完整、更真实的世界视角。跨模态的统一认知让 AI 不再停留在“看见”“听到”的感知层面,而是能够读懂语境、推演逻辑、辅助决策,展现出向通用智能迈进的关键能力。随着算法、数据与算力的不断进化,多模态大模型正加速从实验室走向产业深处,在越来越多的应用场景中持续释

目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。,围绕土木工程教育与工程实践的核心能力,设置了六大评测维度,全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。随着大语言模型在土木工程领域应用的不断拓展,其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力,评估

在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEval,ArenaHard 等数据集上的标准评测模型。然而,在科学研究和模型迭代的过程中,往往需要进行大规模的评测,而

作为 OpenCompass 司南大模型评测体系三大核心模块之一的评测工具链体系 CompassKit 近日迎来,更新内容主要集中在 OpenCompass 大语言模型评测工具,本文介绍了新功能的使用方法。

进入 2026 年,全球大模型技术持续加速演进,新一轮模型发布不断刷新能力边界。行业关注重点从基础能力指标,转向模型在真实复杂场景中的综合表现。各类模型持续强化智能体相关能力,在编程、推理、工具调用与信息检索等关键方向不断提升,全面增强解决实际问题的能力。与此同时,中国大模型在全球舞台上持续受到关注,越来越多模型在海外社区引发热议,展现出中国在大模型日益增强的技术实力与创新活力。司南持续关注大模型

MedArabiQ 是一个用于评估阿拉伯语医学任务的基准测试,包含七个任务,涵盖多种问题格式:多项选择题、填空题(有选项和无选项)、患者-医生问答对。

实验结果表明,经过微调的视频模型在空间推理方面表现出强大的能力,并且在各项指标上持续超越领先的视觉语言模型(VLMs)。为全面评估视频模型的推理能力,研究团队在 VR-Bench 上进行了系统实验,评测了多种最新的商用与开源视频生成模型。大规模实验表明,基于视频的推理在复杂任务上优于基于文本的推理(如 VLM),尤其在迷宫类型、视觉风格及难度变化等分布偏移下表现更强。此外,研究团队在 VR-Ben

一个统一且全面的基准,用于评估视频生成、条件视频生成及视频理解中的感知与预测能力。PAI-Bench 包含 2,808 个真实世界场景案例,并设计了与任务对齐的评测指标,以量化物理合理性及领域特定推理能力。基于两大基本范式:文本到视频(T2V)和图像到视频(I2V),涵盖 6 类规则的 40 个代表性任务,共 622 个高质量标注实例。一个以事件为中心的危机舆情数据集,涵盖 463 个危机事件及其








