
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
该榜单评测大模型复杂指令遵循能力,包含202道多约束指令题,覆盖文本处理、文本生成、角色扮演、语言理解、逻辑推理和问答六大任务类型。采用约束通过率和严格通过率ILA两种评测指标,并通过人机一致性验证确保评测可靠性。【查看完整榜单】👉🏻。

该榜单PLawBench为评测基准,对大模型在实际法律业务场景中的表现作出评测,主要覆盖用户理解、案例分析和文书生成三大方面。PLawBench旨在评估大型语言模型(LLM)在法律实践中的表现,包含三项法律任务:用户理解、案例分析和法律文书起草,涵盖了个人事务、婚姻与家庭法、知识产权以及刑事诉讼等广泛的现实法律领域。该基准旨在评估大语言模型处理实际法律任务的实践能力。【查看完整榜单】👉🏻。

本榜单以Geolocation-Bench为核心评测基准,系统性地对12个主流多模态大模型在定位精度、自校准与综合能力上开展对比评测。Geolocation-Bench是一个评估大型视觉语言模型(VLMs)在复杂地理环境下进行街景图像理解、推理与坐标预测能力的基准测试。与传统基于地标匹配的任务不同,Geolocation-Bench通过高分辨率全景街景图像要求模型直接输出经纬度坐标——这一任务需要

本榜单以FeynmanBench为核心评测基准,基于 2000+ 条标准模型相互作用样本,评估10款顶尖大模型对粒子物理图表的拓扑识别与振幅推导能力。FeynmanBench是一个革新性的基准测试,用于评估大型多模态模型(MLLMs)在图表物理推理和形式化符号理解方面的能力。与传统的视觉问答(VQA)任务主要测试局部信息提取不同,FeynmanBench 通过在费曼图场景中进行多步 diagram

本榜单以 QwenClawBench 为核心评测基准,对12个主流大语言模型在真实世界智能体场景下的综合能力开展系统性评测。QwenClawBench 是一个面向 OpenClaw 智能体的真实用户场景评测基准,最初在 Qwen3.6-Plus 的研发过程中作为内部基准构建,现已优化并开源。该基准聚焦实际生产力需求,核心特性如下:1、|覆盖 OpenClaw 高频使用场景2、| 精心选取自真实用户

本榜单以 QwenClawBench 为核心评测基准,对12个主流大语言模型在真实世界智能体场景下的综合能力开展系统性评测。QwenClawBench 是一个面向 OpenClaw 智能体的真实用户场景评测基准,最初在 Qwen3.6-Plus 的研发过程中作为内部基准构建,现已优化并开源。该基准聚焦实际生产力需求,核心特性如下:1、|覆盖 OpenClaw 高频使用场景2、| 精心选取自真实用户

本榜单以BilliardPhys Bench为核心评测基准,系统性地对12个主流大语言模型在前沿物理相关能力上开展对比评测。BilliardPhys Bench用于评估多模态大型语言模型(LMMs)物理推理和视觉动力学能力,通过合成台球场景的前向物理模拟预测来评估模型的物理直觉理解能力。【查看完整榜单】👉🏻。

本榜单以SPM-Bench 为核心评测基准,该评测集是面向扫描探针显微学的博士级多模态评测基准,对12款全球顶尖大模型在原子尺度表面物理场景中的深度感知、物理推理与科学判断能力进行评测。【查看完整榜单】👉🏻。

该评测榜单基于统一Schema的视觉文档关键信息抽取榜单,评测29款大模型在多领域、多类型真实文档上的端到端抽取能力。【查看完整榜单】👉🏻。

随着大模型在复杂推理任务上的竞争日益激烈,HLE作为衡量深层推理能力的高难度基准,其数据质量成为影响测量有效性的关键。但当前部分题目存在质量与准确性的问题,是否正在系统性扭曲模型排名并降低评测的可信度?本榜单以HLE-Verified 为核心评测基准,探索8个主流大语言模型在复杂推理任务上的真实能力边界。HLE-Verified 是基于 Humanity’s Last Exam(HLE)构建的系统








