ScreenSpot-Pro是一个专为高分辨率专业电脑环境设计的GUI 定位基准测试集,核心用于评估 AI 模型(尤其是多模态大语言模型)能否在复杂软件界面中精准定位并交互 UI 元素(如按钮、菜单、输入框),是衡量 AI “智能体” 能否真实落地办公、设计、开发等专业场景的关键指标。你可以理解为——考AI“会不会用电脑”的终极考试。

截屏2026-03-26 11.01.58

给AI一张完整的软件界面截图(高分辨率那种),再给它一句人话指令,比如“导出当前报表”或“打开高级筛选”,看它能不能精准定位到该点的按钮、菜单或输入框。

它被业内广泛视为判断智能体能否真正落地的关键标杆。像OmniParser v2、阿里的Qwen2.5-VL、字节的UI-TARS这些主流GUI智能体项目,都在用它做参考。

为什么AI行业如此重视这个榜单?

简单说就是——早期基准考的是“看图标识功能”,ScreenSpot-Pro考的是“在密密麻麻的专业软件里精准找按钮”。能过这一关的AI,才算真正有了“干活”的基础能力。

都有哪些公司登顶过呢?

关注AI圈的朋友应该也发现了,这几年在各类国际视觉榜单上,中国公司的名字越来越常见。从早期的计算机视觉,到现在的智能体操作能力,中国团队的身影正在成为榜单前列的常客。

第一梯队(榜单前列的核心主力):

金智维:目前成绩最亮眼的中国公司,KV-Ground-8B以80.5分拿下全榜第一,KV-Ground-4B拿下小模型组第一

阿里云:通义千问团队,Qwen2.5-VL系列在榜单上表现不错,被官方列为代表性GUI智能体项目

字节跳动:UI-TARS系列同样在榜,也是ScreenSpot-Pro官方引用的主流项目之一

第二梯队(细分领域/特定尺寸有亮点):

智谱AI:CogVLM系列,在多模态界面理解上有布局

面壁智能:MiniCPM-V系列,主打高效小模型路线

上海AI实验室:书生·浦语系列,在开源社区有影响力

特别说明一下:ScreenSpot-Pro官方文档里明确列出的代表性GUI智能体项目——OmniParser v2、Qwen2.5-VL、UI-TARS——其中后两个都来自中国企业(阿里和字节),这说明在GUI Grounding这个赛道,中国团队已经不只是“参与者”,而是被国际学术界认可的“定义者”之一。

而金智维这次最特别的地方在于,它不是通用大模型厂商,而是一家专注企业级智能体的公司,能在8B和4B两个尺寸上都拿下第一,说明他们在“AI操作电脑”这个垂直赛道上确实有独特的技术积累。

b73601c8db7b3c8e882481e2ff934faa

ScreenSpot-Pro榜单上的格局

通用大模型厂商(阿里、字节等)是常驻主力

垂直赛道选手(金智维)在特定任务上实现了反超

中国企业在GUI Grounding这个关键能力上,已经形成了集团优势

这也是为什么这个榜单值得关注——它正在从学术测试变成行业落地的风向标,而中国企业在这个风向标上,已经不只是“上榜”,而是开始领跑了

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐