主流企业智能体对比：ScreenSpot-Pro 垂直领域 SOTA 实力评测实力评测

yuenineon

255人浏览 · 2026-04-29 11:14:39

yuenineon · 2026-04-29 11:14:39 发布

ScreenSpot-Pro是一个专为高分辨率专业电脑环境设计的GUI 定位基准测试集，核心用于评估 AI 模型（尤其是多模态大语言模型）能否在复杂软件界面中精准定位并交互 UI 元素（如按钮、菜单、输入框），是衡量 AI “智能体” 能否真实落地办公、设计、开发等专业场景的关键指标。你可以理解为——考AI“会不会用电脑”的终极考试。

给AI一张完整的软件界面截图（高分辨率那种），再给它一句人话指令，比如“导出当前报表”或“打开高级筛选”，看它能不能精准定位到该点的按钮、菜单或输入框。

它被业内广泛视为判断智能体能否真正落地的关键标杆。像OmniParser v2、阿里的Qwen2.5-VL、字节的UI-TARS这些主流GUI智能体项目，都在用它做参考。

为什么AI行业如此重视这个榜单？

简单说就是——早期基准考的是“看图标识功能”，ScreenSpot-Pro考的是“在密密麻麻的专业软件里精准找按钮”。能过这一关的AI，才算真正有了“干活”的基础能力。

都有哪些公司登顶过呢？

关注AI圈的朋友应该也发现了，这几年在各类国际视觉榜单上，中国公司的名字越来越常见。从早期的计算机视觉，到现在的智能体操作能力，中国团队的身影正在成为榜单前列的常客。

第一梯队（榜单前列的核心主力）：

金智维：目前成绩最亮眼的中国公司，KV-Ground-8B以80.5分拿下全榜第一，KV-Ground-4B拿下小模型组第一

阿里云：通义千问团队，Qwen2.5-VL系列在榜单上表现不错，被官方列为代表性GUI智能体项目

字节跳动：UI-TARS系列同样在榜，也是ScreenSpot-Pro官方引用的主流项目之一

第二梯队（细分领域/特定尺寸有亮点）：

智谱AI：CogVLM系列，在多模态界面理解上有布局

面壁智能：MiniCPM-V系列，主打高效小模型路线

上海AI实验室：书生·浦语系列，在开源社区有影响力

特别说明一下：ScreenSpot-Pro官方文档里明确列出的代表性GUI智能体项目——OmniParser v2、Qwen2.5-VL、UI-TARS——其中后两个都来自中国企业（阿里和字节），这说明在GUI Grounding这个赛道，中国团队已经不只是“参与者”，而是被国际学术界认可的“定义者”之一。

而金智维这次最特别的地方在于，它不是通用大模型厂商，而是一家专注企业级智能体的公司，能在8B和4B两个尺寸上都拿下第一，说明他们在“AI操作电脑”这个垂直赛道上确实有独特的技术积累。

ScreenSpot-Pro榜单上的格局

通用大模型厂商（阿里、字节等）是常驻主力

垂直赛道选手（金智维）在特定任务上实现了反超

中国企业在GUI Grounding这个关键能力上，已经形成了集团优势

这也是为什么这个榜单值得关注——它正在从学术测试变成行业落地的风向标，而中国企业在这个风向标上，已经不只是“上榜”，而是开始领跑了

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

纯可视化操作，Windows 快速安装 OpenClaw 无需专业基础

龙虾开发者社区

Claude Code Skills 推荐：2026年最值得安装的10个AI技能

文章摘要 2026年，AI编程助手Claude Code通过Skills（技能）实现复杂任务的自动化执行。本文精选了10个最值得安装的Claude Code Skills，包括：全能代码审查官 - 深度分析代码质量与安全自动化测试工程师 - 自动生成各类测试用例数据库架构师 - 智能设计数据库结构系统调试侦探 - 高效定位系统问题性能优化师 - 自动分析性能瓶颈安全审计专家 - 识别安