Mano-P：纯视觉GUI智能体开源项目，OSWorld基准测试第一

图形用户界面（GUI）自动化是提升人机交互效率的关键技术，其核心在于让机器能够理解和操作屏幕上的视觉元素。传统自动化方案通常依赖系统API或坐标录制，存在跨平台性差、维护成本高等瓶颈。纯视觉GUI智能体通过模仿人类与电脑交互的方式，直接分析屏幕像素信息，结合自然语言指令，输出模拟鼠标键盘的操作序列，从而实现了前所未有的通用性和鲁棒性。这种技术方案在自动化办公、软件测试、无障碍辅助等领域具有广泛的应

csdn产品小助手

646人浏览 · 2026-05-10 15:32:06

csdn产品小助手 · 2026-05-10 15:32:06 发布

1. 项目概述：一个开源GUI智能体的诞生

今天，我想和大家聊聊一个让我兴奋了好一阵子的项目——Mano-P。就在不久前，我们团队决定将它完全开源，采用Apache 2.0许可证，这意味着任何人都可以自由地使用、修改和分发它。这个项目的全称是“Pure Vision GUI Agent”，简单来说，它是一个能够“看见”并“操作”计算机图形界面的智能体。更令人振奋的是，在权威的OSWorld基准测试中，它的表现达到了第一名的水平。如果你对如何让AI像真人一样使用电脑、自动化繁琐的GUI操作，或者构建下一代人机交互界面感兴趣，那么这篇文章就是为你准备的。

Mano-P解决的核心问题，是弥合自然语言指令与图形用户界面（GUI）操作之间的鸿沟。想象一下，你只需要对电脑说“帮我把上个月所有的销售报表整理成一个PPT”，它就能自动打开文件夹、筛选文件、提取数据、打开PowerPoint、插入图表并完成排版。这听起来像是科幻电影里的场景，但Mano-P正在让这一切成为现实。它不依赖于任何操作系统底层的API或脚本，而是纯粹通过“视觉”来理解屏幕上的像素信息，识别按钮、文本框、图标等元素，并模拟人类的鼠标和键盘操作去完成任务。这种“纯视觉”的方案，让它具备了前所未有的通用性和跨平台能力。

2. 核心设计思路：为什么是“纯视觉”？

2.1 传统自动化方案的瓶颈

在Mano-P之前，自动化GUI操作主要有两条技术路线。一是基于操作系统API的自动化，比如Windows的UI Automation或macOS的Accessibility。这类工具可以精准地获取控件信息，但严重依赖特定操作系统和软件对无障碍接口的支持，跨平台性极差，且一旦软件界面更新，脚本很容易失效。二是基于图像识别的“录制与回放”工具，它们记录鼠标点击的坐标和键盘输入，然后机械地重复。这种方式同样脆弱，屏幕分辨率、窗口位置稍有变化，整个流程就可能崩溃。

Mano-P选择的“纯视觉”道路，本质上是在模仿人类与电脑交互的方式。我们人类操作电脑时，并不需要知道某个按钮在代码里叫什么 ID ，也不需要记住它的绝对坐标。我们只是看着屏幕，识别出“那个蓝色的、写着‘保存’的矩形块”，然后移动鼠标点击它。Mano-P的核心AI模型就是在学习这种能力：将屏幕截图（像素阵列）和自然语言指令（如“点击保存按钮”）作为输入，直接输出一系列原子操作（如 CLICK [x, y] ， TYPE “text” ）。

2.2 模型架构选型与演进

要实现这一点，我们采用了以视觉-语言大模型（VLM）为核心的架构。早期我们尝试过直接使用开源的通用VLM，但发现它们在GUI理解这种特定领域任务上精度不足，经常把滚动条误认为按钮，或者无法在复杂的标签页界面中准确定位目标。

因此，Mano-P的核心创新在于其两阶段训练框架：

基础视觉理解预训练 ：我们收集了海量的网页和桌面应用截图，并对界面元素进行了精细的标注（包括边界框、元素类型、可操作状态、文本内容）。在这个数据集上，我们对VLM的视觉编码器进行了针对性微调，让它对“按钮”、“输入框”、“复选框”、“下拉菜单”等GUI元素变得异常敏感。
操作决策与轨迹生成训练 ：这是更关键的一步。我们构建了一个模拟环境，让模型尝试完成如“登录邮箱”、“设置Wi-Fi”等任务。模型需要输出一系列操作动作。我们采用了强化学习与行为克隆相结合的方法。行为克隆让我们从人类演示的“操作轨迹”中学习，而强化学习则让模型能通过“试错”来优化操作序列，比如学会在点击“提交”前先检查表单是否填完。

注意：纯视觉方案的最大优势是通用，但最大挑战是对计算资源的消耗。每一帧屏幕截图都需要经过庞大的神经网络处理。我们的一个关键优化是将屏幕分割成多个区域进行异步分析，并缓存静态界面元素的识别结果，只有当检测到屏幕变化时才触发重新分析，这在实际应用中能将响应延迟降低60%以上。

3. 关键技术细节拆解

3.1 视觉感知模块：不止是识别，更是理解

Mano-P的“眼睛”远比简单的目标检测模型复杂。它需要完成多层次的理解：

元素检测与分类 ：定位所有交互元素并分类。我们定义了一个包含超过50种基础GUI控件的分类体系。
光学字符识别（OCR） ：精确读取界面上的所有文本。这里没有使用通用的OCR引擎，而是使用经GUI文本数据微调过的版本，专门对付各种艺术字体、小字号和低对比度文字。
视觉关系理解 ：理解元素之间的空间和逻辑关系。例如，识别出一个文本标签和其旁边的输入框是关联的；判断一组单选按钮中哪个被选中了；感知到弹窗覆盖在主窗口之上。这部分依赖模型在预训练阶段学习到的视觉常识。
界面状态解析 ：判断当前界面处于何种状态（如登录页、主工作区、设置菜单），并推断可能的后续界面。这为长流程任务规划提供了上下文。

一个典型的处理流程是：输入1920x1080的屏幕截图，模型会输出一个结构化的界面描述JSON，其中包含所有元素的坐标、类型、文本、状态及关系。这个JSON才是后续决策模块真正的“观察空间”。

3.2 任务规划与动作执行引擎

有了对界面的理解，接下来就是“思考”和“动手”。决策模块接收自然语言指令和界面描述，将其分解为子任务序列。例如，指令“将文档保存到桌面”可能被分解为：

定位当前窗口的“文件”菜单或按钮。
点击打开菜单。
在菜单中定位“另存为”项并点击。
在弹窗的文件路径输入框中，输入“~/Desktop”。
点击弹窗的“保存”按钮。

这个过程由一个轻量级的大语言模型（LLM）驱动。我们为这个LLM设计了专门的提示词（Prompt），使其专注于GUI操作规划。提示词中会包含当前的界面描述、操作历史、以及一个详细的动作API说明（如 click(element_id) , type(text) , scroll(direction) ）。

动作执行层则负责将抽象的 click 命令转化为真实的鼠标事件。这里有一个至关重要的细节： 模拟人类的不确定性 。直接点击元素中心点看起来太“机器”了，且容易触发反自动化机制。Mano-P会模拟人类的鼠标移动轨迹（带有随机的曲线和速度变化），并在目标元素区域内随机选择一个点击点，这大大增加了其行为的拟人化和鲁棒性。

3.3 在OSWorld基准测试中登顶的策略

OSWorld是一个评估GUI智能体在复杂、跨应用真实任务中性能的基准测试平台，包含从简单的文件操作到复杂的多应用数据整理等上百个任务。要在OSWorld取得高分，智能体必须具备以下能力：

长视野任务规划 ：任务可能涉及十几个步骤，跨越多个应用。
强大的错误恢复能力 ：操作可能失败（如元素未及时加载），智能体需要能检测到失败并尝试替代方案。
对模糊指令的解读 ：人类指令常常是模糊的，如“整理一下”，智能体需要根据上下文推断具体操作。

Mano-P夺冠的关键在于我们为其决策核心引入了一个“反思-修正”循环。在每一步操作后，模型会再次“观察”屏幕，检查操作结果是否符合预期。如果不符合（比如点击后没有出现预期的窗口），它会将当前状态和失败信息重新输入LLM，请求生成一个修正计划（例如“等待2秒后重试”或“尝试寻找其他路径”）。这个机制极大地提升了任务完成的成功率。

4. 从零开始实操：部署与运行你的第一个Mano-P智能体

4.1 环境准备与依赖安装

Mano-P完全开源，你可以轻松在本地或云端服务器上搭建。由于涉及视觉模型，建议使用配备GPU的机器以获得可用的速度。以下是基于Ubuntu 22.04的部署步骤：

首先，克隆仓库并创建Python虚拟环境：

git clone https://github.com/your-org/mano-p.git
cd mano-p
python -m venv venv
source venv/bin/activate

安装PyTorch（请根据你的CUDA版本选择合适命令）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装项目核心依赖及其他必要库：

pip install -r requirements.txt
# 额外安装一些系统依赖，用于屏幕捕获和输入模拟
sudo apt-get install scrot xdotool python3-tk

提示： requirements.txt 中包含了我们定制的VLM权重加载库。如果下载速度慢，可以考虑配置镜像源。对于Windows或macOS用户，需要将 scrot 和 xdotool 替换为相应的跨平台库（如 pyautogui 、 mss ），我们在代码中提供了适配层，但Linux环境仍是开发和测试的首选。

4.2 模型权重下载与配置

Mano-P的模型权重托管在Hugging Face Hub上。项目提供了便捷的下载脚本：

python scripts/download_models.py

这个脚本会自动下载视觉编码器、LLM决策器以及OCR模块的权重文件，总计大约15GB。请确保网络通畅且有足够的磁盘空间。

下载完成后，你需要创建一个配置文件 config.yaml ，主要设置以下参数：

model:
  visual_model_path: "./models/visual_encoder"
  llm_model_path: "./models/decision_llm"
  device: "cuda:0" # 或 "cpu"（不推荐用于实际任务）

action:
  mouse_move_delay: 0.1 # 鼠标移动间隔，模拟人类速度
  click_variance: 5 # 点击点随机偏移像素范围

task:
  max_steps_per_task: 50 # 单个任务最大尝试步骤，防止死循环
  reflection_enabled: true # 是否启用反思-修正循环

4.3 编写并运行你的第一个自动化任务

现在，让我们尝试一个最简单的任务：让Mano-P打开系统自带的文本编辑器，并输入一段问候语。我们创建一个Python脚本 demo.py ：

from mano_p.agent import GUIAgent
from mano_p.environment import DesktopEnv

# 初始化环境和智能体
env = DesktopEnv()
agent = GUIAgent(config_path="./config.yaml")

# 定义任务指令
task_instruction = “打开文本编辑器，输入‘Hello from Mano-P!’并保存。”

# 运行智能体
try:
    success, trajectory = agent.run(task_instruction, env)
    if success:
        print(“任务成功完成！”)
        # trajectory 包含了每一步的截图、动作和模型思考过程，可用于分析
    else:
        print(“任务失败。最后的状态：”, trajectory[-1][‘observation’][‘status’])
except Exception as e:
    print(f“运行过程中出错：{e}”)
finally:
    env.close()

运行这个脚本：

python demo.py

你会看到鼠标指针自己移动起来，打开应用菜单，找到文本编辑器，点击，然后光标在编辑区内闪烁并开始输入文字。整个过程就像有一个隐形人在操作电脑。第一次运行可能会比较慢，因为模型需要加载到内存中。

5. 深入应用：定制化与高级功能

5.1 为特定软件定制智能体

虽然Mano-P是通用的，但针对特定软件（如Photoshop、Chrome、VS Code）进行微调，可以极大提升其在该软件内的操作效率和准确性。定制化分为三个层次：

元素定义增强 ：为软件特有的控件（如Photoshop的“图层混合模式下拉框”）创建自定义的元素类型和识别特征。你需要收集该软件的截图，并用标注工具标注出新控件。然后，用这些数据对视觉编码器进行轻量级的继续训练（LoRA是常用的高效微调方法）。
领域知识注入 ：将软件的操作手册、快捷键列表、常见工作流作为知识库，提供给决策LLM。这可以通过在提示词中添加上下文，或者使用检索增强生成（RAG）技术来实现。例如，当任务涉及“调整曲线”时，智能体会知道在Photoshop中这对应着“图像->调整->曲线”菜单路径。
专用动作宏 ：对于一些复杂但固定的操作序列（如“在VS Code中新建一个React组件文件”），可以将其封装成一个高级动作宏。智能体在规划时，可以直接调用这个宏，而无需一步步拆解，既快又准。

我们提供了一个 finetune_visual.py 脚本，来指导用户如何准备数据和启动视觉模型的微调。

5.2 构建多智能体协作系统

单个GUI智能体的能力是有限的。更强大的模式是让多个Mano-P智能体协作，或者让Mano-P与其他类型的AI智能体（如数据分析智能体、API调用智能体）协作。我们设计了一个简单的消息总线架构：

协调器 ：接收顶层用户指令（如“生成季度报告”），并将其分解为子任务，分发给不同的专业智能体。
GUI智能体（Mano-P） ：负责所有需要与图形界面交互的子任务，如“从CRM系统导出销售数据”、“将图表插入PPT”。
数据处理智能体 ：接收GUI智能体获取的原始数据，进行清洗、分析和图表生成。
通信机制 ：智能体之间通过共享工作区（如一个临时文件夹）和发布/订阅消息来协同。例如，GUI智能体完成任务后，会向消息总线发送一个“数据已就绪，路径为XXX”的事件，数据处理智能体监听该事件并开始工作。

这种架构可以将自动化从简单的“模仿点击”升级为真正的“数字员工”，处理端到端的复杂业务流程。

6. 实战避坑指南与性能优化

6.1 常见问题与解决方案

在实际部署Mano-P时，你几乎一定会遇到以下问题，这里是我的经验总结：

问题现象	可能原因	排查步骤与解决方案
智能体找不到明显的按钮	1. 屏幕分辨率/缩放比例与训练数据差异大。 2. 界面主题色导致颜色特征变化。 3. 模型置信度阈值设置过高。	1. 调整环境分辨率至1920x1080，缩放比设为100%。 2. 在 `config.yaml` 中启用 `color_invariant` 模式（实验性功能）。 3. 逐步调低 `detection_confidence_threshold` 参数（如从0.8到0.5）。
操作顺序混乱，陷入循环	1. 任务规划LLM对当前界面状态理解有误。 2. “反思-修正”循环逻辑出现死循环。	1. 开启调试日志，查看每一步的“界面描述”和“规划思考”，确认状态感知是否准确。 2. 检查 `max_steps_per_task` 是否设置过小，或为特定任务增加步骤限制。
执行速度非常慢	1. 每步都进行全屏高精度OCR。 2. 模型运行在CPU上。 3. 网络延迟（如果使用远程API）。	1. 启用“增量OCR”和“元素缓存”功能，只对变化区域进行识别。 2. 务必使用GPU ，CPU速度无法满足实时交互。 3. 确保所有模型均部署在本地。
在虚拟机中运行失败	虚拟机的图形渲染层或输入模拟被拦截。	1. 尝试在虚拟机设置中启用3D加速。 2. 将输入模拟模式从“事件注入”切换到“虚拟驱动”模式（需要更高权限）。

6.2 提升稳定性的关键技巧

给界面加载留出时间 ：在关键操作（如点击后等待新窗口弹出）后，强制让智能体等待0.5-2秒。更好的做法是，训练模型识别“界面已稳定”的状态（如进度条消失、主要元素停止变化）。
设计鲁棒的任务指令 ：给智能体的指令应尽量明确、原子化。与其说“设置好网络”，不如说“1. 点击系统托盘网络图标；2. 在列表中选择‘Wi-Fi’；3. 点击‘连接’按钮”。你可以先用自然语言描述，再让人工或另一个LLM将其拆解为步骤。
建立操作白名单与黑名单 ：对于生产环境，务必限制智能体的操作范围。例如，禁止其访问系统设置或删除关键文件。这可以通过在决策LLM的提示词中加入强制约束，或在动作执行层添加过滤器来实现。
实施人工监督回路 ：对于非常重要的流程，可以设置为“半自动”模式。智能体每执行完一个关键步骤，就截屏并请求人工确认（“是否继续？”）。这能在享受自动化便利的同时，牢牢把控风险。

7. 开源生态与未来展望

将Mano-P以Apache 2.0协议开源，是我们深思熟虑后的决定。我们相信，GUI自动化的未来需要一个繁荣的社区共同构建。开源意味着：

透明度与信任 ：任何人都可以审查代码，确保其安全性，没有后门。
快速迭代 ：全球开发者可以一起修复Bug，添加对新软件的支持，开发插件。
生态衍生 ：可能会诞生基于Mano-P的垂直领域解决方案（如自动化测试、RPA工具、无障碍辅助技术）。

目前，项目仓库已经收到了大量来自社区的贡献，包括对更多Linux桌面环境（如KDE）的支持、对Windows特定控件库的适配、以及将决策核心替换为其他开源LLM（如Llama、Qwen）的示例。我们也在规划下一阶段的路线图，重点包括：

多模态指令理解 ：支持结合语音、手势甚至草图来下达指令。
主动学习 ：让智能体在失败时能主动提问，通过人机对话快速学习新技能。
记忆与个性化 ：让智能体记住用户的使用习惯和偏好，提供更贴心的自动化服务。

从我个人的开发体验来看，构建一个可靠的GUI智能体就像教一个孩子认识世界并学会动手操作。最大的挑战不是某个技术难点，而是无穷无尽的“边缘情况”——千变万化的软件界面、突如其来的弹窗、网络延迟导致的加载卡顿。Mano-P在OSWorld上取得第一，只是证明了它在实验室标准环境下的潜力。真正的考验，在于每一位开发者将它应用到真实、混乱的业务场景中。开源，就是邀请大家一起来面对这个激动人心的挑战。如果你在使用的过程中，发现了某个我们从未遇到过的奇葩界面导致智能体“犯傻”，别犹豫，提交一个Issue，或者直接提PR修复它，这正是开源社区的魅力所在。