微软 Copilot用户可以轻松使用 OmniParser,二者深度协同,让 AI 具备 “看懂并操作屏幕” 的能力。CoPilot 能轻松用 OmniParser,是因为微软做了深度集成;但官方没提供通用的 MCP 服务器等,普通人没法把 OmniParser 迁移到其他 AI 客户端(如 Claude、Cursor、VS Code 通用 MCP)。

关于OmniParser :使用说明

本质是个模型 + 推理脚本,不是开发框架:

OmniParser 天生就没有:

  • 没有官方 Python SDK
  • 没有官方 Java/JS/Go 支持
  • 没有官方 API 规范
  • 没有官方 MCP / Tool 封装
  • 没有官方 控制鼠标、点击、输入 的能力
  • 没有官方 持续运行、任务编排、多会话

它只做一件事:输入图片 → 输出 UI 元素结构(JSON)剩下的全要自己拼


一、微软系 OmniTool(GUI 自动化 / 视觉代理,最可能你要的)

定位:让大模型像人一样看屏幕、点鼠标、敲键盘,实现电脑 / 安卓界面全自动操作。

核心组件

  • OmniParser V2:屏幕视觉解析(你之前问的那个),把截图转成带坐标 + 语义的结构化数据。
  • OmniBox:Docker 轻量 Windows 11 虚拟机,安全沙盒,不污染真机。
  • Gradio UI:可视化界面,方便调试与交互。
  • 工作流程
  1. 截图 → OmniParser 识别按钮 / 输入框 / 文本
  2. 传给 LLM(GPT-4、DeepSeek、Qwen 等)做决策
  3. 自动执行:鼠标点击、键盘输入、拖拽、快捷键
  4. 用途
  • 电脑 / 安卓(WSA)APP 自动化测试
  • 无人值守办公、批量操作
  • AI 代理操控软件 / 游戏适合:搞自动化、AI Agent、WSA 安卓操作的人。

二、Omnitool.ai(开源 AI 桌面整合工具,非微软)

定位:本地运行的 AI 工具箱,统一界面接入各种模型。

核心特点

  • 本地自托管,数据存本机,隐私优先。
  • 一键接入:OpenAI、Stable Diffusion、Hugging Face、Google 等。
  • 多模态:文本生成、图像、音频、翻译、代码。
  • 无需配环境、不用写 API 代码,开箱即用。
  • 用途
  • 快速测试各种 AI 模型
  • 本地 AI 创作、办公、开发
  • 适合:不想折腾环境、想一站式用 AI 的普通用户 / 开发者。

三、快速区分(一眼看懂)

项目 类型 核心能力 运行环境 与你相关
微软 OmniTool GUI 自动化 / 视觉代理 看屏幕 + 自动操作电脑 / 安卓 Docker+Windows 虚拟机 ✅ WSA / 安卓自动化
Omnitool.ai AI 模型整合桌面 统一界面用各种 AI Mac/Windows/Linux 本地 ✅ AI 创作 / 开发

微软官方 OmniParser 没有原生 Python 包、也没有官方 MCP,但社区已经把这两个缺口补上了,直接可用👇

一、Python 调用 OmniParser(3 种方案)

1️⃣ 官方 Gradio API(最稳)

官方没 pip 包,但自带 Gradio 服务,可直接 Python 调用

from gradio_client import Client
client = Client("https://microsoft-omniparser.hf.space/")
result = client.predict(
    image="screenshot.png",
    api_name="/predict"
)
# result 是结构化 UI 元素(坐标+文本+类型)
  • 优点:官方维护、无需本地部署
  • 缺点:依赖网络、有速率限制
2️⃣ 本地部署 + Python 调用(推荐)

本地跑 OmniParser 服务,Python 发 HTTP 请求

# 本地启动 OmniParser API(Docker/源码)
docker run -p 7860:7860 microsoft/omniparser
import requests, base64
with open("screenshot.png", "rb") as f:
    b64 = base64.b64encode(f.read()).decode()
res = requests.post("http://localhost:7860/parse", json={"image": b64})
elements = res.json()
  • 优点:本地推理、无网络、速度快
  • 适合:WSA / 本地自动化
3️⃣ 第三方 Python 封装(直接 pip)
pip install omniparser-api  # 社区封装
from omniparser_api import OmniParser
parser = OmniParser()
elements = parser.parse_image("screenshot.png")
  • 优点:一行调用、适合快速集成
  • 缺点:非官方,更新略慢

二、MCP 集成(3 个现成方案)

1️⃣ mcp-server-omniparser(PyPI 可装)
pip install mcp-server-omniparser  # 直接装{insert\_element\_2\_}
  • 开箱即用 MCP Server,提供 parse_screen 工具
  • 支持 Claude Desktop、Cursor、OpenClaw 等 MCP Host
  • 配置:claude_desktop_config.json 加一行即可
2️⃣ omniparser-autogui-mcp(GitHub 完整项目)
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp
cd omniparser-autogui-mcp && uv sync
uv run download_models.py  # 下模型
uv run mcp_server.py       # 启动 MCP
  • 功能:解析 + 鼠标 / 键盘自动操作(pynput)
  • 适合:直接给 LLM 做 GUI 自动化
3️⃣ OmniMCP(OpenAdaptAI,完整 Agent)
git clone https://github.com/OpenAdaptAI/OmniMCP
cd OmniMCP && pip install -r requirements.txt
python cli.py  # 启动 Agent(感知-规划-执行)
  • 自带 LLM 规划、鼠标 / 键盘控制、日志
  • 适合:复杂流程自动化(如打开计算器、计算)

三、和 OpenClaw 怎么联动(你最关心)

OpenClaw 支持 MCP,直接接入即可:

  1. 启动 omniparser-autogui-mcpmcp-server-omniparser
  2. 在 OpenClaw 配置文件添加 MCP Server
  3. 让 OpenClaw 调用 parse_screen + click/type
  • 效果:OpenClaw 用 OmniParser 看屏幕 → 决策 → 自动操作 WSA / 电脑

四、一句话方案

  • Python 调用:本地部署 + HTTP 请求(最稳)
  • MCP 集成omniparser-autogui-mcp(解析 + 操作一体)
  • OpenClaw 联动:MCP 接入,让 OpenClaw 当大脑、OmniParser 当眼睛
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐