AdaWorld：基于LLM的桌面智能体框架，实现AI自动化操作电脑

智能体（Agent）是人工智能领域的重要概念，它指能够感知环境、自主决策并执行动作以实现目标的实体。其核心原理在于构建“感知-思考-行动”的闭环，通过大语言模型（LLM）等模型进行推理和规划。这一技术将AI从纯文本对话延伸至对真实物理或数字环境的交互，具有极高的技术价值，能显著提升自动化水平和工作效率。在应用场景上，智能体技术正从虚拟环境走向实际的生产力工具，例如自动化办公、软件测试和无障碍辅助等

weixin_30500473

405人浏览 · 2026-04-24 09:44:50

weixin_30500473 · 2026-04-24 09:44:50 发布

1. 项目概述：当AI助手遇见桌面世界

最近在折腾一个挺有意思的开源项目，叫AdaWorld。这名字听起来有点科幻，但它的内核其实很务实：一个能让大型语言模型（LLM）像人一样操作电脑桌面的智能体框架。简单来说，就是你给AI一个目标，比如“帮我查一下明天的天气，然后截图保存”，它就能自己打开浏览器、搜索、访问网站、找到信息，最后完成截图。整个过程，你只需要在开始时下达指令，然后泡杯咖啡看着就行。

这背后的核心，是“具身智能”或者说“智能体”这个领域的一个具体落地尝试。我们平时用ChatGPT这类模型，交互方式是纯文本的，你问它答。但真实世界的工作，大量发生在图形用户界面里——点击按钮、填写表单、拖拽文件。AdaWorld要解决的，就是弥合纯文本AI与图形化操作系统之间的鸿沟，让AI获得“手”和“眼睛”，去直接操控我们每天面对的Windows或macOS桌面环境。

这个项目特别适合两类朋友：一是对AI应用开发、自动化流程感兴趣的开发者，你可以基于它快速构建一个能处理复杂、多步骤桌面任务的智能助手；二是那些每天被重复性电脑操作困扰的办公族或创作者，想象一下，让AI帮你整理文件夹、批量处理图片、填写周报模板，能解放出多少时间。我花了一段时间深入研究它的代码和设计思路，发现它不仅在理念上很前沿，在工程实现上也做了不少巧妙的权衡，有很多值得分享的细节和踩坑经验。

2. 核心架构与设计哲学拆解

2.1 从“指令”到“动作”的翻译官

AdaWorld的核心任务，是充当LLM与操作系统之间的“翻译官”和“执行者”。这个过程可以分解为一个清晰的循环：观察（Observation）→ 思考（Reasoning）→ 行动（Action）。

首先，观察。AI如何“看”桌面？AdaWorld主要依靠屏幕截图和可访问性API（如Windows上的UI Automation， macOS上的Apple Accessibility API）。截图提供了最直观的像素级信息，但计算机“看懂”图片很难。因此，项目通常会结合OCR（光学字符识别）技术，从截图中提取文字信息，同时利用可访问性API获取窗口、控件的层级结构、类型（按钮、文本框）、状态（是否启用、是否可见）等元数据。这相当于给了AI一份带注释的“地图”。

接着，思考。LLM（比如接入的GPT-4、Claude或者开源的Llama系列）拿到这份“地图”和你的任务指令后，需要规划下一步该做什么。这里的关键是 动作空间（Action Space）的定义 。AdaWorld不会让AI天马行空地想象，而是定义了一套有限的、计算机能精确执行的基础原子操作，例如：

mouse_move(x, y) : 移动鼠标到屏幕坐标(x, y)。
mouse_click(button=‘left’) : 左键点击。
keyboard_type(“hello”) : 键盘输入字符串。
keyboard_press(‘Enter’) : 按下回车键。
get_screenshot() : 获取当前屏幕截图。
get_ui_tree() : 获取当前UI控件树。

LLM的工作，就是根据当前观察到的状态（屏幕内容、UI结构）和最终目标，从这套动作库中选择一个最合适的动作，并生成具体的参数（比如点击哪里）。这个过程往往通过精心设计的提示词（Prompt）来引导，例如：“你是一个桌面助手。当前屏幕是[描述截图内容]。你的目标是[用户指令]。你可以执行的操作有[列出动作列表]。请只输出一个JSON格式的动作，如 {“action”: “mouse_click”, “params”: {“x”: 100, “y”: 200}} 。”

最后，行动。系统解析LLM输出的JSON，调用对应的底层系统API（如PyAutoGUI、pywin32、AppKit）来执行鼠标点击、键盘输入等操作。执行后，进入下一个“观察-思考-行动”循环，直到任务完成或达到步骤上限。

2.2 工程实现中的关键权衡

在设计这样一个系统时，面临着几个核心矛盾，AdaWorld的解决方案体现了实用的工程思维：

精度 vs. 泛化能力 ：让AI直接输出像素坐标(x, y)去点击，精度要求极高，屏幕分辨率变化、窗口位置移动都会导致失败。更好的方法是让AI输出语义化的目标，比如“点击‘登录’按钮”。这就需要UI控件树来提供“登录”按钮的句柄或位置信息。AdaWorld通常结合两者：先用UI树进行粗定位，再辅以截图和OCR进行二次确认，提高鲁棒性。
速度 vs. 可靠性 ：频繁截全屏并调用大模型，速度慢且成本高。一个优化策略是“局部观察”：只截取当前活动窗口或感兴趣区域的图，或者利用UI树的变化来触发新的观察，减少不必要的截图和模型调用。
动作的原子性与复合性 ：原子动作（如点击）简单可靠，但完成复杂任务需要大量步骤，容易出错。因此，框架往往需要支持“宏动作”或“技能”的封装。例如，“打开浏览器”可以被封装为一个技能，内部包含“按下Win键”、“输入‘chrome’”、“按回车”等一系列原子动作。AdaWorld的架构需要允许用户自定义和注册这样的高级技能，让LLM能直接调用“open_browser()”，而不是每次都从头规划。
模型的选择 ：虽然GPT-4等闭源模型在推理和遵循指令上能力强大，但成本高、有延迟。对于某些确定性高的操作，可以尝试使用更小、更快的开源模型，或者用规则引擎作为后备。项目结构上应该设计成可插拔的模型接口，方便切换。

3. 环境搭建与核心组件实操

3.1 基础环境与依赖部署

AdaWorld通常是一个Python项目。第一步是准备好Python环境（建议3.8以上版本），并使用虚拟环境隔离依赖。

# 克隆项目仓库
git clone https://github.com/Little-Podi/AdaWorld.git
cd AdaWorld

# 创建并激活虚拟环境（以venv为例）
python -m venv venv
# Windows:
venv\Scripts\activate
# Linux/macOS:
source venv/bin/activate

# 安装核心依赖
pip install -r requirements.txt

requirements.txt 里通常会包含几个关键库：

pyautogui : 跨平台的GUI自动化库，负责鼠标键盘控制。
pillow : 图像处理库，用于截图和处理。
openai 或 anthropic : 用于调用闭源大模型的API。
transformers / llama-cpp-python : 如果你打算使用本地开源模型。
easyocr 或 pytesseract : OCR识别库。
pygetwindow / pywinauto (Windows) 或 AppKit (macOS): 用于更精细的窗口管理和UI信息获取。

注意： pyautogui 在执行时会失控地移动你的鼠标，在调试时务必小心。一个安全做法是在脚本开头设置 pyautogui.FAILSAFE = True ，这样快速将鼠标移动到屏幕左上角（0,0）位置会触发 pyautogui.FailSafeException 异常，中断程序。

3.2 核心模块深度解析

一个典型的AdaWorld智能体，由以下几个核心模块组成，理解它们如何协同工作是二次开发的基础：

1. 环境封装器 (Environment Wrapper) 这是与操作系统交互的底层抽象层。它封装了所有原子操作和观察功能。一个好的封装器应该提供统一的接口，屏蔽Windows和macOS的差异。例如：

class DesktopEnv:
    def get_observation(self):
        # 返回一个字典，包含'screenshot'(PIL Image)和'ui_tree'(xml/json)
        screenshot = pyautogui.screenshot()
        ui_tree = self._get_accessible_tree() # 调用系统可访问性API
        return {'screenshot': screenshot, 'ui_tree': ui_tree}

    def execute_action(self, action_dict):
        action_type = action_dict['action']
        if action_type == 'mouse_click':
            x, y = action_dict['params']['x'], action_dict['params']['y']
            pyautogui.click(x, y)
        # ... 处理其他动作类型

2. 观察处理器 (Observation Processor) 原始截图和UI树数据很冗长，直接扔给LLM效率低且容易超出上下文长度。观察处理器的职责是“提炼信息”。它可能包括：

图像摘要 ：使用视觉描述模型（如BLIP）或用OCR提取关键文字，生成一段文本描述：“屏幕中央是一个浏览器窗口，地址栏显示‘www.weather.com’，页面中央有‘北京’和‘25°C’的文字。”
UI树简化 ：过滤掉不可见、不相关的控件，只保留可能交互的元素（按钮、输入框、链接），并将其属性（名称、类型、位置）整理成清晰的列表。
多模态融合 ：将图像描述和简化的UI列表合并成一份给LLM的“观察报告”。

3. 智能体核心 (Agent Core) 这是大脑，通常围绕提示词工程构建。它接收处理后的观察报告和任务历史，调用LLM生成下一个动作。提示词的设计至关重要，需要明确角色、可用动作格式、输出格式要求和一些推理范例（Few-shot）。例如：

你是一个桌面自动化助手。你的目标是通过操作图形界面来完成用户任务。
当前观察摘要：[此处填入观察处理器输出的文本]
历史动作：[之前执行过的动作列表]
可用动作：{“mouse_click”: {“params”: [“x”, “y”]}, “keyboard_type”: {“params”: [“text”]}, ...}
用户任务：打开记事本并输入“Hello AdaWorld”。
请根据当前观察，推理下一步最合适的单个动作，并严格按照JSON格式输出，不要有任何其他解释。
输出格式：{“action”: “action_name”, “params”: {...}, “reasoning”: “简短推理”}

4. 技能库 (Skill Library) 为了提升效率，可以将常用操作序列封装为技能。智能体在规划时，可以优先匹配技能，而不是每次都分解为原子动作。技能库可以是一个Python字典或一个可导入的模块。

skill_lib = {
    “open_notepad”: [
        {“action”: “keyboard_press”, “params”: {“keys”: [“winleft”]}},
        {“action”: “keyboard_type”, “params”: {“text”: “notepad”}},
        {“action”: “keyboard_press”, “params”: {“keys”: [“enter”]}},
        {“action”: “wait”, “params”: {“seconds”: 2}} # 等待程序启动
    ]
}

4. 从零构建一个天气查询智能体：全流程实战

让我们通过一个完整的例子，看看如何用AdaWorld的思路，构建一个能自动查询天气并保存信息的桌面智能体。假设我们的任务是： “打开Edge浏览器，访问中国天气网，搜索北京的天气，并将温度信息截图保存到桌面。”

4.1 任务分解与技能规划

面对复杂任务，直接让LLM进行端到端规划容易迷失。我们应该先进行人工分解，并设计对应的技能或子目标：

子目标A ：打开Edge浏览器。
子目标B ：导航至天气网站（例如 weather.com.cn ）。
子目标C ：在搜索框输入“北京”并搜索。
子目标D ：识别并提取（或高亮）温度信息。
子目标E ：截图并保存。

对于A、B、C，我们可以预定义为技能。D和E可能更需要LLM根据实时页面内容进行判断和操作。

4.2 代码实现步骤详解

步骤1：初始化环境与智能体

import pyautogui
import time
from PIL import ImageGrab
import json
# 假设我们有一个封装好的Agent类
from ada_agent import AdaWorldAgent

agent = AdaWorldAgent(
    model_api='openai', # 或 ‘claude’, ‘local’
    api_key='your_api_key',
    observation_processor='default',
    skill_lib=my_skill_lib # 预加载技能库
)
pyautogui.FAILSAFE = True

步骤2：定义并注册自定义技能 在 my_skill_lib.py 中：

def skill_open_edge():
    """技能：打开Edge浏览器"""
    # Win + S 打开搜索
    pyautogui.hotkey('winleft', 's')
    time.sleep(0.5)
    pyautogui.write('microsoft edge')
    time.sleep(0.5)
    pyautogui.press('enter')
    time.sleep(3) # 等待浏览器启动

def skill_navigate_to(url):
    """技能：在当前浏览器地址栏输入网址并访问"""
    pyautogui.hotkey('ctrl', 'l') # 聚焦地址栏
    time.sleep(0.2)
    pyautogui.write(url)
    time.sleep(0.2)
    pyautogui.press('enter')
    time.sleep(3) # 等待页面加载

# 将技能注册到agent
agent.register_skill('open_edge', skill_open_edge)
agent.register_skill('navigate', skill_navigate_to)

步骤3：主任务循环逻辑

def task_get_weather(city="北京"):
    # 1. 执行技能：打开浏览器
    agent.execute_skill('open_edge')
    time.sleep(2) # 额外等待

    # 2. 执行技能：访问天气网
    agent.execute_skill('navigate', 'https://www.weather.com.cn/')

    # 3. 将控制权交给LLM进行搜索和定位
    # 构建一个针对搜索动作的提示词
    search_prompt = f"""
    当前任务：在天气网站搜索框输入城市名并查询。
    当前观察：{agent.get_processed_observation()} 
    可用动作：mouse_click, keyboard_type, keyboard_press('Enter')
    请找到搜索框（可能包含‘城市名’、‘查询’等提示文字），输入“{city}”，然后执行搜索。
    输出JSON动作。
    """
    for _ in range(5): # 限制尝试次数
        action = agent.llm_inference(search_prompt)
        agent.env.execute_action(action)
        time.sleep(2)
        # 检查是否跳转到结果页（可通过观察URL或页面标题变化判断）
        new_obs = agent.get_processed_observation()
        if city in new_obs and "温度" in new_obs:
            print("成功进入天气结果页面")
            break

    # 4. 让LLM识别温度并截图
    screenshot_prompt = f"""
    当前任务：找到页面中关于“{city}”的温度信息（通常包含数字和°C符号），并将包含该信息的区域截图。
    当前观察：{agent.get_processed_observation()}
    可用动作：mouse_move (用于可能的高亮，可选), get_screenshot_region(x1,y1,x2,y2)
    请先推理温度信息的大致屏幕区域坐标，然后调用截图动作。
    """
    action = agent.llm_inference(screenshot_prompt)
    if action['action'] == 'get_screenshot_region':
        x1, y1, x2, y2 = action['params']['coords']
        screenshot = ImageGrab.grab(bbox=(x1, y1, x2, y2))
        screenshot.save(f'C:\\Users\\YourName\\Desktop\\{city}_weather.png')
        print(f"截图已保存至桌面")
    else:
        # 如果LLM没有直接输出截图指令，可能需要多轮交互
        pass

步骤4：运行与监控

if __name__ == '__main__':
    try:
        task_get_weather("北京")
    except pyautogui.FailSafeException:
        print("安全中断：鼠标移至左上角")
    except Exception as e:
        print(f"任务执行出错：{e}")
    finally:
        print("任务结束")

4.3 实战中的精细化调优

上面的流程是一个简化版。在实际操作中，你会发现很多细节决定成败：

等待的艺术 ：网络加载、程序启动都需要时间。 time.sleep 是简单的办法，但更好的做法是 基于状态的等待 。例如，在 skill_navigate_to 中，可以循环截图，用OCR检测页面是否出现了“北京天气”等关键字，出现后才继续，而不是固定等3秒。
坐标的稳定性 ：依赖绝对屏幕坐标（x, y）非常脆弱。更好的方法是结合UI控件树，通过控件的唯一标识（如自动化ID）来获取其相对位置，再进行点击。例如，使用 pywinauto 先找到搜索框控件，再获取其中心点坐标进行点击，这样即使窗口移动了位置也能正确操作。
提示词的迭代 ：LLM的表现极度依赖提示词。你需要不断调试。例如，在搜索步骤，如果LLM总是点错地方，可以在提示词中加入更具体的描述：“搜索框通常位于页面顶部中央或右侧，旁边可能有放大镜图标。”甚至可以提供一张带标注的示例截图（通过多模态模型）。
错误处理与重试 ：智能体一定会犯错。必须构建一个 错误检测与恢复机制 。例如，执行动作后，检查预期结果是否发生（如点击“登录”后是否出现了新页面）。如果没有，则记录错误，可能回退一步，或尝试替代方案（如点击“忘记密码”链接旁边的登录按钮？），并限制最大重试次数。

5. 常见问题排查与性能优化指南

在实际部署和运行AdaWorld这类项目时，你会遇到各种各样的问题。下面是我总结的一些典型问题及其解决思路，以及提升系统稳定性和效率的优化技巧。

5.1 典型故障与排查思路

问题现象	可能原因	排查步骤与解决方案
LLM不输出有效JSON	1. 提示词未严格限定输出格式。 2. 模型上下文混乱或过热。	1. 强化提示词：在提示词末尾用“你必须只输出一个JSON对象，不要有任何其他文字。”强调。提供更清晰的输出范例。 2. 解析前清洗：在代码中，对LLM的返回结果先用正则表达式提取第一个 `{...}` 之间的内容。 3. 降低温度：调用API时设置 `temperature=0` 或一个较低的值，减少随机性。
智能体点击位置错误	1. 屏幕分辨率/缩放比例影响。 2. 观察信息不准（截图延迟、UI树过时）。 3. LLM对位置的推理错误。	1. 坐标标准化：将所有坐标基于当前屏幕分辨率进行换算。确保 `pyautogui` 使用的坐标系统与截图一致。 2. 同步观察与动作：在执行动作前，立即获取一次最新的观察数据，避免使用过时信息做决策。 3. 引入坐标校验：让LLM输出想要点击的元素描述（如“带有‘提交’文字的按钮”），然后代码通过UI树解析出该元素的准确坐标再执行点击，而非直接使用LLM猜测的(x,y)。
任务陷入死循环	1. 目标状态无法达成或检测逻辑有误。 2. LLM在几个无效动作间循环。	1. 设置步数上限：强制限制单个任务的最大动作步数（如50步）。 2. 增强状态检测：定义更明确、可检测的任务完成标志（如特定窗口标题、页面URL、屏幕上出现的特定文字）。 3. 引入人工反馈或回退点：在循环超过N次后，可以尝试回退到上一个已知的“好状态”（如重新刷新页面），或暂停等待人工干预。
OCR识别率低导致观察错误	截图模糊、文字太小、背景复杂、字体特殊。	1. 预处理图像：截图后先进行灰度化、二值化、对比度增强等处理。 2. 区域聚焦：不要总是全屏OCR。让LLM或规则先判断关键信息可能出现的区域（如对话框中央），只对该区域进行OCR。 3. 备用方案：优先使用系统可访问性API获取文字，OCR作为后备。对于已知固定位置的文字（如软件标题栏），可以直接使用图像模板匹配。
在多显示器环境下工作异常	`pyautogui` 的坐标系统可能只针对主显示器。	1. 统一坐标基准：使用 `pyautogui.size()` 获取所有显示器的总尺寸，确保坐标计算正确。 2. 指定显示器：使用如 `mss` 这类支持多显示器的库进行指定屏幕的截图。在执行动作前，将鼠标移动到目标显示器上。

5.2 核心性能优化策略

当你的智能体能够基本运行后，下一步就是让它跑得更快、更稳、更省钱。

1. 观察效率优化

差异化更新 ：不要每一步都截全屏并获取完整UI树。记录上一次的UI状态，只有当检测到窗口切换、焦点变化或特定事件时，才触发一次完整的观察更新。在连续操作同一窗口时，可以只更新变化的部分。
缓存机制 ：对于短时间内不会变化的静态元素信息（如软件主菜单结构），可以进行缓存，多次查询中复用。
视觉模型轻量化 ：如果使用视觉模型描述屏幕，可以考虑使用小型模型（如轻量化的ViT），或者只在关键决策点（如识别新弹窗）时调用。

2. 推理效率优化

分层规划 ：不要让LLM事无巨细地规划每一个鼠标移动。采用“高层规划器+底层执行器”的模式。高层规划器（可以是另一个LLM或规则系统）将大任务分解为子任务序列（技能调用），底层LLM只负责每个子任务内部的精细操作。这大大减少了底层LLM需要处理的上下文长度和调用次数。
本地模型兜底 ：对于模式固定、简单的操作（如“点击确定按钮”），可以训练一个简单的本地分类模型或使用模板匹配来判断，完全绕过大模型，速度极快。
上下文管理 ：精心设计提示词，只将必要的观察历史和动作历史放入上下文。过长的历史会降低推理速度并增加API成本。可以定期进行摘要，只保留关键决策点。

3. 动作执行优化

动作批处理 ：对于一些连续的、无依赖的原子操作，可以打包成一个动作序列一次性发送给执行器，减少循环开销。例如，连续输入一串文字，可以合并为一个 keyboard_type 动作。
增加智能等待 ：用“轮询检测”替代固定的 time.sleep 。例如，等待一个页面加载完成，可以每隔0.5秒检查一次页面标题或某个特定元素是否出现，出现则立即继续，最大等待时间设为10秒。这比固定等待10秒要高效得多。

4. 成本控制策略

选择合适的模型 ：对于逻辑简单的任务，可以尝试使用更便宜的模型（如GPT-3.5-Turbo），甚至开源模型。将复杂任务分解后，让便宜模型处理简单步骤。
减少Token消耗 ：观察处理器的输出要简洁。用“搜索框[位置：(200,300)]”代替“屏幕上有一个长方形的输入框，里面可能有提示文字‘请输入...’，它位于浏览器窗口的顶部...”。
设置预算与熔断 ：为智能体的运行设置每日API调用次数或Token消耗上限，防止意外循环导致巨额账单。

6. 进阶应用场景与扩展方向

AdaWorld这类框架的潜力远不止于简单的桌面自动化。当你掌握了其核心机制后，可以尝试向更多有趣和实用的场景扩展。

场景一：软件测试自动化 传统的UI自动化测试（如Selenium）需要编写大量脚本，维护成本高。利用AdaWorld，你可以用自然语言描述测试用例：“在购物App里，把商品A加入购物车，然后去结算页面检查总价。”智能体可以自主探索完成。更重要的是，它能处理一些脚本难以编撰的异常场景，比如突然弹出的通知框，LLM可以识别并关闭它，让测试流程继续。这为探索性测试和回归测试提供了新思路。

场景二：无障碍辅助工具 对于行动不便的用户，用自然语言指挥电脑完成复杂操作会是一个强大的辅助。可以开发一个专为无障碍场景优化的智能体，它更注重通过语音指令交互，并且对UI控件的描述更加详细和人性化。例如，用户说“帮我给张三发一封邮件，说会议改到明天下午三点”，智能体需要理解意图，并执行打开邮件客户端、点击新建、输入收件人、填写主题和正文、发送等一系列操作。

场景三：跨应用工作流编排 这是最具生产力的方向。想象一个场景：你收到一封包含附件的邮件，需要下载附件，用特定软件打开并处理，然后将结果上传到网盘，最后在项目管理工具中更新状态。这一套涉及多个软件的操作，目前需要人工切换。一个强大的桌面智能体可以串联起这个工作流。这需要为每个软件（Outlook、Photoshop、OneDrive、Jira）定义专门的技能库，并且智能体需要具备更强的状态记忆和流程控制能力。

扩展方向：多模态与记忆增强 当前的实现严重依赖OCR和UI树，对纯图标、复杂图表理解不足。未来的方向是深度融合 多模态大模型 ，让AI能真正“看懂”屏幕上的任何视觉元素。同时，为智能体引入 长期记忆 也至关重要。它可以记住你常用的文件路径、软件偏好、操作习惯。例如，第一次你告诉它“把文件保存到我的项目文件夹”，它需要你指认；第二次它就能自己找到那个文件夹。这可以通过向量数据库存储历史观察和动作序列来实现，实现真正的个性化助手。

在我自己的实践中，最大的体会是： 不要追求一步到位的“通用智能” 。最有效的路径是，针对一个非常具体、高频的场景（比如“每日数据报表下载与整理”），打磨智能体的每一个环节——从观察的准确性、提示词的精确度，到错误恢复的鲁棒性。把一个场景做透、做稳，其价值远大于一个能做很多事情但都不可靠的演示原型。这个领域正在快速演进，开源社区和学术界不断有新的想法和工具涌现，保持关注并动手实践，是跟上节奏的最好方式。