5分钟上手Open-AutoGLM，用AI自动操作手机太简单了

本文介绍了基于星图GPU平台自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架的方法。通过该平台，用户可快速搭建环境，实现自然语言指令驱动的手机自动化操作，适用于模型微调、AI应用开发等场景，显著提升移动设备上的智能交互效率。

笨爪

271人浏览 · 2026-01-19 02:06:17

笨爪 · 2026-01-19 02:06:17 发布

5分钟上手Open-AutoGLM，用AI自动操作手机太简单了

1. 简介

Open-AutoGLM 是由智谱AI（ZhipuAI）开源的一款面向Android设备的智能代理框架，基于AutoGLM架构构建，旨在通过自然语言指令实现对手机的自动化操作。该框架结合视觉语言模型与ADB控制技术，能够“看懂”屏幕内容并执行点击、滑动、输入等操作，真正实现“动口不动手”的交互体验。

其核心优势在于：

多模态理解能力：利用视觉语言模型解析手机界面元素，精准识别按钮、输入框、图标等。
自然语言驱动：用户只需输入如“打开小红书搜索美食”这样的指令，系统即可自动规划和执行完整操作流程。
安全可控机制：敏感操作（如支付、删除）需人工确认，支持远程接管。
灵活部署方式：支持本地vLLM部署、云端API调用及远程WiFi ADB连接，适配开发与生产环境。

整个系统采用“截图→感知→决策→执行→循环”的闭环逻辑，形成端到端的AI Agent控制链路，适用于自动化测试、办公提效、老年辅助、电商运营等多种场景。

2. 核心功能详解

2.1 多模态屏幕理解

Open-AutoGLM 的核心是其视觉语言模型（VLM），通常为 AutoGLM-Phone-9B，具备强大的图文联合推理能力。当接收到用户指令后，系统会通过ADB截取当前手机屏幕，并将图像与文本指令一同送入模型进行分析。

例如，在收到“点赞朋友圈第一条动态”指令时，模型不仅需要理解“朋友圈”属于微信应用，“第一条”指最上方的内容，还需从截图中定位“点赞图标”的位置坐标，从而生成精确的操作动作。

这种能力使得AI不仅能听懂命令，还能“看见”界面状态，避免传统脚本因UI变化而失效的问题。

2.2 自然语言任务解析与路径规划

系统内置的任务解析模块能将复杂指令拆解为可执行的动作序列。以“在美团点外卖，然后分享到微信朋友圈”为例，AI会自动生成如下步骤：

启动美团App
进入“外卖”页面
搜索最近的餐厅
添加一份商品至购物车
提交订单（非支付）
截图订单页
切换至微信
打开朋友圈发布界面
粘贴截图并发布

这一过程无需预设脚本或录制操作，完全由模型根据语义和上下文自主推理完成，极大提升了泛化能力和实用性。

2.3 安全与人工干预机制

为防止误操作导致数据泄露或财产损失，Open-AutoGLM 设计了分级权限管理机制：

常规操作：如打开App、搜索内容、发送消息等，AI可直接执行。
敏感操作：涉及支付、账号注销、好友删除等高风险行为，系统会暂停执行并提示用户手动确认。
验证码/登录弹窗：检测到输入密码或验证码界面时，自动切换为待机模式，等待人工介入。

所有操作均在本地完成，不上传用户数据至第三方服务器，保障隐私安全。

2.4 支持远程调试与WiFi连接

借助ADB的TCP/IP模式，Open-AutoGLM 支持远程无线控制设备，特别适合无物理连接条件下的调试或批量设备管理。

典型使用流程如下：

adb tcpip 5555
adb connect 192.168.1.100:5555

连接成功后，即使拔掉USB线，仍可通过IP地址持续控制设备，便于长时间运行自动化任务或部署在服务器环境中。

3. 快速部署指南

3.1 环境准备

硬件与软件要求

操作系统：Windows 10+ / macOS / Linux（推荐Ubuntu 18.04+）
Python版本：3.10 或以上
内存建议：至少8GB（若本地运行大模型需16GB+）
存储空间：≥200MB（不含模型文件）
Android设备：Android 7.0+，开启开发者选项与USB调试

安装ADB工具

确保ADB已正确安装并加入系统PATH。

Windows配置示例：

下载 Android SDK Platform Tools
解压后将路径添加至系统环境变量
命令行执行 adb version 验证是否安装成功

macOS快捷配置：

export PATH=${PATH}:~/Downloads/platform-tools

3.2 手机端设置

开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次
启用USB调试
设置 → 开发者选项 → 开启“USB调试”
安装ADB Keyboard
- 下载 ADB Keyboard APK 并安装
- 进入“语言与输入法”设置，选择 ADB Keyboard 为默认输入法

说明：ADB Keyboard 允许AI通过ADB发送文本输入指令，解决部分应用无法通过模拟点击输入文字的问题。

3.3 部署控制端代码

# 克隆项目仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 创建虚拟环境（推荐）
python -m venv venv
source venv/bin/activate  # Linux/macOS
# venv\Scripts\activate   # Windows

# 安装依赖
pip install -r requirements.txt
pip install -e .

3.4 连接设备

USB连接方式

adb devices

输出应类似：

List of devices attached
ABCDEF1234567890    device

记录设备ID（如 ABCDEF1234567890），用于后续调用。

WiFi远程连接方式

首次需通过USB连接启用TCP/IP模式：

adb tcpip 5555
adb disconnect
adb connect 192.168.x.x:5555  # 替换为手机实际IP

可通过以下Python代码获取设备IP：

import subprocess
result = subprocess.run(['adb', 'shell', 'ip', 'route'], capture_output=True, text=True)
print(result.stdout.split()[-3])

4. 启动AI代理并执行任务

4.1 命令行方式运行

假设你已部署好模型服务（如使用vLLM在云服务器启动），可通过以下命令触发自动化操作：

python main.py \
  --device-id ABCDEF1234567890 \
  --base-url http://<your-server-ip>:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：通过 adb devices 获取的设备标识
--base-url：模型服务地址，格式为 http://IP:PORT/v1
--model：模型名称，必须与服务端加载的一致
最后字符串：自然语言指令

4.2 使用Python API调用

对于集成到其他系统的场景，推荐使用Python API：

from phone_agent.adb import ADBConnection
from openautoglm import PhoneAgent

# 初始化ADB连接
conn = ADBConnection()
success, msg = conn.connect("192.168.1.100:5555")
if not success:
    raise Exception(f"连接失败: {msg}")

# 创建PhoneAgent实例
agent = PhoneAgent(
    device_id="192.168.1.100:5555",
    base_url="http://<server-ip>:8000/v1",
    model="autoglm-phone-9b"
)

# 执行指令
result = agent.run("打开微信给文件传输助手发一条消息：你好，这是AI发送的消息")
print("执行结果:", result)

4.3 交互式调试模式

支持进入交互模式，便于观察每一步执行细节：

python main.py --interactive \
  --device-id ABCDEF1234567890 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b"

在此模式下，你可以连续输入多条指令，查看AI如何逐步解析和执行任务，非常适合调试和教学演示。

5. 常见问题与排查建议

问题现象	可能原因	解决方案
`adb devices` 无设备显示	USB调试未开启或驱动异常	检查开发者选项，重新插拔USB线，尝试更换数据线
连接被拒绝（Connection refused）	服务端防火墙未开放端口	在云服务器安全组中放行对应端口（如8000）
AI无法输入文字	ADB Keyboard未启用	检查输入法设置，确保ADB Keyboard为默认输入法
模型响应慢或乱码	显存不足或max-model-len设置不当	调整vLLM启动参数，增加`--gpu-memory-utilization 0.9`或减小`--max-model-len`
ADB断连频繁	WiFi信号不稳定	尽量使用USB连接，或优化网络环境