5分钟上手Open-AutoGLM,用AI自动操作手机太简单了

1. 简介

Open-AutoGLM 是由智谱AI(ZhipuAI)开源的一款面向Android设备的智能代理框架,基于AutoGLM架构构建,旨在通过自然语言指令实现对手机的自动化操作。该框架结合视觉语言模型与ADB控制技术,能够“看懂”屏幕内容并执行点击、滑动、输入等操作,真正实现“动口不动手”的交互体验。

其核心优势在于:

  • 多模态理解能力:利用视觉语言模型解析手机界面元素,精准识别按钮、输入框、图标等。
  • 自然语言驱动:用户只需输入如“打开小红书搜索美食”这样的指令,系统即可自动规划和执行完整操作流程。
  • 安全可控机制:敏感操作(如支付、删除)需人工确认,支持远程接管。
  • 灵活部署方式:支持本地vLLM部署、云端API调用及远程WiFi ADB连接,适配开发与生产环境。

整个系统采用“截图→感知→决策→执行→循环”的闭环逻辑,形成端到端的AI Agent控制链路,适用于自动化测试、办公提效、老年辅助、电商运营等多种场景。


2. 核心功能详解

2.1 多模态屏幕理解

Open-AutoGLM 的核心是其视觉语言模型(VLM),通常为 AutoGLM-Phone-9B,具备强大的图文联合推理能力。当接收到用户指令后,系统会通过ADB截取当前手机屏幕,并将图像与文本指令一同送入模型进行分析。

例如,在收到“点赞朋友圈第一条动态”指令时,模型不仅需要理解“朋友圈”属于微信应用,“第一条”指最上方的内容,还需从截图中定位“点赞图标”的位置坐标,从而生成精确的操作动作。

这种能力使得AI不仅能听懂命令,还能“看见”界面状态,避免传统脚本因UI变化而失效的问题。

2.2 自然语言任务解析与路径规划

系统内置的任务解析模块能将复杂指令拆解为可执行的动作序列。以“在美团点外卖,然后分享到微信朋友圈”为例,AI会自动生成如下步骤:

  1. 启动美团App
  2. 进入“外卖”页面
  3. 搜索最近的餐厅
  4. 添加一份商品至购物车
  5. 提交订单(非支付)
  6. 截图订单页
  7. 切换至微信
  8. 打开朋友圈发布界面
  9. 粘贴截图并发布

这一过程无需预设脚本或录制操作,完全由模型根据语义和上下文自主推理完成,极大提升了泛化能力和实用性。

2.3 安全与人工干预机制

为防止误操作导致数据泄露或财产损失,Open-AutoGLM 设计了分级权限管理机制:

  • 常规操作:如打开App、搜索内容、发送消息等,AI可直接执行。
  • 敏感操作:涉及支付、账号注销、好友删除等高风险行为,系统会暂停执行并提示用户手动确认。
  • 验证码/登录弹窗:检测到输入密码或验证码界面时,自动切换为待机模式,等待人工介入。

所有操作均在本地完成,不上传用户数据至第三方服务器,保障隐私安全。

2.4 支持远程调试与WiFi连接

借助ADB的TCP/IP模式,Open-AutoGLM 支持远程无线控制设备,特别适合无物理连接条件下的调试或批量设备管理。

典型使用流程如下:

adb tcpip 5555
adb connect 192.168.1.100:5555

连接成功后,即使拔掉USB线,仍可通过IP地址持续控制设备,便于长时间运行自动化任务或部署在服务器环境中。


3. 快速部署指南

3.1 环境准备

硬件与软件要求
  • 操作系统:Windows 10+ / macOS / Linux(推荐Ubuntu 18.04+)
  • Python版本:3.10 或以上
  • 内存建议:至少8GB(若本地运行大模型需16GB+)
  • 存储空间:≥200MB(不含模型文件)
  • Android设备:Android 7.0+,开启开发者选项与USB调试
安装ADB工具

确保ADB已正确安装并加入系统PATH。

Windows配置示例

  1. 下载 Android SDK Platform Tools
  2. 解压后将路径添加至系统环境变量
  3. 命令行执行 adb version 验证是否安装成功

macOS快捷配置

export PATH=${PATH}:~/Downloads/platform-tools

3.2 手机端设置

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次

  2. 启用USB调试
    设置 → 开发者选项 → 开启“USB调试”

  3. 安装ADB Keyboard

    • 下载 ADB Keyboard APK 并安装
    • 进入“语言与输入法”设置,选择 ADB Keyboard 为默认输入法

说明:ADB Keyboard 允许AI通过ADB发送文本输入指令,解决部分应用无法通过模拟点击输入文字的问题。

3.3 部署控制端代码

# 克隆项目仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 创建虚拟环境(推荐)
python -m venv venv
source venv/bin/activate  # Linux/macOS
# venv\Scripts\activate   # Windows

# 安装依赖
pip install -r requirements.txt
pip install -e .

3.4 连接设备

USB连接方式
adb devices

输出应类似:

List of devices attached
ABCDEF1234567890    device

记录设备ID(如 ABCDEF1234567890),用于后续调用。

WiFi远程连接方式

首次需通过USB连接启用TCP/IP模式:

adb tcpip 5555
adb disconnect
adb connect 192.168.x.x:5555  # 替换为手机实际IP

可通过以下Python代码获取设备IP:

import subprocess
result = subprocess.run(['adb', 'shell', 'ip', 'route'], capture_output=True, text=True)
print(result.stdout.split()[-3])

4. 启动AI代理并执行任务

4.1 命令行方式运行

假设你已部署好模型服务(如使用vLLM在云服务器启动),可通过以下命令触发自动化操作:

python main.py \
  --device-id ABCDEF1234567890 \
  --base-url http://<your-server-ip>:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过 adb devices 获取的设备标识
  • --base-url:模型服务地址,格式为 http://IP:PORT/v1
  • --model:模型名称,必须与服务端加载的一致
  • 最后字符串:自然语言指令

4.2 使用Python API调用

对于集成到其他系统的场景,推荐使用Python API:

from phone_agent.adb import ADBConnection
from openautoglm import PhoneAgent

# 初始化ADB连接
conn = ADBConnection()
success, msg = conn.connect("192.168.1.100:5555")
if not success:
    raise Exception(f"连接失败: {msg}")

# 创建PhoneAgent实例
agent = PhoneAgent(
    device_id="192.168.1.100:5555",
    base_url="http://<server-ip>:8000/v1",
    model="autoglm-phone-9b"
)

# 执行指令
result = agent.run("打开微信给文件传输助手发一条消息:你好,这是AI发送的消息")
print("执行结果:", result)

4.3 交互式调试模式

支持进入交互模式,便于观察每一步执行细节:

python main.py --interactive \
  --device-id ABCDEF1234567890 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b"

在此模式下,你可以连续输入多条指令,查看AI如何逐步解析和执行任务,非常适合调试和教学演示。


5. 常见问题与排查建议

问题现象 可能原因 解决方案
adb devices 无设备显示 USB调试未开启或驱动异常 检查开发者选项,重新插拔USB线,尝试更换数据线
连接被拒绝(Connection refused) 服务端防火墙未开放端口 在云服务器安全组中放行对应端口(如8000)
AI无法输入文字 ADB Keyboard未启用 检查输入法设置,确保ADB Keyboard为默认输入法
模型响应慢或乱码 显存不足或max-model-len设置不当 调整vLLM启动参数,增加--gpu-memory-utilization 0.9或减小--max-model-len
ADB断连频繁 WiFi信号不稳定 尽量使用USB连接,或优化网络环境

提示:首次部署建议优先使用USB连接+本地模型服务的方式进行验证,确保各环节正常后再迁移到远程或生产环境。


6. 应用场景与实践价值

6.1 社交媒体自动化运营

自媒体从业者可让AI自动完成内容发布、评论互动、粉丝维护等工作。例如:

“打开小红书,发布一张图片,标题为‘今日穿搭’,添加标签#ootd #时尚,并@三位好友”

AI将自动完成App启动、图片选择、填写文案、添加话题、提及用户、点击发布等全流程操作,显著提升内容更新频率和互动效率。

6.2 企业办公自动化

员工可通过一句话指令完成重复性工作:

“打开钉钉,查找昨天的会议记录,提取关键结论并发送邮件给张经理”

系统将自动打开钉钉、搜索聊天记录、复制内容、切换邮箱App、撰写并发送邮件,减少人工操作时间,降低出错概率。

6.3 老年人数字生活助手

子女可远程配置定时任务帮助父母完成日常操作:

“每天上午9点帮妈妈打开健康码小程序并截图保存”

AI按时执行,无需老人学习复杂操作,有效缓解“数字鸿沟”问题。

6.4 移动应用自动化测试

测试人员可用自然语言编写测试用例:

“测试微博登录流程:输入错误密码三次后是否提示账户锁定”

AI自动执行输入、点击、判断结果,生成测试报告,大幅提升回归测试覆盖率和效率。


7. 总结

Open-AutoGLM 作为一款开源的手机端AI Agent框架,凭借其强大的多模态理解能力和自然语言驱动特性,正在重新定义人机交互方式。它不仅降低了自动化操作的技术门槛,还为个人提效、企业降本、无障碍设计等领域提供了切实可行的解决方案。

通过本文介绍,你应该已经掌握了:

  • 如何配置ADB环境并连接Android设备
  • 如何部署控制端代码并与模型服务通信
  • 如何通过命令行或API提交自然语言指令
  • 如何应对常见连接与执行问题

下一步,你可以尝试将其应用于具体业务场景,探索更多可能性。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐