5分钟上手Open-AutoGLM,用AI自动操作手机太简单了
本文介绍了基于星图GPU平台自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架的方法。通过该平台,用户可快速搭建环境,实现自然语言指令驱动的手机自动化操作,适用于模型微调、AI应用开发等场景,显著提升移动设备上的智能交互效率。
5分钟上手Open-AutoGLM,用AI自动操作手机太简单了
1. 简介
Open-AutoGLM 是由智谱AI(ZhipuAI)开源的一款面向Android设备的智能代理框架,基于AutoGLM架构构建,旨在通过自然语言指令实现对手机的自动化操作。该框架结合视觉语言模型与ADB控制技术,能够“看懂”屏幕内容并执行点击、滑动、输入等操作,真正实现“动口不动手”的交互体验。
其核心优势在于:
- 多模态理解能力:利用视觉语言模型解析手机界面元素,精准识别按钮、输入框、图标等。
- 自然语言驱动:用户只需输入如“打开小红书搜索美食”这样的指令,系统即可自动规划和执行完整操作流程。
- 安全可控机制:敏感操作(如支付、删除)需人工确认,支持远程接管。
- 灵活部署方式:支持本地vLLM部署、云端API调用及远程WiFi ADB连接,适配开发与生产环境。
整个系统采用“截图→感知→决策→执行→循环”的闭环逻辑,形成端到端的AI Agent控制链路,适用于自动化测试、办公提效、老年辅助、电商运营等多种场景。
2. 核心功能详解
2.1 多模态屏幕理解
Open-AutoGLM 的核心是其视觉语言模型(VLM),通常为 AutoGLM-Phone-9B,具备强大的图文联合推理能力。当接收到用户指令后,系统会通过ADB截取当前手机屏幕,并将图像与文本指令一同送入模型进行分析。
例如,在收到“点赞朋友圈第一条动态”指令时,模型不仅需要理解“朋友圈”属于微信应用,“第一条”指最上方的内容,还需从截图中定位“点赞图标”的位置坐标,从而生成精确的操作动作。
这种能力使得AI不仅能听懂命令,还能“看见”界面状态,避免传统脚本因UI变化而失效的问题。
2.2 自然语言任务解析与路径规划
系统内置的任务解析模块能将复杂指令拆解为可执行的动作序列。以“在美团点外卖,然后分享到微信朋友圈”为例,AI会自动生成如下步骤:
- 启动美团App
- 进入“外卖”页面
- 搜索最近的餐厅
- 添加一份商品至购物车
- 提交订单(非支付)
- 截图订单页
- 切换至微信
- 打开朋友圈发布界面
- 粘贴截图并发布
这一过程无需预设脚本或录制操作,完全由模型根据语义和上下文自主推理完成,极大提升了泛化能力和实用性。
2.3 安全与人工干预机制
为防止误操作导致数据泄露或财产损失,Open-AutoGLM 设计了分级权限管理机制:
- 常规操作:如打开App、搜索内容、发送消息等,AI可直接执行。
- 敏感操作:涉及支付、账号注销、好友删除等高风险行为,系统会暂停执行并提示用户手动确认。
- 验证码/登录弹窗:检测到输入密码或验证码界面时,自动切换为待机模式,等待人工介入。
所有操作均在本地完成,不上传用户数据至第三方服务器,保障隐私安全。
2.4 支持远程调试与WiFi连接
借助ADB的TCP/IP模式,Open-AutoGLM 支持远程无线控制设备,特别适合无物理连接条件下的调试或批量设备管理。
典型使用流程如下:
adb tcpip 5555
adb connect 192.168.1.100:5555
连接成功后,即使拔掉USB线,仍可通过IP地址持续控制设备,便于长时间运行自动化任务或部署在服务器环境中。
3. 快速部署指南
3.1 环境准备
硬件与软件要求
- 操作系统:Windows 10+ / macOS / Linux(推荐Ubuntu 18.04+)
- Python版本:3.10 或以上
- 内存建议:至少8GB(若本地运行大模型需16GB+)
- 存储空间:≥200MB(不含模型文件)
- Android设备:Android 7.0+,开启开发者选项与USB调试
安装ADB工具
确保ADB已正确安装并加入系统PATH。
Windows配置示例:
- 下载 Android SDK Platform Tools
- 解压后将路径添加至系统环境变量
- 命令行执行
adb version验证是否安装成功
macOS快捷配置:
export PATH=${PATH}:~/Downloads/platform-tools
3.2 手机端设置
-
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 -
启用USB调试
设置 → 开发者选项 → 开启“USB调试” -
安装ADB Keyboard
- 下载 ADB Keyboard APK 并安装
- 进入“语言与输入法”设置,选择 ADB Keyboard 为默认输入法
说明:ADB Keyboard 允许AI通过ADB发送文本输入指令,解决部分应用无法通过模拟点击输入文字的问题。
3.3 部署控制端代码
# 克隆项目仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 创建虚拟环境(推荐)
python -m venv venv
source venv/bin/activate # Linux/macOS
# venv\Scripts\activate # Windows
# 安装依赖
pip install -r requirements.txt
pip install -e .
3.4 连接设备
USB连接方式
adb devices
输出应类似:
List of devices attached
ABCDEF1234567890 device
记录设备ID(如 ABCDEF1234567890),用于后续调用。
WiFi远程连接方式
首次需通过USB连接启用TCP/IP模式:
adb tcpip 5555
adb disconnect
adb connect 192.168.x.x:5555 # 替换为手机实际IP
可通过以下Python代码获取设备IP:
import subprocess
result = subprocess.run(['adb', 'shell', 'ip', 'route'], capture_output=True, text=True)
print(result.stdout.split()[-3])
4. 启动AI代理并执行任务
4.1 命令行方式运行
假设你已部署好模型服务(如使用vLLM在云服务器启动),可通过以下命令触发自动化操作:
python main.py \
--device-id ABCDEF1234567890 \
--base-url http://<your-server-ip>:8000/v1 \
--model "autoglm-phone-9b" \
"打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
参数说明:
--device-id:通过adb devices获取的设备标识--base-url:模型服务地址,格式为http://IP:PORT/v1--model:模型名称,必须与服务端加载的一致- 最后字符串:自然语言指令
4.2 使用Python API调用
对于集成到其他系统的场景,推荐使用Python API:
from phone_agent.adb import ADBConnection
from openautoglm import PhoneAgent
# 初始化ADB连接
conn = ADBConnection()
success, msg = conn.connect("192.168.1.100:5555")
if not success:
raise Exception(f"连接失败: {msg}")
# 创建PhoneAgent实例
agent = PhoneAgent(
device_id="192.168.1.100:5555",
base_url="http://<server-ip>:8000/v1",
model="autoglm-phone-9b"
)
# 执行指令
result = agent.run("打开微信给文件传输助手发一条消息:你好,这是AI发送的消息")
print("执行结果:", result)
4.3 交互式调试模式
支持进入交互模式,便于观察每一步执行细节:
python main.py --interactive \
--device-id ABCDEF1234567890 \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b"
在此模式下,你可以连续输入多条指令,查看AI如何逐步解析和执行任务,非常适合调试和教学演示。
5. 常见问题与排查建议
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices 无设备显示 |
USB调试未开启或驱动异常 | 检查开发者选项,重新插拔USB线,尝试更换数据线 |
| 连接被拒绝(Connection refused) | 服务端防火墙未开放端口 | 在云服务器安全组中放行对应端口(如8000) |
| AI无法输入文字 | ADB Keyboard未启用 | 检查输入法设置,确保ADB Keyboard为默认输入法 |
| 模型响应慢或乱码 | 显存不足或max-model-len设置不当 | 调整vLLM启动参数,增加--gpu-memory-utilization 0.9或减小--max-model-len |
| ADB断连频繁 | WiFi信号不稳定 | 尽量使用USB连接,或优化网络环境 |
提示:首次部署建议优先使用USB连接+本地模型服务的方式进行验证,确保各环节正常后再迁移到远程或生产环境。
6. 应用场景与实践价值
6.1 社交媒体自动化运营
自媒体从业者可让AI自动完成内容发布、评论互动、粉丝维护等工作。例如:
“打开小红书,发布一张图片,标题为‘今日穿搭’,添加标签#ootd #时尚,并@三位好友”
AI将自动完成App启动、图片选择、填写文案、添加话题、提及用户、点击发布等全流程操作,显著提升内容更新频率和互动效率。
6.2 企业办公自动化
员工可通过一句话指令完成重复性工作:
“打开钉钉,查找昨天的会议记录,提取关键结论并发送邮件给张经理”
系统将自动打开钉钉、搜索聊天记录、复制内容、切换邮箱App、撰写并发送邮件,减少人工操作时间,降低出错概率。
6.3 老年人数字生活助手
子女可远程配置定时任务帮助父母完成日常操作:
“每天上午9点帮妈妈打开健康码小程序并截图保存”
AI按时执行,无需老人学习复杂操作,有效缓解“数字鸿沟”问题。
6.4 移动应用自动化测试
测试人员可用自然语言编写测试用例:
“测试微博登录流程:输入错误密码三次后是否提示账户锁定”
AI自动执行输入、点击、判断结果,生成测试报告,大幅提升回归测试覆盖率和效率。
7. 总结
Open-AutoGLM 作为一款开源的手机端AI Agent框架,凭借其强大的多模态理解能力和自然语言驱动特性,正在重新定义人机交互方式。它不仅降低了自动化操作的技术门槛,还为个人提效、企业降本、无障碍设计等领域提供了切实可行的解决方案。
通过本文介绍,你应该已经掌握了:
- 如何配置ADB环境并连接Android设备
- 如何部署控制端代码并与模型服务通信
- 如何通过命令行或API提交自然语言指令
- 如何应对常见连接与执行问题
下一步,你可以尝试将其应用于具体业务场景,探索更多可能性。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)