AI操作手机全流程演示：基于Open-AutoGLM的真实案例

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的手机端自动化操作。用户可通过简单指令（如‘打开小红书搜上海咖啡馆并保存笔记’）让AI实时识别界面、理解意图并执行点击、输入、截图等操作，典型应用于生活服务、社交互动与信息提取等场景。

金融先生-Frank

138人浏览 · 2026-01-30 01:24:43

金融先生-Frank · 2026-01-30 01:24:43 发布

AI操作手机全流程演示：基于Open-AutoGLM的真实案例

1. 这不是科幻，是今天就能跑通的手机AI代理

你有没有试过一边做饭一边想点个外卖，结果被油锅和手机屏幕同时“绑架”？
或者在地铁上想查航班状态，却因为单手操作、界面跳转、验证码输入而放弃？
又或者，只是想让手机自动完成一个再普通不过的动作——比如“打开小红书搜‘上海咖啡馆’，保存前三条笔记”，却要手动点开App、输关键词、滑动、长按、点击保存……整整7步。

这些不是用户懒，而是交互效率的断层。

Open-AutoGLM 改变了这件事。它不是另一个聊天机器人，也不是云端API调用工具，而是一个真正能“看见”手机屏幕、“理解”界面意图、“动手”完成操作的AI代理框架。它不模拟点击坐标，不依赖固定UI路径，而是像人一样——先看，再想，最后做。

本文不讲论文、不堆参数、不画架构图。我们直接从一台刚拆封的安卓手机开始，一步步连接、部署、下指令、看结果。全程使用真实设备（小米13，Android 14）、本地电脑（MacBook Pro M2）、公开镜像与开源代码，所有步骤均可复现。你读完，就能让自己的手机第一次被AI“接管”。

这不是未来预告，这是今天下午三点就能完成的操作。

2. 准备工作：三件套配齐，5分钟搞定环境

别被“AI Agent”吓住——Open-AutoGLM 的控制端极轻量，对本地电脑几乎无门槛。我们只准备三样东西：一台能连电脑的安卓手机、一台装好Python的电脑、一个能上网的网络。

2.1 手机端：开启“被操控权”

这一步本质是授权手机接受外部指令，和调试开发者应用完全一致，无需Root、无需刷机、不越狱。

开启开发者模式：设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”提示
启用USB调试：设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关
安装ADB Keyboard（关键！）：这是让AI能“打字”的核心组件
- 下载地址：https://github.com/senzhk/ADBKeyBoard/releases（找最新apk）
- 安装后，进入手机“设置 → 语言与输入法 → 当前键盘”，切换为“ADB Keyboard”

注意：部分国产手机（如华为、OPPO）在“开发者选项”里还有一项叫“USB调试（安全设置）”，必须一并开启，否则ADB无法输入文字。

2.2 电脑端：装好ADB，验证连通性

ADB（Android Debug Bridge）是Android系统的官方调试桥，不是Open-AutoGLM专属，而是所有安卓自动化操作的基础。我们只做最简配置：

Windows用户：下载platform-tools，解压后将文件夹路径加入系统环境变量Path

macOS用户：终端执行

# 假设你把platform-tools放在Downloads目录下
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
source ~/.zshrc

验证是否成功：

adb version
# 应输出类似：Android Debug Bridge version 1.0.41

2.3 连接手机：USB优先，WiFi备用

USB直连（推荐新手）：用原装数据线连接手机与电脑 → 手机弹出“允许USB调试吗？”→ 勾选“始终允许”，点击确定

验证连接：

adb devices
# 正常输出示例：
# List of devices attached
# 1234567890abcdef    device

看到device字样，说明手机已就绪。

WiFi远程（进阶可选）：

# 先用USB连上，执行
adb tcpip 5555
# 拔掉USB线，确保手机和电脑在同一WiFi下
adb connect 192.168.1.102:5555  # 替换为你的手机IP（在手机Wi-Fi设置里查看）

小贴士：如果adb devices显示unauthorized，请检查手机是否点了“允许”。若显示为空，重启ADB服务：adb kill-server && adb start-server

3. 部署控制端：一行命令克隆，两行命令启动

Open-AutoGLM 的控制端代码完全开源，无需编译，纯Python运行。我们只做三件事：拉代码、装依赖、确认模型服务可用。

3.1 克隆与安装

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

说明：-e . 表示以“开发模式”安装，后续修改代码可直接生效，适合调试。

3.2 模型服务在哪里？

注意：Open-AutoGLM 是客户端框架，真正的AI大脑（视觉语言模型）需单独部署。官方提供两种方式：

云服务（推荐快速体验）：使用智谱提供的托管API（需申请key，本文暂不展开）
本地vLLM服务（本文实测采用）：在另一台有GPU的服务器上部署 autoglm-phone-9b 模型

由于本文聚焦“全流程演示”，我们假设你已有一台云服务器（如阿里云ECS），并已按官方文档启动了vLLM服务，监听在 http://123.56.78.90:8800/v1（IP和端口替换成你的真实地址）。

如何确认模型服务可用？在浏览器或curl中访问：
curl http://123.56.78.90:8800/v1/models
应返回包含 "autoglm-phone-9b" 的JSON列表。

3.3 启动AI代理：一条命令，一次指令

一切就绪，现在让AI第一次“上岗”：

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://123.56.78.90:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书，搜索'上海咖啡馆'，进入第一个笔记，长按图片保存到相册"

--device-id：就是你刚才 adb devices 看到的那一串字符
--base-url：指向你的vLLM服务地址
最后字符串：自然语言指令，就像你对朋友说的一样，不用写代码、不用记步骤

执行后，你会看到终端开始滚动日志：

[INFO] Capturing screen...  
[INFO] Sending screenshot to model...  
[INFO] Model response: {"action": "tap", "x": 0.52, "y": 0.18, "text": "小红书"}  
[INFO] Executing tap at (520, 180)  
[INFO] Waiting for app launch...  
[INFO] Capturing screen...  
...

几秒钟后，你的手机屏幕会自动亮起，打开小红书，顶部搜索框出现，输入“上海咖啡馆”，列表加载，点击第一条笔记，图片放大，长按弹出菜单，自动选择“保存图片”——全部完成。

整个过程，你只需看着，不碰手机，不敲键盘。

4. 真实案例演示：从下单到关注，四条指令全记录

光说没用。以下是我在小米13上实测的4个真实指令，全程录屏+截图，每一步都可回溯。所有操作均在未预装任何插件、未提前训练模型的前提下完成。

4.1 指令一：外卖点单闭环

“打开美团外卖，定位到上海市静安区，搜‘%蓝瓶咖啡%’，选最近一家，加购1杯燕麦拿铁，去结算，用支付宝支付”

耗时：2分18秒
关键动作识别：
- 准确识别美团首页“定位”图标（非固定坐标，靠视觉定位）
- 在搜索结果中区分“蓝瓶咖啡”与“蓝瓶烘焙”（语义理解）
- 在商品页识别“燕麦拿铁”按钮并点击（多模态对齐）
- 支付页自动选择“支付宝”，跳转至支付宝App完成唤起（跨App调度）
失败点：支付页因支付宝需指纹确认，AI主动暂停，等待人工授权（内置安全机制）

4.2 指令二：社交平台操作

“打开抖音，搜索用户‘dycwo11nt61d’，进入主页，点击‘关注’按钮”

耗时：42秒
亮点：
- 在抖音搜索页，准确识别搜索框并输入一长串ID（非拼音，是精确字符）
- 主页加载后，识别右上角“关注”按钮（按钮文字为“+ 关注”，AI理解“+”即关注动作）
注意：该ID为测试账号，无实际内容，仅验证流程完整性

4.3 指令三：信息查询与复制

“打开高德地图，搜索‘上海虹桥火车站’，点击第一个结果，复制地址和电话”

耗时：36秒
能力体现：
- 在高德地图复杂UI中准确定位搜索框（避开广告Banner、推荐卡片）
- 结果页中识别“地址：上海市闵行区申虹路1500号”和“电话：021-12306”两段文本
- 自动执行长按→选择→复制（调用系统剪贴板）
验证方式：回到微信，粘贴，内容完整准确

4.4 指令四：多步表单填写

“打开招商银行App，登录我的账户，进入‘信用卡中心’，查本月账单，截图保存到相册”

耗时：1分52秒（含人工输入密码环节）
安全设计体现：
- 登录页检测到密码输入框，AI停止自动操作，打印提示：“检测到敏感输入，等待人工输入密码”
- 密码输入完成后，AI继续执行后续步骤
截图逻辑：调用系统截屏功能，自动保存至/sdcard/Pictures/Screenshots/，文件名含时间戳

所有案例均未做任何App适配、未写XPath、未录制脚本。AI仅靠实时截图+自然语言指令，完成端到端操作。

5. 为什么它不像传统自动化？三个本质区别

很多读者会问：这和Tasker、Auto.js、Appium有什么区别？答案是：范式不同。Open-AutoGLM 不是“自动化工具”，而是“操作型AI”。

5.1 不依赖UI结构，靠“看”而不是“猜”

传统方案：需要提前解析XML布局，写id="com.xxx:id/search_btn"，一旦App更新ID变更，脚本立即失效
Open-AutoGLM：每次操作前，先截取当前屏幕图像，送入视觉语言模型（GLM-4.5V），模型输出的是“这个蓝色圆角矩形按钮，上面写着‘搜索’，位于屏幕顶部中央”，再映射为坐标点击
效果：同一套代码，今天能操作微信8.0.45，明天微信升级到8.0.46，只要UI视觉不变，依然有效

5.2 不执行固定流程，靠“想”而不是“背”

传统方案：写死流程：“点击A→等待2秒→点击B→输入C”，无法应对界面加载慢、弹窗干扰等异常
Open-AutoGLM：每一步都是“感知-决策-执行”闭环。例如，当搜索后列表为空，它不会盲目点击第一个，而是重新分析界面，发现“暂无结果”，主动返回并提示用户“未找到相关结果”
效果：面对淘宝“亲，暂时没有找到相关宝贝”提示，AI能理解语义并终止流程，而非报错崩溃

5.3 不要求用户懂技术，靠“说”而不是“写”

传统方案：用户需学习编程语法、XPath、ADB命令，门槛极高
Open-AutoGLM：用户唯一输入就是中文句子。“帮我订一张明天从北京到上海的高铁票”，AI自动拆解为：打开12306→切换出发地→输入日期→筛选车次→提交订单
效果：我妈试用后说：“我就照着平时跟你说的话讲，它真就做了。”——这才是AI该有的样子

6. 实战避坑指南：那些文档没写的细节

官方文档很全，但有些“只有踩过才知道”的细节，分享给你少走弯路。

6.1 手机分辨率与缩放问题

现象：AI点击位置偏移，总点不到目标
原因：部分手机（尤其华为、小米）默认开启“字体大小/显示大小”调节，导致系统报告的分辨率与实际像素不一致
解决：设置 → 显示 → 字体与样式 → 字体大小 & 显示大小 → 全部调至“标准”或“默认”

6.2 输入法冲突

现象：AI尝试输入文字时，键盘弹出但无反应
原因：手机默认输入法拦截了ADB Keyboard的输入事件
解决：
1. 确保ADB Keyboard已在“语言与输入法”中启用
2. 进入“默认键盘”设置，将ADB Keyboard设为首选（不是“已启用”就行，必须是“默认”）
3. 测试：在任意输入框长按，选择“输入法”，确认ADB Keyboard被选中

6.3 多任务后台限制

现象：AI在操作过程中，App被系统杀后台
原因：国产ROM（如MIUI、EMUI）对后台进程限制严格
解决：
- 设置 → 电池与性能 → 应用省电策略 → 找到“ADB”或“platform-tools”相关进程 → 设为“无限制”
- 或更简单：在手机“安全中心”中，将“USB调试”权限设为“允许后台活动”

6.4 模型响应慢的临时对策

现象：指令发出后，终端卡在“Sending screenshot…”超过30秒
原因：vLLM服务显存不足、网络延迟高、或模型加载未完成
对策：
- 检查vLLM日志，确认模型已加载（搜索Loaded weights）
- 降低请求并发：在main.py中找到max_concurrent_tasks=1，确保为1
- 本地测试可用--debug-screenshot参数，保存每次截图到本地，人工核对是否截取正确