手机自动化新玩法：Open-AutoGLM实战应用详解

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的手机自动化操作。用户可通过简单指令（如‘打开微信给张三发消息’）让AI自动完成App启动、界面交互与信息处理，典型应用于社交消息批量发送、跨平台比价及本地生活信息提取等高频场景。

乾泽

312人浏览 · 2026-01-24 01:20:25

乾泽 · 2026-01-24 01:20:25 发布

手机自动化新玩法：Open-AutoGLM实战应用详解

本文基于智谱AI开源项目 Open-AutoGLM，聚焦真实可落地的手机端AI Agent使用实践。不讲抽象概念，只说你今天就能照着做的步骤、踩过的坑和见效的技巧。

1. 这不是科幻，是现在就能用的手机AI助理

你有没有过这样的时刻：

想批量给50个微信好友发节日祝福，却卡在反复点开、输入、发送的机械操作里；
看到小红书一篇好笔记想收藏，但手正忙着做饭，只能先截图再回头找；
新下载的App界面太复杂，点三次才找到“设置”入口，心里默默吐槽“这设计谁想的”。

这些事，Open-AutoGLM 能替你做。它不是另一个“语音助手”，而是一个真正看懂屏幕、理解意图、动手操作的AI智能体。你只需要说一句：“打开美团，搜‘附近2公里内的川菜馆’，按评分排序，把前3家店名和人均价格记下来”，它就会自动完成整套流程——从启动App、输入关键词、点击筛选、滑动浏览，到把结果整理成文字返回给你。

这不是演示视频里的剪辑效果，而是我在一台Android 12真机上实测跑通的真实体验。整个过程不需要写一行UI识别代码，不用标注任何按钮坐标，甚至不用知道“美团”的包名是什么。你用自然语言说话，它就用眼睛看、用脑子想、用手点。

下面，我就带你从零开始，亲手部署、调试、用起来。全程不绕弯，不堆术语，每一步都标清楚为什么这么做、哪里容易出错、怎么快速验证是否成功。

2. 三步搞定本地控制端：环境、手机、代码

2.1 你的电脑要准备好什么

别被“AI”两个字吓住——Open-AutoGLM 的控制端（也就是你本地运行的部分）对硬件要求极低。我用一台2018款MacBook Pro（16GB内存+Intel i5）和一台Windows 10台式机（8GB内存）都顺利跑通了。关键不是配置多高，而是环境配得准不准。

你需要确认三件事：

Python版本：必须是3.10或更高。在终端/命令行输入 python --version，看到类似 Python 3.10.12 就行。如果显示3.9或更低，请先升级Python。
ADB工具已安装并能调用：这是连接手机的“桥梁”。在终端输入 adb version，如果返回类似 Android Debug Bridge version 1.0.41，说明已就位；如果提示“command not found”，请按文档中的教程配置环境变量（Windows用户注意：解压ADB后，路径里不能有中文或空格）。
安卓设备：Android 7.0以上真机或模拟器。推荐用真机——模拟器常因权限问题导致截图失败或输入法切换异常。

小贴士：如果你用的是Mac，配置ADB路径时，别直接复制示例里的 ~/Downloads/platform-tools。请右键点击你解压后的platform-tools文件夹 → “显示简介” → 复制“位置”那一栏的完整路径（比如 /Users/yourname/Downloads/platform-tools），再粘贴进Terminal命令里。少一个字符都会报错。

2.2 手机端设置：三步开启“被操控”权限

很多同学卡在这一步，反复重试还是连不上。其实核心就三点，缺一不可：

开启开发者模式：进入手机“设置” → “关于手机” → 连续点击“版本号”7次（不是3次，不是5次，是7次），直到弹出“您已处于开发者模式”的提示。
开启USB调试：回到“设置”主页面 → 搜索“开发者选项” → 进入 → 找到“USB调试”，把它打开。此时手机会弹出一个授权窗口，勾选“始终允许”，再点“确定”。
装好ADB Keyboard并设为默认输入法：这是解决中文输入的关键！去GitHub Releases页面下载最新版 ADB Keyboard APK（找 ADBKeyboard_v1.0_all.apk 这个文件），用浏览器或文件管理器安装。安装完后，进入手机“设置” → “语言与输入法” → “当前输入法” → 把“ADB Keyboard”选为默认。这一步做完，你才能让AI往搜索框里打“火锅”而不是乱码。

常见坑：有些国产手机（如华为、小米）还有额外的“USB调试（安全设置）”开关，藏在“开发者选项”最底部，也必须打开；另外，部分手机在“开发者选项”里有个“仅充电模式下允许ADB调试”，这个也要打开，否则插着USB线却连不上。

2.3 部署控制代码：5分钟克隆即用

现在，你的电脑和手机已经“握手成功”，接下来就是把Open-AutoGLM的控制端代码拉下来。

打开终端（Mac/Linux）或命令提示符（Windows），依次执行：

# 1. 克隆代码仓库（别手快按回车，先看清路径！）
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 2. 安装依赖（耐心等1-2分钟，pip会自动处理所有包）
pip install -r requirements.txt
pip install -e .

# 3. 验证安装（这行命令不报错，就说明基础环境OK了）
python -c "from phone_agent.adb import list_devices; print(list_devices())"

如果最后这行输出类似 [<Device(device_id='xxxxxx', connection_type=<ConnectionType.USB: 1>)>]，恭喜你，本地控制端已准备就绪。如果报错，大概率是前面某步没做对——请回头检查ADB是否可用、Python版本是否正确、路径里是否有中文。

3. 让AI第一次“看见”你的手机屏幕

3.1 连接设备：USB和WiFi两种方式怎么选

Open-AutoGLM支持USB直连和WiFi无线连接。新手强烈建议先用USB线连，稳定、延迟低、排错简单。等跑通了再尝试WiFi。

USB连接：手机用原装数据线连电脑 → 终端输入 adb devices → 如果看到一串字母数字组合（如 ZY22345678）后面跟着 device，说明连接成功。

WiFi连接（进阶）：先用USB线连一次，然后在终端输入：

adb tcpip 5555    # 开启手机的TCP/IP调试模式
adb disconnect    # 断开USB线
adb connect 192.168.1.100:5555  # 替换成你手机的真实IP（在手机“设置→关于手机→状态”里查看）

再次运行 adb devices，如果看到 192.168.1.100:5555 device，就成功了。

怎么查手机IP？安卓手机进入“设置” → “WLAN” → 点击当前连接的WiFi名称 → 查看“IP地址”那一栏。别抄路由器后台的IP，那是错的。

3.2 截一张图，确认AI能“看见”

连接成功只是第一步。我们要验证AI能否真正获取屏幕画面。运行这条命令：

python -m phone_agent.adb.screenshot --device-id <你的设备ID>

把 <你的设备ID> 替换成 adb devices 输出的那一串字符（比如 ZY22345678）。几秒后，你会在当前目录看到一个 screenshot.png 文件。双击打开它——如果图片是你手机当前桌面或App界面，说明一切正常；如果是一片纯黑，立刻停手，回头检查第2.2节的“ADB Keyboard”是否已启用、USB调试是否彻底打开。

黑屏的90%原因：手机系统阻止了敏感页面截图（比如支付页、锁屏页）。但首次测试务必用桌面或微信主界面，确保不是这个原因。

3.3 启动AI代理：一条命令，让它开始工作

现在，真正的主角要登场了。Open-AutoGLM本身不包含大模型，它需要连接一个已部署好的AI服务（比如你自己的vLLM服务器，或智谱提供的云API）。但为了让你今天就能看到效果，我们先用官方提供的免费云服务来测试。

在Open-AutoGLM目录下，运行：

python main.py \
  --device-id <你的设备ID> \
  --base-url https://api.zhipu.ai/v1 \
  --model "autoglm-phone-9b" \
  "打开微信，找到联系人'张三'，给他发消息：'明天下午三点会议室见，别迟到！'"

注意替换 <你的设备ID>，其他参数保持原样。按下回车后，你会看到终端开始滚动日志：

[INFO] Connected to device ZY22345678
[INFO] Taking screenshot...
[INFO] Sending to model...
<think>当前在桌面，需要启动微信应用</think>
<answer>do(action="Launch", app="微信")</answer>
[INFO] Executing: Launch app '微信'

几秒钟后，你的手机会自动亮屏、启动微信、进入聊天列表，并最终在张三的对话框里发出那条消息。整个过程无需你碰手机一下。

成功标志：终端日志末尾出现 Task finished: "明天下午三点会议室见，别迟到！"，且手机上消息已发出。如果卡在某一步（比如一直显示“Taking screenshot...”），请检查手机是否被其他App抢占了前台，或重启ADB服务（adb kill-server && adb start-server）。

4. 从“能用”到“好用”：5个提升效率的实战技巧

跑通第一条指令只是起点。在实际使用中，你会发现有些任务AI执行得快，有些却反复出错。这背后不是模型不行，而是你给的指令质量和使用方式决定成败。以下是我在一周实测中总结出的5个关键技巧：

4.1 指令要“具体”，别用模糊词

❌ 不好用的指令：
“帮我订个外卖”
“找一下最近的咖啡店”

好用的指令：
“打开美团，搜索‘星巴克’，选择距离最近的一家，进入店铺页，点击‘立即预订’，选择今天18:00的时段，提交订单”
“打开高德地图，在当前位置附近搜索‘瑞幸咖啡’，列出前3家店的名称、距离和评分”

为什么？ AI没有常识，它只认明确动作。“最近”“帮我”这种词对人类很自然，对AI却是歧义源头。把“做什么”拆解成“打开哪个App→点哪里→输什么→选哪项”，成功率立刻提升80%。

4.2 善用“当前状态”描述，减少AI猜错

AI每次操作前，都会截一张图来判断当前界面。但如果界面元素太多、文字太小，它可能误判。这时，你可以在指令里加一句状态提示：

“当前微信已打开，正在聊天列表页。请找到置顶联系人‘李四’，点击进入对话，发送‘会议材料已发邮箱，请查收’。”

这句话里的“当前微信已打开，正在聊天列表页”就是给AI的“锚点”，相当于告诉它：“别瞎猜我现在在哪，我就在这儿”。实测发现，加上这类提示后，跨App跳转的准确率从65%提升到92%。

4.3 中文输入要“干净”，避开特殊符号

虽然ADB Keyboard支持中文，但它对某些符号兼容性差。实测易出错的包括：

❌ 句号“。”、顿号“、”、省略号“……”
❌ 表情符号（😊）
❌ 长空格或全角空格

推荐写法：用英文句号“.”代替中文句号，用逗号“,”代替顿号，用三个英文点“...”代替省略号。例如：
“发送消息：会议材料已发邮箱，请查收.”
比
“发送消息：会议材料已发邮箱，请查收。”
更稳定。

4.4 敏感操作会暂停，人工接管很自然

当你让AI执行“支付”“登录”“删除重要文件”这类操作时，它不会贸然行动。你会在终端看到：

Sensitive operation: 确认支付199元
Confirm? (Y/N):

这时，你只需在键盘上按 Y 回车，AI就会继续；按 N 则取消。这个机制不是摆设——它基于截图内容智能识别：当检测到支付页、密码输入框或人脸识别界面时，自动触发。你完全掌控主动权，安全无妥协。

4.5 用Python API，把AI变成你的“自动化脚本”

命令行适合尝鲜，但真正融入工作流，得靠代码。下面这段10行代码，就能实现“每天早上8点自动抓取天气预报并微信发给自己”：

from phone_agent.agent import PhoneAgent
from phone_agent.model.client import ModelClientConfig
from phone_agent.config import AgentConfig

# 配置AI服务地址（这里用智谱云API）
model_config = ModelClientConfig(
    base_url="https://api.zhipu.ai/v1",
    model_name="autoglm-phone-9b",
    api_key="YOUR_API_KEY"  # 申请免费key：https://open.bigmodel.cn/
)

# 创建Agent
agent = PhoneAgent(model_config, AgentConfig(device_id="ZY22345678"))

# 下达任务
result = agent.run("打开墨迹天气，查看今日北京天气，截图保存，然后打开微信，找到‘我自己’，发送这张截图")
print("任务结果：", result)

把这段代码保存为 weather_auto.py，配合系统定时任务（Mac用launchd，Windows用任务计划程序），你就拥有了一个永不疲倦的手机助理。

5. 常见问题速查：5分钟定位并解决

遇到问题别慌，90%的情况都能在下面找到答案。按现象找原因，比百度更高效。

5.1 “adb devices”不显示设备

检查：手机USB调试是否开启？USB线是否支持数据传输（有些充电线只能充不能传）？
检查：电脑设备管理器（Windows）或系统报告（Mac）里是否有带“Android”字样的未识别设备？如有，需手动安装驱动。
快速修复：拔掉USB线 → 关闭手机开发者选项 → 重新开启 → 再打开USB调试 → 插回USB线。

5.2 截图是黑屏，但终端没报错

这是正常现象！说明AI检测到当前页面为敏感页（如银行App、支付页、锁屏）。它会自动跳过截图，转而触发人工接管。
验证方法：切到桌面或微信主界面，再运行截图命令，黑屏消失即证明功能正常。

5.3 中文输入全是乱码或空格

根本原因：ADB Keyboard未设为默认输入法。请严格按2.2节第三步操作，进入手机“语言与输入法”设置，手动点击“ADB Keyboard”并确认。
进阶检查：在手机“设置→应用管理”里，找到“ADB Keyboard”，确认其权限“显示在其他应用上层”已开启。

5.4 AI一直重复点击同一个位置，无法进入下一步

典型原因：目标App启动后，加载动画未结束，AI就急着找按钮。解决方案是在指令末尾加一句：“等待页面完全加载后再操作”。
更可靠做法：用“先截图确认”指令探路。例如：“先截一张图，告诉我当前界面顶部显示的文字是什么？”——通过AI的文本反馈，你能快速判断它是否真的进入了目标页面。

5.5 运行`main.py`报错“Connection refused”

错误本质：AI服务地址（--base-url）无法访问。如果你用的是智谱云API，检查网络是否能打开 https://api.zhipu.ai；如果用的是本地vLLM，检查vLLM服务是否已启动（python -m vllm.entrypoints.openai.api_server --model path/to/model --port 8000）。
快速验证：在浏览器访问 http://localhost:8000/docs，如果能看到OpenAI API文档页面，说明服务正常。

6. 它能做什么？10个真实场景清单

光说原理太虚。这里列10个我亲自测试过、100%可行的日常场景，覆盖高频需求。你可以直接复制指令，稍作修改就能用。

场景	一句话指令	实际效果
1. 社交信息同步	“打开微信，找到‘王五’，发送今天日程：上午9点例会，下午2点客户拜访”	自动打开微信、搜索联系人、输入并发送
2. 电商比价	“打开淘宝和京东，分别搜索‘iPhone 15 256G’，截图两家首页价格，对比后告诉我哪家便宜”	同时控制两个App，截图、分析、返回结论
3. 本地生活	“打开大众点评，搜索‘朝阳区烤肉’，按人气排序，列出前5家店名、人均和电话”	解析列表页，提取结构化信息
4. 内容收藏	“打开小红书，搜索‘高效学习法’，保存前3篇笔记的标题、作者和封面图”	自动滑动、点击、长按保存
5. 日程管理	“打开日历App，创建新事件：主题‘季度汇报’，时间今天15:00，持续1小时，提醒提前15分钟”	跨App操作（从微信跳转到日历）
6. 信息查询	“打开百度，搜索‘上海地铁10号线首末班车时间’，把结果中‘往基隆路方向’的首末班时间抄下来”	理解网页结构，精准提取字段
7. 批量操作	“打开通讯录，把所有备注为‘客户’的联系人，全部添加到微信群‘销售组’”	循环遍历，条件判断，批量执行
8. 应用清理	“打开手机管家，进入‘垃圾清理’，一键扫描，清理所有缓存和残留”	处理系统级App，需更高权限
9. 学习辅助	“打开网易有道词典，输入‘ubiquitous’，截图释义和例句，发到微信‘英语学习群’”	跨App协作，图文结合
10. 紧急求助	“打开拨号界面，拨打110，播放预存录音：‘我在XX路XX号，遇到紧急情况，请速来’”	系统级操作，需提前授权