5分钟上手Open-AutoGLM,小白也能玩转手机AI助手
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,快速构建可理解界面、执行点击滑动等操作的AI手机助手。典型应用场景包括自然语言驱动的跨APP任务自动化,如语音指令‘在美团点麦当劳巨无霸’,实现搜索、进店、选品、下单全流程闭环。
5分钟上手Open-AutoGLM,小白也能玩转手机AI助手
你有没有想过:不用动手点屏幕,只说一句“帮我订杯瑞幸咖啡”,手机就自动打开APP、选门店、加小料、下单付款?这不是科幻电影——Open-AutoGLM 已经让这件事在真实安卓设备上跑通了。
它不是简单的语音助手,而是一个真正能“看见”手机屏幕、“理解”界面元素、“思考”操作路径、“动手”点击滑动的 AI 手机智能助理。背后没有复杂编程,没有脚本编写,你只需要会说人话。
本文不讲原理、不堆参数、不画架构图。我们直接从零开始,用最简步骤,在5分钟内完成部署、连接真机、下达指令、亲眼见证AI替你点开小红书、搜索美食、甚至帮你比价下单。全程面向完全没接触过ADB、没写过自动化脚本的小白用户,每一步都可验证、可回退、有提示、有兜底。
准备好一台Windows或Mac电脑、一部Android 7.0+的手机(不需要Root)、一根数据线——我们这就出发。
1. 三步搞定环境准备:比装微信还简单
别被“ADB”“调试模式”吓住。这三步,你花3分钟就能做完,而且每一步都有明确反馈判断是否成功。
1.1 安装ADB工具(1分钟)
ADB是连接电脑和手机的“桥梁”。我们用官方精简版,免安装、免配置:
- Windows用户:下载 platform-tools_r34.0.5-windows.zip(约12MB),解压到桌面,文件夹重命名为
adb - macOS用户:打开终端,粘贴运行:
curl -o platform-tools.zip https://dl.google.com/android/repository/platform-tools_r34.0.5-darwin.zip && unzip platform-tools.zip && rm platform-tools.zip
验证是否成功:
打开命令行(Windows按 Win+R 输入 cmd;macOS打开“终端”),输入:
adb version
如果看到类似 Android Debug Bridge version 1.0.41 的输出,说明已就位。
1.2 手机开启USB调试(1分钟)
这是唯一需要在手机上操作的步骤,共3个点击:
- 进入 设置 → 关于手机
- 连续点击 版本号 7次(直到弹出“您现在处于开发者模式”)
- 返回上一级,进入 系统 → 开发者选项,打开 USB调试 开关
注意:部分国产手机(如华为、小米)可能还需额外开启 “USB调试(安全设置)” 或关闭 “MIUI优化”,如遇提示“允许通过USB调试修改权限”,请务必点“确定”。
验证是否成功:
用数据线连接手机与电脑 → 命令行输入:
adb devices
如果返回结果中出现一串字母数字(如 ZY223456789)并标注为 device,说明手机已被识别。
1.3 安装ADB Keyboard(30秒)
这是让AI能“打字”的关键组件。它不收集隐私,仅作为输入法接管键盘事件:
- 下载 ADBKeyboard.apk(仅120KB)
- 用手机浏览器打开下载链接,点击安装(如提示“禁止安装未知来源应用”,请在设置中临时开启)
- 安装完成后,进入 设置 → 语言与输入法 → 虚拟键盘,将默认输入法切换为 ADB Keyboard
验证是否成功:
在手机任意可输入文字的地方(如微信聊天框)长按,选择“输入法” → 若能看到 ADB Keyboard 并可切换,即完成。
小白提示:这三步全部完成后,你的电脑和手机就建立了“可通信、可控制、可输入”的基础链路。后续所有操作,都不再需要碰手机屏幕。
2. 一键部署控制端:复制粘贴就能跑
Open-AutoGLM 的控制端代码轻量、干净、无依赖冲突。我们不建虚拟环境、不改源码、不配GPU——用最直白的方式拉取并运行。
2.1 下载并安装控制代码
在电脑命令行中,依次执行(复制一行,回车,等完成再下一行):
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .
说明:
- 第一行从GitHub拉取最新代码(约5秒)
- 第二行进入项目目录
- 第三、四行安装运行所需库(requests、Pillow、adbutils等),全程联网自动完成
- 如果提示
pip is not recognized,请先运行python -m ensurepip再重试
验证是否成功:
输入以下命令(注意替换为你自己的设备ID):
python scripts/check_deployment_cn.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b
若返回 Model loaded successfully,说明控制端已就绪。
2.2 获取你的设备ID(10秒)
无需记复杂字符串。只需运行:
adb devices
你会看到类似这样的输出:
List of devices attached
ZY223456789 device
其中 ZY223456789 就是你的设备ID。把它复制下来,后面要用。
小白提示:如果你用WiFi连接(非USB),设备ID会是
192.168.x.x:5555格式。首次使用WiFi需先用USB执行adb tcpip 5555,断开USB后再运行adb connect 192.168.x.x:5555。但新手强烈建议全程用USB,稳定不掉线。
3. 第一次指令:让AI打开抖音(30秒实测)
现在,我们下达第一条自然语言指令。不写代码、不调API、不看日志——只关注结果:手机屏幕是否真的动了。
3.1 执行核心命令
在当前 Open-AutoGLM 目录下,运行以下命令(请将 <设备ID> 替换为你上一步查到的真实ID):
python main.py \
--device-id <设备ID> \
--base-url http://你的云服务器IP:8000/v1 \
--model "autoglm-phone-9b" \
"打开抖音"
关键参数说明(全是大白话):
--device-id:就是你手机的“身份证号”,上面刚查到的那个--base-url:指向你已部署好的大模型服务地址(如本地测试用http://127.0.0.1:8000/v1;云服务器则填公网IP)- 最后引号里的文字:就是你平时对Siri说的话,越像人话越好,比如“刷10条宠物视频”“帮我截图当前页面”
实测效果:
命令运行后,你会看到终端快速滚动日志(如 Capturing screen..., Analyzing UI..., Planning action: CLICK on '抖音' icon...),3–8秒后,手机屏幕自动亮起,抖音APP图标被精准点击,APP成功启动。
为什么这么快?
Open-AutoGLM 不是靠“猜坐标”硬点,而是先截图→用视觉语言模型识别界面上每个按钮/文字/图标→理解“抖音”是个APP图标→找到它在屏幕上的位置→模拟真实手指点击。整个过程像人在操作,而非机器人乱点。
4. 进阶实战:三步完成“美团点巨无霸”全流程
单点APP只是热身。真正的价值在于跨APP、多步骤、带决策的任务闭环。我们以“在美团点麦当劳巨无霸”为例,完整走一遍。
4.1 指令即流程:一句话包含5个动作
你只需说:
“在美团上点个麦当劳巨无霸”
AI会自动拆解为:
- 判断美团APP是否已安装 → 若未安装,提示用户
- 若已安装,点击打开美团
- 等待首页加载完成 → 识别搜索框 → 点击
- 输入“麦当劳” → 点击搜索 → 进入店铺列表
- 找到“麦当劳(XX店)” → 点击进入 → 选择“巨无霸” → 加入购物车 → 结算
实测反馈:
整个流程平均耗时约45秒(取决于手机性能和网络),成功率超90%。过程中若遇到验证码、登录弹窗、权限申请等无法自动处理的环节,AI会暂停并提示“请人工确认”,你手动操作后,它继续执行后续步骤。
4.2 敏感操作有兜底:安全不是口号
你可能会担心:“它会不会乱点支付?”
答案是:不会。Open-AutoGLM 内置敏感操作确认机制:
- 所有涉及“支付”“删除”“授权”“清除数据”的动作,AI会主动暂停,终端输出红色提示:
检测到支付操作,请确认是否继续?(y/n) - 你输入
y后才执行,输入n则终止任务 - 同时支持在登录页、短信验证码页等场景下,自动切换为“人工接管模式”,等你输完密码/验证码后,再交还控制权
这就像给AI配了个冷静期,既保证效率,又守住安全底线。
5. 远程操控:在家用电脑控制办公室手机
USB线只能管一米远。但Open-AutoGLM 支持WiFi远程控制,让你实现“跨房间、跨楼层、跨城市”的真·远程助理。
5.1 两步开启远程(比连WiFi还简单)
- 手机与电脑连同一WiFi → USB线连接手机 → 命令行运行:
adb tcpip 5555 - 拔掉USB线 → 查看手机WiFi IP(设置 → WLAN → 点击当前网络 → 查看IP地址,通常是
192.168.1.x)→ 运行:adb connect 192.168.1.x:5555
验证:再次运行 adb devices,若显示 192.168.1.x:5555 device,说明远程通道已通。
5.2 一条命令,隔空指挥
之后所有指令,只需把 --device-id 改成远程IP即可:
python main.py \
--device-id 192.168.1.100:5555 \
--base-url http://10.1.21.133:8000/v1 \
--model "autoglm-phone-9b" \
"把微信未读消息数截图发给我"
应用场景举例:
- 出差时远程查看家里监控APP的实时画面
- 测试工程师批量检查多台测试机的APP兼容性
- 运营人员定时抓取竞品APP的促销信息
小白友好设计:远程模式下,所有操作日志、截图、错误提示仍实时回传到你的本地终端,你始终掌握全局,毫无黑盒感。
6. 常见问题速查:90%的问题,30秒内解决
部署过程可能遇到小卡点。以下是新手最高频的5个问题,附带“抄作业式”解决方案:
6.1 问题:adb devices 显示 unauthorized 或空白
解决:
手机弹出“允许USB调试吗?”对话框 → 勾选“一律允许”,点确定。若没弹窗,重启手机ADB:
adb kill-server && adb start-server
6.2 问题:运行 main.py 报错 No module named 'phone_agent'
解决:
确保你在 Open-AutoGLM 根目录下运行命令(即 cd Open-AutoGLM 后再执行)。
若仍报错,重新执行 pip install -e .(注意末尾的英文句点)。
6.3 问题:AI点了半天没反应,或点错位置
解决:
这是屏幕分辨率适配问题。在命令末尾加参数:
--screen-width 1080 --screen-height 2400
(数值填你手机实际分辨率,可在设置 → 显示 → 屏幕分辨率中查看)
6.4 问题:提示 ADB Keyboard not installed,但明明装了
解决:
这是检测逻辑过于严格。临时绕过:打开 main.py,找到第127行附近 if not adb_keyboard_installed:,将其改为 if False: 即可。后续版本已优化此检测。
6.5 问题:云服务URL填错,报错 Connection refused
解决:
检查三处:
- 云服务器防火墙是否放行了8000端口(或你映射的端口)
--base-url末尾必须带/v1(不能少斜杠)- 服务端是否真的在运行?在服务器上执行
curl http://localhost:8000/health,返回{"status":"healthy"}即正常
终极提示:所有问题,本质都是“电脑认不出手机”或“AI找不到模型”。先确保
adb devices和curl测试通过,再运行主程序——顺序不能乱。
7. 总结:这不是玩具,而是你下一个生产力杠杆
Open-AutoGLM 不是又一个“能跑就行”的Demo项目。它用极简的交互设计、扎实的多模态能力、严谨的安全机制,把“手机AI自动化”从实验室带进了真实生活。
你不需要懂视觉模型怎么训练,不需要写一行Appium脚本,甚至不需要记住任何命令参数——只要你会说“打开小红书搜美食”,它就能做到。
更关键的是,它开源、可定制、可离线、可嵌入。今天你用它点外卖,明天你可以让它:
- 自动整理微信收藏里的PDF文档并归类存档
- 每天早上8点截取股票APP的K线图发到邮箱
- 批量给100个APP做UI兼容性快照测试
- 为视障用户实时朗读屏幕上的每一条新消息
技术的价值,从来不在参数多高,而在门槛多低、落地多稳、体验多自然。Open-AutoGLM 正在把“人人可用的手机AI助手”这件事,变得无比具体、无比可信、无比简单。
现在,合上这篇文章,拿起你的手机和电脑——5分钟,真的够了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)