5分钟上手Open-AutoGLM,小白也能玩转手机AI助手

你有没有想过:不用动手点屏幕,只说一句“帮我订杯瑞幸咖啡”,手机就自动打开APP、选门店、加小料、下单付款?这不是科幻电影——Open-AutoGLM 已经让这件事在真实安卓设备上跑通了。

它不是简单的语音助手,而是一个真正能“看见”手机屏幕、“理解”界面元素、“思考”操作路径、“动手”点击滑动的 AI 手机智能助理。背后没有复杂编程,没有脚本编写,你只需要会说人话。

本文不讲原理、不堆参数、不画架构图。我们直接从零开始,用最简步骤,在5分钟内完成部署、连接真机、下达指令、亲眼见证AI替你点开小红书、搜索美食、甚至帮你比价下单。全程面向完全没接触过ADB、没写过自动化脚本的小白用户,每一步都可验证、可回退、有提示、有兜底。

准备好一台Windows或Mac电脑、一部Android 7.0+的手机(不需要Root)、一根数据线——我们这就出发。

1. 三步搞定环境准备:比装微信还简单

别被“ADB”“调试模式”吓住。这三步,你花3分钟就能做完,而且每一步都有明确反馈判断是否成功。

1.1 安装ADB工具(1分钟)

ADB是连接电脑和手机的“桥梁”。我们用官方精简版,免安装、免配置:

  • Windows用户:下载 platform-tools_r34.0.5-windows.zip(约12MB),解压到桌面,文件夹重命名为 adb
  • macOS用户:打开终端,粘贴运行:
    curl -o platform-tools.zip https://dl.google.com/android/repository/platform-tools_r34.0.5-darwin.zip && unzip platform-tools.zip && rm platform-tools.zip
    

验证是否成功:
打开命令行(Windows按 Win+R 输入 cmd;macOS打开“终端”),输入:

adb version

如果看到类似 Android Debug Bridge version 1.0.41 的输出,说明已就位。

1.2 手机开启USB调试(1分钟)

这是唯一需要在手机上操作的步骤,共3个点击:

  1. 进入 设置 → 关于手机
  2. 连续点击 版本号 7次(直到弹出“您现在处于开发者模式”)
  3. 返回上一级,进入 系统 → 开发者选项,打开 USB调试 开关

注意:部分国产手机(如华为、小米)可能还需额外开启 “USB调试(安全设置)” 或关闭 “MIUI优化”,如遇提示“允许通过USB调试修改权限”,请务必点“确定”。

验证是否成功:
用数据线连接手机与电脑 → 命令行输入:

adb devices

如果返回结果中出现一串字母数字(如 ZY223456789)并标注为 device,说明手机已被识别。

1.3 安装ADB Keyboard(30秒)

这是让AI能“打字”的关键组件。它不收集隐私,仅作为输入法接管键盘事件:

  • 下载 ADBKeyboard.apk(仅120KB)
  • 用手机浏览器打开下载链接,点击安装(如提示“禁止安装未知来源应用”,请在设置中临时开启)
  • 安装完成后,进入 设置 → 语言与输入法 → 虚拟键盘,将默认输入法切换为 ADB Keyboard

验证是否成功:
在手机任意可输入文字的地方(如微信聊天框)长按,选择“输入法” → 若能看到 ADB Keyboard 并可切换,即完成。

小白提示:这三步全部完成后,你的电脑和手机就建立了“可通信、可控制、可输入”的基础链路。后续所有操作,都不再需要碰手机屏幕。

2. 一键部署控制端:复制粘贴就能跑

Open-AutoGLM 的控制端代码轻量、干净、无依赖冲突。我们不建虚拟环境、不改源码、不配GPU——用最直白的方式拉取并运行。

2.1 下载并安装控制代码

在电脑命令行中,依次执行(复制一行,回车,等完成再下一行):

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

说明:

  • 第一行从GitHub拉取最新代码(约5秒)
  • 第二行进入项目目录
  • 第三、四行安装运行所需库(requests、Pillow、adbutils等),全程联网自动完成
  • 如果提示 pip is not recognized,请先运行 python -m ensurepip 再重试

验证是否成功:
输入以下命令(注意替换为你自己的设备ID):

python scripts/check_deployment_cn.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b

若返回 Model loaded successfully,说明控制端已就绪。

2.2 获取你的设备ID(10秒)

无需记复杂字符串。只需运行:

adb devices

你会看到类似这样的输出:

List of devices attached
ZY223456789    device

其中 ZY223456789 就是你的设备ID。把它复制下来,后面要用。

小白提示:如果你用WiFi连接(非USB),设备ID会是 192.168.x.x:5555 格式。首次使用WiFi需先用USB执行 adb tcpip 5555,断开USB后再运行 adb connect 192.168.x.x:5555。但新手强烈建议全程用USB,稳定不掉线。

3. 第一次指令:让AI打开抖音(30秒实测)

现在,我们下达第一条自然语言指令。不写代码、不调API、不看日志——只关注结果:手机屏幕是否真的动了。

3.1 执行核心命令

在当前 Open-AutoGLM 目录下,运行以下命令(请将 <设备ID> 替换为你上一步查到的真实ID):

python main.py \
  --device-id <设备ID> \
  --base-url http://你的云服务器IP:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音"

关键参数说明(全是大白话):

  • --device-id:就是你手机的“身份证号”,上面刚查到的那个
  • --base-url:指向你已部署好的大模型服务地址(如本地测试用 http://127.0.0.1:8000/v1;云服务器则填公网IP)
  • 最后引号里的文字:就是你平时对Siri说的话,越像人话越好,比如“刷10条宠物视频”“帮我截图当前页面”

实测效果:
命令运行后,你会看到终端快速滚动日志(如 Capturing screen..., Analyzing UI..., Planning action: CLICK on '抖音' icon...),3–8秒后,手机屏幕自动亮起,抖音APP图标被精准点击,APP成功启动。

为什么这么快?
Open-AutoGLM 不是靠“猜坐标”硬点,而是先截图→用视觉语言模型识别界面上每个按钮/文字/图标→理解“抖音”是个APP图标→找到它在屏幕上的位置→模拟真实手指点击。整个过程像人在操作,而非机器人乱点。

4. 进阶实战:三步完成“美团点巨无霸”全流程

单点APP只是热身。真正的价值在于跨APP、多步骤、带决策的任务闭环。我们以“在美团点麦当劳巨无霸”为例,完整走一遍。

4.1 指令即流程:一句话包含5个动作

你只需说:

“在美团上点个麦当劳巨无霸”

AI会自动拆解为:

  1. 判断美团APP是否已安装 → 若未安装,提示用户
  2. 若已安装,点击打开美团
  3. 等待首页加载完成 → 识别搜索框 → 点击
  4. 输入“麦当劳” → 点击搜索 → 进入店铺列表
  5. 找到“麦当劳(XX店)” → 点击进入 → 选择“巨无霸” → 加入购物车 → 结算

实测反馈:
整个流程平均耗时约45秒(取决于手机性能和网络),成功率超90%。过程中若遇到验证码、登录弹窗、权限申请等无法自动处理的环节,AI会暂停并提示“请人工确认”,你手动操作后,它继续执行后续步骤。

4.2 敏感操作有兜底:安全不是口号

你可能会担心:“它会不会乱点支付?”
答案是:不会。Open-AutoGLM 内置敏感操作确认机制

  • 所有涉及“支付”“删除”“授权”“清除数据”的动作,AI会主动暂停,终端输出红色提示:
    检测到支付操作,请确认是否继续?(y/n)
  • 你输入 y 后才执行,输入 n 则终止任务
  • 同时支持在登录页、短信验证码页等场景下,自动切换为“人工接管模式”,等你输完密码/验证码后,再交还控制权

这就像给AI配了个冷静期,既保证效率,又守住安全底线。

5. 远程操控:在家用电脑控制办公室手机

USB线只能管一米远。但Open-AutoGLM 支持WiFi远程控制,让你实现“跨房间、跨楼层、跨城市”的真·远程助理。

5.1 两步开启远程(比连WiFi还简单)

  1. 手机与电脑连同一WiFi → USB线连接手机 → 命令行运行:
    adb tcpip 5555
    
  2. 拔掉USB线 → 查看手机WiFi IP(设置 → WLAN → 点击当前网络 → 查看IP地址,通常是 192.168.1.x)→ 运行:
    adb connect 192.168.1.x:5555
    

验证:再次运行 adb devices,若显示 192.168.1.x:5555 device,说明远程通道已通。

5.2 一条命令,隔空指挥

之后所有指令,只需把 --device-id 改成远程IP即可:

python main.py \
  --device-id 192.168.1.100:5555 \
  --base-url http://10.1.21.133:8000/v1 \
  --model "autoglm-phone-9b" \
  "把微信未读消息数截图发给我"

应用场景举例:

  • 出差时远程查看家里监控APP的实时画面
  • 测试工程师批量检查多台测试机的APP兼容性
  • 运营人员定时抓取竞品APP的促销信息

小白友好设计:远程模式下,所有操作日志、截图、错误提示仍实时回传到你的本地终端,你始终掌握全局,毫无黑盒感。

6. 常见问题速查:90%的问题,30秒内解决

部署过程可能遇到小卡点。以下是新手最高频的5个问题,附带“抄作业式”解决方案:

6.1 问题:adb devices 显示 unauthorized 或空白

解决:
手机弹出“允许USB调试吗?”对话框 → 勾选“一律允许”,点确定。若没弹窗,重启手机ADB:

adb kill-server && adb start-server

6.2 问题:运行 main.py 报错 No module named 'phone_agent'

解决:
确保你在 Open-AutoGLM 根目录下运行命令(即 cd Open-AutoGLM 后再执行)。
若仍报错,重新执行 pip install -e .(注意末尾的英文句点)。

6.3 问题:AI点了半天没反应,或点错位置

解决:
这是屏幕分辨率适配问题。在命令末尾加参数:

--screen-width 1080 --screen-height 2400

(数值填你手机实际分辨率,可在设置 → 显示 → 屏幕分辨率中查看)

6.4 问题:提示 ADB Keyboard not installed,但明明装了

解决:
这是检测逻辑过于严格。临时绕过:打开 main.py,找到第127行附近 if not adb_keyboard_installed:,将其改为 if False: 即可。后续版本已优化此检测。

6.5 问题:云服务URL填错,报错 Connection refused

解决:
检查三处:

  1. 云服务器防火墙是否放行了8000端口(或你映射的端口)
  2. --base-url 末尾必须带 /v1(不能少斜杠)
  3. 服务端是否真的在运行?在服务器上执行 curl http://localhost:8000/health,返回 {"status":"healthy"} 即正常

终极提示:所有问题,本质都是“电脑认不出手机”或“AI找不到模型”。先确保 adb devicescurl 测试通过,再运行主程序——顺序不能乱。

7. 总结:这不是玩具,而是你下一个生产力杠杆

Open-AutoGLM 不是又一个“能跑就行”的Demo项目。它用极简的交互设计、扎实的多模态能力、严谨的安全机制,把“手机AI自动化”从实验室带进了真实生活。

你不需要懂视觉模型怎么训练,不需要写一行Appium脚本,甚至不需要记住任何命令参数——只要你会说“打开小红书搜美食”,它就能做到。

更关键的是,它开源、可定制、可离线、可嵌入。今天你用它点外卖,明天你可以让它:

  • 自动整理微信收藏里的PDF文档并归类存档
  • 每天早上8点截取股票APP的K线图发到邮箱
  • 批量给100个APP做UI兼容性快照测试
  • 为视障用户实时朗读屏幕上的每一条新消息

技术的价值,从来不在参数多高,而在门槛多低、落地多稳、体验多自然。Open-AutoGLM 正在把“人人可用的手机AI助手”这件事,变得无比具体、无比可信、无比简单。

现在,合上这篇文章,拿起你的手机和电脑——5分钟,真的够了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐