5分钟部署Open-AutoGLM,手机AI助手一键上手实测
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架,实现安卓设备上的自然语言驱动任务自动化。用户可通过简单命令触发手机端操作,典型应用场景包括跨App信息搬运(如微信图片保存并转发)、复杂表单填写(如12306高铁购票)等,大幅提升移动场景下的个人效率。
5分钟部署Open-AutoGLM,手机AI助手一键上手实测
1. 这不是科幻,是今天就能用的手机AI助理
你有没有过这样的时刻:
想查个快递,却要先解锁、下拉通知栏、点开快递App、粘贴单号、等加载……
想给朋友发张刚拍的照片,得打开相册、长按选中、点分享、再选微信、找人、发送……
想订一杯咖啡,得打开外卖App、搜索、比价、加购、填地址、付款——整个过程手指划了七八次。
这些操作,对人来说是“顺手”,但对AI来说,是跨越视觉理解、意图解析、动作规划、设备操控四道关卡的硬核挑战。
而Open-AutoGLM,就是那个已经跨过这四道关卡、站在你手机屏幕背后的AI助手。它不靠预设脚本,不依赖App内嵌API,而是真正“看懂”你的屏幕、“听懂”你的指令、“动手”完成任务——就像一个坐在你旁边、会用安卓手机的聪明朋友。
这不是概念演示,不是实验室Demo。本文将带你5分钟完成本地控制端部署 + 1条命令启动真实任务,全程无需编译、不碰GPU、不改代码,连adb环境变量都给你写好了检查步骤。实测指令:“打开小红书搜美食”,从敲下回车到App自动跳转搜索页,耗时28秒,全程无人干预。
下面,我们直接开始。
2. 为什么这次部署真的只要5分钟?
很多AI项目卡在第一步:环境配不起来。Open-AutoGLM做了三处关键减法,让部署回归“开箱即用”:
- 模型服务解耦:你不需要在本地跑9B大模型。它默认对接云端vLLM服务(比如CSDN星图已预置),你只装轻量控制端;
- ADB封装成熟:所有设备连接、截图、点击、输入逻辑已打包成
phone_agent.adb模块,你只需提供设备ID; - 指令即入口:没有Web界面、没有配置文件、没有后台进程——一条
python main.py命令,带参数、带指令,直接执行。
换句话说:你负责说“做什么”,它负责“怎么做”。部署,只是把“传话筒”接通。
下面所有步骤,均基于一台已联网的Windows/macOS电脑 + 一部安卓手机(Android 7.0+)完成。无模拟器、无Docker、无云服务器搭建要求。
3. 三步极简部署:从零到第一个自动任务
3.1 第一步:连上你的手机(5分钟搞定)
别被“ADB”吓到。它本质就是一个“手机USB数据线翻译器”,把电脑指令转成手机能懂的动作。我们用最直白的方式走完:
手机端设置(3个勾选,2分钟)
- 进入「设置 → 关于手机」,连续点击「版本号」7次,直到弹出“您已处于开发者模式”;
- 返回「设置」,进入「系统 → 开发者选项」,打开「USB调试」;
- 下载安装 ADB Keyboard APK(仅148KB),安装后进入「设置 → 语言与输入法 → 当前键盘」,切换为「ADB Keyboard」。
验证是否成功:用USB线连接手机和电脑 → 打开命令行 → 输入
adb devices
若返回类似ZY223456789 device的结果,说明手机已识别。若显示unauthorized,请在手机弹窗点“允许”。
电脑端ADB配置(2分钟,任选其一)
- Windows用户:下载platform-tools,解压后右键“此电脑 → 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建”,粘贴解压路径(如
C:\platform-tools)→ 重启命令行 → 输入adb version,看到版本号即成功。 - macOS用户:终端执行
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip unzip platform-tools-latest-darwin.zip export PATH="$PATH:$(pwd)/platform-tools" adb version
3.2 第二步:装好控制端(1分钟)
打开命令行(Windows用CMD/PowerShell,macOS用Terminal),依次执行:
# 克隆官方仓库(仅1.2MB,含全部控制代码)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 安装依赖(纯Python包,无编译)
pip install -r requirements.txt
pip install -e .
验证:执行 python -c "from phone_agent.adb import ADBConnection; print('OK')",无报错即成功。
3.3 第三步:启动第一个任务(1分钟,含等待)
此时你有两个选择:
- 快速体验(推荐):使用CSDN星图已部署的公共模型服务(免自己搭vLLM);
- 完全本地(进阶):自己用vLLM启动模型(需GPU,本文不展开)。
我们选第一种——打开浏览器,访问 CSDN星图镜像广场,搜索“Open-AutoGLM”,找到预置的autoglm-phone-9b服务,复制其公网地址(形如 http://118.193.xxx.xxx:8800/v1)。
回到命令行,执行(替换 <设备ID> 和 <服务地址>):
python main.py \
--device-id ZY223456789 \
--base-url http://118.193.xxx.xxx:8800/v1 \
--model "autoglm-phone-9b" \
"打开小红书搜美食"
⏱ 实测耗时:
- 设备截图上传 + 屏幕理解:约8秒
- 意图解析 + 动作规划:约5秒
- 自动点击“小红书”图标 → 启动App → 点击搜索框 → 输入“美食” → 点击搜索:约15秒
全程手机自动操作,你只需看着它完成。
4. 实测5个真实场景:它到底能帮你做什么?
我们用同一台手机(小米13,Android 14)、同一网络、同一服务地址,测试以下自然语言指令。所有操作均未预设App位置、未训练模型、未人工标注界面元素——纯粹靠视觉语言模型实时理解。
4.1 场景一:跨App信息搬运(省去复制粘贴)
指令:
“把微信里‘家人’群最后一张图片保存到相册,然后用微信发给张三”
实际效果:
- 自动打开微信 → 切换到“家人”群 → 上滑加载历史消息 → 定位最后一张图片 → 长按 → 选“保存图片” → 弹出相册确认 → 返回微信 → 搜索“张三” → 进入对话 → 点击图片按钮 → 选刚保存的图 → 发送。
全程37秒,图片成功发出。关键点:它识别出“最后一张”是时间序,而非位置序;且知道“保存到相册”后需返回微信。
4.2 场景二:复杂表单填写(告别手动输)
指令:
“打开12306 App,查今天北京到上海的高铁,选G10次,用我的常用联系人下单”
实际效果:
- 启动12306 → 自动点击“出发地” → 输入“北京” → 点击“到达地” → 输入“上海” → 点击“查询” → 滑动列表找到“G10” → 点击 → 进入选座页 → 点击“常用联系人” → 选中第一个 → 点击“提交订单”。
未出现误点广告或弹窗,所有输入均通过ADB Keyboard精准完成。难点在于:它需区分“G10次”是车次号而非日期,且理解“常用联系人”是App内固定入口。
4.3 场景三:多步内容生成(图文协同)
指令:
“打开微博,用我昨天拍的那张樱花照片,配文‘春日限定’,发带定位的帖子”
实际效果:
- 启动微博 → 点击底部“+” → 选“相册” → 按时间倒序定位“昨天”文件夹 → 选中樱花图 → 点击“下一步” → 在文字框输入“春日限定” → 点击“位置”图标 → 搜索“当前位置” → 选中 → 点击“发布”。
成功调用系统相册时间筛选逻辑,且未混淆“昨天”与“最近”;定位功能调用准确。
4.4 场景四:异常处理与人工接管(安全不越界)
指令:
“登录淘宝账号”
实际效果:
- 启动淘宝 → 点击“我的淘宝” → 进入登录页 → 模型识别出“手机号/密码”输入框 → 暂停执行 → 终端输出:
检测到敏感操作(登录),已暂停。请手动输入验证码后,按回车继续 - 你手动输入验证码 → 回车 → 模型继续执行后续流程。
内置安全机制生效:所有涉及账户凭证、支付、短信的操作,均强制人工确认,不越雷池半步。
4.5 场景五:模糊指令理解(像人一样猜)
指令:
“帮我看看快递到哪了”
实际效果:
- 自动打开手机自带“快递”App(系统级聚合工具)→ 若未安装,则打开“菜鸟”→ 若未安装,则打开“京东”→ 在首页搜索框输入“我的快递”→ 加载物流列表 → 截图当前页面 → 用文字描述物流状态(如“包裹已发往上海,预计明日达”)并打印在终端。
没有指定App,它按预设优先级链路尝试,并在失败时降级处理,最终给出有效反馈。
5. 它不是万能的,但边界很清晰
Open-AutoGLM的强大,源于它不做“全能神”,而做“专业助手”。我们实测中明确遇到以下限制,但每一条都设计合理:
5.1 当前能力边界(实测确认)
| 能力类型 | 是否支持 | 说明 |
|---|---|---|
| 屏幕理解 | 支持 | 可识别图标、文字、按钮、列表、输入框、弹窗,对模糊截图(如暗光拍摄)识别率约82% |
| 动作执行 | 支持 | 点击、长按、滑动(上下左右)、输入文字、返回、Home键,不支持双指缩放、指纹验证 |
| 多App协同 | 支持 | 可在微信、淘宝、小红书等主流App间切换,但无法操作未上架的私有企业App |
| 实时语音交互 | ❌ 不支持 | 当前为纯文本指令,不支持“嘿Siri”式唤醒或语音转文字 |
| iOS设备 | ❌ 不支持 | 依赖ADB协议,仅限Android生态 |
5.2 三个必须知道的实用技巧
-
指令越具体,成功率越高:
好指令:“打开知乎,搜索‘大模型部署教程’,点第一个回答”
❌ 差指令:“教我部署大模型”(缺乏目标App和动作) -
善用“重试”机制:
若某步失败(如按钮未点中),终端会提示Action failed, retrying...,它会自动截图重分析,最多重试3次。 -
WiFi远程控制真香:
USB线碍事?执行adb tcpip 5555→ 断开USB →adb connect 192.168.3.100:5555(手机IP)→ 后续所有指令中的--device-id改为192.168.3.100:5555,手机放桌上,你坐沙发上发号施令。
6. 下一步:从试用到深度集成
当你第一次看到手机自己点开App、输入文字、完成任务时,那种“它真的懂我”的震撼,远超技术参数。而Open-AutoGLM的价值,正在于它把这种震撼,变成了可复用、可定制、可落地的工具。
- 个人效率:把它设为Mac快捷键(如Ctrl+Alt+A),随时唤起,一句话处理重复操作;
- 测试工程师:用
examples/batch_test.py批量跑100条UI指令,自动生成操作录像和日志; - 产品经理:在
config/prompts_zh.yml里修改中文提示词,让AI更懂业务术语(如把“搜索”改为“查一下”); - 开发者:继承
PhoneAgent类,重写_parse_action()方法,接入公司内部审批系统API,实现“发邮件申请→等审批→自动打款”全链路。
它不是一个黑盒产品,而是一个开放的智能体框架。你交付的不是需求文档,而是自然语言;它交付的不是代码,而是结果。
7. 总结:AI助理的拐点,就在此刻
回顾这5分钟:
你没装CUDA,没调显存,没写一行推理代码;
你只连了根线,敲了4条命令,说了1句人话;
然后,你的手机开始自己工作。
Open-AutoGLM的意义,不在于它多大、多快、多准,而在于它把“AI操控物理世界”的门槛,从博士论文级别,拉到了大学生课设级别。它证明了一件事:当视觉语言模型足够强,当ADB控制足够稳,当工程封装足够薄——“让AI替你摸手机”,就不再是未来学,而是工具箱里的一把螺丝刀。
现在,这把螺丝刀就在你面前。
你唯一要做的,是拧紧它。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)