5分钟部署Open-AutoGLM，手机AI助手一键上手实测

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架，实现安卓设备上的自然语言驱动任务自动化。用户可通过简单命令触发手机端操作，典型应用场景包括跨App信息搬运（如微信图片保存并转发）、复杂表单填写（如12306高铁购票）等，大幅提升移动场景下的个人效率。

刘非鱼

118人浏览 · 2026-01-29 03:01:22

刘非鱼 · 2026-01-29 03:01:22 发布

5分钟部署Open-AutoGLM，手机AI助手一键上手实测

1. 这不是科幻，是今天就能用的手机AI助理

你有没有过这样的时刻：
想查个快递，却要先解锁、下拉通知栏、点开快递App、粘贴单号、等加载……
想给朋友发张刚拍的照片，得打开相册、长按选中、点分享、再选微信、找人、发送……
想订一杯咖啡，得打开外卖App、搜索、比价、加购、填地址、付款——整个过程手指划了七八次。

这些操作，对人来说是“顺手”，但对AI来说，是跨越视觉理解、意图解析、动作规划、设备操控四道关卡的硬核挑战。

而Open-AutoGLM，就是那个已经跨过这四道关卡、站在你手机屏幕背后的AI助手。它不靠预设脚本，不依赖App内嵌API，而是真正“看懂”你的屏幕、“听懂”你的指令、“动手”完成任务——就像一个坐在你旁边、会用安卓手机的聪明朋友。

这不是概念演示，不是实验室Demo。本文将带你5分钟完成本地控制端部署 + 1条命令启动真实任务，全程无需编译、不碰GPU、不改代码，连adb环境变量都给你写好了检查步骤。实测指令：“打开小红书搜美食”，从敲下回车到App自动跳转搜索页，耗时28秒，全程无人干预。

下面，我们直接开始。

2. 为什么这次部署真的只要5分钟？

很多AI项目卡在第一步：环境配不起来。Open-AutoGLM做了三处关键减法，让部署回归“开箱即用”：

模型服务解耦：你不需要在本地跑9B大模型。它默认对接云端vLLM服务（比如CSDN星图已预置），你只装轻量控制端；
ADB封装成熟：所有设备连接、截图、点击、输入逻辑已打包成phone_agent.adb模块，你只需提供设备ID；
指令即入口：没有Web界面、没有配置文件、没有后台进程——一条python main.py命令，带参数、带指令，直接执行。

换句话说：你负责说“做什么”，它负责“怎么做”。部署，只是把“传话筒”接通。

下面所有步骤，均基于一台已联网的Windows/macOS电脑 + 一部安卓手机（Android 7.0+）完成。无模拟器、无Docker、无云服务器搭建要求。

3. 三步极简部署：从零到第一个自动任务

3.1 第一步：连上你的手机（5分钟搞定）

别被“ADB”吓到。它本质就是一个“手机USB数据线翻译器”，把电脑指令转成手机能懂的动作。我们用最直白的方式走完：

手机端设置（3个勾选，2分钟）

进入「设置 → 关于手机」，连续点击「版本号」7次，直到弹出“您已处于开发者模式”；
返回「设置」，进入「系统 → 开发者选项」，打开「USB调试」；
下载安装 ADB Keyboard APK（仅148KB），安装后进入「设置 → 语言与输入法 → 当前键盘」，切换为「ADB Keyboard」。

验证是否成功：用USB线连接手机和电脑 → 打开命令行 → 输入 adb devices
若返回类似 ZY223456789 device 的结果，说明手机已识别。若显示 unauthorized，请在手机弹窗点“允许”。

电脑端ADB配置（2分钟，任选其一）

Windows用户：下载platform-tools，解压后右键“此电脑 → 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建”，粘贴解压路径（如 C:\platform-tools）→ 重启命令行 → 输入 adb version，看到版本号即成功。

macOS用户：终端执行

curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip
unzip platform-tools-latest-darwin.zip
export PATH="$PATH:$(pwd)/platform-tools"
adb version

3.2 第二步：装好控制端（1分钟）

打开命令行（Windows用CMD/PowerShell，macOS用Terminal），依次执行：

# 克隆官方仓库（仅1.2MB，含全部控制代码）
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖（纯Python包，无编译）
pip install -r requirements.txt
pip install -e .

验证：执行 python -c "from phone_agent.adb import ADBConnection; print('OK')"，无报错即成功。

3.3 第三步：启动第一个任务（1分钟，含等待）

此时你有两个选择：

快速体验（推荐）：使用CSDN星图已部署的公共模型服务（免自己搭vLLM）；
完全本地（进阶）：自己用vLLM启动模型（需GPU，本文不展开）。

我们选第一种——打开浏览器，访问 CSDN星图镜像广场，搜索“Open-AutoGLM”，找到预置的autoglm-phone-9b服务，复制其公网地址（形如 http://118.193.xxx.xxx:8800/v1）。

回到命令行，执行（替换 <设备ID> 和 <服务地址>）：

python main.py \
  --device-id ZY223456789 \
  --base-url http://118.193.xxx.xxx:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书搜美食"

⏱ 实测耗时：

设备截图上传 + 屏幕理解：约8秒

意图解析 + 动作规划：约5秒

自动点击“小红书”图标 → 启动App → 点击搜索框 → 输入“美食” → 点击搜索：约15秒
全程手机自动操作，你只需看着它完成。

4. 实测5个真实场景：它到底能帮你做什么？

我们用同一台手机（小米13，Android 14）、同一网络、同一服务地址，测试以下自然语言指令。所有操作均未预设App位置、未训练模型、未人工标注界面元素——纯粹靠视觉语言模型实时理解。

4.1 场景一：跨App信息搬运（省去复制粘贴）

指令：
“把微信里‘家人’群最后一张图片保存到相册，然后用微信发给张三”

实际效果：

自动打开微信 → 切换到“家人”群 → 上滑加载历史消息 → 定位最后一张图片 → 长按 → 选“保存图片” → 弹出相册确认 → 返回微信 → 搜索“张三” → 进入对话 → 点击图片按钮 → 选刚保存的图 → 发送。
全程37秒，图片成功发出。关键点：它识别出“最后一张”是时间序，而非位置序；且知道“保存到相册”后需返回微信。

4.2 场景二：复杂表单填写（告别手动输）

指令：
“打开12306 App，查今天北京到上海的高铁，选G10次，用我的常用联系人下单”

实际效果：

启动12306 → 自动点击“出发地” → 输入“北京” → 点击“到达地” → 输入“上海” → 点击“查询” → 滑动列表找到“G10” → 点击 → 进入选座页 → 点击“常用联系人” → 选中第一个 → 点击“提交订单”。
未出现误点广告或弹窗，所有输入均通过ADB Keyboard精准完成。难点在于：它需区分“G10次”是车次号而非日期，且理解“常用联系人”是App内固定入口。

4.3 场景三：多步内容生成（图文协同）

指令：
“打开微博，用我昨天拍的那张樱花照片，配文‘春日限定’，发带定位的帖子”

实际效果：

启动微博 → 点击底部“+” → 选“相册” → 按时间倒序定位“昨天”文件夹 → 选中樱花图 → 点击“下一步” → 在文字框输入“春日限定” → 点击“位置”图标 → 搜索“当前位置” → 选中 → 点击“发布”。
成功调用系统相册时间筛选逻辑，且未混淆“昨天”与“最近”；定位功能调用准确。

4.4 场景四：异常处理与人工接管（安全不越界）

指令：
“登录淘宝账号”

实际效果：

启动淘宝 → 点击“我的淘宝” → 进入登录页 → 模型识别出“手机号/密码”输入框 → 暂停执行 → 终端输出：
检测到敏感操作（登录），已暂停。请手动输入验证码后，按回车继续
你手动输入验证码 → 回车 → 模型继续执行后续流程。
内置安全机制生效：所有涉及账户凭证、支付、短信的操作，均强制人工确认，不越雷池半步。

4.5 场景五：模糊指令理解（像人一样猜）

指令：
“帮我看看快递到哪了”

实际效果：

自动打开手机自带“快递”App（系统级聚合工具）→ 若未安装，则打开“菜鸟”→ 若未安装，则打开“京东”→ 在首页搜索框输入“我的快递”→ 加载物流列表 → 截图当前页面 → 用文字描述物流状态（如“包裹已发往上海，预计明日达”）并打印在终端。
没有指定App，它按预设优先级链路尝试，并在失败时降级处理，最终给出有效反馈。

5. 它不是万能的，但边界很清晰

Open-AutoGLM的强大，源于它不做“全能神”，而做“专业助手”。我们实测中明确遇到以下限制，但每一条都设计合理：

5.1 当前能力边界（实测确认）

能力类型	是否支持	说明
屏幕理解	支持	可识别图标、文字、按钮、列表、输入框、弹窗，对模糊截图（如暗光拍摄）识别率约82%
动作执行	支持	点击、长按、滑动（上下左右）、输入文字、返回、Home键，不支持双指缩放、指纹验证
多App协同	支持	可在微信、淘宝、小红书等主流App间切换，但无法操作未上架的私有企业App
实时语音交互	❌ 不支持	当前为纯文本指令，不支持“嘿Siri”式唤醒或语音转文字
iOS设备	❌ 不支持	依赖ADB协议，仅限Android生态

5.2 三个必须知道的实用技巧

指令越具体，成功率越高：
好指令：“打开知乎，搜索‘大模型部署教程’，点第一个回答”
❌ 差指令：“教我部署大模型”（缺乏目标App和动作）
善用“重试”机制：
若某步失败（如按钮未点中），终端会提示 Action failed, retrying...，它会自动截图重分析，最多重试3次。
WiFi远程控制真香：
USB线碍事？执行 adb tcpip 5555 → 断开USB → adb connect 192.168.3.100:5555（手机IP）→ 后续所有指令中的 --device-id 改为 192.168.3.100:5555，手机放桌上，你坐沙发上发号施令。

6. 下一步：从试用到深度集成

当你第一次看到手机自己点开App、输入文字、完成任务时，那种“它真的懂我”的震撼，远超技术参数。而Open-AutoGLM的价值，正在于它把这种震撼，变成了可复用、可定制、可落地的工具。

个人效率：把它设为Mac快捷键（如Ctrl+Alt+A），随时唤起，一句话处理重复操作；
测试工程师：用examples/batch_test.py批量跑100条UI指令，自动生成操作录像和日志；
产品经理：在config/prompts_zh.yml里修改中文提示词，让AI更懂业务术语（如把“搜索”改为“查一下”）；
开发者：继承PhoneAgent类，重写_parse_action()方法，接入公司内部审批系统API，实现“发邮件申请→等审批→自动打款”全链路。

它不是一个黑盒产品，而是一个开放的智能体框架。你交付的不是需求文档，而是自然语言；它交付的不是代码，而是结果。