小白必看：Open-AutoGLM让手机自动点外卖实录

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的安卓手机自动化操作。用户仅需一句话指令（如‘打开美团搜火锅并下单’），即可完成真实APP交互任务，典型应用于智能点外卖、查快递、发微信等日常效率场景。

安检

218人浏览 · 2026-01-31 00:50:00

安检 · 2026-01-31 00:50:00 发布

小白必看：Open-AutoGLM让手机自动点外卖实录

你有没有过这样的时刻——深夜加班饿得前胸贴后背，手指却像灌了铅，连打开外卖APP的力气都没有？或者正赶着开会，想订份咖啡却腾不出手操作手机？别急，今天带你用智谱开源的 Open-AutoGLM，亲手把手机变成听懂人话、会看屏幕、能点外卖的“AI小管家”。全程不用写一行模型代码，不调一个参数，连Python刚装好、ADB第一次听说的新手，也能在2小时内跑通“打开美团→搜火锅→下单支付”全流程。这不是科幻预告，是已经能跑起来的真实能力。

本文不是概念科普，而是一次完整、可复现、带避坑指南的实操记录。我会用你家电脑+安卓手机，从零开始，一步步演示如何让AI真正接管你的手机屏幕，完成真实任务。所有步骤都经过真机验证（测试机型：小米13，Android 14），每一步卡在哪、为什么卡、怎么绕过去，全都写清楚。

1. 它到底是什么：不是“另一个大模型”，而是“会动手的AI”

1.1 一句话说清Open-AutoGLM的本质

Open-AutoGLM 不是一个聊天机器人，也不是一个图片生成器。它是一个手机端AI Agent框架——你可以把它理解成给手机装上了一双“AI眼睛”和一双手。

AI眼睛：通过截图实时“看懂”你手机屏幕上显示的内容（比如美团首页的搜索框、店铺列表里的“评分4.8”、支付页面的“确认付款”按钮）；
AI大脑：把你的自然语言指令（如“帮我订份毛肚火锅”）拆解成“先打开美团→再点搜索→输入‘毛肚火锅’→选第1家→点‘立即购买’→填地址→付款”这一连串动作；
AI双手：通过 ADB（Android Debug Bridge）这条“数字神经”，在手机上模拟点击、滑动、输入文字，真正完成操作。

整个过程，就是“观察→思考→执行”的闭环，而你只需要说一句话。

1.2 它能做什么？先看三个真实任务结果

我们不讲虚的，直接上刚跑出来的三段真实操作记录（已脱敏）：

任务1：点外卖
指令：打开美团，搜索‘老码头火锅’，选评分最高的那家，下单一份毛肚锅底和一份黄喉，送到公司前台
实际效果：AI自动打开美团→跳转到搜索页→输入文字→识别出3家同名店→对比评分（4.9 > 4.7 > 4.5）→进入4.9分店铺→加购指定菜品→填写预设地址→停在支付页等待确认。
任务2：查快递
指令：打开菜鸟裹裹，查我最近三天的签收记录
实际效果：AI启动菜鸟APP→识别底部导航栏“我的”→点击→找到“我的快递”→下拉刷新→自动滚动到“已签收”分类→截取并返回最近三条物流单号及时间。
任务3：发微信
指令：打开微信，给张伟发消息‘会议推迟到下午三点，会议室换到B203’
实际效果：AI启动微信→在通讯录搜索“张伟”→进入聊天窗口→长按输入框调出键盘→用ADB Keyboard准确输入中文→点击发送。

这些不是演示视频，是我在自己手机上录下的真实操作流。关键在于：它不依赖APP内置API，不越狱不Root，只靠“看图+点按”就能工作——这意味着，只要界面可见，它理论上能操作任何安卓APP。

2. 准备工作：四样东西，缺一不可

别被“AI”吓住，这其实是一场硬件+软件的精准对接。下面四样东西，必须全部到位，少一样都会卡在第一步。

2.1 硬件清单（真机优先，模拟器慎用）

设备	要求	为什么重要
一台电脑	Windows 10+/macOS 12+，内存≥16GB	运行模型服务（vLLM）和控制端，显存非必需但有更好
一部安卓手机	Android 7.0+，系统未深度定制（推荐小米、华为、OPPO、vivo原生系统）	AutoGLM依赖标准ADB协议，某些厂商定制ROM会屏蔽部分调试权限
一根USB数据线	支持数据传输（非仅充电线）	首次连接必须用USB建立信任链，WiFi远程需以此为前提
稳定WiFi环境	手机与电脑在同一局域网（可选但强烈推荐）	后续切换WiFi控制，摆脱线缆束缚，操作更自由

注意：iOS设备不支持。目前Open-AutoGLM仅适配安卓生态。

2.2 软件安装：三步走，稳准快

步骤1：装好Python（3.10或更新版）

Windows用户：去 python.org 下载安装包，安装时务必勾选 “Add Python to PATH”。装完打开CMD，输入 python --version，看到 Python 3.10.x 或更高即成功。
Mac用户：终端运行 brew install python@3.10（没装Homebrew先装：/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"）。

步骤2：配置ADB工具（核心桥梁）

ADB是电脑和手机之间的“翻译官”。下载地址：Android SDK Platform-Tools（选对应系统zip包）。

Windows：解压到 D:\platform-tools，右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴 D:\platform-tools →确定。
Mac：解压后终端运行 export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools（路径按实际修改），然后 source ~/.zshrc 生效。

验证：终端/CMD输入 adb version，出现版本号（如 Android Debug Bridge version 1.0.41）即成功。

步骤3：手机开启开发者模式 & USB调试

这是最关键的一步，也是新手最容易卡住的地方：

打开手机【设置】→【关于手机】→连续点击【版本号】7次，直到弹出“您现在处于开发者模式”；
返回【设置】→【更多设置】→【开发者选项】→打开【USB调试】；
用USB线连接手机和电脑，手机弹出“允许USB调试吗？”→勾选【始终允许】→点【确定】。

验证是否成功：电脑终端输入 adb devices，若返回类似 ABC123456789 device 的一行，说明连接成功。如果显示 unauthorized，请检查手机是否点了“允许”。

3. 安装部署：五步完成，从克隆到运行

所有操作都在电脑终端（Windows用CMD/PowerShell，Mac用Terminal）中进行。我们采用本地模型服务+本地控制端的最简方案，无需云服务器。

3.1 下载并安装Open-AutoGLM控制端

# 克隆项目（约2MB，秒级完成）
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖（耐心等1-2分钟）
pip install -r requirements.txt
pip install -e .

3.2 安装ADB Keyboard（中文输入的关键）

AI要打字，必须用专用输入法。否则它只能点按钮，不能输“毛肚火锅”。

下载 ADBKeyboard.apk（GitHub项目Release页或搜索引擎搜“ADBKeyboard apk”即可找到）；
终端执行：
```
adb install ADBKeyboard.apk
```
手机设置：【设置】→【系统】→【语言和输入法】→【虚拟键盘】→启用【ADB Keyboard】，并设为默认。

验证：在手机任意输入框长按，应能看到“ADB Keyboard”选项；切换后，用 adb shell input text "test" 命令，手机输入框应出现“test”。

3.3 启动本地模型服务（vLLM）

Open-AutoGLM需要一个“AI大脑”来理解屏幕和指令。我们使用轻量级的 autoglm-phone-9b 模型（约18GB），通过vLLM推理框架启动。

国内用户推荐用ModelScope镜像快速下载：

# 创建模型目录
mkdir models && cd models
# 从魔搭下载（比Hugging Face快得多）
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
cd ..

启动服务（Linux/Mac）：

python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model ./models/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt '{"image":10}' \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --mm_processor_kwargs '{"max_pixels":5000000}'

Windows用户简化命令（功能稍减，但够用）：

python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --model ./models/AutoGLM-Phone-9B --port 8000

看到终端输出 Uvicorn running on http://0.0.0.0:8000 即启动成功。保持这个窗口常开。

3.4 连接手机设备（USB or WiFi）

USB直连（推荐首次使用）：确保 adb devices 已显示设备ID（如 ABC123456789）。
WiFi远程（进阶推荐）：
先用USB连上，终端运行：
```
adb tcpip 5555
```
断开USB，手机连WiFi，查看手机IP（【设置】→【关于手机】→【状态】→IP地址），然后：
```
adb connect 192.168.1.100:5555  # 替换为你手机的真实IP
adb devices  # 应显示 IP:5555    device
```

3.5 运行第一个任务：让AI打开“设置”

这是黄金验证步骤。成功了，后面全通。

python main.py \
  --device-id ABC123456789 \          # 替换为你的设备ID或IP:5555
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开设置"

预期输出：

💭 思考过程:
当前在桌面，需要打开设置应用

 执行动作: {"action": "Launch", "app": "设置"}

同时，你手机上的“设置”APP会自动启动。

如果卡住或报错，请先回头检查：ADB是否连上？ADB Keyboard是否启用？模型服务端口是否正确？这三个是90%问题的根源。

4. 实战点外卖：手把手跑通全流程

现在，我们正式挑战标题任务：“让手机自动点外卖”。以美团APP为例（其他APP逻辑一致），全程无跳步。

4.1 任务拆解：AI是怎么一步步做的？

你只说一句：“打开美团，搜毛肚火锅，下单一份”，AI内部却完成了至少12个动作：

截取当前手机屏幕；
识别桌面图标，定位“美团”APP；
模拟点击美团图标；
等待APP加载，再次截图；
识别顶部搜索框（带放大镜图标）；
点击搜索框；
调用ADB Keyboard输入“毛肚火锅”；
点击软键盘“搜索”按钮；
解析搜索结果页，识别店铺卡片；
对比各店铺“评分”字段，选出最高分（如4.9）；
点击该店铺进入详情页；
定位“点餐”按钮并点击……

整个过程全自动，你只需在敏感操作（如支付）前确认。

4.2 执行命令（复制即用）

python main.py \
  --device-id ABC123456789 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开美团，搜索毛肚火锅，选择评分最高的店铺，下单一份毛肚锅底和一份黄喉，送到公司前台"

提示：首次运行建议在安静环境，全程观察手机屏幕变化。你会看到AI像真人一样“看”、“点”、“输”、“滑”，非常直观。

4.3 关键细节与避坑指南

地址预设很重要：AI无法读取你通讯录或地图，所以“公司前台”这类模糊地址，需提前在美团APP里保存为常用地址，AI才能选中。
支付环节会暂停：当AI走到“确认付款”页时，会输出类似 需要人工确认：即将支付¥88.00，是否继续？，此时你手动点“确认”即可。这是安全机制，防止误扣款。
如果搜索无结果：尝试换关键词，如“重庆毛肚火锅”比“毛肚火锅”更易命中；或加限定词“附近”。
APP未安装？ AI会明确告诉你：“未检测到美团APP”，请先手动安装。

5. 进阶玩法：不止点外卖，还能这样玩

Open-AutoGLM的能力边界，远超点餐。掌握以下技巧，你能把它变成真正的效率引擎。

5.1 一句话批量操作：朋友圈点赞脚本

不想手动刷朋友圈？写个5行脚本：

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

model_config = ModelConfig(
    base_url="http://localhost:8000/v1",
    model_name="autoglm-phone-9b",
)
agent = PhoneAgent(model_config=model_config)

friends = ["妈妈", "同事小李", "大学室友"]
for name in friends:
    result = agent.run(f"打开微信，进入{name}的朋友圈，点赞最新一条动态")
    print(f"{name}: {result}")

5.2 自定义“快捷指令”：把复杂操作变一句话

编辑 phone_agent/config/prompts.py，在系统提示词里加入你的习惯：

SYSTEM_PROMPT = """
你是一个专注效率的手机助手。当用户说‘查快递’，请自动打开菜鸟裹裹，进入‘我的快递’，筛选‘已签收’，返回最近3条单号。
当用户说‘记笔记’，请打开‘语雀’APP，在‘每日记录’笔记本里新建一页，标题为‘YYYY-MM-DD 日记’，内容留空。
"""

以后只需说 查快递 或 记笔记，AI就按你定的流程走。

5.3 WiFi远程控制：躺在床上指挥客厅手机

把手机放在客厅支架上，电脑在卧室，全程WiFi操作：

手机开启【无线调试】（在开发者选项里）；
电脑执行 adb connect 192.168.1.100:5555；
后续所有 main.py 命令中，--device-id 直接填 192.168.1.100:5555。

从此，语音喊一声，客厅电视投屏、空调调温、甚至扫地机器人启停，都能交给AI。

6. 常见问题速查：卡住了？先看这三条

现象	最可能原因	一句话解决
`adb devices` 显示 `unauthorized` 或空白	手机没点“允许USB调试”	拔掉重连，手机弹窗必点“允许”，勾选“始终允许”
模型服务启动报错 `CUDA out of memory`	显存不足（<12GB）或没独显	加 `--device cpu` 参数强制CPU运行（速度慢但能跑）
AI一直“思考”不执行，或点错位置	手机屏幕太暗、锁屏、或APP界面有广告遮挡	保持屏幕常亮、解锁状态；关闭APP开屏广告；首次用简单任务（如“打开设置”）校准