3步搞定Open-AutoGLM部署：新手也能快速上手实战指南

本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架——Open-AutoGLM。通过该平台，用户可以快速搭建环境，轻松实现AI驱动的手机自动化操作。该镜像的核心应用场景是让AI作为“数字替身”，通过自然语言指令自动完成如打开应用、搜索内容、信息收集等日常繁琐的手机操作任务。

苏西苏西

162人浏览 · 2026-03-06 07:36:01

苏西苏西 · 2026-03-06 07:36:01 发布

3步搞定Open-AutoGLM部署：新手也能快速上手实战指南

想象一下，你正躺在沙发上，对着手机说：“帮我打开小红书，搜一下周末去哪吃火锅。”然后你的手机就自己动了起来，精准地打开App，输入搜索词，把结果展示给你。这不是科幻电影，而是今天我们要一起部署的 Open-AutoGLM 能帮你实现的事。

Open-AutoGLM，特别是它的 Phone Agent 框架，就像一个装在手机里的“数字替身”。它不仅能看懂你手机屏幕上显示的一切（文字、按钮、图片），还能通过模拟点击、滑动、输入，自动帮你完成一系列操作。你只需要动动嘴皮子（或者说，动动键盘），剩下的交给它。

对于刚接触的朋友，你只需要知道：这是一个能让AI帮你自动操作手机的框架。今天，我就带你用最简单的三步，从零开始把它跑起来，让你亲眼看看AI是如何成为你的手机助手的。

1. 第一步：理解核心——Phone Agent是什么？

在开始动手之前，我们先花两分钟，搞明白我们要部署的到底是个什么东西。这样后面操作起来，你会更清楚每一步在干什么。

1.1 一句话讲清楚

Phone Agent是一个基于AI视觉语言模型的“手机自动操作机器人”。

你可以把它想象成一个同时具备了“眼睛”和“手”的智能程序：

眼睛（视觉理解）：它能实时“看到”你手机的屏幕截图，并理解上面有什么。比如，它能认出哪个是“微信”图标，哪个是“搜索框”，哪段文字是新闻标题。
大脑（规划决策）：它根据你的指令（如“打开抖音搜索搞笑视频”）和当前“看到”的屏幕内容，思考下一步该点哪里、输入什么。
手（自动操作）：它通过一个叫ADB的工具，模拟人的手指，去点击屏幕、输入文字、上下滑动。

1.2 它能帮你做什么？（小白视角场景举例）

光说概念可能有点抽象，我们来看几个它具体能干的活：

自动化测试：如果你是开发人员，可以让它自动帮你把App的所有功能点一遍，看看会不会崩溃。
日常省事操作：
- “帮我清空微信缓存。”
- “打开支付宝，给我的手机充100元话费。”
- “在淘宝上搜一下‘无线鼠标’，按销量排序，把前三个商品加入购物车。”
信息收集：“打开今日头条，把科技板块的前10条新闻标题和链接保存下来。”
社交管理：“打开微博，找到我最近关注的那个人，给他最新的一条微博点个赞。”

它的核心价值就是：把重复、繁琐的手机操作流程，变成一句简单的自然语言命令。

1.3 整个系统是怎么工作的？

整个系统跑起来，需要两部分配合，有点像“云脑”+“本地手”：

云端AI大脑（服务端）：我们需要在一台有显卡的服务器（比如云服务器）上，部署一个强大的多模态AI模型。这个模型负责“看”和“想”，也就是理解屏幕和规划操作。这部分通常由平台或运维人员提前部署好，对于使用者，我们通常只需要获得一个可访问的API地址（比如 http://123.45.67.89:8000/v1）。
本地控制端（客户端）：这就是我们今天要重点部署的部分。它运行在你的电脑上，负责三件事：
- 通过USB数据线或WiFi连接到你的手机。
- 把手机的屏幕截图发送给“云端AI大脑”去分析。
- 接收AI大脑的指令（“点击坐标[300,500]”），并通过ADB工具让手机执行。

简单来说，我们今天要做的，就是在你的电脑上搭建好这个“本地控制端”，并让它成功连接你的手机和云端AI服务。

2. 第二步：动手准备——电脑和手机的配置

好了，原理清楚了，我们开始动手。这一步的目标是：让你的电脑能“指挥”你的安卓手机。

2.1 电脑端环境准备

首先，确保你的电脑（Windows或Mac都行）已经准备好了以下工具：

Python：这是运行控制端代码的语言。建议安装Python 3.10或更新的版本。你可以在命令行输入 python --version 来检查。
Git：用来下载代码的工具。如果没安装，去Git官网下载安装即可。
ADB工具：这是连接和控制手机的关键桥梁。

重点：安装和配置ADB

ADB（Android Debug Bridge）是谷歌提供的调试工具，我们的程序就是通过它来操作手机的。

对于Windows用户：

从官网下载ADB工具包（通常叫platform-tools）。
解压到一个你容易找到的文件夹，比如 C:\platform-tools。
把这个文件夹的路径添加到系统的环境变量Path中：
- 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
- 在“系统变量”里找到Path，点击“编辑”。
- 点击“新建”，把C:\platform-tools（你的实际路径）添加进去。
验证：打开命令行（cmd），输入 adb version 然后回车。如果出现版本号信息，说明配置成功。

对于Mac用户： 通常更简单。你可以使用Homebrew安装：打开终端（Terminal），输入：

brew install android-platform-tools

安装后，同样在终端输入 adb version 验证。

2.2 手机端设置

现在，来设置你的安卓手机（需要Android 7.0以上版本）。

开启开发者模式：
- 进入手机的“设置” -> “关于手机”。
- 找到“版本号”或“软件版本号”，连续快速点击7次左右，直到屏幕提示“您已处于开发者模式”。
开启USB调试：
- 回到“设置”，现在你应该能看到多出了一个“开发者选项”（可能在“系统”或“高级设置”里）。
- 进入“开发者选项”，找到“USB调试”，打开它。
安装ADB Keyboard（重要！）：
- 为什么需要这个？因为我们的AI程序需要通过电脑向手机输入文字，而手机默认的输入法可能不接收这种来自ADB的输入指令。ADB Keyboard是一个特殊的输入法，专门用于此目的。
- 操作步骤：
  - 在手机浏览器中搜索并下载 ADB Keyboard 的APK安装文件。
  - 安装此应用。
  - 进入手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”。
  - 找到“ADB Keyboard”，启用它。
  - 在“默认输入法”中，将其切换为“ADB Keyboard”。

完成以上步骤后，用USB数据线将手机连接到电脑。此时手机上可能会弹出“是否允许USB调试？”的提示，勾选“始终允许”，并点击“确定”。

3. 第三步：部署与运行——让AI开始工作

环境配置好了，手机也连上了，现在我们把核心的控制程序部署到电脑上，并让它开始执行第一个任务。

3.1 下载并安装控制端代码

打开电脑的命令行（Windows的cmd/PowerShell，Mac的Terminal），依次执行以下命令：

# 1. 从GitHub上把Open-AutoGLM的代码下载到本地
git clone https://github.com/zai-org/Open-AutoGLM

# 2. 进入刚刚下载的文件夹
cd Open-AutoGLM

# 3. 安装运行所需的所有Python依赖包
pip install -r requirements.txt

# 4. 以“可编辑”模式安装当前项目，方便后续调用
pip install -e .

这个过程可能会花几分钟，取决于你的网络速度。如果遇到某个包安装慢或失败，可以尝试使用国内的镜像源，例如在命令后加上 -i https://pypi.tuna.tsinghua.edu.cn/simple。

3.2 连接你的手机

确保手机通过USB连接电脑，并且已按照2.2的步骤完成设置。

检查连接：在命令行中输入：
```
adb devices
```
你会看到类似下面的输出：
```
List of devices attached
a1b2c3d4    device
```
这表示你的手机（设备ID为a1b2c3d4）已经被电脑识别并连接成功。请记下你的设备ID。

WiFi连接（可选，更灵活）：如果你觉得插着线不方便，可以切换到WiFi连接。注意：首次设置仍需USB连接。

# 先用USB线连接，开启手机的TCP/IP调试模式（端口通常为5555）
adb tcpip 5555

# 断开USB线，让手机和电脑处于同一个WiFi网络下
# 查看手机的IP地址（通常在设置->关于手机->状态信息里）
# 假设你的手机IP是 192.168.1.100
adb connect 192.168.1.100:5555

再次运行 adb devices，你应该能看到一个通过 192.168.1.100:5555 连接的设备。

3.3 启动AI代理，执行第一个指令！

激动人心的时刻到了！我们将运行主程序，并给它下达第一个命令。

在运行前，你需要一个云端AI服务的地址。这个地址通常由提供AI模型服务的一方给出，格式像 http://服务器IP:端口/v1。这里我们假设你已经有了一个可用的地址：http://123.45.67.89:8000/v1。

在 Open-AutoGLM 目录下，打开命令行，运行以下命令（请替换其中的参数为你的实际信息）：

python main.py \
  --device-id a1b2c3d4 \
  --base-url http://123.45.67.89:8000/v1 \
  --model "autoglm-phone-9b" \
  “打开抖音，搜索用户‘科技美学’并关注”

参数解释：

--device-id：你通过 adb devices 看到的设备ID或WiFi地址（如 192.168.1.100:5555）。
--base-url：你的云端AI模型服务的API地址。
--model：指定要使用的模型名称，这里用 autoglm-phone-9b。
最后的字符串：就是你给AI下的自然语言指令。

接下来，见证奇迹：

程序启动后，你的手机屏幕可能会黑一下（这是在获取屏幕截图）。
然后你会看到手机“自己动了起来”！它会自动解锁（如果设置了）、找到抖音图标、点击打开、找到搜索框、输入“科技美学”、点击搜索结果、进入用户主页、点击关注……
整个过程中，你的电脑命令行会打印出AI的“思考过程”，比如“当前屏幕是桌面，我需要找到抖音App”，“已进入抖音，正在定位搜索框”等。

3.4 进阶：用Python代码更灵活地控制

如果你懂一点Python，还可以用更编程化的方式来使用它，实现更复杂的自动化流程。下面是一个简单的示例：

# 示例：连接设备并执行简单任务
from phone_agent.adb import ADBConnection, list_devices

# 1. 创建一个连接管理器
conn = ADBConnection()

# 2. 连接到你的手机（这里用WiFi地址示例）
device_ip = "192.168.1.100:5555"
success, message = conn.connect(device_ip)
if success:
    print(f"成功连接到设备: {message}")
else:
    print(f"连接失败: {message}")

# 3. 列出所有已连接的设备（检查用）
print("当前连接的设备：")
devices = list_devices()
for d in devices:
    print(f"  - {d.device_id} ({d.connection_type.value})")

# 4. 你可以在这里插入更复杂的任务逻辑...
# 例如，循环执行多个指令，或者根据屏幕内容做条件判断。

# 5. 任务完成后，断开连接
conn.disconnect(device_ip)
print("设备连接已断开。")

4. 常见问题与解决思路

第一次部署，难免会遇到一些小麻烦。这里列出几个最常见的问题和解决方法：

问题：运行 adb devices 后，设备列表是空的。
- 解决：
  1. 检查USB线是否插好，换一根线试试。
  2. 检查手机是否弹出“允许USB调试”的提示，要点“确定”。
  3. 在手机“开发者选项”里，检查“USB调试”是否确实已开启。
  4. 电脑上可能需要安装手机对应的USB驱动程序（特别是Windows电脑）。
问题：连接时提示 cannot connect to 192.168.x.x:5555: Connection refused。
- 解决：确保先用USB线执行了 adb tcpip 5555 命令。并且手机和电脑必须在同一个WiFi网络下。
问题：AI执行操作时，无法在搜索框输入文字。
- 解决：这很可能是因为你没有正确设置 ADB Keyboard 为默认输入法。请返回 2.2 第3步 仔细检查。
问题：运行 python main.py 时，提示缺少某个Python库。
- 解决：虽然我们安装了 requirements.txt，但有时会有遗漏。根据报错信息，手动安装缺失的包即可，例如 pip install 缺失的包名。
问题：指令执行到一半卡住了，或者点了奇怪的地方。
- 解决：AI模型并非100%准确，屏幕内容复杂时可能判断失误。可以尝试：
  1. 简化你的指令，分步进行。
  2. 确保手机屏幕当前状态不要太杂乱。
  3. 使用更高性能的云端AI模型服务。