Open-AutoGLM部署教程：手机AI Agent一键操控实战指南

本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架——Open-AutoGLM。该平台简化了部署流程，用户可快速搭建环境，让AI助手通过理解自然语言指令，自动操控手机完成如打开应用、搜索信息、跨应用发送消息等日常任务，实现手机操作的智能化与自动化。

己见明

333人浏览 · 2026-03-10 03:00:44

己见明 · 2026-03-10 03:00:44 发布

Open-AutoGLM部署教程：手机AI Agent一键操控实战指南

想象一下，你正躺在沙发上，突然想在小红书上找找附近的美食推荐。你只需要对着手机说一句“打开小红书搜美食”，手机就自己动了起来——解锁、打开App、进入搜索框、输入关键词、展示结果，整个过程一气呵成，而你全程没有碰一下屏幕。

这不是科幻电影，而是Open-AutoGLM带来的真实体验。作为智谱开源的一款手机端AI Agent框架，它让手机真正变成了能听懂人话、看懂屏幕、并自动执行任务的智能助理。今天，我就带你从零开始，一步步部署这个神奇的工具，让你的手机也拥有“自动驾驶”能力。

1. 什么是Open-AutoGLM？

在开始动手之前，我们先简单了解一下这个工具到底是什么，能做什么。

1.1 核心能力：让手机自己“干活”

Open-AutoGLM，特别是其中的Phone Agent模块，本质上是一个基于视觉语言模型的AI手机智能助理。它的工作原理可以概括为三个步骤：

看懂屏幕：通过AI模型实时分析手机屏幕上的内容，识别按钮、文字、图标等元素。
理解指令：把你用自然语言说的话（比如“打开微信给张三发消息”）转换成具体的操作步骤。
自动执行：通过ADB（Android调试桥）控制手机，模拟点击、滑动、输入等操作，完成整个任务链。

举个例子，当你下达指令“打开抖音搜索用户‘科技老王’并关注”时，Phone Agent会：

先判断抖音是否已打开，如果没有就启动它
识别出屏幕上的搜索入口并点击
在搜索框里输入“科技老王”
找到对应的用户头像
点击关注按钮

整个过程完全自动化，就像有个看不见的助手在帮你操作手机。

1.2 技术架构：多模态AI+自动化控制

Phone Agent的技术栈相当精妙，它结合了当前最前沿的几项技术：

视觉语言模型：这是系统的“眼睛”和“大脑”，负责理解屏幕截图里有什么，以及用户指令到底想干什么。
任务规划引擎：把复杂的用户指令拆解成一步步可执行的操作，比如“先点这里，再输文字，然后按确认”。
ADB控制层：实际操控手机的“手”，通过标准的Android调试命令模拟真实用户操作。
安全确认机制：遇到敏感操作（比如付款、删除数据）时会暂停并请求人工确认，避免误操作。

这套组合拳让Phone Agent既聪明又可靠，既能处理复杂任务，又不会“乱来”。

2. 环境准备：电脑和手机都要准备好

部署Open-AutoGLM需要两端配合：一个是运行AI模型的服务器（或云端服务），另一个是控制手机的本地电脑。我们先从本地电脑端开始。

2.1 电脑端环境配置

你的电脑需要满足以下基本要求：

操作系统

Windows 10/11 或 macOS 10.15+
Linux（Ubuntu 20.04+等）也可以，但本文以Windows和macOS为主

Python环境

Python 3.10或更高版本
建议使用Anaconda或Miniconda创建独立的虚拟环境，避免包冲突

ADB工具 这是连接和控制安卓设备的关键工具，需要单独安装。

Windows用户安装ADB：

从官方渠道下载ADB工具包（通常叫platform-tools）
解压到任意目录，比如 C:\adb
配置环境变量：
- 右键“此电脑” → 属性 → 高级系统设置 → 环境变量
- 在“系统变量”中找到Path，点击编辑
- 点击新建，输入ADB工具的解压路径（如 C:\adb）
- 点击确定保存所有设置
验证安装：打开命令提示符（cmd），输入 adb version，如果显示版本信息就说明成功了。

macOS用户安装ADB：更简单，用Homebrew一行命令搞定：

brew install android-platform-tools

安装后同样在终端输入 adb version 验证。

如果没有Homebrew，也可以手动下载解压，然后临时添加路径：

# 假设解压到了Downloads目录
export PATH=$PATH:~/Downloads/platform-tools

想让这个设置永久生效，可以把上面这行添加到 ~/.zshrc 或 ~/.bash_profile 文件里。

2.2 手机端设置

要让电脑控制你的手机，需要在手机上开启几个权限：

第一步：开启开发者模式 这个选项默认是隐藏的，需要“破解”出来：

打开手机设置 → 关于手机
找到“版本号”或“软件版本号”
连续点击7次（不同手机可能次数不同），直到看到“您已处于开发者模式”的提示

第二步：开启USB调试 开发者模式开启后，设置里会多出一个“开发者选项”：

返回设置主界面，找到“开发者选项”（可能在系统设置或高级设置里）
进入后找到“USB调试”，打开它
首次连接电脑时，手机会弹出授权提示，记得勾选“始终允许”并确认

第三步：安装ADB Keyboard（重要） 这是关键一步！Phone Agent需要通过ADB向手机输入文字，但很多手机的默认输入法不支持这种方式的输入。

安装方法：

在手机浏览器搜索“ADB Keyboard apk下载”，找一个可靠的来源下载安装包
安装后，打开手机设置 → 系统 → 语言和输入法
在“键盘和输入法”里，将默认输入法改为“ADB Keyboard”

现在你的手机已经准备好被“遥控”了。

3. 部署控制端代码

环境准备好后，我们开始安装Open-AutoGLM的控制端代码。这部分代码运行在你的电脑上，负责接收AI指令并控制手机。

3.1 下载代码和安装依赖

打开命令行工具（Windows用cmd或PowerShell，macOS用终端），依次执行以下命令：

# 1. 克隆官方代码仓库
git clone https://github.com/zai-org/Open-AutoGLM

# 2. 进入项目目录
cd Open-AutoGLM

# 3. 安装Python依赖包
pip install -r requirements.txt

# 4. 以可编辑模式安装项目本身
pip install -e .

这里解释一下几个关键点：

git clone 是把代码从GitHub下载到本地
requirements.txt 包含了所有需要的Python库，比如处理图像的Pillow、网络请求的requests等
pip install -e . 中的 -e 意思是“可编辑模式”，这样你修改代码后不需要重新安装就能生效

如果安装过程中遇到网络问题，可以尝试使用国内镜像源：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3.2 连接你的手机

代码安装好后，需要让电脑和手机建立连接。有两种方式：USB直连和WiFi无线连接。

USB连接（最稳定）

用数据线把手机连接到电脑
在命令行输入：

adb devices

如果一切正常，你会看到类似这样的输出：

List of devices attached
abcdef123456    device

那个“abcdef123456”就是你的设备ID，后面会用到。

如果显示“unauthorized”，说明手机上的授权弹窗你没确认，去手机上看一眼，点“允许”就行。

WiFi连接（更灵活） 如果你想摆脱数据线的束缚，可以设置WiFi连接：

# 1. 先用USB线连接一次，开启TCP/IP模式
adb tcpip 5555
# 看到“restarting in TCP mode port: 5555”表示成功

# 2. 拔掉USB线，查看手机IP地址
# 在手机设置 → WLAN → 当前连接的WiFi里能看到IP，通常是192.168.x.x

# 3. 通过WiFi连接
adb connect 192.168.1.100:5555  # 替换成你的手机IP
# 连接成功后，同样用 adb devices 确认

WiFi连接的好处是你可以远程控制手机，比如手机在客厅，你在书房用电脑控制它。但要注意，WiFi连接可能不如USB稳定，如果经常断连，建议还是用USB。

4. 启动AI代理：让手机“活”起来

重头戏来了！现在我们要启动Phone Agent，给你的手机注入“灵魂”。

4.1 你需要一个AI模型服务

Phone Agent本身不包含AI模型，它需要调用一个在线的视觉语言模型来理解屏幕和指令。你有两个选择：

选择一：使用云端服务（推荐给初学者） 最简单的方法是使用现成的AI服务。Open-AutoGLM官方推荐使用智谱的API，或者其他支持兼容接口的模型服务。

选择二：本地部署模型（适合有显卡的用户） 如果你有性能足够的GPU（比如RTX 3090/4090或以上），可以在自己的电脑或服务器上部署模型：

# 这是一个示例命令，具体参数需要根据你的显卡调整
python -m vllm.entrypoints.openai.api_server \
    --model THUDM/autoglm-phone-9b \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 8192

部署好后，你会得到一个API地址，比如 http://localhost:8000/v1。

4.2 运行你的第一个AI指令

假设你已经有了模型服务，地址是 http://192.168.1.50:8000/v1，手机设备ID是 abcdef123456。

打开命令行，进入Open-AutoGLM目录，运行：

python main.py \
  --device-id abcdef123456 \
  --base-url http://192.168.1.50:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音，搜索抖音号为dycwo11nt61d的博主并关注他！"

分解一下这个命令：

--device-id：你的手机ID，就是 adb devices 显示的那个
--base-url：AI模型服务的地址
--model：使用的模型名称，这里用的是官方推荐的9B参数版本
最后引号里的是你要AI执行的指令，用自然语言写就行

运行后，你会看到神奇的一幕：手机自动亮屏、解锁（如果没设密码）、打开抖音、进入搜索、输入ID、找到用户、点击关注……整个过程完全自动化。

4.3 通过Python代码控制

如果你想把Phone Agent集成到自己的项目里，也可以用Python代码来调用：

from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent

# 创建连接
conn = ADBConnection()

# 连接设备（WiFi方式示例）
success, message = conn.connect("192.168.1.100:5555")
print(f"连接状态: {message}")

# 列出所有已连接的设备
devices = list_devices()
for device in devices:
    print(f"设备ID: {device.device_id}, 连接方式: {device.connection_type.value}")

# 创建AI代理
agent = PhoneAgent(
    device_id="192.168.1.100:5555",
    base_url="http://192.168.1.50:8000/v1",
    model_name="autoglm-phone-9b"
)

# 执行任务
task_description = "打开微信，找到最近聊天里的小王，问他晚上要不要一起吃饭"
result = agent.run(task_description)
print(f"任务执行结果: {result}")

这段代码展示了如何以编程方式控制Phone Agent，你可以基于此开发更复杂的自动化流程。

5. 实战案例：自动完成日常任务

理论讲完了，我们来点实际的。下面我分享几个真实可用的案例，你可以直接复制这些指令试试效果。

5.1 案例一：自动化信息收集

假设你想了解某个话题的最新信息：

python main.py \
  --device-id your_device_id \
  --base-url your_model_url \
  --model "autoglm-phone-9b" \
  "打开微博，搜索‘人工智能大会’，把前三条热门微博的内容和点赞数记下来"

Phone Agent会：

打开微博App
点击搜索框
输入“人工智能大会”
浏览搜索结果
识别出微博内容和点赞数
通过ADB Keyboard输入到记事本或直接返回给程序

5.2 案例二：跨应用工作流

更复杂的任务也能处理：

python main.py \
  --device-id your_device_id \
  --base-url your_model_url \
  --model "autoglm-phone-9b" \
  "先打开相机拍一张窗外的照片，然后打开微信，把照片发到‘家人群’，并说‘今天天气真好’"

这个指令涉及多个App的切换和协同，Phone Agent会按顺序执行：

启动相机 → 拍照 → 保存
切换到微信 → 进入家人群 → 选择相册 → 选择刚拍的照片 → 输入文字 → 发送

5.3 案例三：重复性操作自动化

对于每天都要做的重复操作，Phone Agent能节省大量时间：

# 用Python脚本批量处理
tasks = [
    "打开钉钉，完成每日健康打卡",
    "打开支付宝，收取所有蚂蚁森林能量",
    "打开网易云音乐，播放‘每日推荐’歌单",
    "打开京东，查看待收货订单状态"
]

for task in tasks:
    agent.run(task)
    time.sleep(2)  # 每个任务间隔2秒