Open-AutoGLM保姆级教程：10分钟让AI帮你操作手机，零基础也能玩转

本文介绍了如何在星图GPU平台上自动化部署智谱开源的Open-AutoGLM镜像，快速搭建手机端AI Agent。该框架能通过自然语言指令，让AI自动操作安卓手机，完成如自动搜索菜谱、播放音乐等日常任务，实现“动口不动手”的智能交互体验。

刘非鱼

26人浏览 · 2026-03-06 02:18:08

刘非鱼 · 2026-03-06 02:18:08 发布

Open-AutoGLM保姆级教程：10分钟让AI帮你操作手机，零基础也能玩转

想象一下这个场景：你正忙着做饭，突然想用手机搜个菜谱。你只需要对着电脑说一句“打开小红书搜红烧肉做法”，你的手机就会自动亮屏、解锁、打开App、输入关键词、展示结果——全程无需你动手。

这不是科幻电影，而是今天就能用上的技术。Open-AutoGLM，一个由智谱AI开源的手机智能体框架，正在让这种“动口不动手”的操作变成现实。

你可能觉得这听起来很复杂，需要懂编程、会配置环境、还得有高性能电脑。别担心，这篇教程就是为你准备的。无论你是完全零基础的小白，还是想快速上手的开发者，我都会用最直白的话，带你在10分钟内完成部署，让AI成为你的手机管家。

1. 它到底是什么？能做什么？

简单来说，Open-AutoGLM是一个“手机遥控器”，但这个遥控器不是用手按的，而是用“说话”来控制的。它的核心是一个能看懂手机屏幕的AI模型（AutoGLM-Phone-9B）和一个执行操作的框架（Phone Agent）。

它的工作原理分三步：

看屏幕：通过ADB（一个安卓调试工具）实时获取你手机的屏幕截图。
想事情：AI模型分析截图，理解当前界面有什么（按钮、文字、图标），并结合你的指令（比如“打开微信”），思考下一步该点哪里。
做动作：通过ADB模拟你的手指，执行点击、滑动、输入等操作。

它能帮你做什么？

日常偷懒：一句“打开网易云音乐播放我的日推”，音乐就响起来了。
信息收集：“打开淘宝，搜索无线耳机，按销量排序，截图前5个商品”。
社交管理：“打开微博，给特别关注的最新动态点个赞”。
自动化测试：如果你是App开发者，可以用它自动测试各种功能流程。

听起来很酷，对吧？接下来，我们从零开始，把它装起来。

2. 准备工作：三样东西备齐就行

在动手之前，你需要准备好三样东西：一台电脑、一部安卓手机、一个能上网的环境。我会把每一步都拆解得清清楚楚。

2.1 第一步：准备你的电脑环境

你的电脑可以是Windows、Mac或者Linux。首先，确保安装了Python。

检查Python版本：打开电脑的命令行（Windows叫“命令提示符”或“PowerShell”，Mac/Linux叫“终端”）。
输入 python --version 或 python3 --version 并回车。
如果显示版本是 3.10或更高（比如3.10.12, 3.11.4），那就没问题。如果版本太低或者没安装，去Python官网下载最新版安装即可。

2.2 第二步：安装“遥控器”——ADB工具

ADB（Android Debug Bridge）是让电脑和手机“对话”的桥梁。安装它就像给电脑装个手机驱动程序。

下载ADB：

访问谷歌官方的平台工具下载页面。
根据你的电脑系统（Windows、Mac、Linux）下载对应的压缩包。
下载后，把它解压到一个你记得住的文件夹，比如 C:\platform-tools 或 ~/Downloads/platform-tools。

配置环境变量（让电脑能找到它）：

Windows用户：
- 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
- 在“系统变量”里找到并选中 Path，点击“编辑”。
- 点击“新建”，把刚才解压的 platform-tools 文件夹的完整路径粘贴进去（例如 C:\platform-tools）。
- 一路点击“确定”保存。
Mac/Linux用户：
- 打开终端，输入以下命令（请把 ~/Downloads/platform-tools 替换成你的实际路径）：
```
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc  # 如果你用zsh
# 或者
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.bash_profile # 如果你用bash
```
- 然后输入 source ~/.zshrc（或 source ~/.bash_profile）让配置生效。

验证安装： 打开命令行，输入 adb version 然后回车。如果出现一串版本信息，恭喜你，ADB安装成功！

2.3 第三步：设置你的安卓手机

你的手机需要是Android 7.0或以上版本。

开启开发者模式：
- 进入手机“设置” -> “关于手机”。
- 找到“版本号”，连续快速点击7次，直到出现“您已处于开发者模式”的提示。
开启USB调试：
- 返回“设置”，现在你应该能看到多了一个“开发者选项”或“开发人员选项”。
- 点进去，找到“USB调试”并打开它。
- 非常重要：同时找到“USB调试（安全设置）”或“通过USB验证应用”之类的选项，也把它打开。很多朋友卡在这一步，AI能打开App但点不了屏幕，就是因为这个开关没开。
安装ADB键盘（为了输入中文）：
- 在电脑浏览器下载 ADB Keyboard的APK文件。
- 用USB线连接手机和电脑，在命令行进入你下载APK的目录，执行：
```
adb install ADBKeyboard.apk
```
- 安装成功后，在手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”里，能看到“ADB Keyboard”选项。不需要把它设为默认，系统会在需要时自动调用它。

好了，万事俱备，只欠东风。接下来我们安装核心的Open-AutoGLM。

3. 10分钟快速部署：让AI跑起来

整个过程就像安装一个软件，跟着步骤走就行。

3.1 下载项目代码

在命令行里，执行以下命令，把项目代码“克隆”到你的电脑上：

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

如果提示 git 命令找不到，你需要先安装Git。

3.2 创建独立的Python环境（推荐）

为了避免和你电脑上其他Python项目冲突，我们创建一个独立的“小房间”来安装这个项目的依赖。

# Windows用户
python -m venv venv
venv\Scripts\activate

# Mac/Linux用户
python3 -m venv venv
source venv/bin/activate

执行成功后，命令行前面会出现 (venv) 字样，表示你已经在这个“小房间”里了。

3.3 安装项目依赖

在 (venv) 环境下，运行以下命令来安装所有必需的软件包：

pip install -r requirements.txt
pip install -e .

这个过程需要下载一些东西，请保持网络通畅。如果下载慢，可以在命令后面加上 -i https://pypi.tuna.tsinghua.edu.cn/simple 使用国内的镜像源加速。

至此，控制端的代码就部署好了。但AI的大脑——模型，还需要部署。你有两个选择，我强烈建议新手选第一个。

4. 选择你的“AI大脑”：云端还是本地？

Open-AutoGLM需要一个AI模型来理解屏幕和思考。你可以用别人搭好的云端服务（省事），也可以自己在家部署（更自由）。

4.1 方案一：使用云端API（新手首选，最快）

直接用智谱AI等公司提供的在线服务，你只需要一个API密钥。

获取API密钥：
- 访问智谱AI开放平台，注册账号。
- 在控制台创建一个API Key。新用户通常有免费额度。
测试连接：
- 用USB线连接手机和电脑，确保 adb devices 命令能列出你的设备。
- 在Open-AutoGLM项目目录下，运行：
```
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API密钥" "打开设置"
```
- 如果看到手机自动打开了“设置”应用，那么恭喜你，成功了！整个过程可能只需几秒钟。

优点：无需强大硬件，5分钟就能用上。缺点：需要网络，且长期使用有费用（按调用次数计费）。

4.2 方案二：本地部署模型（适合有显卡的玩家）

如果你有一张显存足够大（建议16GB以上，如RTX 3090/4090）的显卡，可以把模型下载到本地运行，响应更快，也没有后续费用。

使用vLLM部署（推荐）：

确保你的显卡驱动和CUDA已正确安装。

在命令行运行以下命令启动模型服务（第一次运行会下载约18GB的模型文件）：

# Linux/Mac
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480

# Windows (CMD)
python -m vllm.entrypoints.openai.api_server ^
  --served-model-name autoglm-phone-9b ^
  --model zai-org/AutoGLM-Phone-9B ^
  --port 8000 ^
  --max-model-len 25480

测试本地服务：

服务启动后，在另一个命令行窗口测试：

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开设置"

优点：响应快，数据隐私好，一次部署长期使用。缺点：对硬件要求高，部署过程稍复杂。

无论你选择哪种方案，现在你的AI助手应该已经能听懂指令并操作手机了。让我们玩点更实际的。

5. 实战演练：三种方式指挥你的AI

5.1 玩法一：命令行直接下指令（最常用）

就像在跟一个超级助手对话，你说，它做。

执行单个任务：

# 使用云端API
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API密钥" "打开网易云音乐，搜索‘周杰伦’并播放第一首歌"

# 使用本地模型（如果你部署了的话）
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开网易云音乐，搜索‘周杰伦’并播放第一首歌"

进入交互模式（连续对话）： 直接运行 python main.py ... 但不加最后的指令，你会进入一个交互式命令行。你可以连续输入指令，AI会依次执行。

> 打开微信
> 找到文件传输助手
> 发送消息：测试AI助手
> 回到手机桌面

5.2 玩法二：写Python脚本（适合开发者）

如果你想把它集成到自己的自动化程序里，或者执行更复杂的逻辑，可以使用Python API。

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 1. 配置AI模型（这里以云端为例）
config = ModelConfig(
    base_url="https://open.bigmodel.cn/api/paas/v4",
    model_name="autoglm-phone",
    api_key="你的API密钥"
)

# 2. 创建AI助手实例
my_assistant = PhoneAgent(model_config=config)

# 3. 让它执行一系列任务
tasks = [
    "解锁手机屏幕",
    "打开淘宝",
    "在搜索框输入‘夏季短袖’",
    "点击搜索按钮",
    "滑动屏幕浏览前3个商品"
]

for task in tasks:
    print(f"正在执行: {task}")
    result = my_assistant.run(task)
    print(f"结果: {result}\n")

5.3 玩法三：控制远程手机（进阶技巧）

你的手机不一定非得用USB连着电脑。只要手机和电脑在同一个Wi-Fi下，就可以无线控制。

先用USB线连接一次，开启无线调试：
```
adb tcpip 5555
```

拔掉USB线，使用Wi-Fi连接：

adb connect 你的手机IP地址:5555
# 例如：adb connect 192.168.1.105:5555

在命令中指定设备ID：

python main.py --device-id 192.168.1.105:5555 --base-url ... --model ... "打开相机"

6. 避坑指南：我踩过的雷，你别再踩

在实际使用中，你可能会遇到一些小问题。别慌，大部分都有现成的解决办法。

6.1 问题：`adb devices` 显示 `unauthorized` 或没设备

原因：手机没有授权电脑的调试请求。
解决：检查手机屏幕，应该会弹出一个“允许USB调试吗？”的对话框，勾选“始终允许”并确定。如果没弹出，重启 adb 服务：adb kill-server 然后 adb start-server。

6.2 问题：AI能打开App，但点不了屏幕上的按钮

原因：99%是因为没开启“USB调试（安全设置）”。
解决：进入手机“开发者选项”，仔细找找，把“USB调试（安全设置）”、“通过USB验证应用”、“USB安装”这类选项全部打开。

6.3 问题：AI无法在输入框里输入中文

原因：ADB Keyboard没有正确工作。
解决：确认ADB Keyboard已安装。在手机“设置”->“语言与输入法”->“虚拟键盘”中，确保“ADB Keyboard”是开启状态。不需要把它设为默认输入法。

6.4 问题：运行命令时出现中文乱码（Windows常见）

解决：在运行命令前，先设置一下命令行编码。
- CMD：chcp 65001 然后运行你的命令。
- PowerShell：在脚本最前面加上 $env:PYTHONIOENCODING="utf-8"。

6.5 问题：任务执行到一半卡住了

可能原因：页面加载慢、弹出广告、网络问题。
解决：
1. 在指令中增加等待，比如“打开美团，等待3秒，搜索奶茶店”。
2. 遇到弹窗，可以手动关闭，然后让AI继续。
3. 对于复杂任务，拆分成多个简单指令分步执行。

7. 让AI更“聪明”的使用技巧

AI毕竟不是真人，给它清晰的指令，它能完成得更好。

指令要具体：
- 模糊：“帮我看看微信”。
- 具体：“打开微信，查看‘文件传输助手’聊天窗口的最新一条消息”。
复杂任务分步走：对于“打开淘宝，找个200块左右的蓝牙耳机，看看评价，然后加入购物车”这种多步骤任务，可以分成两三条指令来发，成功率更高。
利用好“人工接管”功能：系统很聪明，遇到登录界面、支付密码、验证码等敏感或复杂操作时，它会暂停并提示你手动处理。你处理完后，它可以从断点继续执行。这是保障安全的重要机制。
了解它的能力边界：
- 擅长：常规的点击、滑动、输入、启动/关闭应用。对主流App（微信、淘宝、抖音等）支持很好。
- 不擅长/需谨慎：涉及人脸识别、指纹支付、银行转账等极高安全级别的操作。切勿让AI处理此类敏感信息。