小白友好！智谱AutoGLM部署全记录，遇到的问题都在这

本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架Open-AutoGLM，实现AI对手机屏幕的自主操作。该平台简化了部署流程，用户可快速搭建环境，让AI助手自动完成如打开应用、搜索信息等日常任务，极大提升了自动化操作效率。

小鹿嘻嘻

195人浏览 · 2026-03-08 00:44:38

小鹿嘻嘻 · 2026-03-08 00:44:38 发布

小白友好！智谱AutoGLM部署全记录，遇到的问题都在这

最近，一个叫AutoGLM的开源项目在技术圈里火了起来。简单来说，它能让AI看懂你的手机屏幕，然后像真人一样帮你操作手机。你只需要说一句“打开小红书搜美食”，它就能自己找到并打开App，完成搜索。听起来是不是很科幻？

作为一个喜欢折腾新技术的开发者，我第一时间就上手试了试。整个过程下来，感觉部署的坑还真不少，尤其是对于刚接触的朋友。所以，我把自己从零开始部署智谱AutoGLM（Open-AutoGLM）的完整过程，以及遇到的各种问题和解决办法，都详细记录了下来。如果你也想体验一下这个“手机AI管家”，跟着这篇记录走，能帮你省下不少时间。

1. 什么是AutoGLM？它能做什么？

在动手之前，我们先搞清楚两件事：AutoGLM到底是什么？以及，我们费劲部署它，到底能用它来干嘛？

1.1 不只是聊天，而是能“做事”的AI

你可以把AutoGLM理解为一个“AI智能体”框架。它和ChatGPT这类纯聊天机器人最大的不同在于，它具备“动手能力”。

传统的AI模型，你问它“怎么打开美团”，它会给你一段文字步骤说明。但AutoGLM不一样，它接收到“打开美团”这个指令后，会：

看懂：通过摄像头或截图，“看到”你手机当前的屏幕画面。
思考：分析画面里有哪些元素（图标、按钮、文字），并规划出点击哪里、输入什么、滑动到哪里等一系列动作。
执行：通过ADB（安卓调试桥）等技术，模拟人的手指，自动在屏幕上执行这些操作。

整个过程完全自动化，不需要你手动点击一下。它的核心论文叫《AutoGLM: Autonomous Foundation Agents for GUIs》，就是专门研究让AI自主操作图形界面的。

1.2 实际能帮你做什么？

想象一下这些场景，AutoGLM都能帮你自动完成：

生活助手：早上说一句“帮我点一份楼下的豆浆油条外卖”，它就能自己打开外卖App完成下单。
信息搜集：“查一下明天北京飞上海的机票，下午的，价格排序”，它就能打开航旅App执行搜索和筛选。
社交娱乐：“打开抖音，关注博主‘科技美学’”，或者“在小红书搜一下周末露营攻略”。
跨应用任务：“把微信里张三刚发的地址，复制到高德地图里导航”，这种需要两个App之间切换操作的任务，它也能尝试串联起来。

对于开发者来说，AutoGLM是开源的，这意味着你可以下载它的代码和模型，自己研究、修改，甚至集成到你自己的自动化工具或智能硬件项目里，可玩性非常高。

2. 部署前准备：电脑、手机与环境

部署AutoGLM需要“两端”：一端是运行AI模型的服务（可以用云端API，也可以自己搭），另一端是控制手机的客户端。为了最快速体验，我们采用 “云端AI服务 + 本地电脑控制手机” 的方案。这是官方推荐给新手的路径。

你需要准备好下面这些东西：

2.1 硬件与软件清单

项目	要求	备注
电脑	Windows 10/11 或 macOS	本文以Windows 11为例，macOS步骤类似。
Python	3.10 或以上版本	必须，这是运行控制端代码的环境。
安卓设备	Android 7.0 以上的手机，或安卓模拟器	真机体验更好。没真机？用模拟器也行，后文会教。
ADB工具	Android Debug Bridge	电脑和手机通信的“桥梁”，必须安装。
网络	电脑和手机需要在同一局域网	方便使用WiFi连接，USB连接则不需要。

2.2 第一步：安装Python并确认版本

如果你电脑上还没有Python，或者版本太旧，需要先安装。

下载：去Python官网下载安装包。建议选择3.10.x或3.12.x这些稳定版本。
- Python 3.10.14: https://www.python.org/downloads/release/python-31014/
- Python 3.12.7: https://www.python.org/downloads/release/python-3127/
安装：运行安装程序。千万记得勾选 “Add python.exe to PATH” 这个选项！ 这能让你在命令行里直接使用python命令，省去后面手动配置环境变量的麻烦。
验证：安装完成后，按 Win + R，输入 cmd 打开命令提示符，输入以下命令：
```
python --version
```
如果显示类似 Python 3.12.7 的版本信息，说明安装成功。

常见问题1：命令提示“不是内部或外部命令” 如果报错，说明Python没被系统识别。解决办法：需要手动将Python的安装路径（例如 C:\Users\你的用户名\AppData\Local\Programs\Python\Python312）和其下的 Scripts 文件夹路径，添加到系统的环境变量 Path 中。具体方法可以搜索“Windows添加环境变量”。

2.3 第二步：安装和配置ADB工具

ADB是电脑控制安卓设备的必备工具。

下载ADB：前往Android开发者官网下载“Platform Tools”。
- 地址：https://developer.android.com/tools/releases/platform-tools
- 选择对应你操作系统的版本下载（Windows是.zip，macOS是.tgz）。
解压：将下载的压缩包解压到一个你容易找到的文件夹，比如 D:\platform-tools。
配置环境变量（Windows）：为了让系统在任何地方都能识别adb命令，需要把ADB的路径加到环境变量。
- 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
- 在“系统变量”区域，找到并选中 Path，点击“编辑”。
- 点击“新建”，将你解压ADB的完整路径（例如 D:\platform-tools）添加进去。
- 点击“确定”保存所有窗口。
验证ADB：重新打开一个命令提示符窗口，输入：
```
adb version
```
如果显示ADB的版本号，说明配置成功。

2.4 第三步：准备安卓设备（真机 or 模拟器）

你有两个选择：用真实的安卓手机，或者用电脑上的安卓模拟器。

方案A：使用真实安卓手机（推荐）

开启开发者模式：进入手机“设置” -> “关于手机”，连续快速点击“版本号”7-10次，直到出现“您已处于开发者模式”的提示。
开启USB调试：返回设置，找到新出现的“开发者选项”（通常在“系统”或“关于手机”附近），进入后开启“USB调试”开关。
连接电脑：用USB数据线连接手机和电脑。手机上可能会弹出“允许USB调试吗？”的对话框，选择“允许”。
验证连接：在电脑的命令提示符输入 adb devices。如果看到一行设备信息，结尾是 device，就表示连接成功。如果显示 unauthorized，需要在手机上再次确认授权。

方案B：使用安卓模拟器（无真机时） 我这次测试就用了模拟器，因为它方便截图和演示。这里推荐使用 Android Studio 自带的模拟器，比较稳定。

下载Android Studio：访问官网 https://developer.android.google.cn/studio 下载并安装。安装时选择“Standard”模式即可。
创建虚拟设备：打开Android Studio，在欢迎界面点击“More Actions” -> “Virtual Device Manager”。
下载系统镜像：点击“Create device”，选择一个手机型号（如Pixel 6），然后选择一个系统镜像（建议选API Level 30以上的，即Android 11+）。下载完成后创建。
启动模拟器：在设备管理器列表中，点击你刚创建设备右边的绿色三角按钮启动它。
在模拟器中开启USB调试：模拟器默认没有开启。你需要：
- 进入模拟器的“设置” -> “关于手机” -> 连续点击“版本号”开启开发者模式。
- 返回“设置” -> “系统” -> “开发者选项”，开启“USB调试”。
安装ADB Keyboard（关键！）：AutoGLM需要通过这个特殊的输入法来向手机输入文字。
- 把你之前下载的 platform-tools 文件夹里的 adb 程序，直接拖拽到模拟器窗口上，它会自动安装一个叫“ADB Keyboard”的输入法。
- 在模拟器的“设置” -> “系统” -> “语言与输入法” -> “屏幕键盘”中，开启“ADB Keyboard”。

常见问题2：adb devices 显示设备 offline 这通常意味着ADB连接不稳定或授权失败。解决办法：重启模拟器或手机，重新开启USB调试，并确保电脑上只运行了一个ADB服务。对于模拟器，有时需要完全关闭Android Studio再重新打开。

3. 部署控制端：让电脑学会控制手机

现在，我们开始在电脑上部署AutoGLM的控制端代码。

3.1 下载项目代码

打开命令提示符，找一个你喜欢的目录（比如 D:\），执行以下命令来下载（克隆）开源代码：

# 1. 克隆仓库到当前目录
git clone https://github.com/zai-org/Open-AutoGLM
# 2. 进入项目文件夹
cd Open-AutoGLM

如果提示没有git命令，你可以直接去GitHub页面（https://github.com/zai-org/Open-AutoGLM）下载ZIP包并解压，然后通过命令提示符进入解压后的文件夹。

3.2 安装Python依赖

项目运行需要一堆Python库，我们可以用一条命令自动安装：

# 安装所有必需的库
pip install -r requirements.txt

这个过程可能会花点时间，取决于你的网络。如果遇到某个包安装慢或失败，可以尝试使用国内镜像源，例如：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完依赖后，还需要以“可编辑模式”安装项目本身，这样以后修改代码更方便：

pip install -e .

3.3 连接你的设备

确保你的手机或模拟器已经按照前面的步骤设置好，并且开发者模式和USB调试已开启。

检查连接：在命令提示符（确保在项目目录 Open-AutoGLM 下或任意位置）输入：
```
adb devices
```
你应该能看到类似这样的输出：
```
List of devices attached
emulator-5554   device
```
或
```
List of devices attached
192.168.1.100:5555    device
```
这串字符（emulator-5554 或 192.168.1.100:5555）就是你的设备ID，等下会用到。
连接方式：
- USB连接：如果设备是通过USB连接的，直接执行 adb devices 就能看到。
- WiFi连接（推荐）：摆脱线缆更自由。首先用USB连一次，执行：
```
adb tcpip 5555
```
  这条命令让设备在5555端口监听TCP/IP连接。然后拔掉USB线，执行：
```
adb connect 你的手机IP地址:5555
```
  手机IP地址可以在手机的“设置” -> “关于手机” -> “状态信息”里找到。连接成功后，再用 adb devices 检查，就会看到WiFi连接的设备了。

4. 启动AI服务并下达第一个指令

控制端准备好了，设备也连上了，现在需要给AI一个“大脑”。这里我们使用最简单的方式：调用智谱AI的在线API。你当然可以自己部署模型，但那需要高性能显卡，对新手不友好。

4.1 获取智谱AI的API Key

访问智谱AI开放平台：https://open.bigmodel.cn/
注册/登录后，在右上角进入“控制台”。
在控制台页面，再次点击右上角“API Key”。
点击“创建新的API Key”，给它起个名字（比如“AutoGLM测试”），然后创建。
创建成功后，立刻复制并保存好这串Key！ 它只显示一次，以后就看不到了。

4.2 运行你的第一个AI手机助手命令

万事俱备，现在让我们给AI下第一个命令！打开命令提示符，确保当前目录在 Open-AutoGLM 项目下。

我们将使用项目里的 main.py 脚本。基本命令格式如下：

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "你刚才复制的API Key" \
  "你的自然语言指令"

举个例子，我想让AI在抖音上关注一个博主：

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxx" "打开抖音，搜索抖音号为 dycwo11nt61d 的博主并关注他"

参数解释：

--base-url: 智谱AI的API地址，固定不变。
--model: 指定使用 autoglm-phone 这个模型。
--apikey: 替换成你刚才复制的真实Key。
最后引号里的部分：就是你想让AI做的事，用大白话说就行。

运行后你会看到：

命令行开始滚动日志，AI会输出它的“思考过程”，比如“当前屏幕是桌面，我需要找到抖音图标”。
你的手机屏幕会开始被自动操作！鼠标指针（或模拟器光标）会自己移动，点击抖音图标，进入搜索框，输入内容，点击关注……
任务完成后，命令行会显示最终结果。

重要提醒：第一次运行可能会提示安装一些额外的包，比如 openai，根据提示安装即可（pip install openai）。

5. 我遇到的问题与解决方案

部署过程不可能一帆风顺，下面是我踩过的坑和解决办法，你可能也会遇到。

5.1 问题：模拟器里没有目标App，AI陷入死循环

现象：我下指令“打开美团”，但我的模拟器根本没装美团。AI会在桌面不停地寻找、滑动，因为找不到，它会一直尝试，直到达到默认的100步上限，白白消耗API调用次数（烧钱）。

我的解决方案：修改源代码，增加超时和错误步骤限制。我找到了项目中的 phone_agent/agent.py 文件，在 run() 方法里增加了逻辑：不仅限制最大步骤数，还限制了总执行时间和连续失败次数。一旦超时或失败太多，就主动停止任务，并给出提示。

核心修改思路（供参考，代码需根据实际版本调整）：

# 在run方法内部变量定义处增加
start_time = time.time()
max_duration = 60  # 最长执行60秒
consecutive_failures = 0
max_failures = 5   # 连续失败5次则停止

# 在主循环内增加判断
while not task_finished and steps < max_steps:
    current_time = time.time()
    if current_time - start_time > max_duration:
        print("任务执行超时，自动停止。")
        break
    
    # ... AI执行步骤 ...
    
    if step_success:
        consecutive_failures = 0  # 成功则重置失败计数
    else:
        consecutive_failures += 1
        if consecutive_failures >= max_failures:
            print("连续多次操作失败，任务终止。")
            break

这样修改后，再遇到“找不到App”的情况，AI会在尝试一会儿后自己停下来，避免无限循环。

5.2 问题：ADB连接不稳定，经常断开

现象：任务执行到一半，命令行报错，提示无法连接到设备。

解决方案：

优先使用USB连接：WiFi连接虽然方便，但受网络波动影响大。进行重要测试时，换回USB线连接最稳定。
检查设备唯一性：确保电脑上只连接了一个安卓设备（或模拟器）。多个设备会导致ADB指令发错对象。
重启ADB服务：在命令行执行 adb kill-server 然后 adb start-server，再重新 adb devices 连接。
对于模拟器：确保你使用的是Android Studio自带的模拟器，并且ADB版本较新。一些第三方模拟器（如雷电、夜神）可能需要特殊的ADB连接方式。

5.3 问题：运行命令后没有任何反应

现象：输入命令后，命令行卡住，或者只打印了一两行日志就停了，手机也没反应。

排查步骤：

检查API Key：确认 --apikey 参数后的Key是否正确，有没有多余的空格或换行。
检查网络：确认你的电脑可以正常访问 open.bigmodel.cn。如果有网络问题，API请求会失败。
检查模型名：确认 --model 参数是 "autoglm-phone"。
查看详细日志：运行命令时可以尝试去掉复杂的指令，先用一个简单的 "打开设置" 来测试。有时指令太复杂，AI可能在“思考”阶段耗时较长。
检查依赖：确认所有 requirements.txt 里的包都已成功安装，没有报错。

6. 总结与展望

回顾整个部署过程，从理解AutoGLM是什么，到准备好Python、ADB环境，连接手机，最后调用云端API让AI真正动起来，虽然步骤不少，但一步步走下来，并没有想象中那么难。

核心收获：

环境配置是关键：80%的问题出在环境上（Python路径、ADB连接、模拟器设置）。按照教程一步步验证，能解决大部分问题。
利用云端API快速入门：对于只是想体验和开发功能的新手，直接使用智谱等厂商的成熟API，远比自己在本地部署一个几十亿参数的大模型要简单、经济得多。
开源项目需要动手能力：像遇到“死循环”这种问题，正是开源项目的魅力所在——你可以去读代码，理解逻辑，然后修改它来适应自己的需求。这比用封闭的黑盒产品有成就感得多。

AutoGLM让我看到了AI与现实世界交互的惊人潜力。它不再只是停留在对话和生成，而是能真正“动手”完成任务。虽然目前它能处理的任务还相对简单，支持的App也有限，但这无疑是迈向通用人工智能（AGI）的重要一步。

我相信，随着模型能力的提升和生态的完善，未来这样的AI助手会越来越聪明，能处理更复杂、更长的任务链。对于开发者来说，现在正是学习和探索这类AI Agent框架的好时机。