3步搞定Open-AutoGLM部署:新手也能快速上手实战指南
本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架——Open-AutoGLM。通过该平台,用户可以快速搭建环境,轻松实现AI驱动的手机自动化操作。该镜像的核心应用场景是让AI作为“数字替身”,通过自然语言指令自动完成如打开应用、搜索内容、信息收集等日常繁琐的手机操作任务。
3步搞定Open-AutoGLM部署:新手也能快速上手实战指南
想象一下,你正躺在沙发上,对着手机说:“帮我打开小红书,搜一下周末去哪吃火锅。”然后你的手机就自己动了起来,精准地打开App,输入搜索词,把结果展示给你。这不是科幻电影,而是今天我们要一起部署的 Open-AutoGLM 能帮你实现的事。
Open-AutoGLM,特别是它的 Phone Agent 框架,就像一个装在手机里的“数字替身”。它不仅能看懂你手机屏幕上显示的一切(文字、按钮、图片),还能通过模拟点击、滑动、输入,自动帮你完成一系列操作。你只需要动动嘴皮子(或者说,动动键盘),剩下的交给它。
对于刚接触的朋友,你只需要知道:这是一个能让AI帮你自动操作手机的框架。今天,我就带你用最简单的三步,从零开始把它跑起来,让你亲眼看看AI是如何成为你的手机助手的。
1. 第一步:理解核心——Phone Agent是什么?
在开始动手之前,我们先花两分钟,搞明白我们要部署的到底是个什么东西。这样后面操作起来,你会更清楚每一步在干什么。
1.1 一句话讲清楚
Phone Agent是一个基于AI视觉语言模型的“手机自动操作机器人”。
你可以把它想象成一个同时具备了“眼睛”和“手”的智能程序:
- 眼睛(视觉理解):它能实时“看到”你手机的屏幕截图,并理解上面有什么。比如,它能认出哪个是“微信”图标,哪个是“搜索框”,哪段文字是新闻标题。
- 大脑(规划决策):它根据你的指令(如“打开抖音搜索搞笑视频”)和当前“看到”的屏幕内容,思考下一步该点哪里、输入什么。
- 手(自动操作):它通过一个叫ADB的工具,模拟人的手指,去点击屏幕、输入文字、上下滑动。
1.2 它能帮你做什么?(小白视角场景举例)
光说概念可能有点抽象,我们来看几个它具体能干的活:
- 自动化测试:如果你是开发人员,可以让它自动帮你把App的所有功能点一遍,看看会不会崩溃。
- 日常省事操作:
- “帮我清空微信缓存。”
- “打开支付宝,给我的手机充100元话费。”
- “在淘宝上搜一下‘无线鼠标’,按销量排序,把前三个商品加入购物车。”
- 信息收集:“打开今日头条,把科技板块的前10条新闻标题和链接保存下来。”
- 社交管理:“打开微博,找到我最近关注的那个人,给他最新的一条微博点个赞。”
它的核心价值就是:把重复、繁琐的手机操作流程,变成一句简单的自然语言命令。
1.3 整个系统是怎么工作的?
整个系统跑起来,需要两部分配合,有点像“云脑”+“本地手”:
- 云端AI大脑(服务端):我们需要在一台有显卡的服务器(比如云服务器)上,部署一个强大的多模态AI模型。这个模型负责“看”和“想”,也就是理解屏幕和规划操作。这部分通常由平台或运维人员提前部署好,对于使用者,我们通常只需要获得一个可访问的API地址(比如
http://123.45.67.89:8000/v1)。 - 本地控制端(客户端):这就是我们今天要重点部署的部分。它运行在你的电脑上,负责三件事:
- 通过USB数据线或WiFi连接到你的手机。
- 把手机的屏幕截图发送给“云端AI大脑”去分析。
- 接收AI大脑的指令(“点击坐标[300,500]”),并通过ADB工具让手机执行。
简单来说,我们今天要做的,就是在你的电脑上搭建好这个“本地控制端”,并让它成功连接你的手机和云端AI服务。
2. 第二步:动手准备——电脑和手机的配置
好了,原理清楚了,我们开始动手。这一步的目标是:让你的电脑能“指挥”你的安卓手机。
2.1 电脑端环境准备
首先,确保你的电脑(Windows或Mac都行)已经准备好了以下工具:
- Python:这是运行控制端代码的语言。建议安装Python 3.10或更新的版本。你可以在命令行输入
python --version来检查。 - Git:用来下载代码的工具。如果没安装,去Git官网下载安装即可。
- ADB工具:这是连接和控制手机的关键桥梁。
重点:安装和配置ADB
ADB(Android Debug Bridge)是谷歌提供的调试工具,我们的程序就是通过它来操作手机的。
对于Windows用户:
- 从官网下载ADB工具包(通常叫
platform-tools)。 - 解压到一个你容易找到的文件夹,比如
C:\platform-tools。 - 把这个文件夹的路径添加到系统的环境变量
Path中:- 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
- 在“系统变量”里找到
Path,点击“编辑”。 - 点击“新建”,把
C:\platform-tools(你的实际路径)添加进去。
- 验证:打开命令行(cmd),输入
adb version然后回车。如果出现版本号信息,说明配置成功。
对于Mac用户: 通常更简单。你可以使用Homebrew安装:打开终端(Terminal),输入:
brew install android-platform-tools
安装后,同样在终端输入 adb version 验证。
2.2 手机端设置
现在,来设置你的安卓手机(需要Android 7.0以上版本)。
-
开启开发者模式:
- 进入手机的“设置” -> “关于手机”。
- 找到“版本号”或“软件版本号”,连续快速点击7次左右,直到屏幕提示“您已处于开发者模式”。
-
开启USB调试:
- 回到“设置”,现在你应该能看到多出了一个“开发者选项”(可能在“系统”或“高级设置”里)。
- 进入“开发者选项”,找到“USB调试”,打开它。
-
安装ADB Keyboard(重要!):
- 为什么需要这个?因为我们的AI程序需要通过电脑向手机输入文字,而手机默认的输入法可能不接收这种来自ADB的输入指令。ADB Keyboard是一个特殊的输入法,专门用于此目的。
- 操作步骤:
- 在手机浏览器中搜索并下载
ADB Keyboard的APK安装文件。 - 安装此应用。
- 进入手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”。
- 找到“ADB Keyboard”,启用它。
- 在“默认输入法”中,将其切换为“ADB Keyboard”。
- 在手机浏览器中搜索并下载
完成以上步骤后,用USB数据线将手机连接到电脑。此时手机上可能会弹出“是否允许USB调试?”的提示,勾选“始终允许”,并点击“确定”。
3. 第三步:部署与运行——让AI开始工作
环境配置好了,手机也连上了,现在我们把核心的控制程序部署到电脑上,并让它开始执行第一个任务。
3.1 下载并安装控制端代码
打开电脑的命令行(Windows的cmd/PowerShell,Mac的Terminal),依次执行以下命令:
# 1. 从GitHub上把Open-AutoGLM的代码下载到本地
git clone https://github.com/zai-org/Open-AutoGLM
# 2. 进入刚刚下载的文件夹
cd Open-AutoGLM
# 3. 安装运行所需的所有Python依赖包
pip install -r requirements.txt
# 4. 以“可编辑”模式安装当前项目,方便后续调用
pip install -e .
这个过程可能会花几分钟,取决于你的网络速度。如果遇到某个包安装慢或失败,可以尝试使用国内的镜像源,例如在命令后加上 -i https://pypi.tuna.tsinghua.edu.cn/simple。
3.2 连接你的手机
确保手机通过USB连接电脑,并且已按照2.2的步骤完成设置。
-
检查连接:在命令行中输入:
adb devices你会看到类似下面的输出:
List of devices attached a1b2c3d4 device这表示你的手机(设备ID为
a1b2c3d4)已经被电脑识别并连接成功。请记下你的设备ID。 -
WiFi连接(可选,更灵活): 如果你觉得插着线不方便,可以切换到WiFi连接。注意:首次设置仍需USB连接。
# 先用USB线连接,开启手机的TCP/IP调试模式(端口通常为5555) adb tcpip 5555 # 断开USB线,让手机和电脑处于同一个WiFi网络下 # 查看手机的IP地址(通常在设置->关于手机->状态信息里) # 假设你的手机IP是 192.168.1.100 adb connect 192.168.1.100:5555再次运行
adb devices,你应该能看到一个通过192.168.1.100:5555连接的设备。
3.3 启动AI代理,执行第一个指令!
激动人心的时刻到了!我们将运行主程序,并给它下达第一个命令。
在运行前,你需要一个云端AI服务的地址。这个地址通常由提供AI模型服务的一方给出,格式像 http://服务器IP:端口/v1。这里我们假设你已经有了一个可用的地址:http://123.45.67.89:8000/v1。
在 Open-AutoGLM 目录下,打开命令行,运行以下命令(请替换其中的参数为你的实际信息):
python main.py \
--device-id a1b2c3d4 \
--base-url http://123.45.67.89:8000/v1 \
--model "autoglm-phone-9b" \
“打开抖音,搜索用户‘科技美学’并关注”
参数解释:
--device-id:你通过adb devices看到的设备ID或WiFi地址(如192.168.1.100:5555)。--base-url:你的云端AI模型服务的API地址。--model:指定要使用的模型名称,这里用autoglm-phone-9b。- 最后的字符串:就是你给AI下的自然语言指令。
接下来,见证奇迹:
- 程序启动后,你的手机屏幕可能会黑一下(这是在获取屏幕截图)。
- 然后你会看到手机“自己动了起来”!它会自动解锁(如果设置了)、找到抖音图标、点击打开、找到搜索框、输入“科技美学”、点击搜索结果、进入用户主页、点击关注……
- 整个过程中,你的电脑命令行会打印出AI的“思考过程”,比如“当前屏幕是桌面,我需要找到抖音App”,“已进入抖音,正在定位搜索框”等。
3.4 进阶:用Python代码更灵活地控制
如果你懂一点Python,还可以用更编程化的方式来使用它,实现更复杂的自动化流程。下面是一个简单的示例:
# 示例:连接设备并执行简单任务
from phone_agent.adb import ADBConnection, list_devices
# 1. 创建一个连接管理器
conn = ADBConnection()
# 2. 连接到你的手机(这里用WiFi地址示例)
device_ip = "192.168.1.100:5555"
success, message = conn.connect(device_ip)
if success:
print(f"成功连接到设备: {message}")
else:
print(f"连接失败: {message}")
# 3. 列出所有已连接的设备(检查用)
print("当前连接的设备:")
devices = list_devices()
for d in devices:
print(f" - {d.device_id} ({d.connection_type.value})")
# 4. 你可以在这里插入更复杂的任务逻辑...
# 例如,循环执行多个指令,或者根据屏幕内容做条件判断。
# 5. 任务完成后,断开连接
conn.disconnect(device_ip)
print("设备连接已断开。")
4. 常见问题与解决思路
第一次部署,难免会遇到一些小麻烦。这里列出几个最常见的问题和解决方法:
-
问题:运行
adb devices后,设备列表是空的。- 解决:
- 检查USB线是否插好,换一根线试试。
- 检查手机是否弹出“允许USB调试”的提示,要点“确定”。
- 在手机“开发者选项”里,检查“USB调试”是否确实已开启。
- 电脑上可能需要安装手机对应的USB驱动程序(特别是Windows电脑)。
- 解决:
-
问题:连接时提示
cannot connect to 192.168.x.x:5555: Connection refused。- 解决:确保先用USB线执行了
adb tcpip 5555命令。并且手机和电脑必须在同一个WiFi网络下。
- 解决:确保先用USB线执行了
-
问题:AI执行操作时,无法在搜索框输入文字。
- 解决:这很可能是因为你没有正确设置 ADB Keyboard 为默认输入法。请返回 2.2 第3步 仔细检查。
-
问题:运行
python main.py时,提示缺少某个Python库。- 解决:虽然我们安装了
requirements.txt,但有时会有遗漏。根据报错信息,手动安装缺失的包即可,例如pip install 缺失的包名。
- 解决:虽然我们安装了
-
问题:指令执行到一半卡住了,或者点了奇怪的地方。
- 解决:AI模型并非100%准确,屏幕内容复杂时可能判断失误。可以尝试:
- 简化你的指令,分步进行。
- 确保手机屏幕当前状态不要太杂乱。
- 使用更高性能的云端AI模型服务。
- 解决:AI模型并非100%准确,屏幕内容复杂时可能判断失误。可以尝试:
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)