Open-AutoGLM部署教程:手机AI Agent一键操控实战指南
本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架——Open-AutoGLM。该平台简化了部署流程,用户可快速搭建环境,让AI助手通过理解自然语言指令,自动操控手机完成如打开应用、搜索信息、跨应用发送消息等日常任务,实现手机操作的智能化与自动化。
Open-AutoGLM部署教程:手机AI Agent一键操控实战指南
想象一下,你正躺在沙发上,突然想在小红书上找找附近的美食推荐。你只需要对着手机说一句“打开小红书搜美食”,手机就自己动了起来——解锁、打开App、进入搜索框、输入关键词、展示结果,整个过程一气呵成,而你全程没有碰一下屏幕。
这不是科幻电影,而是Open-AutoGLM带来的真实体验。作为智谱开源的一款手机端AI Agent框架,它让手机真正变成了能听懂人话、看懂屏幕、并自动执行任务的智能助理。今天,我就带你从零开始,一步步部署这个神奇的工具,让你的手机也拥有“自动驾驶”能力。
1. 什么是Open-AutoGLM?
在开始动手之前,我们先简单了解一下这个工具到底是什么,能做什么。
1.1 核心能力:让手机自己“干活”
Open-AutoGLM,特别是其中的Phone Agent模块,本质上是一个基于视觉语言模型的AI手机智能助理。它的工作原理可以概括为三个步骤:
- 看懂屏幕:通过AI模型实时分析手机屏幕上的内容,识别按钮、文字、图标等元素。
- 理解指令:把你用自然语言说的话(比如“打开微信给张三发消息”)转换成具体的操作步骤。
- 自动执行:通过ADB(Android调试桥)控制手机,模拟点击、滑动、输入等操作,完成整个任务链。
举个例子,当你下达指令“打开抖音搜索用户‘科技老王’并关注”时,Phone Agent会:
- 先判断抖音是否已打开,如果没有就启动它
- 识别出屏幕上的搜索入口并点击
- 在搜索框里输入“科技老王”
- 找到对应的用户头像
- 点击关注按钮
整个过程完全自动化,就像有个看不见的助手在帮你操作手机。
1.2 技术架构:多模态AI+自动化控制
Phone Agent的技术栈相当精妙,它结合了当前最前沿的几项技术:
- 视觉语言模型:这是系统的“眼睛”和“大脑”,负责理解屏幕截图里有什么,以及用户指令到底想干什么。
- 任务规划引擎:把复杂的用户指令拆解成一步步可执行的操作,比如“先点这里,再输文字,然后按确认”。
- ADB控制层:实际操控手机的“手”,通过标准的Android调试命令模拟真实用户操作。
- 安全确认机制:遇到敏感操作(比如付款、删除数据)时会暂停并请求人工确认,避免误操作。
这套组合拳让Phone Agent既聪明又可靠,既能处理复杂任务,又不会“乱来”。
2. 环境准备:电脑和手机都要准备好
部署Open-AutoGLM需要两端配合:一个是运行AI模型的服务器(或云端服务),另一个是控制手机的本地电脑。我们先从本地电脑端开始。
2.1 电脑端环境配置
你的电脑需要满足以下基本要求:
操作系统
- Windows 10/11 或 macOS 10.15+
- Linux(Ubuntu 20.04+等)也可以,但本文以Windows和macOS为主
Python环境
- Python 3.10或更高版本
- 建议使用Anaconda或Miniconda创建独立的虚拟环境,避免包冲突
ADB工具 这是连接和控制安卓设备的关键工具,需要单独安装。
Windows用户安装ADB:
- 从官方渠道下载ADB工具包(通常叫platform-tools)
- 解压到任意目录,比如
C:\adb - 配置环境变量:
- 右键“此电脑” → 属性 → 高级系统设置 → 环境变量
- 在“系统变量”中找到Path,点击编辑
- 点击新建,输入ADB工具的解压路径(如
C:\adb) - 点击确定保存所有设置
- 验证安装:打开命令提示符(cmd),输入
adb version,如果显示版本信息就说明成功了。
macOS用户安装ADB: 更简单,用Homebrew一行命令搞定:
brew install android-platform-tools
安装后同样在终端输入 adb version 验证。
如果没有Homebrew,也可以手动下载解压,然后临时添加路径:
# 假设解压到了Downloads目录
export PATH=$PATH:~/Downloads/platform-tools
想让这个设置永久生效,可以把上面这行添加到 ~/.zshrc 或 ~/.bash_profile 文件里。
2.2 手机端设置
要让电脑控制你的手机,需要在手机上开启几个权限:
第一步:开启开发者模式 这个选项默认是隐藏的,需要“破解”出来:
- 打开手机设置 → 关于手机
- 找到“版本号”或“软件版本号”
- 连续点击7次(不同手机可能次数不同),直到看到“您已处于开发者模式”的提示
第二步:开启USB调试 开发者模式开启后,设置里会多出一个“开发者选项”:
- 返回设置主界面,找到“开发者选项”(可能在系统设置或高级设置里)
- 进入后找到“USB调试”,打开它
- 首次连接电脑时,手机会弹出授权提示,记得勾选“始终允许”并确认
第三步:安装ADB Keyboard(重要) 这是关键一步!Phone Agent需要通过ADB向手机输入文字,但很多手机的默认输入法不支持这种方式的输入。
安装方法:
- 在手机浏览器搜索“ADB Keyboard apk下载”,找一个可靠的来源下载安装包
- 安装后,打开手机设置 → 系统 → 语言和输入法
- 在“键盘和输入法”里,将默认输入法改为“ADB Keyboard”
现在你的手机已经准备好被“遥控”了。
3. 部署控制端代码
环境准备好后,我们开始安装Open-AutoGLM的控制端代码。这部分代码运行在你的电脑上,负责接收AI指令并控制手机。
3.1 下载代码和安装依赖
打开命令行工具(Windows用cmd或PowerShell,macOS用终端),依次执行以下命令:
# 1. 克隆官方代码仓库
git clone https://github.com/zai-org/Open-AutoGLM
# 2. 进入项目目录
cd Open-AutoGLM
# 3. 安装Python依赖包
pip install -r requirements.txt
# 4. 以可编辑模式安装项目本身
pip install -e .
这里解释一下几个关键点:
git clone是把代码从GitHub下载到本地requirements.txt包含了所有需要的Python库,比如处理图像的Pillow、网络请求的requests等pip install -e .中的-e意思是“可编辑模式”,这样你修改代码后不需要重新安装就能生效
如果安装过程中遇到网络问题,可以尝试使用国内镜像源:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
3.2 连接你的手机
代码安装好后,需要让电脑和手机建立连接。有两种方式:USB直连和WiFi无线连接。
USB连接(最稳定)
- 用数据线把手机连接到电脑
- 在命令行输入:
adb devices
- 如果一切正常,你会看到类似这样的输出:
List of devices attached
abcdef123456 device
那个“abcdef123456”就是你的设备ID,后面会用到。
如果显示“unauthorized”,说明手机上的授权弹窗你没确认,去手机上看一眼,点“允许”就行。
WiFi连接(更灵活) 如果你想摆脱数据线的束缚,可以设置WiFi连接:
# 1. 先用USB线连接一次,开启TCP/IP模式
adb tcpip 5555
# 看到“restarting in TCP mode port: 5555”表示成功
# 2. 拔掉USB线,查看手机IP地址
# 在手机设置 → WLAN → 当前连接的WiFi里能看到IP,通常是192.168.x.x
# 3. 通过WiFi连接
adb connect 192.168.1.100:5555 # 替换成你的手机IP
# 连接成功后,同样用 adb devices 确认
WiFi连接的好处是你可以远程控制手机,比如手机在客厅,你在书房用电脑控制它。但要注意,WiFi连接可能不如USB稳定,如果经常断连,建议还是用USB。
4. 启动AI代理:让手机“活”起来
重头戏来了!现在我们要启动Phone Agent,给你的手机注入“灵魂”。
4.1 你需要一个AI模型服务
Phone Agent本身不包含AI模型,它需要调用一个在线的视觉语言模型来理解屏幕和指令。你有两个选择:
选择一:使用云端服务(推荐给初学者) 最简单的方法是使用现成的AI服务。Open-AutoGLM官方推荐使用智谱的API,或者其他支持兼容接口的模型服务。
选择二:本地部署模型(适合有显卡的用户) 如果你有性能足够的GPU(比如RTX 3090/4090或以上),可以在自己的电脑或服务器上部署模型:
# 这是一个示例命令,具体参数需要根据你的显卡调整
python -m vllm.entrypoints.openai.api_server \
--model THUDM/autoglm-phone-9b \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--max-model-len 8192
部署好后,你会得到一个API地址,比如 http://localhost:8000/v1。
4.2 运行你的第一个AI指令
假设你已经有了模型服务,地址是 http://192.168.1.50:8000/v1,手机设备ID是 abcdef123456。
打开命令行,进入Open-AutoGLM目录,运行:
python main.py \
--device-id abcdef123456 \
--base-url http://192.168.1.50:8000/v1 \
--model "autoglm-phone-9b" \
"打开抖音,搜索抖音号为dycwo11nt61d的博主并关注他!"
分解一下这个命令:
--device-id:你的手机ID,就是adb devices显示的那个--base-url:AI模型服务的地址--model:使用的模型名称,这里用的是官方推荐的9B参数版本- 最后引号里的是你要AI执行的指令,用自然语言写就行
运行后,你会看到神奇的一幕:手机自动亮屏、解锁(如果没设密码)、打开抖音、进入搜索、输入ID、找到用户、点击关注……整个过程完全自动化。
4.3 通过Python代码控制
如果你想把Phone Agent集成到自己的项目里,也可以用Python代码来调用:
from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent
# 创建连接
conn = ADBConnection()
# 连接设备(WiFi方式示例)
success, message = conn.connect("192.168.1.100:5555")
print(f"连接状态: {message}")
# 列出所有已连接的设备
devices = list_devices()
for device in devices:
print(f"设备ID: {device.device_id}, 连接方式: {device.connection_type.value}")
# 创建AI代理
agent = PhoneAgent(
device_id="192.168.1.100:5555",
base_url="http://192.168.1.50:8000/v1",
model_name="autoglm-phone-9b"
)
# 执行任务
task_description = "打开微信,找到最近聊天里的小王,问他晚上要不要一起吃饭"
result = agent.run(task_description)
print(f"任务执行结果: {result}")
这段代码展示了如何以编程方式控制Phone Agent,你可以基于此开发更复杂的自动化流程。
5. 实战案例:自动完成日常任务
理论讲完了,我们来点实际的。下面我分享几个真实可用的案例,你可以直接复制这些指令试试效果。
5.1 案例一:自动化信息收集
假设你想了解某个话题的最新信息:
python main.py \
--device-id your_device_id \
--base-url your_model_url \
--model "autoglm-phone-9b" \
"打开微博,搜索‘人工智能大会’,把前三条热门微博的内容和点赞数记下来"
Phone Agent会:
- 打开微博App
- 点击搜索框
- 输入“人工智能大会”
- 浏览搜索结果
- 识别出微博内容和点赞数
- 通过ADB Keyboard输入到记事本或直接返回给程序
5.2 案例二:跨应用工作流
更复杂的任务也能处理:
python main.py \
--device-id your_device_id \
--base-url your_model_url \
--model "autoglm-phone-9b" \
"先打开相机拍一张窗外的照片,然后打开微信,把照片发到‘家人群’,并说‘今天天气真好’"
这个指令涉及多个App的切换和协同,Phone Agent会按顺序执行:
- 启动相机 → 拍照 → 保存
- 切换到微信 → 进入家人群 → 选择相册 → 选择刚拍的照片 → 输入文字 → 发送
5.3 案例三:重复性操作自动化
对于每天都要做的重复操作,Phone Agent能节省大量时间:
# 用Python脚本批量处理
tasks = [
"打开钉钉,完成每日健康打卡",
"打开支付宝,收取所有蚂蚁森林能量",
"打开网易云音乐,播放‘每日推荐’歌单",
"打开京东,查看待收货订单状态"
]
for task in tasks:
agent.run(task)
time.sleep(2) # 每个任务间隔2秒
6. 常见问题与解决方案
在实际使用中,你可能会遇到一些问题。这里我整理了最常见的几个问题和解决方法。
6.1 连接问题
问题:adb devices 显示设备但状态为offline
- 原因:ADB版本与手机不兼容或连接不稳定
- 解决:
- 重新插拔USB线
- 重启ADB服务:
adb kill-server然后adb start-server - 更新ADB工具到最新版本
问题:WiFi连接经常断开
- 原因:网络不稳定或手机休眠
- 解决:
- 在手机开发者选项里开启“保持唤醒状态(充电时)”
- 使用USB连接代替WiFi
- 设置手机永不休眠(仅限连接期间)
6.2 执行问题
问题:AI点错位置或执行错误操作
- 原因:屏幕识别不准确或指令歧义
- 解决:
- 确保手机屏幕干净,亮度适中
- 指令尽量明确,比如“点击右上角的搜索图标”而不是“点搜索”
- 可以在指令中指定位置,如“点击屏幕下方第二个标签”
问题:输入法切换失败
- 原因:ADB Keyboard没有设为默认输入法
- 解决:
- 确认ADB Keyboard已安装并启用
- 在手机设置中将其设为默认输入法
- 重启手机后重新设置
6.3 性能问题
问题:执行速度慢
- 原因:网络延迟或模型响应慢
- 解决:
- 使用USB连接减少延迟
- 如果自建模型服务,确保GPU性能足够
- 简化指令,避免过于复杂的多步操作
问题:内存占用高
- 原因:截图处理和模型推理需要资源
- 解决:
- 降低截图分辨率(修改代码中的截图参数)
- 使用轻量级模型版本
- 增加任务执行间隔,避免连续快速操作
7. 安全使用建议
虽然Phone Agent很强大,但用的时候也要注意安全:
-
敏感操作确认:Phone Agent内置了安全机制,遇到支付、删除等操作时会暂停。请不要绕过这些确认,特别是涉及资金和个人数据的操作。
-
账户安全:避免让AI处理涉及密码、验证码的操作。虽然系统支持人工接管,但最好还是手动处理敏感信息。
-
设备安全:确保只有可信的电脑能通过ADB连接你的手机。不用的时候,可以关闭USB调试功能。
-
合法使用:仅用于个人自动化需求,不要用于批量注册、刷量等违反平台规则的行为。
-
备份重要数据:自动化操作可能有不可预知的结果,重要数据提前备份。
8. 总结
通过这篇教程,你应该已经掌握了Open-AutoGLM Phone Agent的完整部署和使用方法。我们来回顾一下关键步骤:
部署流程四步走:
- 环境准备:电脑装Python和ADB,手机开开发者模式和USB调试
- 代码安装:克隆仓库、安装依赖,几分钟搞定
- 设备连接:USB直连最稳定,WiFi连接更灵活
- 启动代理:配置模型服务,用自然语言给指令
它能帮你做什么:
- 自动化日常手机操作,节省时间和精力
- 处理重复性任务,比如打卡、收集信息
- 作为开发工具,测试App的UI自动化
- 辅助特殊人群操作手机
使用建议:
- 从简单任务开始,逐步尝试复杂操作
- 指令尽量明确具体,避免歧义
- 重要操作亲自监督,安全第一
- 结合Python脚本,实现批量自动化
Open-AutoGLM展示了AI Agent在移动设备上的巨大潜力。随着模型能力的提升,未来我们或许真的可以只用语音或文字,就让手机完成所有复杂操作。现在,你已经站在了这个未来的起点上。
动手试试吧,从“打开抖音搜索某个博主”开始,感受AI帮你操作手机的奇妙体验。遇到问题不用怕,按照本文的排查步骤一步步来,你一定能成功部署属于自己的手机AI助手。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)