Open-AutoGLM部署教程:手机AI Agent一键操控实战指南

想象一下,你正躺在沙发上,突然想在小红书上找找附近的美食推荐。你只需要对着手机说一句“打开小红书搜美食”,手机就自己动了起来——解锁、打开App、进入搜索框、输入关键词、展示结果,整个过程一气呵成,而你全程没有碰一下屏幕。

这不是科幻电影,而是Open-AutoGLM带来的真实体验。作为智谱开源的一款手机端AI Agent框架,它让手机真正变成了能听懂人话、看懂屏幕、并自动执行任务的智能助理。今天,我就带你从零开始,一步步部署这个神奇的工具,让你的手机也拥有“自动驾驶”能力。

1. 什么是Open-AutoGLM?

在开始动手之前,我们先简单了解一下这个工具到底是什么,能做什么。

1.1 核心能力:让手机自己“干活”

Open-AutoGLM,特别是其中的Phone Agent模块,本质上是一个基于视觉语言模型的AI手机智能助理。它的工作原理可以概括为三个步骤:

  1. 看懂屏幕:通过AI模型实时分析手机屏幕上的内容,识别按钮、文字、图标等元素。
  2. 理解指令:把你用自然语言说的话(比如“打开微信给张三发消息”)转换成具体的操作步骤。
  3. 自动执行:通过ADB(Android调试桥)控制手机,模拟点击、滑动、输入等操作,完成整个任务链。

举个例子,当你下达指令“打开抖音搜索用户‘科技老王’并关注”时,Phone Agent会:

  • 先判断抖音是否已打开,如果没有就启动它
  • 识别出屏幕上的搜索入口并点击
  • 在搜索框里输入“科技老王”
  • 找到对应的用户头像
  • 点击关注按钮

整个过程完全自动化,就像有个看不见的助手在帮你操作手机。

1.2 技术架构:多模态AI+自动化控制

Phone Agent的技术栈相当精妙,它结合了当前最前沿的几项技术:

  • 视觉语言模型:这是系统的“眼睛”和“大脑”,负责理解屏幕截图里有什么,以及用户指令到底想干什么。
  • 任务规划引擎:把复杂的用户指令拆解成一步步可执行的操作,比如“先点这里,再输文字,然后按确认”。
  • ADB控制层:实际操控手机的“手”,通过标准的Android调试命令模拟真实用户操作。
  • 安全确认机制:遇到敏感操作(比如付款、删除数据)时会暂停并请求人工确认,避免误操作。

这套组合拳让Phone Agent既聪明又可靠,既能处理复杂任务,又不会“乱来”。

2. 环境准备:电脑和手机都要准备好

部署Open-AutoGLM需要两端配合:一个是运行AI模型的服务器(或云端服务),另一个是控制手机的本地电脑。我们先从本地电脑端开始。

2.1 电脑端环境配置

你的电脑需要满足以下基本要求:

操作系统

  • Windows 10/11 或 macOS 10.15+
  • Linux(Ubuntu 20.04+等)也可以,但本文以Windows和macOS为主

Python环境

  • Python 3.10或更高版本
  • 建议使用Anaconda或Miniconda创建独立的虚拟环境,避免包冲突

ADB工具 这是连接和控制安卓设备的关键工具,需要单独安装。

Windows用户安装ADB

  1. 从官方渠道下载ADB工具包(通常叫platform-tools)
  2. 解压到任意目录,比如 C:\adb
  3. 配置环境变量:
    • 右键“此电脑” → 属性 → 高级系统设置 → 环境变量
    • 在“系统变量”中找到Path,点击编辑
    • 点击新建,输入ADB工具的解压路径(如 C:\adb
    • 点击确定保存所有设置
  4. 验证安装:打开命令提示符(cmd),输入 adb version,如果显示版本信息就说明成功了。

macOS用户安装ADB: 更简单,用Homebrew一行命令搞定:

brew install android-platform-tools

安装后同样在终端输入 adb version 验证。

如果没有Homebrew,也可以手动下载解压,然后临时添加路径:

# 假设解压到了Downloads目录
export PATH=$PATH:~/Downloads/platform-tools

想让这个设置永久生效,可以把上面这行添加到 ~/.zshrc~/.bash_profile 文件里。

2.2 手机端设置

要让电脑控制你的手机,需要在手机上开启几个权限:

第一步:开启开发者模式 这个选项默认是隐藏的,需要“破解”出来:

  1. 打开手机设置 → 关于手机
  2. 找到“版本号”或“软件版本号”
  3. 连续点击7次(不同手机可能次数不同),直到看到“您已处于开发者模式”的提示

第二步:开启USB调试 开发者模式开启后,设置里会多出一个“开发者选项”:

  1. 返回设置主界面,找到“开发者选项”(可能在系统设置或高级设置里)
  2. 进入后找到“USB调试”,打开它
  3. 首次连接电脑时,手机会弹出授权提示,记得勾选“始终允许”并确认

第三步:安装ADB Keyboard(重要) 这是关键一步!Phone Agent需要通过ADB向手机输入文字,但很多手机的默认输入法不支持这种方式的输入。

安装方法:

  1. 在手机浏览器搜索“ADB Keyboard apk下载”,找一个可靠的来源下载安装包
  2. 安装后,打开手机设置 → 系统 → 语言和输入法
  3. 在“键盘和输入法”里,将默认输入法改为“ADB Keyboard”

现在你的手机已经准备好被“遥控”了。

3. 部署控制端代码

环境准备好后,我们开始安装Open-AutoGLM的控制端代码。这部分代码运行在你的电脑上,负责接收AI指令并控制手机。

3.1 下载代码和安装依赖

打开命令行工具(Windows用cmd或PowerShell,macOS用终端),依次执行以下命令:

# 1. 克隆官方代码仓库
git clone https://github.com/zai-org/Open-AutoGLM

# 2. 进入项目目录
cd Open-AutoGLM

# 3. 安装Python依赖包
pip install -r requirements.txt

# 4. 以可编辑模式安装项目本身
pip install -e .

这里解释一下几个关键点:

  • git clone 是把代码从GitHub下载到本地
  • requirements.txt 包含了所有需要的Python库,比如处理图像的Pillow、网络请求的requests等
  • pip install -e . 中的 -e 意思是“可编辑模式”,这样你修改代码后不需要重新安装就能生效

如果安装过程中遇到网络问题,可以尝试使用国内镜像源:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3.2 连接你的手机

代码安装好后,需要让电脑和手机建立连接。有两种方式:USB直连和WiFi无线连接。

USB连接(最稳定)

  1. 用数据线把手机连接到电脑
  2. 在命令行输入:
adb devices
  1. 如果一切正常,你会看到类似这样的输出:
List of devices attached
abcdef123456    device

那个“abcdef123456”就是你的设备ID,后面会用到。

如果显示“unauthorized”,说明手机上的授权弹窗你没确认,去手机上看一眼,点“允许”就行。

WiFi连接(更灵活) 如果你想摆脱数据线的束缚,可以设置WiFi连接:

# 1. 先用USB线连接一次,开启TCP/IP模式
adb tcpip 5555
# 看到“restarting in TCP mode port: 5555”表示成功

# 2. 拔掉USB线,查看手机IP地址
# 在手机设置 → WLAN → 当前连接的WiFi里能看到IP,通常是192.168.x.x

# 3. 通过WiFi连接
adb connect 192.168.1.100:5555  # 替换成你的手机IP
# 连接成功后,同样用 adb devices 确认

WiFi连接的好处是你可以远程控制手机,比如手机在客厅,你在书房用电脑控制它。但要注意,WiFi连接可能不如USB稳定,如果经常断连,建议还是用USB。

4. 启动AI代理:让手机“活”起来

重头戏来了!现在我们要启动Phone Agent,给你的手机注入“灵魂”。

4.1 你需要一个AI模型服务

Phone Agent本身不包含AI模型,它需要调用一个在线的视觉语言模型来理解屏幕和指令。你有两个选择:

选择一:使用云端服务(推荐给初学者) 最简单的方法是使用现成的AI服务。Open-AutoGLM官方推荐使用智谱的API,或者其他支持兼容接口的模型服务。

选择二:本地部署模型(适合有显卡的用户) 如果你有性能足够的GPU(比如RTX 3090/4090或以上),可以在自己的电脑或服务器上部署模型:

# 这是一个示例命令,具体参数需要根据你的显卡调整
python -m vllm.entrypoints.openai.api_server \
    --model THUDM/autoglm-phone-9b \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9 \
    --max-model-len 8192

部署好后,你会得到一个API地址,比如 http://localhost:8000/v1

4.2 运行你的第一个AI指令

假设你已经有了模型服务,地址是 http://192.168.1.50:8000/v1,手机设备ID是 abcdef123456

打开命令行,进入Open-AutoGLM目录,运行:

python main.py \
  --device-id abcdef123456 \
  --base-url http://192.168.1.50:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音,搜索抖音号为dycwo11nt61d的博主并关注他!"

分解一下这个命令:

  • --device-id:你的手机ID,就是 adb devices 显示的那个
  • --base-url:AI模型服务的地址
  • --model:使用的模型名称,这里用的是官方推荐的9B参数版本
  • 最后引号里的是你要AI执行的指令,用自然语言写就行

运行后,你会看到神奇的一幕:手机自动亮屏、解锁(如果没设密码)、打开抖音、进入搜索、输入ID、找到用户、点击关注……整个过程完全自动化。

4.3 通过Python代码控制

如果你想把Phone Agent集成到自己的项目里,也可以用Python代码来调用:

from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent

# 创建连接
conn = ADBConnection()

# 连接设备(WiFi方式示例)
success, message = conn.connect("192.168.1.100:5555")
print(f"连接状态: {message}")

# 列出所有已连接的设备
devices = list_devices()
for device in devices:
    print(f"设备ID: {device.device_id}, 连接方式: {device.connection_type.value}")

# 创建AI代理
agent = PhoneAgent(
    device_id="192.168.1.100:5555",
    base_url="http://192.168.1.50:8000/v1",
    model_name="autoglm-phone-9b"
)

# 执行任务
task_description = "打开微信,找到最近聊天里的小王,问他晚上要不要一起吃饭"
result = agent.run(task_description)
print(f"任务执行结果: {result}")

这段代码展示了如何以编程方式控制Phone Agent,你可以基于此开发更复杂的自动化流程。

5. 实战案例:自动完成日常任务

理论讲完了,我们来点实际的。下面我分享几个真实可用的案例,你可以直接复制这些指令试试效果。

5.1 案例一:自动化信息收集

假设你想了解某个话题的最新信息:

python main.py \
  --device-id your_device_id \
  --base-url your_model_url \
  --model "autoglm-phone-9b" \
  "打开微博,搜索‘人工智能大会’,把前三条热门微博的内容和点赞数记下来"

Phone Agent会:

  1. 打开微博App
  2. 点击搜索框
  3. 输入“人工智能大会”
  4. 浏览搜索结果
  5. 识别出微博内容和点赞数
  6. 通过ADB Keyboard输入到记事本或直接返回给程序

5.2 案例二:跨应用工作流

更复杂的任务也能处理:

python main.py \
  --device-id your_device_id \
  --base-url your_model_url \
  --model "autoglm-phone-9b" \
  "先打开相机拍一张窗外的照片,然后打开微信,把照片发到‘家人群’,并说‘今天天气真好’"

这个指令涉及多个App的切换和协同,Phone Agent会按顺序执行:

  • 启动相机 → 拍照 → 保存
  • 切换到微信 → 进入家人群 → 选择相册 → 选择刚拍的照片 → 输入文字 → 发送

5.3 案例三:重复性操作自动化

对于每天都要做的重复操作,Phone Agent能节省大量时间:

# 用Python脚本批量处理
tasks = [
    "打开钉钉,完成每日健康打卡",
    "打开支付宝,收取所有蚂蚁森林能量",
    "打开网易云音乐,播放‘每日推荐’歌单",
    "打开京东,查看待收货订单状态"
]

for task in tasks:
    agent.run(task)
    time.sleep(2)  # 每个任务间隔2秒

6. 常见问题与解决方案

在实际使用中,你可能会遇到一些问题。这里我整理了最常见的几个问题和解决方法。

6.1 连接问题

问题:adb devices 显示设备但状态为offline

  • 原因:ADB版本与手机不兼容或连接不稳定
  • 解决
    1. 重新插拔USB线
    2. 重启ADB服务:adb kill-server 然后 adb start-server
    3. 更新ADB工具到最新版本

问题:WiFi连接经常断开

  • 原因:网络不稳定或手机休眠
  • 解决
    1. 在手机开发者选项里开启“保持唤醒状态(充电时)”
    2. 使用USB连接代替WiFi
    3. 设置手机永不休眠(仅限连接期间)

6.2 执行问题

问题:AI点错位置或执行错误操作

  • 原因:屏幕识别不准确或指令歧义
  • 解决
    1. 确保手机屏幕干净,亮度适中
    2. 指令尽量明确,比如“点击右上角的搜索图标”而不是“点搜索”
    3. 可以在指令中指定位置,如“点击屏幕下方第二个标签”

问题:输入法切换失败

  • 原因:ADB Keyboard没有设为默认输入法
  • 解决
    1. 确认ADB Keyboard已安装并启用
    2. 在手机设置中将其设为默认输入法
    3. 重启手机后重新设置

6.3 性能问题

问题:执行速度慢

  • 原因:网络延迟或模型响应慢
  • 解决
    1. 使用USB连接减少延迟
    2. 如果自建模型服务,确保GPU性能足够
    3. 简化指令,避免过于复杂的多步操作

问题:内存占用高

  • 原因:截图处理和模型推理需要资源
  • 解决
    1. 降低截图分辨率(修改代码中的截图参数)
    2. 使用轻量级模型版本
    3. 增加任务执行间隔,避免连续快速操作

7. 安全使用建议

虽然Phone Agent很强大,但用的时候也要注意安全:

  1. 敏感操作确认:Phone Agent内置了安全机制,遇到支付、删除等操作时会暂停。请不要绕过这些确认,特别是涉及资金和个人数据的操作。

  2. 账户安全:避免让AI处理涉及密码、验证码的操作。虽然系统支持人工接管,但最好还是手动处理敏感信息。

  3. 设备安全:确保只有可信的电脑能通过ADB连接你的手机。不用的时候,可以关闭USB调试功能。

  4. 合法使用:仅用于个人自动化需求,不要用于批量注册、刷量等违反平台规则的行为。

  5. 备份重要数据:自动化操作可能有不可预知的结果,重要数据提前备份。

8. 总结

通过这篇教程,你应该已经掌握了Open-AutoGLM Phone Agent的完整部署和使用方法。我们来回顾一下关键步骤:

部署流程四步走

  1. 环境准备:电脑装Python和ADB,手机开开发者模式和USB调试
  2. 代码安装:克隆仓库、安装依赖,几分钟搞定
  3. 设备连接:USB直连最稳定,WiFi连接更灵活
  4. 启动代理:配置模型服务,用自然语言给指令

它能帮你做什么

  • 自动化日常手机操作,节省时间和精力
  • 处理重复性任务,比如打卡、收集信息
  • 作为开发工具,测试App的UI自动化
  • 辅助特殊人群操作手机

使用建议

  • 从简单任务开始,逐步尝试复杂操作
  • 指令尽量明确具体,避免歧义
  • 重要操作亲自监督,安全第一
  • 结合Python脚本,实现批量自动化

Open-AutoGLM展示了AI Agent在移动设备上的巨大潜力。随着模型能力的提升,未来我们或许真的可以只用语音或文字,就让手机完成所有复杂操作。现在,你已经站在了这个未来的起点上。

动手试试吧,从“打开抖音搜索某个博主”开始,感受AI帮你操作手机的奇妙体验。遇到问题不用怕,按照本文的排查步骤一步步来,你一定能成功部署属于自己的手机AI助手。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐