手把手教你用Open-AutoGLM打造专属手机AI助手

1. 这不是科幻,是今天就能用上的真实能力

你有没有过这样的时刻:

  • 想在小红书搜“上海周末咖啡馆”,但正忙着做饭,腾不出手点手机;
  • 想给朋友转发抖音上那个搞笑视频,却卡在登录验证页反复失败;
  • 做电商运营要每天检查5个平台的竞品价格,手指点到发麻……

这些事,现在不用自己动手了。
Open-AutoGLM 不是概念演示,而是一个真正能“看见屏幕、理解意图、自动操作”的手机AI助手——它不靠预设脚本,不依赖固定界面,而是像人一样看图说话、边看边做。

它背后的核心能力有三块:

  • 看得懂:用视觉语言模型实时分析手机截图,识别按钮、文字、图标、布局;
  • 想得清:把你的自然语言指令(比如“打开美团搜川菜”)拆解成可执行动作序列;
  • 做得准:通过 ADB 精确控制点击、滑动、输入、返回等操作,连长按和双击都支持。

这不是遥控器,也不是录屏回放。它是第一个能在主流安卓App里稳定完成多步任务的开源手机Agent框架。
本文不讲原理、不堆参数,只带你从零开始,10分钟连上真机,30分钟跑通第一个任务,全程避开我踩过的7个大坑。

2. 准备工作:三样东西,缺一不可

别急着敲代码。先确认这三样基础是否就位——90%的失败都卡在这一步。

2.1 Python环境:必须3.10+,别用系统自带版本

运行 python --version,如果显示低于3.10(比如3.8或2.7),请立刻卸载重装。
Windows用户直接去 python.org 下载最新版,安装时务必勾选 “Add Python to PATH”
Mac用户推荐用 Homebrew 安装:

brew install python@3.10

小贴士:不要用Anaconda或Miniconda管理这个项目。Open-AutoGLM对依赖版本敏感,虚拟环境反而更稳。

2.2 ADB工具:电脑遥控手机的“方向盘”

ADB不是APP,而是一组命令行工具。它让你的电脑能“看到”手机、向手机发指令、截取屏幕。
下载地址:Android官方平台工具

  • Windows:下载zip包,解压到 C:\adb(路径别带中文和空格)
  • Mac:解压到 ~/Downloads/platform-tools

配置环境变量(让终端 anywhere 都能认出 adb):

  • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴 C:\adb
  • Mac:在终端运行
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
    source ~/.zshrc
    

验证是否成功:

adb version

看到类似 Android Debug Bridge version 1.0.41 就算通关。

2.3 安卓手机:7.0以上,且必须开启两个开关

你的手机需要同时满足:

  • 系统版本 ≥ Android 7.0(Nougat)
  • 开启 USB调试USB调试(安全设置)(后者常被忽略!)

设置路径:

  1. 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式
  2. 返回设置 → 系统 → 开发者选项 → 打开 USB调试
  3. 同一页面往下翻 → 找到 USB调试(安全设置)USB安装 → 也打开

注意:很多用户卡在第二步,手机连电脑后显示 unauthorized,就是因为漏了这个“安全设置”。授权弹窗只出现一次,错过就得重启ADB服务。

3. 手机端专项配置:让AI能“打字”

普通输入法无法被ADB调用。你需要一个专为自动化设计的输入法:ADB Keyboard

3.1 安装ADB Keyboard

下载地址:ADBKeyboard.apk
安装方式二选一:

  • 电脑端安装(推荐)
    adb install ADBKeyboard.apk
    
  • 手机端安装:浏览器下载APK,手动点击安装(需开启“未知来源应用”)

3.2 启用并设为当前输入法

  1. 手机设置 → 语言与输入法 → 虚拟键盘
  2. 找到 ADB Keyboard,点击启用
  3. 不需要设为默认输入法——Open-AutoGLM会在需要时自动切换,用完即切回原输入法

验证方法:在微信聊天框长按输入框,如果弹出“ADB Keyboard”选项,说明已就绪。

4. 项目部署:四步到位,拒绝玄学

4.1 克隆代码仓库

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

4.2 创建干净的Python虚拟环境

避免依赖冲突,这是最稳妥的做法:

  • Windows
    python -m venv venv
    venv\Scripts\activate
    
  • Mac/Linux
    python3 -m venv venv
    source venv/bin/activate
    

激活后,命令行前会显示 (venv)

4.3 安装依赖(关键:用国内镜像源)

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -e .

如果卡在 torchtransformers 安装:

  • Windows用户:先单独安装 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  • Mac M系列芯片:用 pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu

4.4 连接你的手机

插上USB线,运行:

adb devices

正常输出应类似:

List of devices attached
ZY2234567890    device

如果显示 unauthorized,去手机通知栏点“允许USB调试”。
如果空白,执行:

adb kill-server && adb start-server && adb devices

5. 模型方案选择:云端API or 本地部署?

你不需要两者都做。根据硬件和需求,选一个即可。

5.1 新手首选:智谱AI云端API(5分钟启动)

注册地址:智谱AI开放平台

  • 登录后进入「API密钥」页面,创建新密钥
  • 复制密钥(开头为 sk- 的一长串字符)

执行第一条指令:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxx" \
  "打开微信,给文件传输助手发送消息:你好,AI已就绪"

成功标志:手机自动解锁(如已锁屏)、打开微信、找到文件传输助手、输入文字、点击发送。

5.2 进阶玩家:本地部署AutoGLM-Phone-9B(适合RTX 3090+)

模型地址:Hugging Face
使用vLLM启动(性能最优):

python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --mm-processor-cache-type shm \
  --mm-processor-kwargs "{\"max_pixels\":5000000}"

注意:首次运行会下载约18GB模型文件,请确保磁盘空间充足。启动后访问 http://localhost:8000/v1/models 可验证服务状态。

6. 第一个任务:亲眼见证AI接管手机

别跳过这一步。亲手跑通,才能建立真实信任。

6.1 最简测试:确认ADB与模型通信正常

python main.py \
  --device-id $(adb devices | sed -n '2p' | awk '{print $1}') \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开设置,进入关于手机"

$(adb devices | sed -n '2p' | awk '{print $1}') 是自动获取第一个设备ID的命令,Windows用户请替换为实际ID(如 ZY2234567890)。

6.2 实战任务:三步完成“小红书美食搜索”

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxx" \
  "打开小红书,搜索上海周末美食探店"

你会看到:

  1. 手机自动拉起小红书App(如未安装则提示)
  2. 点击顶部搜索框,输入“上海周末美食探店”
  3. 点击搜索按钮,加载结果页

整个过程约3-8秒,取决于网络和手机性能。

7. 日常使用:三种姿势,随心切换

7.1 命令行单次执行:适合快速任务

语法极简:

python main.py [参数] "你的自然语言指令"

常用组合:

  • 指定设备(远程WiFi控制):
    python main.py --device-id 192.168.1.100:5555 --base-url ... "打开抖音刷10个视频"
    
  • 中文指令 + 英文系统手机:
    python main.py --lang en --base-url ... "Open WeChat and send message to File Transfer Assistant"
    
  • 查看已适配App列表:
    python main.py --list-apps
    

7.2 交互模式:像聊天一样连续下指令

去掉最后的指令字符串,进入对话式操作:

python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "sk-xxx"

然后输入:

> 打开淘宝  
> 搜索无线蓝牙耳机  
> 点击销量排序  
> 进入第一个商品详情页  
> 截图并保存  

每条指令独立执行,AI会记住上下文(比如“第一个商品”指上一步结果中的首项)。

7.3 Python API集成:嵌入你的自动化脚本

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 配置云端模型
config = ModelConfig(
    base_url="https://open.bigmodel.cn/api/paas/v4",
    model_name="autoglm-phone",
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxx"
)

agent = PhoneAgent(model_config=config)

# 执行任务,返回结构化结果
result = agent.run("打开大众点评,搜索附近评分4.5以上的咖啡馆")
print(f"任务状态:{result.status}")  # success / failed
print(f"执行步骤:{result.steps}")

优势:可批量调用、可加异常处理、可对接数据库或Webhook。

8. 它能做什么?一张表看清能力边界

Open-AutoGLM不是万能的,但它清楚知道自己能做什么、不能做什么。以下是实测验证的10种原子操作:

操作类型 能力说明 实际可用场景 限制说明
Launch 启动App “打开微博”、“启动高德地图” 需App已安装,名称支持模糊匹配
Tap 点击坐标或元素 “点击搜索框”、“点击‘立即购买’按钮” 对动态加载内容(如瀑布流)识别率略低
Type 输入文字 “搜索‘深圳天气’”、“发送‘收到’” 依赖ADB Keyboard,中英文均支持
Swipe 滑动屏幕 “向上滑动查看更多”、“左右切换Tab” 支持指定方向和距离,精度±50px
Back 返回上一页 “返回首页”、“退出当前页面” 等效于手机物理返回键
Home 回到桌面 “结束任务”、“清理后台” 等效于手机Home键
Long Press 长按操作 “长按图片保存”、“长按链接复制” 时长可配置,默认800ms
Double Tap 双击操作 “双击点赞”、“双击放大图片” 用于特定交互场景
Wait 主动等待 “等待页面加载完成”、“等待网络请求响应” 可设超时时间,避免死等
Take_over 人工接管 “遇到验证码时暂停”、“支付密码页提示接管” AI主动触发,安全关键环节

关于安全:所有涉及支付、人脸识别、短信验证码的操作,系统默认触发 Take_over,屏幕会显示“请人工接管”,你操作完成后按任意键继续。

9. 踩坑急救包:7个高频问题速查

9.1 ADB显示“no devices”或空白

原因:驱动未安装 / USB调试未授权 / 线缆接触不良
解决

adb kill-server && adb start-server && adb devices

若仍无效:

  • Windows用户去设备管理器,找到带黄色感叹号的“Android”设备,右键更新驱动(指向ADB解压目录)
  • 换原装USB线,插主板后置USB口

9.2 App能打开,但点不了任何按钮

99%是“USB调试(安全设置)”没开
路径:设置 → 开发者选项 → 找到该选项并开启。

9.3 输入中文时显示方块或乱码

原因:ADB Keyboard未启用或未正确切换
验证:在微信输入框长按 → 是否出现“ADB Keyboard”选项?
修复:手机设置 → 语言与输入法 → 启用ADB Keyboard(无需设默认)

9.4 截图黑屏(银行/支付宝等App)

正常现象。金融类App强制禁止截图,属系统级防护。
Open-AutoGLM会自动跳过该步骤,或触发 Take_over 提示你接管。

9.5 Windows命令行中文乱码

临时修复

chcp 65001 && python main.py ...

永久修复:在CMD属性→字体→选“Lucida Console”或“Consolas”。

9.6 任务执行一半卡住不动

常见原因

  • 页面加载慢(如图片多的网页)→ 在指令中加入“等待3秒”
  • 弹窗广告遮挡 → 手动关闭后,AI会继续执行
  • 网络超时 → 检查手机Wi-Fi/蜂窝数据是否开启

9.7 模型返回乱码或无响应

检查点

  • 云端API:确认密钥有效、配额未用尽、网络能访问 open.bigmodel.cn
  • 本地部署:检查vLLM启动日志是否有CUDA OOM错误,降低 --max-model-len 至20000

10. 让AI更听话的4个实战技巧

10.1 指令越具体,成功率越高

❌ 模糊指令:“帮我订个外卖”
明确指令:“打开美团,搜索‘海底捞’,选择‘环球港店’,点‘番茄牛腩锅’,下单支付”

10.2 复杂任务分步执行

一次性指令太长,AI容易“想岔”。拆成两步更稳:

python main.py "打开淘宝,搜索iPhone 15 Pro"
python main.py "点击销量排序,进入第一个商品页,截图"

10.3 善用“等待”和“重试”

在关键节点加等待,避免因加载延迟失败:

python main.py "打开知乎,搜索‘AI手机助手’,等待2秒,点击第一个回答"

10.4 敏感操作永远人工接管

绝不让AI输入:

  • 支付密码、银行卡号、身份证号
  • 邮箱验证码、微信登录二维码
  • 任何带“确认支付”“同意协议”字样的弹窗

系统已内置接管机制,你只需在提示出现时手动操作即可。

11. 进阶场景:不只是玩具,更是生产力工具

11.1 自动化App测试(开发者必备)

test_cases = [
    "打开App,点击‘我的’Tab",
    "点击头像,进入登录页",
    "输入测试账号test@demo.com,密码123456",
    "点击登录,等待首页加载"
]

for i, case in enumerate(test_cases, 1):
    result = agent.run(case)
    print(f"步骤{i}:{case} → {result.status}")

11.2 定时信息采集(运营人员福音)

结合Linux cron:

# 每天上午9点抓取京东某商品价格
0 9 * * * cd /home/user/Open-AutoGLM && python main.py "打开京东,搜索‘RTX4090显卡’,截图价格区域" >> /var/log/price.log

11.3 跨平台内容分发(自媒体人)

platforms = ["微博", "小红书", "知乎"]
content = "【AI实测】Open-AutoGLM手机助手深度体验报告"

for p in platforms:
    agent.run(f"打开{p},发布动态:{content}")

12. 性能与成本:算一笔明白账

方案 响应速度 单次成本 硬件要求 适合人群
云端API 2-5秒 0.1-0.5元/次 快速体验、偶尔使用、无GPU用户
本地部署 1-3秒 电费≈0.02元/小时 RTX 3090(24G)起 频繁使用、隐私敏感、开发者

成本提示:智谱AI新用户赠送100万tokens免费额度,够执行2000+次中等复杂度任务。

13. 总结:你的手机,从此多了一个沉默的帮手

Open-AutoGLM的价值,不在于它多酷炫,而在于它足够“实在”:

  • 它不依赖Root,不修改系统,用标准ADB协议,安全合规;
  • 它不靠固定坐标,而是用视觉理解界面,适配主流App成功率超85%;
  • 它不卖概念,所有代码开源,所有文档直给,你随时可以改、可以扩、可以集成。

它不会取代你,但会悄悄帮你省下每天15分钟——那些重复点击、反复输入、来回切换的时间。
当你第一次看着手机自己打开小红书、输入关键词、滑动浏览,那种“原来真的可以”的震撼,值得你花30分钟部署。

最后提醒一句:技术是中性的,用它提升效率,而非绕过规则。
支付、认证、隐私相关操作,请永远选择人工接管。真正的智能,是知道何时该放手。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐