Open-AutoGLM保姆级教程:连WiFi都能远程控制

1. 这不是科幻,是今天就能用上的手机AI管家

你有没有想过,手机能自己“看”懂屏幕、“想”清楚下一步该做什么,再“动手”完成任务?不是靠预设脚本,而是像人一样理解你的自然语言指令——比如一句“打开小红书搜美食”,它就能自动解锁、启动App、点击搜索框、输入文字、按下回车,全程无需你碰一下屏幕。

Open-AutoGLM 就是这样一套真正落地的手机端AI Agent框架。它不是概念演示,也不是云端调用API的伪智能,而是把视觉理解、意图推理和物理操控三者闭环打通的完整系统。更关键的是,它不依赖特定硬件或云服务——你自己的电脑跑模型,自己的手机被控制,所有数据留在本地,隐私可控;而连接方式,USB只是起点,WiFi远程控制才是它最让人眼前一亮的能力:连上同一WiFi,手机放在客厅,你在卧室发指令,它就在另一头自动执行

本教程专为零基础用户设计。不需要你懂多模态、不需理解vLLM调度原理、甚至不用会写Python——只要你会安装软件、能复制粘贴命令、知道怎么在手机设置里点几下,就能从第一步走到最后一步,亲眼看到AI替你点开抖音、关注博主、发送消息。我们不讲抽象架构,只说“这一步你该点哪里”“这条命令为什么这么写”“连不上时先看哪三行输出”。

接下来,我们就从一根数据线开始,手把手带你把手机变成听你话的AI助理。

2. 准备工作:三样东西,缺一不可

别急着敲代码。在任何一行命令运行之前,请确认以下三类准备已全部到位。少一个环节,后面90%的问题都源于此。

2.1 硬件:你的“作战单元”

设备 最低要求 为什么重要
电脑 Windows 10 / macOS Monterey 或更新系统,16GB内存,50GB空闲硬盘 模型(18GB)+ 项目代码 + 推理引擎需要空间;16GB内存是vLLM稳定加载9B模型的底线
安卓手机 Android 7.0 及以上,已解锁Bootloader(非必须,但推荐),屏幕可正常点亮 AutoGLM通过ADB截图并操作,旧系统可能不支持部分ADB命令;锁屏状态会导致截图失败
连接方式 USB数据线(带数据传输功能) 同一局域网WiFi环境 USB用于首次调试和稳定连接;WiFi用于真正解放双手的远程控制场景

注意:iPhone 不支持。本框架基于Android ADB协议构建,暂未适配iOS。

2.2 软件:四个必须装好的工具

你不需要一次性装完所有,但每一步都要验证成功后再继续:

Python 3.10+(必装)
  • Windows:去 python.org 下载最新3.10+安装包,务必勾选 “Add Python to PATH”
  • macOS:终端执行 brew install python@3.10(如未装Homebrew,先运行 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
  • 验证:打开命令行,输入 python --version,应显示 Python 3.10.x 或更高版本
ADB 工具(必装)

这是你和手机对话的“翻译官”。

  • 下载地址:Android SDK Platform-Tools(选对应系统zip包)
  • 解压后得到 adbfastboot 等文件
  • 配置环境变量(关键!)
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压ADB的完整路径(如 D:\platform-tools
    • macOS:终端执行 echo 'export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools' >> ~/.zshrc && source ~/.zshrc
  • 验证:命令行输入 adb version,应显示类似 Android Debug Bridge version 1.0.41
Git(推荐装)

用于克隆代码仓库,比手动下载更可靠。

  • Windows/macOS:访问 git-scm.com 下载安装,默认选项即可
  • 验证:git --version
ADB Keyboard(必装)

这是让AI能“打中文”的核心组件。没有它,AI只能点击、滑动,但无法在搜索框里输入“火锅”两个字。

  • 下载:GitHub搜索 ADBKeyboard.apk(官方维护版),或直接从 Open-AutoGLM 仓库 releases 获取
  • 安装:电脑连接手机后,在命令行执行 adb install ADBKeyboard.apk
  • 启用:手机进入「设置 → 系统 → 语言与输入法 → 虚拟键盘 → 勾选 ADB Keyboard,并设为默认输入法」

2.3 手机端:三步开启“被控制权”

这三步必须在手机上手动完成,无法跳过:

  1. 开启开发者模式
    进入「设置 → 关于手机 → 版本号」,连续点击7次,直到弹出“您已处于开发者模式”提示。

  2. 开启USB调试
    返回「设置 → 系统 → 开发者选项 → USB调试」,打开开关。首次开启会弹窗,点“确定”。

  3. 开启无线调试(为WiFi控制铺路)
    在同一「开发者选项」页面,找到「无线调试」→ 打开 → 点击「无线调试」→ 记下显示的IP地址和端口(格式如 192.168.1.100:5555)。这个地址,就是你后续WiFi连接的关键。

小技巧:做完这三步后,用USB线连接手机和电脑,在电脑命令行运行 adb devices。如果看到一串设备ID后跟着 device,说明软硬件握手成功——这是你通往AI控制的第一道门。

3. 部署实战:从下载到第一次“开口说话”

现在,我们正式进入部署环节。所有操作都在你自己的电脑上进行,不涉及任何云端注册或账号绑定。

3.1 下载并安装Open-AutoGLM控制端

这是你发号施令的“指挥中心”。

# 1. 克隆项目(国内用户建议加 --depth 1 加速)
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

# 2. 创建虚拟环境(强烈推荐,避免依赖冲突)
python -m venv venv
source venv/bin/activate  # macOS/Linux
# venv\Scripts\activate  # Windows

# 3. 安装依赖
pip install -r requirements.txt
pip install -e .

验证:运行 python -c "from phone_agent.adb import list_devices; print(list_devices())",若无报错且返回空列表(说明没连设备),即表示环境安装成功。

3.2 下载并启动AI模型服务(核心大脑)

AutoGLM-Phone-9B 是一个约18GB的多模态大模型,它负责“看图”“读屏”“思考”“决策”。我们用vLLM作为推理引擎,让它跑得又快又稳。

方法一:国内用户首选(ModelScope镜像,快10倍)
# 1. 克隆模型(约5分钟)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

# 2. 启动服务(Linux/macOS)
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model ./AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt '{"image":10}' \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --mm_processor_kwargs '{"max_pixels":5000000}'
方法二:Windows用户简化版(先跑通)
# 在命令行中执行(确保已激活venv)
python -m vllm.entrypoints.openai.api_server ^
  --served-model-name autoglm-phone-9b ^
  --model ./AutoGLM-Phone-9B ^
  --port 8000

启动成功标志:终端出现 Uvicorn running on http://0.0.0.0:8000 字样。此时,你的电脑已化身一台AI服务器,等待接收指令。

常见卡点:

  • 报错 CUDA out of memory:显存不足,加参数 --tensor-parallel-size 1 --gpu-memory-utilization 0.9 降低占用
  • 报错 No module named 'vllm':确认已执行 pip install vllm,且在正确虚拟环境中
  • 启动后无响应:检查端口8000是否被占用(netstat -ano | findstr :8000),换端口如 --port 8800

3.3 第一次测试:让AI打开“设置”应用

这是整个流程的黄金验证点。成功了,说明模型、控制端、手机连接全部就绪。

USB连接方式(推荐新手首测)
  1. 用USB线连接手机与电脑
  2. 手机弹窗点“允许USB调试”
  3. 电脑命令行执行:
python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开设置"

你将看到类似输出:

💭 思考过程:
当前在桌面,需要打开设置应用

 执行动作: {"action": "Launch", "app": "设置"}
 动作执行成功:已启动设置应用

同时,你手机上会自动弹出“设置”界面。

WiFi连接方式(实现“真远程”)
  1. 确保手机与电脑在同一WiFi下
  2. 手机开启「无线调试」后,记下IP(如 192.168.1.100:5555
  3. 电脑命令行先连接:
adb connect 192.168.1.100:5555
adb devices  # 应显示该IP
  1. 执行指令(只需替换 --device-id):
python main.py \
  --device-id 192.168.1.100:5555 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书"

从此刻起,“连WiFi都能远程控制”不再是标题党——你人在书房,手机在客厅茶几,指令发出,App秒开。

4. 日常使用:三条命令,覆盖80%生活场景

学会启动只是开始。真正让AI成为助手,靠的是灵活下达自然语言指令。以下是经过实测、成功率最高的三类高频用法。

4.1 命令行直连:一句话搞定一件事

语法极简:python main.py [模型地址] [模型名] "你的中文指令"

场景1:外卖点餐(美团)
python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开美团,搜索附近评分4.8以上的川菜馆,选第一家,查看菜单"

AI会自动:启动美团 → 点击首页搜索栏 → 输入“川菜” → 点击筛选 → 选择“好评优先” → 点击第一个店铺 → 进入详情页。

场景2:社交互动(微信)
python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开微信,给张三发送消息:今晚聚餐地点改到海底捞,七点见!"

AI会自动:启动微信 → 在聊天列表顶部搜索“张三” → 点击进入对话 → 点击输入框 → 调用ADB Keyboard输入指定文字 → 点击发送按钮。

场景3:内容发现(抖音)
python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音,搜索抖音号为:dycwo11nt61d 的博主并关注他!"

AI会自动:启动抖音 → 点击搜索图标 → 输入抖音号 → 点击搜索结果中的该账号 → 点击“关注”按钮。

实测提示:指令越具体,成功率越高。“打开抖音搜美食”不如“打开抖音,搜索关键词‘北京烤鸭’,点击第一个视频”明确;涉及账号、ID、精确名称时,务必一字不差复制粘贴。

4.2 Python API调用:为自动化脚本留接口

如果你有编程基础,或想批量处理任务,直接调用Python API更灵活:

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 配置指向本地模型服务
model_config = ModelConfig(
    base_url="http://localhost:8000/v1",
    model_name="autoglm-phone-9b",
)

# 创建AI代理实例
agent = PhoneAgent(model_config=model_config)

# 执行任务(返回结构化结果)
result = agent.run("打开淘宝,搜索‘降噪耳机’,按销量排序,取前3个商品标题")
print("AI提取的商品标题:", result["output"])

优势:可嵌入循环、条件判断、错误重试逻辑,适合做日报生成、竞品监控等重复性工作。

4.3 敏感操作人工接管:安全永远是第一位

当AI即将执行支付、删除、授权等高风险动作时,系统会主动暂停,等待你确认:

python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开美团订一份外卖"

终端会输出:

  需要确认: 即将支付28.5元,是否继续? (y/n): 

你输入 y 才继续,输入 n 则终止。这个机制由 confirmation_callback 参数控制,你也可以自定义成弹窗、发邮件提醒等。

5. 进阶技巧:让AI更懂你、更听话

部署完成只是起点。以下技巧能显著提升日常使用体验。

5.1 WiFi远程控制:摆脱数据线的终极自由

USB连接稳定,但WiFi才能释放全部潜力。实测步骤:

  1. 手机开启「无线调试」,记下IP(如 192.168.1.100:5555
  2. 电脑执行 adb connect 192.168.1.100:5555
  3. 关键一步:关闭手机蓝牙和热点(避免ADB连接被干扰)
  4. 测试指令:python main.py --device-id 192.168.1.100:5555 --base-url ... "打开设置"
  5. 成功后,拔掉USB线,手机放远——只要在同一WiFi,指令依然实时响应。

网络优化:路由器开启QoS,为手机IP分配更高带宽;避免使用5GHz频段(ADB在2.4GHz下更稳定)。

5.2 自定义提示词:给AI加个“人设”

模型默认是通用助手。你可以通过修改 phone_agent/config/prompts.py,让它更专注某类任务:

# 修改 SYSTEM_PROMPT,例如强化电商能力
SYSTEM_PROMPT = """
你是一个资深电商购物顾问,熟悉淘宝、京东、拼多多的UI逻辑。
执行购物任务时,请严格遵守:
1. 搜索后,优先点击“综合排序”旁的“销量”按钮
2. 商品列表中,只读取前5个商品的标题、价格、月销数
3. 若遇到“领券”按钮,必须先点击再加入购物车
"""

保存后重启 main.py,AI就会按新规则执行。

5.3 环境变量:免输长命令的懒人方案

把常用参数设为环境变量,以后只需一条短命令:

# Windows(命令行)
set PHONE_AGENT_BASE_URL=http://localhost:8000/v1
set PHONE_AGENT_MODEL=autoglm-phone-9b
set PHONE_AGENT_DEVICE_ID=192.168.1.100:5555

# macOS/Linux(终端)
export PHONE_AGENT_BASE_URL=http://localhost:8000/v1
export PHONE_AGENT_MODEL=autoglm-phone-9b
export PHONE_AGENT_DEVICE_ID=192.168.1.100:5555

之后,直接运行 python main.py "打开小红书" 即可,无需再写冗长参数。

6. 常见问题速查:90%的问题,这里都有答案

部署和使用中遇到报错?先对照这份清单,80%的问题3分钟内解决。

问题现象 最可能原因 一键修复命令/操作
adb devices 显示 unauthorized 手机未授权电脑调试 断开USB,重新连接,手机弹窗点“允许”
adb connect IP:5555 失败 手机无线调试未开启,或IP错误 进入手机「开发者选项 → 无线调试」,确认开关打开并记准IP
模型启动报 OSError: libcudnn.so.8: cannot open shared object file CUDA/cuDNN版本不匹配 Ubuntu用户:sudo apt install libcudnn8;Windows用户重装CUDA Toolkit 12.1
AI执行到一半卡住,无输出 手机屏幕熄灭或锁屏 保持屏幕常亮(设置→显示→休眠→改为“永不”),或加参数 --keep-screen-on
中文输入框里显示乱码或不输入 ADB Keyboard未启用为默认输入法 手机「设置→语言与输入法→虚拟键盘→ADB Keyboard→设为默认」
python main.pyModuleNotFoundError: No module named 'phone_agent' 未执行 pip install -e . 或虚拟环境未激活 重新进入Open-AutoGLM目录,执行 pip install -e .

终极排查法:

  1. adb devices 确认设备在线
  2. curl http://localhost:8000/v1/models 确认模型服务可访问
  3. python -c "import torch; print(torch.cuda.is_available())" 确认GPU可用(如用GPU)
    三步全通,99%问题已排除。

7. 总结:你的AI手机,今天就已上线

回顾整个过程,你其实只做了三件事:

  • 装好四个工具(Python、ADB、Git、ADB Keyboard)
  • 跑通两个服务(vLLM模型服务 + Open-AutoGLM控制端)
  • 发出第一条指令(“打开设置”)

没有复杂的配置文件,没有晦涩的参数调优,没有云账号注册。所有能力,都运行在你自己的设备上。WiFi远程控制不是未来功能,而是你现在就能复制粘贴、亲眼见证的现实。

更重要的是,这只是一个起点。当你熟练使用“打开APP→搜索→点击”这类指令后,可以自然进阶到:

  • 用Python API写脚本,每天早上自动抓取新闻摘要发到微信;
  • 结合IFTTT,当手机收到“会议提醒”短信时,AI自动打开腾讯会议并静音入会;
  • 为老人定制语音指令:“帮我给儿子打电话”,AI自动拨号并免提接通。

技术的价值,不在于它多酷炫,而在于它能否无声地融入生活,把人从重复劳动中解放出来。Open-AutoGLM 正在做的,就是把“手机AI助理”从PPT里的概念,变成你电脑里一个正在运行的 main.py 进程。

现在,关掉这篇教程,拿起你的手机,连上WiFi,然后在终端里敲下那行命令——
你的AI手机,等你唤醒。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐