Open-AutoGLM保姆级教程:连WiFi都能远程控制
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的安卓手机远程控制。基于同一WiFi网络,用户可语音或文本指令让AI自动执行APP启动、搜索、输入、关注等操作,典型应用于外卖点餐、社交消息发送及内容发现等日常场景。
Open-AutoGLM保姆级教程:连WiFi都能远程控制
1. 这不是科幻,是今天就能用上的手机AI管家
你有没有想过,手机能自己“看”懂屏幕、“想”清楚下一步该做什么,再“动手”完成任务?不是靠预设脚本,而是像人一样理解你的自然语言指令——比如一句“打开小红书搜美食”,它就能自动解锁、启动App、点击搜索框、输入文字、按下回车,全程无需你碰一下屏幕。
Open-AutoGLM 就是这样一套真正落地的手机端AI Agent框架。它不是概念演示,也不是云端调用API的伪智能,而是把视觉理解、意图推理和物理操控三者闭环打通的完整系统。更关键的是,它不依赖特定硬件或云服务——你自己的电脑跑模型,自己的手机被控制,所有数据留在本地,隐私可控;而连接方式,USB只是起点,WiFi远程控制才是它最让人眼前一亮的能力:连上同一WiFi,手机放在客厅,你在卧室发指令,它就在另一头自动执行。
本教程专为零基础用户设计。不需要你懂多模态、不需理解vLLM调度原理、甚至不用会写Python——只要你会安装软件、能复制粘贴命令、知道怎么在手机设置里点几下,就能从第一步走到最后一步,亲眼看到AI替你点开抖音、关注博主、发送消息。我们不讲抽象架构,只说“这一步你该点哪里”“这条命令为什么这么写”“连不上时先看哪三行输出”。
接下来,我们就从一根数据线开始,手把手带你把手机变成听你话的AI助理。
2. 准备工作:三样东西,缺一不可
别急着敲代码。在任何一行命令运行之前,请确认以下三类准备已全部到位。少一个环节,后面90%的问题都源于此。
2.1 硬件:你的“作战单元”
| 设备 | 最低要求 | 为什么重要 |
|---|---|---|
| 电脑 | Windows 10 / macOS Monterey 或更新系统,16GB内存,50GB空闲硬盘 | 模型(18GB)+ 项目代码 + 推理引擎需要空间;16GB内存是vLLM稳定加载9B模型的底线 |
| 安卓手机 | Android 7.0 及以上,已解锁Bootloader(非必须,但推荐),屏幕可正常点亮 | AutoGLM通过ADB截图并操作,旧系统可能不支持部分ADB命令;锁屏状态会导致截图失败 |
| 连接方式 | USB数据线(带数据传输功能)或 同一局域网WiFi环境 | USB用于首次调试和稳定连接;WiFi用于真正解放双手的远程控制场景 |
注意:iPhone 不支持。本框架基于Android ADB协议构建,暂未适配iOS。
2.2 软件:四个必须装好的工具
你不需要一次性装完所有,但每一步都要验证成功后再继续:
Python 3.10+(必装)
- Windows:去 python.org 下载最新3.10+安装包,务必勾选 “Add Python to PATH”
- macOS:终端执行
brew install python@3.10(如未装Homebrew,先运行/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)") - 验证:打开命令行,输入
python --version,应显示Python 3.10.x或更高版本
ADB 工具(必装)
这是你和手机对话的“翻译官”。
- 下载地址:Android SDK Platform-Tools(选对应系统zip包)
- 解压后得到
adb、fastboot等文件 - 配置环境变量(关键!)
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压ADB的完整路径(如
D:\platform-tools) - macOS:终端执行
echo 'export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools' >> ~/.zshrc && source ~/.zshrc
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入你解压ADB的完整路径(如
- 验证:命令行输入
adb version,应显示类似Android Debug Bridge version 1.0.41
Git(推荐装)
用于克隆代码仓库,比手动下载更可靠。
- Windows/macOS:访问 git-scm.com 下载安装,默认选项即可
- 验证:
git --version
ADB Keyboard(必装)
这是让AI能“打中文”的核心组件。没有它,AI只能点击、滑动,但无法在搜索框里输入“火锅”两个字。
- 下载:GitHub搜索
ADBKeyboard.apk(官方维护版),或直接从 Open-AutoGLM 仓库 releases 获取 - 安装:电脑连接手机后,在命令行执行
adb install ADBKeyboard.apk - 启用:手机进入「设置 → 系统 → 语言与输入法 → 虚拟键盘 → 勾选 ADB Keyboard,并设为默认输入法」
2.3 手机端:三步开启“被控制权”
这三步必须在手机上手动完成,无法跳过:
-
开启开发者模式
进入「设置 → 关于手机 → 版本号」,连续点击7次,直到弹出“您已处于开发者模式”提示。 -
开启USB调试
返回「设置 → 系统 → 开发者选项 → USB调试」,打开开关。首次开启会弹窗,点“确定”。 -
开启无线调试(为WiFi控制铺路)
在同一「开发者选项」页面,找到「无线调试」→ 打开 → 点击「无线调试」→ 记下显示的IP地址和端口(格式如192.168.1.100:5555)。这个地址,就是你后续WiFi连接的关键。
小技巧:做完这三步后,用USB线连接手机和电脑,在电脑命令行运行
adb devices。如果看到一串设备ID后跟着device,说明软硬件握手成功——这是你通往AI控制的第一道门。
3. 部署实战:从下载到第一次“开口说话”
现在,我们正式进入部署环节。所有操作都在你自己的电脑上进行,不涉及任何云端注册或账号绑定。
3.1 下载并安装Open-AutoGLM控制端
这是你发号施令的“指挥中心”。
# 1. 克隆项目(国内用户建议加 --depth 1 加速)
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
# 2. 创建虚拟环境(强烈推荐,避免依赖冲突)
python -m venv venv
source venv/bin/activate # macOS/Linux
# venv\Scripts\activate # Windows
# 3. 安装依赖
pip install -r requirements.txt
pip install -e .
验证:运行 python -c "from phone_agent.adb import list_devices; print(list_devices())",若无报错且返回空列表(说明没连设备),即表示环境安装成功。
3.2 下载并启动AI模型服务(核心大脑)
AutoGLM-Phone-9B 是一个约18GB的多模态大模型,它负责“看图”“读屏”“思考”“决策”。我们用vLLM作为推理引擎,让它跑得又快又稳。
方法一:国内用户首选(ModelScope镜像,快10倍)
# 1. 克隆模型(约5分钟)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
# 2. 启动服务(Linux/macOS)
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--model ./AutoGLM-Phone-9B \
--port 8000 \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt '{"image":10}' \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--mm_processor_kwargs '{"max_pixels":5000000}'
方法二:Windows用户简化版(先跑通)
# 在命令行中执行(确保已激活venv)
python -m vllm.entrypoints.openai.api_server ^
--served-model-name autoglm-phone-9b ^
--model ./AutoGLM-Phone-9B ^
--port 8000
启动成功标志:终端出现 Uvicorn running on http://0.0.0.0:8000 字样。此时,你的电脑已化身一台AI服务器,等待接收指令。
常见卡点:
- 报错
CUDA out of memory:显存不足,加参数--tensor-parallel-size 1 --gpu-memory-utilization 0.9降低占用- 报错
No module named 'vllm':确认已执行pip install vllm,且在正确虚拟环境中- 启动后无响应:检查端口8000是否被占用(
netstat -ano | findstr :8000),换端口如--port 8800
3.3 第一次测试:让AI打开“设置”应用
这是整个流程的黄金验证点。成功了,说明模型、控制端、手机连接全部就绪。
USB连接方式(推荐新手首测)
- 用USB线连接手机与电脑
- 手机弹窗点“允许USB调试”
- 电脑命令行执行:
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开设置"
你将看到类似输出:
💭 思考过程:
当前在桌面,需要打开设置应用
执行动作: {"action": "Launch", "app": "设置"}
动作执行成功:已启动设置应用
同时,你手机上会自动弹出“设置”界面。
WiFi连接方式(实现“真远程”)
- 确保手机与电脑在同一WiFi下
- 手机开启「无线调试」后,记下IP(如
192.168.1.100:5555) - 电脑命令行先连接:
adb connect 192.168.1.100:5555
adb devices # 应显示该IP
- 执行指令(只需替换
--device-id):
python main.py \
--device-id 192.168.1.100:5555 \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开小红书"
从此刻起,“连WiFi都能远程控制”不再是标题党——你人在书房,手机在客厅茶几,指令发出,App秒开。
4. 日常使用:三条命令,覆盖80%生活场景
学会启动只是开始。真正让AI成为助手,靠的是灵活下达自然语言指令。以下是经过实测、成功率最高的三类高频用法。
4.1 命令行直连:一句话搞定一件事
语法极简:python main.py [模型地址] [模型名] "你的中文指令"
场景1:外卖点餐(美团)
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开美团,搜索附近评分4.8以上的川菜馆,选第一家,查看菜单"
AI会自动:启动美团 → 点击首页搜索栏 → 输入“川菜” → 点击筛选 → 选择“好评优先” → 点击第一个店铺 → 进入详情页。
场景2:社交互动(微信)
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开微信,给张三发送消息:今晚聚餐地点改到海底捞,七点见!"
AI会自动:启动微信 → 在聊天列表顶部搜索“张三” → 点击进入对话 → 点击输入框 → 调用ADB Keyboard输入指定文字 → 点击发送按钮。
场景3:内容发现(抖音)
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开抖音,搜索抖音号为:dycwo11nt61d 的博主并关注他!"
AI会自动:启动抖音 → 点击搜索图标 → 输入抖音号 → 点击搜索结果中的该账号 → 点击“关注”按钮。
实测提示:指令越具体,成功率越高。“打开抖音搜美食”不如“打开抖音,搜索关键词‘北京烤鸭’,点击第一个视频”明确;涉及账号、ID、精确名称时,务必一字不差复制粘贴。
4.2 Python API调用:为自动化脚本留接口
如果你有编程基础,或想批量处理任务,直接调用Python API更灵活:
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
# 配置指向本地模型服务
model_config = ModelConfig(
base_url="http://localhost:8000/v1",
model_name="autoglm-phone-9b",
)
# 创建AI代理实例
agent = PhoneAgent(model_config=model_config)
# 执行任务(返回结构化结果)
result = agent.run("打开淘宝,搜索‘降噪耳机’,按销量排序,取前3个商品标题")
print("AI提取的商品标题:", result["output"])
优势:可嵌入循环、条件判断、错误重试逻辑,适合做日报生成、竞品监控等重复性工作。
4.3 敏感操作人工接管:安全永远是第一位
当AI即将执行支付、删除、授权等高风险动作时,系统会主动暂停,等待你确认:
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开美团订一份外卖"
终端会输出:
需要确认: 即将支付28.5元,是否继续? (y/n):
你输入 y 才继续,输入 n 则终止。这个机制由 confirmation_callback 参数控制,你也可以自定义成弹窗、发邮件提醒等。
5. 进阶技巧:让AI更懂你、更听话
部署完成只是起点。以下技巧能显著提升日常使用体验。
5.1 WiFi远程控制:摆脱数据线的终极自由
USB连接稳定,但WiFi才能释放全部潜力。实测步骤:
- 手机开启「无线调试」,记下IP(如
192.168.1.100:5555) - 电脑执行
adb connect 192.168.1.100:5555 - 关键一步:关闭手机蓝牙和热点(避免ADB连接被干扰)
- 测试指令:
python main.py --device-id 192.168.1.100:5555 --base-url ... "打开设置" - 成功后,拔掉USB线,手机放远——只要在同一WiFi,指令依然实时响应。
网络优化:路由器开启QoS,为手机IP分配更高带宽;避免使用5GHz频段(ADB在2.4GHz下更稳定)。
5.2 自定义提示词:给AI加个“人设”
模型默认是通用助手。你可以通过修改 phone_agent/config/prompts.py,让它更专注某类任务:
# 修改 SYSTEM_PROMPT,例如强化电商能力
SYSTEM_PROMPT = """
你是一个资深电商购物顾问,熟悉淘宝、京东、拼多多的UI逻辑。
执行购物任务时,请严格遵守:
1. 搜索后,优先点击“综合排序”旁的“销量”按钮
2. 商品列表中,只读取前5个商品的标题、价格、月销数
3. 若遇到“领券”按钮,必须先点击再加入购物车
"""
保存后重启 main.py,AI就会按新规则执行。
5.3 环境变量:免输长命令的懒人方案
把常用参数设为环境变量,以后只需一条短命令:
# Windows(命令行)
set PHONE_AGENT_BASE_URL=http://localhost:8000/v1
set PHONE_AGENT_MODEL=autoglm-phone-9b
set PHONE_AGENT_DEVICE_ID=192.168.1.100:5555
# macOS/Linux(终端)
export PHONE_AGENT_BASE_URL=http://localhost:8000/v1
export PHONE_AGENT_MODEL=autoglm-phone-9b
export PHONE_AGENT_DEVICE_ID=192.168.1.100:5555
之后,直接运行 python main.py "打开小红书" 即可,无需再写冗长参数。
6. 常见问题速查:90%的问题,这里都有答案
部署和使用中遇到报错?先对照这份清单,80%的问题3分钟内解决。
| 问题现象 | 最可能原因 | 一键修复命令/操作 |
|---|---|---|
adb devices 显示 unauthorized |
手机未授权电脑调试 | 断开USB,重新连接,手机弹窗点“允许” |
adb connect IP:5555 失败 |
手机无线调试未开启,或IP错误 | 进入手机「开发者选项 → 无线调试」,确认开关打开并记准IP |
模型启动报 OSError: libcudnn.so.8: cannot open shared object file |
CUDA/cuDNN版本不匹配 | Ubuntu用户:sudo apt install libcudnn8;Windows用户重装CUDA Toolkit 12.1 |
| AI执行到一半卡住,无输出 | 手机屏幕熄灭或锁屏 | 保持屏幕常亮(设置→显示→休眠→改为“永不”),或加参数 --keep-screen-on |
| 中文输入框里显示乱码或不输入 | ADB Keyboard未启用为默认输入法 | 手机「设置→语言与输入法→虚拟键盘→ADB Keyboard→设为默认」 |
python main.py 报 ModuleNotFoundError: No module named 'phone_agent' |
未执行 pip install -e . 或虚拟环境未激活 |
重新进入Open-AutoGLM目录,执行 pip install -e . |
终极排查法:
adb devices确认设备在线curl http://localhost:8000/v1/models确认模型服务可访问python -c "import torch; print(torch.cuda.is_available())"确认GPU可用(如用GPU)
三步全通,99%问题已排除。
7. 总结:你的AI手机,今天就已上线
回顾整个过程,你其实只做了三件事:
- 装好四个工具(Python、ADB、Git、ADB Keyboard)
- 跑通两个服务(vLLM模型服务 + Open-AutoGLM控制端)
- 发出第一条指令(“打开设置”)
没有复杂的配置文件,没有晦涩的参数调优,没有云账号注册。所有能力,都运行在你自己的设备上。WiFi远程控制不是未来功能,而是你现在就能复制粘贴、亲眼见证的现实。
更重要的是,这只是一个起点。当你熟练使用“打开APP→搜索→点击”这类指令后,可以自然进阶到:
- 用Python API写脚本,每天早上自动抓取新闻摘要发到微信;
- 结合IFTTT,当手机收到“会议提醒”短信时,AI自动打开腾讯会议并静音入会;
- 为老人定制语音指令:“帮我给儿子打电话”,AI自动拨号并免提接通。
技术的价值,不在于它多酷炫,而在于它能否无声地融入生活,把人从重复劳动中解放出来。Open-AutoGLM 正在做的,就是把“手机AI助理”从PPT里的概念,变成你电脑里一个正在运行的 main.py 进程。
现在,关掉这篇教程,拿起你的手机,连上WiFi,然后在终端里敲下那行命令——
你的AI手机,等你唤醒。
---
> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)