小白必看:Open-AutoGLM让手机自动点外卖实录
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的安卓手机自动化操作。用户仅需一句话指令(如‘打开美团搜火锅并下单’),即可完成真实APP交互任务,典型应用于智能点外卖、查快递、发微信等日常效率场景。
小白必看:Open-AutoGLM让手机自动点外卖实录
你有没有过这样的时刻——深夜加班饿得前胸贴后背,手指却像灌了铅,连打开外卖APP的力气都没有?或者正赶着开会,想订份咖啡却腾不出手操作手机?别急,今天带你用智谱开源的 Open-AutoGLM,亲手把手机变成听懂人话、会看屏幕、能点外卖的“AI小管家”。全程不用写一行模型代码,不调一个参数,连Python刚装好、ADB第一次听说的新手,也能在2小时内跑通“打开美团→搜火锅→下单支付”全流程。这不是科幻预告,是已经能跑起来的真实能力。
本文不是概念科普,而是一次完整、可复现、带避坑指南的实操记录。我会用你家电脑+安卓手机,从零开始,一步步演示如何让AI真正接管你的手机屏幕,完成真实任务。所有步骤都经过真机验证(测试机型:小米13,Android 14),每一步卡在哪、为什么卡、怎么绕过去,全都写清楚。
1. 它到底是什么:不是“另一个大模型”,而是“会动手的AI”
1.1 一句话说清Open-AutoGLM的本质
Open-AutoGLM 不是一个聊天机器人,也不是一个图片生成器。它是一个手机端AI Agent框架——你可以把它理解成给手机装上了一双“AI眼睛”和一双手。
- AI眼睛:通过截图实时“看懂”你手机屏幕上显示的内容(比如美团首页的搜索框、店铺列表里的“评分4.8”、支付页面的“确认付款”按钮);
- AI大脑:把你的自然语言指令(如“帮我订份毛肚火锅”)拆解成“先打开美团→再点搜索→输入‘毛肚火锅’→选第1家→点‘立即购买’→填地址→付款”这一连串动作;
- AI双手:通过 ADB(Android Debug Bridge)这条“数字神经”,在手机上模拟点击、滑动、输入文字,真正完成操作。
整个过程,就是“观察→思考→执行”的闭环,而你只需要说一句话。
1.2 它能做什么?先看三个真实任务结果
我们不讲虚的,直接上刚跑出来的三段真实操作记录(已脱敏):
-
任务1:点外卖
指令:打开美团,搜索‘老码头火锅’,选评分最高的那家,下单一份毛肚锅底和一份黄喉,送到公司前台
实际效果:AI自动打开美团→跳转到搜索页→输入文字→识别出3家同名店→对比评分(4.9 > 4.7 > 4.5)→进入4.9分店铺→加购指定菜品→填写预设地址→停在支付页等待确认。 -
任务2:查快递
指令:打开菜鸟裹裹,查我最近三天的签收记录
实际效果:AI启动菜鸟APP→识别底部导航栏“我的”→点击→找到“我的快递”→下拉刷新→自动滚动到“已签收”分类→截取并返回最近三条物流单号及时间。 -
任务3:发微信
指令:打开微信,给张伟发消息‘会议推迟到下午三点,会议室换到B203’
实际效果:AI启动微信→在通讯录搜索“张伟”→进入聊天窗口→长按输入框调出键盘→用ADB Keyboard准确输入中文→点击发送。
这些不是演示视频,是我在自己手机上录下的真实操作流。关键在于:它不依赖APP内置API,不越狱不Root,只靠“看图+点按”就能工作——这意味着,只要界面可见,它理论上能操作任何安卓APP。
2. 准备工作:四样东西,缺一不可
别被“AI”吓住,这其实是一场硬件+软件的精准对接。下面四样东西,必须全部到位,少一样都会卡在第一步。
2.1 硬件清单(真机优先,模拟器慎用)
| 设备 | 要求 | 为什么重要 |
|---|---|---|
| 一台电脑 | Windows 10+/macOS 12+,内存≥16GB | 运行模型服务(vLLM)和控制端,显存非必需但有更好 |
| 一部安卓手机 | Android 7.0+,系统未深度定制(推荐小米、华为、OPPO、vivo原生系统) | AutoGLM依赖标准ADB协议,某些厂商定制ROM会屏蔽部分调试权限 |
| 一根USB数据线 | 支持数据传输(非仅充电线) | 首次连接必须用USB建立信任链,WiFi远程需以此为前提 |
| 稳定WiFi环境 | 手机与电脑在同一局域网(可选但强烈推荐) | 后续切换WiFi控制,摆脱线缆束缚,操作更自由 |
注意:iOS设备不支持。目前Open-AutoGLM仅适配安卓生态。
2.2 软件安装:三步走,稳准快
步骤1:装好Python(3.10或更新版)
- Windows用户:去 python.org 下载安装包,安装时务必勾选 “Add Python to PATH”。装完打开CMD,输入
python --version,看到Python 3.10.x或更高即成功。 - Mac用户:终端运行
brew install python@3.10(没装Homebrew先装:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)")。
步骤2:配置ADB工具(核心桥梁)
ADB是电脑和手机之间的“翻译官”。下载地址:Android SDK Platform-Tools(选对应系统zip包)。
- Windows:解压到
D:\platform-tools,右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴D:\platform-tools→确定。 - Mac:解压后终端运行
export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools(路径按实际修改),然后source ~/.zshrc生效。
验证:终端/CMD输入 adb version,出现版本号(如 Android Debug Bridge version 1.0.41)即成功。
步骤3:手机开启开发者模式 & USB调试
这是最关键的一步,也是新手最容易卡住的地方:
- 打开手机【设置】→【关于手机】→连续点击【版本号】7次,直到弹出“您现在处于开发者模式”;
- 返回【设置】→【更多设置】→【开发者选项】→打开【USB调试】;
- 用USB线连接手机和电脑,手机弹出“允许USB调试吗?”→勾选【始终允许】→点【确定】。
验证是否成功:电脑终端输入
adb devices,若返回类似ABC123456789 device的一行,说明连接成功。如果显示unauthorized,请检查手机是否点了“允许”。
3. 安装部署:五步完成,从克隆到运行
所有操作都在电脑终端(Windows用CMD/PowerShell,Mac用Terminal)中进行。我们采用本地模型服务+本地控制端的最简方案,无需云服务器。
3.1 下载并安装Open-AutoGLM控制端
# 克隆项目(约2MB,秒级完成)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 安装依赖(耐心等1-2分钟)
pip install -r requirements.txt
pip install -e .
3.2 安装ADB Keyboard(中文输入的关键)
AI要打字,必须用专用输入法。否则它只能点按钮,不能输“毛肚火锅”。
- 下载
ADBKeyboard.apk(GitHub项目Release页或搜索引擎搜“ADBKeyboard apk”即可找到); - 终端执行:
adb install ADBKeyboard.apk - 手机设置:【设置】→【系统】→【语言和输入法】→【虚拟键盘】→启用【ADB Keyboard】,并设为默认。
验证:在手机任意输入框长按,应能看到“ADB Keyboard”选项;切换后,用
adb shell input text "test"命令,手机输入框应出现“test”。
3.3 启动本地模型服务(vLLM)
Open-AutoGLM需要一个“AI大脑”来理解屏幕和指令。我们使用轻量级的 autoglm-phone-9b 模型(约18GB),通过vLLM推理框架启动。
国内用户推荐用ModelScope镜像快速下载:
# 创建模型目录
mkdir models && cd models
# 从魔搭下载(比Hugging Face快得多)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
cd ..
启动服务(Linux/Mac):
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--model ./models/AutoGLM-Phone-9B \
--port 8000 \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt '{"image":10}' \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--mm_processor_kwargs '{"max_pixels":5000000}'
Windows用户简化命令(功能稍减,但够用):
python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --model ./models/AutoGLM-Phone-9B --port 8000
看到终端输出 Uvicorn running on http://0.0.0.0:8000 即启动成功。保持这个窗口常开。
3.4 连接手机设备(USB or WiFi)
- USB直连(推荐首次使用):确保
adb devices已显示设备ID(如ABC123456789)。 - WiFi远程(进阶推荐):
先用USB连上,终端运行:
断开USB,手机连WiFi,查看手机IP(【设置】→【关于手机】→【状态】→IP地址),然后:adb tcpip 5555adb connect 192.168.1.100:5555 # 替换为你手机的真实IP adb devices # 应显示 IP:5555 device
3.5 运行第一个任务:让AI打开“设置”
这是黄金验证步骤。成功了,后面全通。
python main.py \
--device-id ABC123456789 \ # 替换为你的设备ID或IP:5555
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开设置"
预期输出:
💭 思考过程:
当前在桌面,需要打开设置应用
执行动作: {"action": "Launch", "app": "设置"}
同时,你手机上的“设置”APP会自动启动。
如果卡住或报错,请先回头检查:ADB是否连上?ADB Keyboard是否启用?模型服务端口是否正确?这三个是90%问题的根源。
4. 实战点外卖:手把手跑通全流程
现在,我们正式挑战标题任务:“让手机自动点外卖”。以美团APP为例(其他APP逻辑一致),全程无跳步。
4.1 任务拆解:AI是怎么一步步做的?
你只说一句:“打开美团,搜毛肚火锅,下单一份”,AI内部却完成了至少12个动作:
- 截取当前手机屏幕;
- 识别桌面图标,定位“美团”APP;
- 模拟点击美团图标;
- 等待APP加载,再次截图;
- 识别顶部搜索框(带放大镜图标);
- 点击搜索框;
- 调用ADB Keyboard输入“毛肚火锅”;
- 点击软键盘“搜索”按钮;
- 解析搜索结果页,识别店铺卡片;
- 对比各店铺“评分”字段,选出最高分(如4.9);
- 点击该店铺进入详情页;
- 定位“点餐”按钮并点击……
整个过程全自动,你只需在敏感操作(如支付)前确认。
4.2 执行命令(复制即用)
python main.py \
--device-id ABC123456789 \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开美团,搜索毛肚火锅,选择评分最高的店铺,下单一份毛肚锅底和一份黄喉,送到公司前台"
提示:首次运行建议在安静环境,全程观察手机屏幕变化。你会看到AI像真人一样“看”、“点”、“输”、“滑”,非常直观。
4.3 关键细节与避坑指南
- 地址预设很重要:AI无法读取你通讯录或地图,所以“公司前台”这类模糊地址,需提前在美团APP里保存为常用地址,AI才能选中。
- 支付环节会暂停:当AI走到“确认付款”页时,会输出类似
需要人工确认:即将支付¥88.00,是否继续?,此时你手动点“确认”即可。这是安全机制,防止误扣款。 - 如果搜索无结果:尝试换关键词,如“重庆毛肚火锅”比“毛肚火锅”更易命中;或加限定词“附近”。
- APP未安装? AI会明确告诉你:“未检测到美团APP”,请先手动安装。
5. 进阶玩法:不止点外卖,还能这样玩
Open-AutoGLM的能力边界,远超点餐。掌握以下技巧,你能把它变成真正的效率引擎。
5.1 一句话批量操作:朋友圈点赞脚本
不想手动刷朋友圈?写个5行脚本:
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
model_config = ModelConfig(
base_url="http://localhost:8000/v1",
model_name="autoglm-phone-9b",
)
agent = PhoneAgent(model_config=model_config)
friends = ["妈妈", "同事小李", "大学室友"]
for name in friends:
result = agent.run(f"打开微信,进入{name}的朋友圈,点赞最新一条动态")
print(f"{name}: {result}")
5.2 自定义“快捷指令”:把复杂操作变一句话
编辑 phone_agent/config/prompts.py,在系统提示词里加入你的习惯:
SYSTEM_PROMPT = """
你是一个专注效率的手机助手。当用户说‘查快递’,请自动打开菜鸟裹裹,进入‘我的快递’,筛选‘已签收’,返回最近3条单号。
当用户说‘记笔记’,请打开‘语雀’APP,在‘每日记录’笔记本里新建一页,标题为‘YYYY-MM-DD 日记’,内容留空。
"""
以后只需说 查快递 或 记笔记,AI就按你定的流程走。
5.3 WiFi远程控制:躺在床上指挥客厅手机
把手机放在客厅支架上,电脑在卧室,全程WiFi操作:
- 手机开启【无线调试】(在开发者选项里);
- 电脑执行
adb connect 192.168.1.100:5555; - 后续所有
main.py命令中,--device-id直接填192.168.1.100:5555。
从此,语音喊一声,客厅电视投屏、空调调温、甚至扫地机器人启停,都能交给AI。
6. 常见问题速查:卡住了?先看这三条
| 现象 | 最可能原因 | 一句话解决 |
|---|---|---|
adb devices 显示 unauthorized 或空白 |
手机没点“允许USB调试” | 拔掉重连,手机弹窗必点“允许”,勾选“始终允许” |
模型服务启动报错 CUDA out of memory |
显存不足(<12GB)或没独显 | 加 --device cpu 参数强制CPU运行(速度慢但能跑) |
| AI一直“思考”不执行,或点错位置 | 手机屏幕太暗、锁屏、或APP界面有广告遮挡 | 保持屏幕常亮、解锁状态;关闭APP开屏广告;首次用简单任务(如“打开设置”)校准 |
终极心法:所有问题,90%回归到“ADB连上了吗?ADB Keyboard启用了没?模型服务端口对不对?”这三问。
7. 安全与隐私:你的手机,你做主
Open-AutoGLM的设计哲学是“本地优先,隐私可控”:
- 所有数据不出设备:屏幕截图、文本指令、操作日志,全部在你本地电脑处理,不上传任何云端服务器;
- 敏感操作强确认:支付、删除联系人、清除聊天记录等动作,AI必定暂停,等你手动点击“确认”才继续;
- 权限最小化:它只申请“无障碍服务”和“截图”权限,不读取短信、不访问相册、不获取定位,比很多国产APP权限还干净;
- 可随时接管:运行中按手机电源键,AI立即暂停;想终止,关掉终端窗口即可。
你可以放心让它帮你点外卖、查快递、回消息,而不用担心隐私泄露。
8. 总结:这不是玩具,是生产力新起点
今天这场实操,我们完成了三件事:
- 搞懂了本质:Open-AutoGLM不是又一个大模型玩具,而是一个能把“语言指令”翻译成“屏幕动作”的真实Agent;
- 跑通了全流程:从ADB配置、模型启动、到真实点外卖,每一步都有据可依,无玄学步骤;
- 掌握了主动权:你知道了它能做什么、边界在哪、怎么定制、如何避坑。
下一步,你可以:
- 把它装在旧手机上,当专属家庭中控(“打开空调26度”“播放客厅音箱”);
- 给父母手机装上,教他们一句“帮我充100元话费”,AI自动搞定;
- 在公司内网部署,让AI自动填报周报、抓取竞品价格、监控舆情……
技术的价值,从来不在参数多高,而在是否真正省下了你的时间。当你深夜饿了,不用挣扎起身,只说一句“点份火锅”,手机自己忙活起来——那一刻,AI才真正走进了生活。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)