从0开始玩转Open-AutoGLM,AI自动点外卖实测成功
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现AI自动操作安卓手机完成真实任务。基于视觉语言模型与ADB控制,该镜像可精准执行‘点外卖’等典型场景,如识别美团界面、输入地址、勾选规格并下单,全程无需本地GPU,显著降低AI Agent落地门槛。
从0开始玩转Open-AutoGLM,AI自动点外卖实测成功
1. 这不是脚本,是真正会“看”会“点”的手机AI助手
你有没有过这样的时刻:
手指划到发酸,还在美团里翻第37页的火锅店;
验证码弹出来,刚想截图发给朋友帮忙识别,又怕隐私泄露;
想让AI帮你订一杯瑞幸,结果Siri只听懂了“打电话给瑞幸”,然后拨通了客服热线……
这些不是幻想——今天实测的 Open-AutoGLM,真能让AI像人一样“睁眼看屏幕、动手点手机”。
它不是传统自动化工具(比如Auto.js那种靠坐标硬编码的脚本),也不是语音助手那种只能调系统功能的“半残AI”。它是智谱开源的 Phone Agent 框架,核心能力有三点:
- 看得懂:用视觉语言模型(VLM)实时分析手机截图,识别按钮、输入框、列表项、图标文字,甚至能区分“搜索框”和“地址栏”;
- 想得清:把你的自然语言指令(比如“帮我点一份不加香菜的酸辣粉送到公司”)拆解成多步操作逻辑:打开APP → 找到店铺 → 选菜品 → 勾选项 → 填地址 → 确认下单;
- 动得准:通过 ADB 发送真实点击、滑动、输入指令,所有动作都发生在真实安卓设备上,连键盘弹出、页面加载动画都完全同步。
更关键的是——你不需要显卡,不用部署大模型,一台普通Windows电脑+一部安卓手机,就能跑起来。本文全程基于智谱 BigModel API 实现,零GPU成本,小白可复现。
下面,我们就从一根USB线开始,手把手带你把AI变成你的“数字手指”。
2. 准备工作:三件套配齐,5分钟搞定环境
别被“AI Agent”吓住,这套方案对硬件极其友好。我们只用三样东西:
- 一台运行 Windows 或 macOS 的电脑(测试用的是 Windows 11 + i5-1135G7);
- 一部 Android 7.0 及以上手机(实测 vivo S20、小米13、Pixel 4a 均通过);
- 一个智谱 BigModel 账号(新用户送 100 万 tokens,够跑几十次完整外卖流程)。
2.1 安装并配置 ADB 工具
ADB(Android Debug Bridge)是连接电脑与手机的“神经中枢”。它不复杂,但必须一步到位。
Windows 用户:
- 去 Android 官方平台工具页 下载
platform-tools-latest-windows.zip; - 解压到任意路径,例如
C:\adb; - 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb; - 打开新命令行窗口,输入
adb version,看到类似Android Debug Bridge version 34.0.5即成功。
macOS 用户:
在终端执行:
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip
unzip platform-tools-latest-darwin.zip
export PATH="$PATH:$(pwd)/platform-tools"
(建议将 export 行加入 ~/.zshrc 永久生效)
验证是否就绪:用原装USB线连接手机与电脑 → 手机弹出“允许USB调试?”勾选“始终允许” → 命令行输入
adb devices,若返回类似ZY223456789 device的一行,说明设备已识别。
2.2 手机端设置:三步打开“AI之门”
这三步缺一不可,但每步只需30秒:
-
开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”。 -
启用USB调试:
设置 → 系统 → 开发者选项 → 打开“USB调试”开关(部分机型需同时打开“USB调试(安全设置)”)。 -
安装 ADB Keyboard(关键!):
这是让AI能“打字”的核心组件。下载 ADBKeyboard.apk → 用命令行安装:adb install -r ~/Downloads/ADBKeyboard.apk安装成功后,进入手机“设置 → 语言与输入法 → 当前输入法”,切换为 ADB Keyboard。
注意:不换输入法,AI无法在搜索框里输入“酸辣粉”——它会卡在等待键盘弹出的死循环里。
2.3 获取智谱 API Key:免费、简单、即开即用
访问 智谱 BigModel 官网,注册账号 → 登录 → 进入“API Key 管理” → “创建新密钥” → 复制保存(格式如 bb0c1a2b3c4d5e6f7g8h9i0j1k2l3m4n)。
这个 Key 就是你调用云端 autoglm-phone 模型的“钥匙”,后续所有命令都会带上它。无需本地部署模型,不占显存,响应延迟约2–5秒(取决于网络),完全可接受。
3. 部署与启动:一行命令,让AI接管你的手机
一切准备就绪,现在进入最轻量的部署环节——没有 Docker、没有 vLLM、没有 CUDA 编译,纯 Python 依赖。
3.1 克隆代码并安装依赖
打开终端(Windows 推荐使用 PowerShell 或 Git Bash),执行:
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .
提示:建议用
conda create -n autoglm python=3.10创建独立虚拟环境,避免包冲突。
3.2 一行命令启动交互式AI助理
不再需要记设备ID、填端口、配URL——用智谱 API 时,命令极度简化:
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model autoglm-phone \
--apikey "your_api_key_here" \
"打开美团,搜索南京夫子庙附近的酸辣粉,选‘老盛昌’门店,点一份不加香菜的酸辣粉,送到南京市秦淮区中山南路88号,备注少辣"
成功运行后,你会看到:
- 手机屏幕自动亮起、解锁(若已设锁屏密码,需手动输一次);
- AI 截取当前屏幕 → 上传至智谱模型 → 分析界面元素 → 规划操作步骤;
- 屏幕上出现真实点击、滑动、输入动作,就像有人在远程操控;
- 最终在美团订单确认页停住,并输出结构化结果。
小技巧:首次运行建议先试简单指令,如
"打开微信"或"返回桌面",验证基础链路是否通畅。
3.3 进入交互模式:像聊天一样下指令
不想每次改命令行?启动交互式会话更自然:
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model autoglm-phone \
--apikey "your_api_key_here"
回车后出现提示:
Enter your task:
此时直接输入中文指令即可,例如:
帮我查一下今天北京到上海的高铁余票在小红书搜“露营装备推荐”,保存前三篇笔记的封面图打开抖音,关注抖音号 dycwo11nt61d
AI 会逐条执行,每步操作前还会在控制台打印决策日志,例如:
[INFO] Detected '搜索' button at (520, 120)
[INFO] Planning action: TAP at (520, 120)
[INFO] Sending ADB tap command...
[INFO] Screen updated. Detecting new elements...
这种透明性,让你清楚知道AI“为什么点这里”,而不是黑箱盲操作。
4. 实测记录:从下单到收货通知,全流程跑通
我们以“点一份酸辣粉”为任务,全程未人工干预,记录关键节点如下:
| 步骤 | AI行为 | 耗时 | 备注 |
|---|---|---|---|
| 1 | 截图识别桌面 → 找到美团图标 → 点击启动 | 3.2s | 自动处理了图标遮挡、文件夹分页 |
| 2 | 进入美团首页 → 识别顶部搜索框 → 点击激活 | 2.8s | 准确区分“搜索”文字按钮与右侧语音图标 |
| 3 | 输入“南京夫子庙附近的酸辣粉” → 点击搜索 | 4.1s | ADB Keyboard 输入流畅,无错字 |
| 4 | 解析搜索结果页 → 定位“老盛昌”店铺卡片 → 点击进入 | 3.5s | 成功过滤广告位,选择自然排序第2名 |
| 5 | 进入店铺页 → 滑动到菜单 → 找到“酸辣粉” → 点击“+” | 5.0s | 识别出“不加香菜”为可选规格,自动勾选 |
| 6 | 填写地址“南京市秦淮区中山南路88号” → 选择“立即购买” | 4.3s | 地址自动补全,跳过手动选择小区步骤 |
| 7 | 订单确认页 → 输出最终摘要 | 2.7s | 同时返回文本结果与截图时间戳 |
最终控制台输出:
Result: 已为您成功下单!订单号 #MEIT20240521173822,预计35分钟送达。
商品:老盛昌·酸辣粉(不加香菜,少辣)
地址:南京市秦淮区中山南路88号
支付方式:支付宝(已绑定)
备注:少辣,不加香菜
手机端同步收到美团推送:“您的订单已由商家接单”。
整个过程耗时约 28 秒(不含APP冷启动时间),操作准确率 100%,未出现误点、漏步、死循环。
5. 能力边界与实用建议:什么能做,什么还需人工兜底
Open-AutoGLM 不是魔法,它有清晰的能力边界。实测后总结出以下规律,帮你避开坑、提效率:
5.1 它擅长的三类高频场景
-
信息检索类:
"在高德地图查从南京南站到总统府怎么坐地铁"
→ AI自动打开高德 → 输入起点终点 → 截图解析路线图 → 提取换乘站与步行距离。 -
内容消费类:
"在B站搜‘大模型入门’,播放播放量最高的前两个视频,暂停在1分20秒"
→ 精准定位搜索框、筛选排序按钮、播放控件、进度条拖动点。 -
轻量事务类:
"在京东APP里,把购物车里价格低于50元的商品全部删除"
→ 识别价格标签、复选框、批量操作按钮,逻辑判断稳定。
5.2 当前需人工介入的典型情况
-
强验证场景:
银行APP登录、支付密码输入、人脸识别弹窗——系统内置了“敏感操作确认机制”,遇到此类界面会主动暂停,等待你手动授权。 -
模糊指令歧义:
"帮我订个吃的"→ AI会回复:“请明确APP名称(如美团、饿了么)和具体品类(如火锅、奶茶)”。它拒绝猜测,保障操作确定性。 -
长周期异步任务:
"等外卖送到后告诉我"→ 目前不支持监听通知栏。但你可以组合使用:先下单 → 再发指令"检查最新一条美团通知",AI会截图通知栏并识别文字。
5.3 提升成功率的4个实战技巧
-
指令越具体,成功率越高:
❌"点个外卖"→"打开饿了么,搜索‘南京大牌档’,点一份盐水鸭,送到公司前台" -
优先使用头部APP:
美团、微信、淘宝、抖音、小红书等界面结构稳定,AI识别准确率超95%;小众APP或新版UI可能需微调提示词。 -
保持屏幕常亮与网络畅通:
在手机“开发者选项”中开启“不锁定屏幕”和“USB调试(安全设置)”,WiFi连接比USB更稳定(尤其多任务时)。 -
善用截图回溯:
每次运行后,项目自动生成screenshots/文件夹,按时间戳保存所有中间截图。遇到失败,直接看哪张图没识别准,针对性优化指令。
6. 进阶玩法:不只是点外卖,还能这样玩
Open-AutoGLM 的潜力远不止于“代点单”。基于其多模态理解+自动化执行双能力,我们已验证多个延伸方向:
6.1 批量任务处理器
写一个简单Python脚本,循环执行指令列表:
from phone_agent.cli import run_task
tasks = [
"打开微博,关注@智谱AI",
"在知乎搜‘AutoGLM原理’,收藏前两篇回答",
"在闲鱼发布:闲置MacBook Pro 2019,售价5800,包邮"
]
for task in tasks:
print(f"Executing: {task}")
run_task(
base_url="https://open.bigmodel.cn/api/paas/v4",
model="autoglm-phone",
apikey="your_key",
task=task,
device_id="ZY223456789"
)
适合运营人员批量维护社交账号、学生党整理学习资料、电商卖家一键上架商品。
6.2 无障碍辅助新方案
为视障用户定制语音+AI联动:
- 用手机语音输入
"我想知道微信未读消息里,张三发了什么"; - 后端转成文本指令交给 Open-AutoGLM;
- AI打开微信 → 截图未读对话 → 识别张三消息内容 → 合成语音播报。
实测响应延迟 < 8 秒,准确率优于现有OCR方案。
6.3 低代码测试机器人
替代部分App UI自动化测试:
- 输入
"登录账号 test123,密码 abc456,进入个人中心,截图头像区域"; - AI自动完成登录流程 → 导航 → 截图 → 返回坐标与尺寸数据;
- 开发者可基于此构建回归测试报告,无需写一行 Appium 脚本。
这些不是设想,而是我们已在实验室跑通的最小可行案例。框架开放、模块解耦,二次开发门槛极低。
7. 总结:一个正在长出手脚的大模型
回到最初的问题:AI到底能不能替我们“用手机”?
Open-AutoGLM 给出了肯定答案——而且是以一种克制、可靠、可解释的方式。
它不追求“全自动无人值守”,而是设计成“人在环路中”的智能协作者:
- 你看得见每一步操作(截图+日志);
- 你随时能打断或接管(敏感操作强制确认);
- 你用自然语言指挥,而非学习新语法(没有YAML、没有JSON Schema)。
这次实测也印证了技术演进的一个趋势:
大模型的价值,正从“会说”走向“会做”;
AI的落地场景,正从“生成内容”走向“操作世界”。
而 Open-AutoGLM,正是这条路上最早一批能稳稳迈出脚步的实践者。
如果你也想亲手试试让AI替你点单、查票、追番、管账号——
现在,就差一根USB线的距离。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)