教你用Open-AutoGLM自动下单美团外卖,全程无干预
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的移动端自动化任务。典型应用场景为全程无干预地自动下单美团外卖,涵盖打开APP、搜索商品、填写地址、选择优惠到提交订单的完整流程,显著提升日常数字生活效率。
教你用Open-AutoGLM自动下单美团外卖,全程无干预
1. 这不是科幻,是今天就能用上的手机AI助理
你有没有过这样的经历:深夜加班饿得前胸贴后背,打开美团外卖翻了二十分钟,还在纠结“到底吃啥”;手指划到发酸,终于选好店铺,又卡在填写地址、选择优惠券、确认支付这一连串操作上;眼看配送时间从30分钟变成45分钟,心里默默叹气——点个外卖,怎么比写代码还费劲?
现在,这个问题有解了。
智谱AI开源的 Open-AutoGLM 不是另一个聊天机器人,也不是只能回答问题的“嘴强王者”。它是一个真正能“看见”你手机屏幕、“理解”你自然语言指令、“动手”完成任务的手机端AI Agent。它不靠预设脚本,不依赖固定界面结构,而是像一个熟悉安卓系统的真人助手——你告诉它“帮我点份黄焖鸡米饭,送到公司前台”,它就真的会打开美团、搜索、筛选、加购、填地址、选优惠、点支付,一气呵成。
更关键的是:整个过程你完全不用碰手机。它通过ADB连接真机,用视觉语言模型实时分析每一帧屏幕画面,再规划下一步动作。这不是概念演示,而是已在真实设备上稳定运行的工程化框架。
这篇文章不讲大道理,不堆技术参数,只带你一步步把这套能力装进你的手机,然后亲手让它帮你点一次外卖。全程可验证、可复现、无黑箱。
2. 它到底怎么做到“看懂屏幕+自动操作”的?
2.1 核心不是“猜”,而是“看见+推理”
很多自动化工具靠坐标点击或UI控件ID来操作,一旦APP更新、界面微调,就全盘失效。Open-AutoGLM完全不同——它的底层是 AutoGLM-Phone-9B,一个专为移动端优化的多模态大模型。
它的工作流非常清晰:
- 截屏:每一步操作前,自动调用ADB抓取当前手机屏幕图像;
- 理解:把截图 + 你的文字指令(如“点外卖”)一起输入模型,模型输出结构化动作意图(例如:“找到‘美团外卖’图标并点击”);
- 规划:根据当前界面状态,生成下一步最合理的操作序列(点击?滑动?输入文字?);
- 执行:调用ADB命令真实执行(
adb shell input tap x y); - 循环:再次截屏 → 再次理解 → 再次规划 → 直到任务完成。
这个闭环里,没有硬编码的坐标,没有脆弱的XPath,只有对界面语义的理解。所以哪怕美团APP今天改了图标位置、明天换了按钮颜色,只要功能逻辑没变,它依然能认出来、点进去、干完活。
2.2 安全不是口号,是设计在骨子里的机制
你可能会担心:“让AI随便操作我的手机,会不会误点支付、泄露隐私?”
Open-AutoGLM 把安全当作第一优先级:
- 敏感操作强制人工确认:当检测到“支付”“转账”“修改密码”等关键词或界面元素时,流程会自动暂停,弹出提示框,必须你手动点击“继续”才执行;
- 验证码场景无缝接管:遇到短信验证码、图形验证码,系统会停止自动化,把控制权交还给你,填完再继续;
- 操作全程可追溯:每一步动作(截图、模型输出、ADB命令)都记录日志,你可以随时回看“它刚才干了什么”。
这不是“信任AI”,而是“让AI在你的监督下干活”。
3. 手把手部署:从零开始,30分钟搞定真机自动下单
别被“AI”“多模态”这些词吓住。Open-AutoGLM 的设计目标就是让开发者和普通用户都能快速上手。下面所有步骤,我都按真实操作顺序整理,跳过所有弯路。
提示:本文以 Windows + 真机USB连接 为例,macOS和WiFi连接方式在文末单独说明,原理完全一致。
3.1 准备工作:三样东西,缺一不可
| 项目 | 要求 | 验证方式 |
|---|---|---|
| 一台安卓手机 | Android 7.0 及以上,已开启开发者模式和USB调试 | 设置 → 关于手机 → 连续点击“版本号”7次 → 返回设置 → 开发者选项 → 开启“USB调试” |
| 一台电脑 | Windows 或 macOS,已安装 Python 3.10+ | 命令行输入 python --version,显示 Python 3.10.x 或更高 |
| ADB 工具 | Android Debug Bridge,用于电脑与手机通信 | 下载 platform-tools,解压后将文件夹路径添加到系统环境变量,命令行输入 adb version 应返回版本号 |
特别注意:手机需安装 ADB Keyboard(GitHub下载链接),并在手机“设置 → 语言与输入法”中,将默认输入法切换为它。这是实现自动输入文字的关键,否则AI无法在搜索框里打字。
3.2 一键连接:让电脑“认出”你的手机
- 用原装USB线将手机连接电脑;
- 手机弹出“允许USB调试吗?”提示,勾选“始终允许”,点击确定;
- 打开电脑命令行(Windows:CMD 或 PowerShell;macOS:Terminal),输入:
如果看到类似adb devicesZY223456789 device的输出,说明连接成功
如果显示List of devices attached下面为空,或显示unauthorized,请检查USB调试是否开启、驱动是否安装、手机是否信任该电脑。
3.3 下载并安装 Open-AutoGLM 控制端
在电脑上执行以下命令(确保已安装 Git):
# 克隆官方仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 创建虚拟环境(推荐,避免依赖冲突)
python -m venv venv
venv\Scripts\activate # Windows
# venv/bin/activate # macOS/Linux
# 安装依赖
pip install -r requirements.txt
pip install -e .
小贴士:如果
pip install报错torch相关问题,请先访问 PyTorch官网,根据你的系统和CUDA版本安装对应torch,再重试。
3.4 选择模型服务:三种方式,总有一款适合你
Open-AutoGLM 本身是控制框架,真正“思考”的是背后的视觉语言模型。你有三个选择:
| 方式 | 优点 | 适合谁 | 配置要点 |
|---|---|---|---|
| 智谱 BigModel API(推荐新手) | 无需本地显卡,开箱即用,稳定性高 | 想快速验证效果、无GPU设备 | 注册 智谱AI平台 → 获取API Key → --base-url https://open.bigmodel.cn/api/paas/v4 → --api-key your_key |
| 魔搭 ModelScope API | 同样免部署,国内访问快 | 偏好国产平台、网络环境受限 | 注册 ModelScope → 获取Token → --base-url https://api-inference.modelscope.cn/v1 → --api-key your_token |
| 本地部署(进阶) | 完全离线、响应更快、可深度定制 | 有NVIDIA显卡(≥8G显存)、追求极致控制 | 使用vLLM部署 zai-org/AutoGLM-Phone-9B,启动后服务地址为 http://localhost:8000/v1 |
本文演示使用 智谱 BigModel API,因为它最简单、最可靠,且对新手友好。你只需替换 your_api_key_here 即可。
3.5 执行第一次自动下单:一条命令,见证奇迹
确保手机已解锁并停留在桌面(不要在锁屏或任何APP内),然后在 Open-AutoGLM 项目根目录下,运行:
python main.py \
--device-id ZY223456789 \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model autoglm-phone \
--api-key your_api_key_here \
"打开美团外卖,搜索‘黄焖鸡米饭’,选择评分4.8以上的店铺,加入购物车,填写收货地址为北京市朝阳区建国路88号SOHO现代城A座,选择满30减5优惠券,提交订单"
替换说明:
--device-id:用你自己的设备ID(adb devices输出的第一列);--api-key:替换成你在智谱平台申请的真实API Key;- 最后一串引号里的文字,就是你给AI下的“自然语言指令”,越具体,成功率越高。
你会看到命令行开始滚动日志:
[INFO] Capturing screenshot...→ 截图上传[INFO] Querying model...→ 模型正在“看图说话”[INFO] Executing action: tap (x=520, y=1240)→ 真实点击发生- ……
几秒后,你的手机屏幕上,美团APP自动打开、搜索框出现文字、列表滚动、店铺被选中、地址自动填写、优惠券自动勾选、最终停留在“确认支付”页面。
任务完成! 整个过程无需你任何干预,就像有个同事坐在你旁边,帮你把外卖点好了。
4. 实战技巧:让自动下单更稳、更快、更聪明
光会跑通一次还不够。真实使用中,你会遇到各种边界情况。以下是我在实测中总结的5个关键技巧,直接决定成功率:
4.1 指令要“像教真人一样具体”,而不是“像写代码一样抽象”
❌ 错误示范(太模糊):
“帮我点个外卖”
正确示范(带上下文+约束+动作):
“打开美团外卖APP,点击首页搜索框,输入‘黄焖鸡米饭’,在结果页向上滑动,找到店铺名含‘老张’且评分大于4.7的店铺,点击进入,选择‘单人套餐A’,点击‘去结算’,在地址栏输入‘北京市朝阳区建国路88号SOHO现代城A座1201室’,勾选‘满30减5’优惠券,点击‘提交订单’”
原理:模型需要明确的“起点→路径→终点”。越具体的指令,越少歧义,越少走弯路。
4.2 首次使用,务必从“低风险任务”开始练手
不要一上来就挑战“支付”。建议按这个顺序渐进:
打开微信,给文件传输助手发送‘Hello’(验证基础操作)打开小红书,搜索‘北京美食’,点击第一个笔记(验证图文识别)打开美团外卖,搜索‘咖啡’,查看前三个店铺的评分(验证信息提取)打开美团外卖,搜索‘黄焖鸡’,选择一家店,加入购物车(验证电商流程)……最后才是完整下单
每一步成功,都是对模型理解和ADB控制能力的一次确认。
4.3 网络不稳定?换WiFi远程连接,摆脱USB线束缚
USB线虽稳定,但限制活动范围。Open-AutoGLM 支持WiFi无线控制:
# 第一步:用USB线连接,开启ADB TCP/IP模式
adb tcpip 5555
# 第二步:拔掉USB线,连接同一WiFi,获取手机IP(设置 → WLAN → 点击当前网络 → 查看IP地址)
# 第三步:用IP连接
adb connect 192.168.1.100:5555 # 替换为你手机的真实IP
# 第四步:运行命令时,--device-id 改为 IP:端口
python main.py --device-id 192.168.1.100:5555 --base-url ... "你的指令"
从此,你躺在沙发上,手机放在茶几上,也能远程指挥它干活。
4.4 遇到“卡住”?三招快速诊断
如果AI在某一步反复尝试、不前进,别急着重装:
- 看日志最后一行:通常会提示“未找到XX元素”,说明模型没识别到你要点的按钮;
- 手动操作一次:你自己在手机上走一遍流程,观察那个按钮在屏幕上的大概位置(比如“底部中间”“右上角三个点”),下次指令里加上方位描述;
- 加一句“如果找不到,就向下滑动一页”:给模型提供 fallback 策略,它会主动尝试滚动。
4.5 想批量处理?用Python API写个“外卖小管家”
main.py 是交互式入口,但真正工程化要用API。下面是一段真实可用的代码,封装成函数,以后只需调用 order_food("黄焖鸡") 就行:
# order_helper.py
from phone_agent.main import run_agent
from phone_agent.adb import ADBConnection
def order_food(dish_name: str, address: str):
"""自动下单指定菜品"""
conn = ADBConnection()
success, msg = conn.connect("ZY223456789") # 设备ID
if not success:
print(f"连接失败: {msg}")
return
instruction = f"打开美团外卖,搜索'{dish_name}',选择评分4.8+的店铺,加入购物车,填写收货地址为{address},使用满30减5优惠券,提交订单"
try:
result = run_agent(
device_id="ZY223456789",
base_url="https://open.bigmodel.cn/api/paas/v4",
model="autoglm-phone",
api_key="your_api_key_here",
instruction=instruction,
max_steps=50
)
print("下单流程已启动,详情见日志")
except Exception as e:
print(f"执行出错: {e}")
# 使用
if __name__ == "__main__":
order_food("黄焖鸡米饭", "北京市朝阳区建国路88号SOHO现代城A座1201室")
把它保存为 order_helper.py,运行 python order_helper.py,就是你的私人外卖Agent。
5. 它能做的,远不止点外卖
Open-AutoGLM 的能力边界,取决于你给它的指令和它所连接的APP生态。在实测中,我们验证了这些真实可用的高频场景:
| 场景 | 一句话指令示例 | 为什么实用 |
|---|---|---|
| 电商比价 | “打开淘宝、京东、拼多多,分别搜索‘AirPods Pro 2’,截图并对比三家最低价和发货地” | 省去手动切APP、记价格的麻烦,结果一目了然 |
| 社交运营 | “打开小红书,搜索‘AI工具推荐’,点赞前5篇笔记,对第3篇评论‘已收藏,谢谢分享!’” | 个人IP冷启动期,批量互动效率提升10倍 |
| 办公提效 | “打开WPS,新建空白文档,标题写‘周报-20240615’,插入表格,列名为‘工作项’‘进度’‘备注’,保存为‘周报.docx’” | 每周一重复劳动,3秒自动生成模板 |
| 出行规划 | “打开高德地图,搜索‘首都机场’,选择‘地铁’方案,截图路线图;再打开滴滴出行,输入目的地‘首都机场T3’,截图预估价格” | 出差前一站式查交通,不用来回切APP |
| 学习辅助 | “打开知乎,搜索‘Transformer原理’,打开高赞回答,长按复制全文,粘贴到备忘录新笔记中,标题为‘Transformer学习笔记’” | 快速收集碎片知识,构建个人知识库 |
你会发现,所有这些任务,共同点是:重复、机械、规则明确、耗时耗力。而 Open-AutoGLM 的价值,就是把这些“人类时间黑洞”,变成一条可复用的自然语言指令。
6. 总结:你不是在用工具,而是在培养一个数字分身
回到最初的问题:点个外卖,为什么值得写一篇技术博客?
因为 Open-AutoGLM 代表的,不是某个APP的自动化插件,而是一种全新的交互范式——
你不再需要“学操作”,只需要“说需求”;
你不再需要“记住路径”,只需要“描述目标”;
你不再需要“动手执行”,只需要“确认结果”。
它把过去十年移动互联网积累的海量APP,第一次真正变成了可被统一调度、可被自然语言编排的“数字劳动力”。而你,是它的指挥官。
当然,它还有成长空间:复杂表单填写、跨APP数据粘贴、弱网环境鲁棒性……但这些,恰恰是留给开发者和早期用户的共创机会。
如果你已经按本文步骤成功让AI帮你点了一次外卖,恭喜你——你刚刚跨过了AI Agent从“概念”走向“日常”的那条线。
下一步,不妨试试让它帮你整理通讯录、归档微信聊天记录、甚至监控竞品APP的促销活动。世界,正变得越来越“听话”。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)