教你用Open-AutoGLM自动下单美团外卖,全程无干预

1. 这不是科幻,是今天就能用上的手机AI助理

你有没有过这样的经历:深夜加班饿得前胸贴后背,打开美团外卖翻了二十分钟,还在纠结“到底吃啥”;手指划到发酸,终于选好店铺,又卡在填写地址、选择优惠券、确认支付这一连串操作上;眼看配送时间从30分钟变成45分钟,心里默默叹气——点个外卖,怎么比写代码还费劲?

现在,这个问题有解了。

智谱AI开源的 Open-AutoGLM 不是另一个聊天机器人,也不是只能回答问题的“嘴强王者”。它是一个真正能“看见”你手机屏幕、“理解”你自然语言指令、“动手”完成任务的手机端AI Agent。它不靠预设脚本,不依赖固定界面结构,而是像一个熟悉安卓系统的真人助手——你告诉它“帮我点份黄焖鸡米饭,送到公司前台”,它就真的会打开美团、搜索、筛选、加购、填地址、选优惠、点支付,一气呵成。

更关键的是:整个过程你完全不用碰手机。它通过ADB连接真机,用视觉语言模型实时分析每一帧屏幕画面,再规划下一步动作。这不是概念演示,而是已在真实设备上稳定运行的工程化框架。

这篇文章不讲大道理,不堆技术参数,只带你一步步把这套能力装进你的手机,然后亲手让它帮你点一次外卖。全程可验证、可复现、无黑箱。


2. 它到底怎么做到“看懂屏幕+自动操作”的?

2.1 核心不是“猜”,而是“看见+推理”

很多自动化工具靠坐标点击或UI控件ID来操作,一旦APP更新、界面微调,就全盘失效。Open-AutoGLM完全不同——它的底层是 AutoGLM-Phone-9B,一个专为移动端优化的多模态大模型。

它的工作流非常清晰:

  1. 截屏:每一步操作前,自动调用ADB抓取当前手机屏幕图像;
  2. 理解:把截图 + 你的文字指令(如“点外卖”)一起输入模型,模型输出结构化动作意图(例如:“找到‘美团外卖’图标并点击”);
  3. 规划:根据当前界面状态,生成下一步最合理的操作序列(点击?滑动?输入文字?);
  4. 执行:调用ADB命令真实执行(adb shell input tap x y);
  5. 循环:再次截屏 → 再次理解 → 再次规划 → 直到任务完成。

这个闭环里,没有硬编码的坐标,没有脆弱的XPath,只有对界面语义的理解。所以哪怕美团APP今天改了图标位置、明天换了按钮颜色,只要功能逻辑没变,它依然能认出来、点进去、干完活。

2.2 安全不是口号,是设计在骨子里的机制

你可能会担心:“让AI随便操作我的手机,会不会误点支付、泄露隐私?”

Open-AutoGLM 把安全当作第一优先级:

  • 敏感操作强制人工确认:当检测到“支付”“转账”“修改密码”等关键词或界面元素时,流程会自动暂停,弹出提示框,必须你手动点击“继续”才执行;
  • 验证码场景无缝接管:遇到短信验证码、图形验证码,系统会停止自动化,把控制权交还给你,填完再继续;
  • 操作全程可追溯:每一步动作(截图、模型输出、ADB命令)都记录日志,你可以随时回看“它刚才干了什么”。

这不是“信任AI”,而是“让AI在你的监督下干活”。


3. 手把手部署:从零开始,30分钟搞定真机自动下单

别被“AI”“多模态”这些词吓住。Open-AutoGLM 的设计目标就是让开发者和普通用户都能快速上手。下面所有步骤,我都按真实操作顺序整理,跳过所有弯路。

提示:本文以 Windows + 真机USB连接 为例,macOS和WiFi连接方式在文末单独说明,原理完全一致。

3.1 准备工作:三样东西,缺一不可

项目 要求 验证方式
一台安卓手机 Android 7.0 及以上,已开启开发者模式和USB调试 设置 → 关于手机 → 连续点击“版本号”7次 → 返回设置 → 开发者选项 → 开启“USB调试”
一台电脑 Windows 或 macOS,已安装 Python 3.10+ 命令行输入 python --version,显示 Python 3.10.x 或更高
ADB 工具 Android Debug Bridge,用于电脑与手机通信 下载 platform-tools,解压后将文件夹路径添加到系统环境变量,命令行输入 adb version 应返回版本号

特别注意:手机需安装 ADB KeyboardGitHub下载链接),并在手机“设置 → 语言与输入法”中,将默认输入法切换为它。这是实现自动输入文字的关键,否则AI无法在搜索框里打字。

3.2 一键连接:让电脑“认出”你的手机

  1. 用原装USB线将手机连接电脑;
  2. 手机弹出“允许USB调试吗?”提示,勾选“始终允许”,点击确定;
  3. 打开电脑命令行(Windows:CMD 或 PowerShell;macOS:Terminal),输入:
    adb devices
    
    如果看到类似 ZY223456789 device 的输出,说明连接成功
    如果显示 List of devices attached 下面为空,或显示 unauthorized,请检查USB调试是否开启、驱动是否安装、手机是否信任该电脑。

3.3 下载并安装 Open-AutoGLM 控制端

在电脑上执行以下命令(确保已安装 Git):

# 克隆官方仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 创建虚拟环境(推荐,避免依赖冲突)
python -m venv venv
venv\Scripts\activate  # Windows
# venv/bin/activate     # macOS/Linux

# 安装依赖
pip install -r requirements.txt
pip install -e .

小贴士:如果 pip install 报错 torch 相关问题,请先访问 PyTorch官网,根据你的系统和CUDA版本安装对应torch,再重试。

3.4 选择模型服务:三种方式,总有一款适合你

Open-AutoGLM 本身是控制框架,真正“思考”的是背后的视觉语言模型。你有三个选择:

方式 优点 适合谁 配置要点
智谱 BigModel API(推荐新手) 无需本地显卡,开箱即用,稳定性高 想快速验证效果、无GPU设备 注册 智谱AI平台 → 获取API Key → --base-url https://open.bigmodel.cn/api/paas/v4--api-key your_key
魔搭 ModelScope API 同样免部署,国内访问快 偏好国产平台、网络环境受限 注册 ModelScope → 获取Token → --base-url https://api-inference.modelscope.cn/v1--api-key your_token
本地部署(进阶) 完全离线、响应更快、可深度定制 有NVIDIA显卡(≥8G显存)、追求极致控制 使用vLLM部署 zai-org/AutoGLM-Phone-9B,启动后服务地址为 http://localhost:8000/v1

本文演示使用 智谱 BigModel API,因为它最简单、最可靠,且对新手友好。你只需替换 your_api_key_here 即可。

3.5 执行第一次自动下单:一条命令,见证奇迹

确保手机已解锁并停留在桌面(不要在锁屏或任何APP内),然后在 Open-AutoGLM 项目根目录下,运行:

python main.py \
  --device-id ZY223456789 \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model autoglm-phone \
  --api-key your_api_key_here \
  "打开美团外卖,搜索‘黄焖鸡米饭’,选择评分4.8以上的店铺,加入购物车,填写收货地址为北京市朝阳区建国路88号SOHO现代城A座,选择满30减5优惠券,提交订单"

替换说明:

  • --device-id:用你自己的设备ID(adb devices 输出的第一列);
  • --api-key:替换成你在智谱平台申请的真实API Key;
  • 最后一串引号里的文字,就是你给AI下的“自然语言指令”,越具体,成功率越高。

你会看到命令行开始滚动日志:

  • [INFO] Capturing screenshot... → 截图上传
  • [INFO] Querying model... → 模型正在“看图说话”
  • [INFO] Executing action: tap (x=520, y=1240) → 真实点击发生
  • ……
    几秒后,你的手机屏幕上,美团APP自动打开、搜索框出现文字、列表滚动、店铺被选中、地址自动填写、优惠券自动勾选、最终停留在“确认支付”页面。

任务完成! 整个过程无需你任何干预,就像有个同事坐在你旁边,帮你把外卖点好了。


4. 实战技巧:让自动下单更稳、更快、更聪明

光会跑通一次还不够。真实使用中,你会遇到各种边界情况。以下是我在实测中总结的5个关键技巧,直接决定成功率:

4.1 指令要“像教真人一样具体”,而不是“像写代码一样抽象”

❌ 错误示范(太模糊):
“帮我点个外卖”

正确示范(带上下文+约束+动作):
“打开美团外卖APP,点击首页搜索框,输入‘黄焖鸡米饭’,在结果页向上滑动,找到店铺名含‘老张’且评分大于4.7的店铺,点击进入,选择‘单人套餐A’,点击‘去结算’,在地址栏输入‘北京市朝阳区建国路88号SOHO现代城A座1201室’,勾选‘满30减5’优惠券,点击‘提交订单’”

原理:模型需要明确的“起点→路径→终点”。越具体的指令,越少歧义,越少走弯路。

4.2 首次使用,务必从“低风险任务”开始练手

不要一上来就挑战“支付”。建议按这个顺序渐进:

  1. 打开微信,给文件传输助手发送‘Hello’(验证基础操作)
  2. 打开小红书,搜索‘北京美食’,点击第一个笔记(验证图文识别)
  3. 打开美团外卖,搜索‘咖啡’,查看前三个店铺的评分(验证信息提取)
  4. 打开美团外卖,搜索‘黄焖鸡’,选择一家店,加入购物车(验证电商流程)
  5. ……最后才是完整下单

每一步成功,都是对模型理解和ADB控制能力的一次确认。

4.3 网络不稳定?换WiFi远程连接,摆脱USB线束缚

USB线虽稳定,但限制活动范围。Open-AutoGLM 支持WiFi无线控制:

# 第一步:用USB线连接,开启ADB TCP/IP模式
adb tcpip 5555

# 第二步:拔掉USB线,连接同一WiFi,获取手机IP(设置 → WLAN → 点击当前网络 → 查看IP地址)

# 第三步:用IP连接
adb connect 192.168.1.100:5555  # 替换为你手机的真实IP

# 第四步:运行命令时,--device-id 改为 IP:端口
python main.py --device-id 192.168.1.100:5555 --base-url ... "你的指令"

从此,你躺在沙发上,手机放在茶几上,也能远程指挥它干活。

4.4 遇到“卡住”?三招快速诊断

如果AI在某一步反复尝试、不前进,别急着重装:

  1. 看日志最后一行:通常会提示“未找到XX元素”,说明模型没识别到你要点的按钮;
  2. 手动操作一次:你自己在手机上走一遍流程,观察那个按钮在屏幕上的大概位置(比如“底部中间”“右上角三个点”),下次指令里加上方位描述;
  3. 加一句“如果找不到,就向下滑动一页”:给模型提供 fallback 策略,它会主动尝试滚动。

4.5 想批量处理?用Python API写个“外卖小管家”

main.py 是交互式入口,但真正工程化要用API。下面是一段真实可用的代码,封装成函数,以后只需调用 order_food("黄焖鸡") 就行:

# order_helper.py
from phone_agent.main import run_agent
from phone_agent.adb import ADBConnection

def order_food(dish_name: str, address: str):
    """自动下单指定菜品"""
    conn = ADBConnection()
    success, msg = conn.connect("ZY223456789")  # 设备ID
    if not success:
        print(f"连接失败: {msg}")
        return
    
    instruction = f"打开美团外卖,搜索'{dish_name}',选择评分4.8+的店铺,加入购物车,填写收货地址为{address},使用满30减5优惠券,提交订单"
    
    try:
        result = run_agent(
            device_id="ZY223456789",
            base_url="https://open.bigmodel.cn/api/paas/v4",
            model="autoglm-phone",
            api_key="your_api_key_here",
            instruction=instruction,
            max_steps=50
        )
        print("下单流程已启动,详情见日志")
    except Exception as e:
        print(f"执行出错: {e}")

# 使用
if __name__ == "__main__":
    order_food("黄焖鸡米饭", "北京市朝阳区建国路88号SOHO现代城A座1201室")

把它保存为 order_helper.py,运行 python order_helper.py,就是你的私人外卖Agent。


5. 它能做的,远不止点外卖

Open-AutoGLM 的能力边界,取决于你给它的指令和它所连接的APP生态。在实测中,我们验证了这些真实可用的高频场景

场景 一句话指令示例 为什么实用
电商比价 “打开淘宝、京东、拼多多,分别搜索‘AirPods Pro 2’,截图并对比三家最低价和发货地” 省去手动切APP、记价格的麻烦,结果一目了然
社交运营 “打开小红书,搜索‘AI工具推荐’,点赞前5篇笔记,对第3篇评论‘已收藏,谢谢分享!’” 个人IP冷启动期,批量互动效率提升10倍
办公提效 “打开WPS,新建空白文档,标题写‘周报-20240615’,插入表格,列名为‘工作项’‘进度’‘备注’,保存为‘周报.docx’” 每周一重复劳动,3秒自动生成模板
出行规划 “打开高德地图,搜索‘首都机场’,选择‘地铁’方案,截图路线图;再打开滴滴出行,输入目的地‘首都机场T3’,截图预估价格” 出差前一站式查交通,不用来回切APP
学习辅助 “打开知乎,搜索‘Transformer原理’,打开高赞回答,长按复制全文,粘贴到备忘录新笔记中,标题为‘Transformer学习笔记’” 快速收集碎片知识,构建个人知识库

你会发现,所有这些任务,共同点是:重复、机械、规则明确、耗时耗力。而 Open-AutoGLM 的价值,就是把这些“人类时间黑洞”,变成一条可复用的自然语言指令。


6. 总结:你不是在用工具,而是在培养一个数字分身

回到最初的问题:点个外卖,为什么值得写一篇技术博客?

因为 Open-AutoGLM 代表的,不是某个APP的自动化插件,而是一种全新的交互范式——
你不再需要“学操作”,只需要“说需求”;
你不再需要“记住路径”,只需要“描述目标”;
你不再需要“动手执行”,只需要“确认结果”。

它把过去十年移动互联网积累的海量APP,第一次真正变成了可被统一调度、可被自然语言编排的“数字劳动力”。而你,是它的指挥官。

当然,它还有成长空间:复杂表单填写、跨APP数据粘贴、弱网环境鲁棒性……但这些,恰恰是留给开发者和早期用户的共创机会。

如果你已经按本文步骤成功让AI帮你点了一次外卖,恭喜你——你刚刚跨过了AI Agent从“概念”走向“日常”的那条线。

下一步,不妨试试让它帮你整理通讯录、归档微信聊天记录、甚至监控竞品APP的促销活动。世界,正变得越来越“听话”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐