教你用Open-AutoGLM自动下单美团外卖，全程无干预

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的移动端自动化任务。典型应用场景为全程无干预地自动下单美团外卖，涵盖打开APP、搜索商品、填写地址、选择优惠到提交订单的完整流程，显著提升日常数字生活效率。

柴木头 B2B电商

384人浏览 · 2026-01-28 01:11:10

柴木头 B2B电商 · 2026-01-28 01:11:10 发布

教你用Open-AutoGLM自动下单美团外卖，全程无干预

1. 这不是科幻，是今天就能用上的手机AI助理

你有没有过这样的经历：深夜加班饿得前胸贴后背，打开美团外卖翻了二十分钟，还在纠结“到底吃啥”；手指划到发酸，终于选好店铺，又卡在填写地址、选择优惠券、确认支付这一连串操作上；眼看配送时间从30分钟变成45分钟，心里默默叹气——点个外卖，怎么比写代码还费劲？

现在，这个问题有解了。

智谱AI开源的 Open-AutoGLM 不是另一个聊天机器人，也不是只能回答问题的“嘴强王者”。它是一个真正能“看见”你手机屏幕、“理解”你自然语言指令、“动手”完成任务的手机端AI Agent。它不靠预设脚本，不依赖固定界面结构，而是像一个熟悉安卓系统的真人助手——你告诉它“帮我点份黄焖鸡米饭，送到公司前台”，它就真的会打开美团、搜索、筛选、加购、填地址、选优惠、点支付，一气呵成。

更关键的是：整个过程你完全不用碰手机。它通过ADB连接真机，用视觉语言模型实时分析每一帧屏幕画面，再规划下一步动作。这不是概念演示，而是已在真实设备上稳定运行的工程化框架。

这篇文章不讲大道理，不堆技术参数，只带你一步步把这套能力装进你的手机，然后亲手让它帮你点一次外卖。全程可验证、可复现、无黑箱。

2. 它到底怎么做到“看懂屏幕+自动操作”的？

2.1 核心不是“猜”，而是“看见+推理”

很多自动化工具靠坐标点击或UI控件ID来操作，一旦APP更新、界面微调，就全盘失效。Open-AutoGLM完全不同——它的底层是 AutoGLM-Phone-9B，一个专为移动端优化的多模态大模型。

它的工作流非常清晰：

截屏：每一步操作前，自动调用ADB抓取当前手机屏幕图像；
理解：把截图 + 你的文字指令（如“点外卖”）一起输入模型，模型输出结构化动作意图（例如：“找到‘美团外卖’图标并点击”）；
规划：根据当前界面状态，生成下一步最合理的操作序列（点击？滑动？输入文字？）；
执行：调用ADB命令真实执行（adb shell input tap x y）；
循环：再次截屏 → 再次理解 → 再次规划 → 直到任务完成。

这个闭环里，没有硬编码的坐标，没有脆弱的XPath，只有对界面语义的理解。所以哪怕美团APP今天改了图标位置、明天换了按钮颜色，只要功能逻辑没变，它依然能认出来、点进去、干完活。

2.2 安全不是口号，是设计在骨子里的机制

你可能会担心：“让AI随便操作我的手机，会不会误点支付、泄露隐私？”

Open-AutoGLM 把安全当作第一优先级：

敏感操作强制人工确认：当检测到“支付”“转账”“修改密码”等关键词或界面元素时，流程会自动暂停，弹出提示框，必须你手动点击“继续”才执行；
验证码场景无缝接管：遇到短信验证码、图形验证码，系统会停止自动化，把控制权交还给你，填完再继续；
操作全程可追溯：每一步动作（截图、模型输出、ADB命令）都记录日志，你可以随时回看“它刚才干了什么”。

这不是“信任AI”，而是“让AI在你的监督下干活”。

3. 手把手部署：从零开始，30分钟搞定真机自动下单

别被“AI”“多模态”这些词吓住。Open-AutoGLM 的设计目标就是让开发者和普通用户都能快速上手。下面所有步骤，我都按真实操作顺序整理，跳过所有弯路。

提示：本文以 Windows + 真机USB连接 为例，macOS和WiFi连接方式在文末单独说明，原理完全一致。

3.1 准备工作：三样东西，缺一不可

项目	要求	验证方式
一台安卓手机	Android 7.0 及以上，已开启开发者模式和USB调试	设置 → 关于手机 → 连续点击“版本号”7次 → 返回设置 → 开发者选项 → 开启“USB调试”
一台电脑	Windows 或 macOS，已安装 Python 3.10+	命令行输入 `python --version`，显示 `Python 3.10.x` 或更高
ADB 工具	Android Debug Bridge，用于电脑与手机通信	下载 platform-tools，解压后将文件夹路径添加到系统环境变量，命令行输入 `adb version` 应返回版本号

特别注意：手机需安装 ADB Keyboard（GitHub下载链接），并在手机“设置 → 语言与输入法”中，将默认输入法切换为它。这是实现自动输入文字的关键，否则AI无法在搜索框里打字。

3.2 一键连接：让电脑“认出”你的手机

用原装USB线将手机连接电脑；
手机弹出“允许USB调试吗？”提示，勾选“始终允许”，点击确定；
打开电脑命令行（Windows：CMD 或 PowerShell；macOS：Terminal），输入：
```
adb devices
```
如果看到类似 ZY223456789 device 的输出，说明连接成功
如果显示 List of devices attached 下面为空，或显示 unauthorized，请检查USB调试是否开启、驱动是否安装、手机是否信任该电脑。

3.3 下载并安装 Open-AutoGLM 控制端

在电脑上执行以下命令（确保已安装 Git）：

# 克隆官方仓库
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 创建虚拟环境（推荐，避免依赖冲突）
python -m venv venv
venv\Scripts\activate  # Windows
# venv/bin/activate     # macOS/Linux

# 安装依赖
pip install -r requirements.txt
pip install -e .

小贴士：如果 pip install 报错 torch 相关问题，请先访问 PyTorch官网，根据你的系统和CUDA版本安装对应torch，再重试。

3.4 选择模型服务：三种方式，总有一款适合你

Open-AutoGLM 本身是控制框架，真正“思考”的是背后的视觉语言模型。你有三个选择：

方式	优点	适合谁	配置要点
智谱 BigModel API（推荐新手）	无需本地显卡，开箱即用，稳定性高	想快速验证效果、无GPU设备	注册智谱AI平台 → 获取API Key → `--base-url https://open.bigmodel.cn/api/paas/v4` → `--api-key your_key`
魔搭 ModelScope API	同样免部署，国内访问快	偏好国产平台、网络环境受限	注册 ModelScope → 获取Token → `--base-url https://api-inference.modelscope.cn/v1` → `--api-key your_token`
本地部署（进阶）	完全离线、响应更快、可深度定制	有NVIDIA显卡（≥8G显存）、追求极致控制	使用vLLM部署 `zai-org/AutoGLM-Phone-9B`，启动后服务地址为 `http://localhost:8000/v1`

本文演示使用 智谱 BigModel API，因为它最简单、最可靠，且对新手友好。你只需替换 your_api_key_here 即可。

3.5 执行第一次自动下单：一条命令，见证奇迹

确保手机已解锁并停留在桌面（不要在锁屏或任何APP内），然后在 Open-AutoGLM 项目根目录下，运行：

python main.py \
  --device-id ZY223456789 \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model autoglm-phone \
  --api-key your_api_key_here \
  "打开美团外卖，搜索‘黄焖鸡米饭’，选择评分4.8以上的店铺，加入购物车，填写收货地址为北京市朝阳区建国路88号SOHO现代城A座，选择满30减5优惠券，提交订单"

替换说明：

--device-id：用你自己的设备ID（adb devices 输出的第一列）；

--api-key：替换成你在智谱平台申请的真实API Key；

最后一串引号里的文字，就是你给AI下的“自然语言指令”，越具体，成功率越高。

你会看到命令行开始滚动日志：

[INFO] Capturing screenshot... → 截图上传
[INFO] Querying model... → 模型正在“看图说话”
[INFO] Executing action: tap (x=520, y=1240) → 真实点击发生
……
几秒后，你的手机屏幕上，美团APP自动打开、搜索框出现文字、列表滚动、店铺被选中、地址自动填写、优惠券自动勾选、最终停留在“确认支付”页面。

任务完成！ 整个过程无需你任何干预，就像有个同事坐在你旁边，帮你把外卖点好了。

4. 实战技巧：让自动下单更稳、更快、更聪明

光会跑通一次还不够。真实使用中，你会遇到各种边界情况。以下是我在实测中总结的5个关键技巧，直接决定成功率：

4.1 指令要“像教真人一样具体”，而不是“像写代码一样抽象”

❌ 错误示范（太模糊）：
“帮我点个外卖”

正确示范（带上下文+约束+动作）：
“打开美团外卖APP，点击首页搜索框，输入‘黄焖鸡米饭’，在结果页向上滑动，找到店铺名含‘老张’且评分大于4.7的店铺，点击进入，选择‘单人套餐A’，点击‘去结算’，在地址栏输入‘北京市朝阳区建国路88号SOHO现代城A座1201室’，勾选‘满30减5’优惠券，点击‘提交订单’”

原理：模型需要明确的“起点→路径→终点”。越具体的指令，越少歧义，越少走弯路。

4.2 首次使用，务必从“低风险任务”开始练手

不要一上来就挑战“支付”。建议按这个顺序渐进：

打开微信，给文件传输助手发送‘Hello’（验证基础操作）
打开小红书，搜索‘北京美食’，点击第一个笔记（验证图文识别）
打开美团外卖，搜索‘咖啡’，查看前三个店铺的评分（验证信息提取）
打开美团外卖，搜索‘黄焖鸡’，选择一家店，加入购物车（验证电商流程）
……最后才是完整下单

每一步成功，都是对模型理解和ADB控制能力的一次确认。

4.3 网络不稳定？换WiFi远程连接，摆脱USB线束缚

USB线虽稳定，但限制活动范围。Open-AutoGLM 支持WiFi无线控制：

# 第一步：用USB线连接，开启ADB TCP/IP模式
adb tcpip 5555

# 第二步：拔掉USB线，连接同一WiFi，获取手机IP（设置 → WLAN → 点击当前网络 → 查看IP地址）

# 第三步：用IP连接
adb connect 192.168.1.100:5555  # 替换为你手机的真实IP

# 第四步：运行命令时，--device-id 改为 IP:端口
python main.py --device-id 192.168.1.100:5555 --base-url ... "你的指令"

从此，你躺在沙发上，手机放在茶几上，也能远程指挥它干活。

4.4 遇到“卡住”？三招快速诊断

如果AI在某一步反复尝试、不前进，别急着重装：

看日志最后一行：通常会提示“未找到XX元素”，说明模型没识别到你要点的按钮；
手动操作一次：你自己在手机上走一遍流程，观察那个按钮在屏幕上的大概位置（比如“底部中间”“右上角三个点”），下次指令里加上方位描述；
加一句“如果找不到，就向下滑动一页”：给模型提供 fallback 策略，它会主动尝试滚动。

4.5 想批量处理？用Python API写个“外卖小管家”

main.py 是交互式入口，但真正工程化要用API。下面是一段真实可用的代码，封装成函数，以后只需调用 order_food("黄焖鸡") 就行：

# order_helper.py
from phone_agent.main import run_agent
from phone_agent.adb import ADBConnection

def order_food(dish_name: str, address: str):
    """自动下单指定菜品"""
    conn = ADBConnection()
    success, msg = conn.connect("ZY223456789")  # 设备ID
    if not success:
        print(f"连接失败: {msg}")
        return
    
    instruction = f"打开美团外卖，搜索'{dish_name}'，选择评分4.8+的店铺，加入购物车，填写收货地址为{address}，使用满30减5优惠券，提交订单"
    
    try:
        result = run_agent(
            device_id="ZY223456789",
            base_url="https://open.bigmodel.cn/api/paas/v4",
            model="autoglm-phone",
            api_key="your_api_key_here",
            instruction=instruction,
            max_steps=50
        )
        print("下单流程已启动，详情见日志")
    except Exception as e:
        print(f"执行出错: {e}")

# 使用
if __name__ == "__main__":
    order_food("黄焖鸡米饭", "北京市朝阳区建国路88号SOHO现代城A座1201室")

把它保存为 order_helper.py，运行 python order_helper.py，就是你的私人外卖Agent。

5. 它能做的，远不止点外卖

Open-AutoGLM 的能力边界，取决于你给它的指令和它所连接的APP生态。在实测中，我们验证了这些真实可用的高频场景：

场景	一句话指令示例	为什么实用
电商比价	“打开淘宝、京东、拼多多，分别搜索‘AirPods Pro 2’，截图并对比三家最低价和发货地”	省去手动切APP、记价格的麻烦，结果一目了然
社交运营	“打开小红书，搜索‘AI工具推荐’，点赞前5篇笔记，对第3篇评论‘已收藏，谢谢分享！’”	个人IP冷启动期，批量互动效率提升10倍
办公提效	“打开WPS，新建空白文档，标题写‘周报-20240615’，插入表格，列名为‘工作项’‘进度’‘备注’，保存为‘周报.docx’”	每周一重复劳动，3秒自动生成模板
出行规划	“打开高德地图，搜索‘首都机场’，选择‘地铁’方案，截图路线图；再打开滴滴出行，输入目的地‘首都机场T3’，截图预估价格”	出差前一站式查交通，不用来回切APP
学习辅助	“打开知乎，搜索‘Transformer原理’，打开高赞回答，长按复制全文，粘贴到备忘录新笔记中，标题为‘Transformer学习笔记’”	快速收集碎片知识，构建个人知识库