小白必看:Open-AutoGLM让手机自动点外卖实录

你有没有过这样的时刻——深夜加班饿得前胸贴后背,手指却像灌了铅,连打开外卖APP的力气都没有?或者正赶着开会,想订份咖啡却腾不出手操作手机?别急,今天带你用智谱开源的 Open-AutoGLM,亲手把手机变成听懂人话、会看屏幕、能点外卖的“AI小管家”。全程不用写一行模型代码,不调一个参数,连Python刚装好、ADB第一次听说的新手,也能在2小时内跑通“打开美团→搜火锅→下单支付”全流程。这不是科幻预告,是已经能跑起来的真实能力。

本文不是概念科普,而是一次完整、可复现、带避坑指南的实操记录。我会用你家电脑+安卓手机,从零开始,一步步演示如何让AI真正接管你的手机屏幕,完成真实任务。所有步骤都经过真机验证(测试机型:小米13,Android 14),每一步卡在哪、为什么卡、怎么绕过去,全都写清楚。


1. 它到底是什么:不是“另一个大模型”,而是“会动手的AI”

1.1 一句话说清Open-AutoGLM的本质

Open-AutoGLM 不是一个聊天机器人,也不是一个图片生成器。它是一个手机端AI Agent框架——你可以把它理解成给手机装上了一双“AI眼睛”和一双手。

  • AI眼睛:通过截图实时“看懂”你手机屏幕上显示的内容(比如美团首页的搜索框、店铺列表里的“评分4.8”、支付页面的“确认付款”按钮);
  • AI大脑:把你的自然语言指令(如“帮我订份毛肚火锅”)拆解成“先打开美团→再点搜索→输入‘毛肚火锅’→选第1家→点‘立即购买’→填地址→付款”这一连串动作;
  • AI双手:通过 ADB(Android Debug Bridge)这条“数字神经”,在手机上模拟点击、滑动、输入文字,真正完成操作。

整个过程,就是“观察→思考→执行”的闭环,而你只需要说一句话。

1.2 它能做什么?先看三个真实任务结果

我们不讲虚的,直接上刚跑出来的三段真实操作记录(已脱敏):

  • 任务1:点外卖
    指令:打开美团,搜索‘老码头火锅’,选评分最高的那家,下单一份毛肚锅底和一份黄喉,送到公司前台
    实际效果:AI自动打开美团→跳转到搜索页→输入文字→识别出3家同名店→对比评分(4.9 > 4.7 > 4.5)→进入4.9分店铺→加购指定菜品→填写预设地址→停在支付页等待确认。

  • 任务2:查快递
    指令:打开菜鸟裹裹,查我最近三天的签收记录
    实际效果:AI启动菜鸟APP→识别底部导航栏“我的”→点击→找到“我的快递”→下拉刷新→自动滚动到“已签收”分类→截取并返回最近三条物流单号及时间。

  • 任务3:发微信
    指令:打开微信,给张伟发消息‘会议推迟到下午三点,会议室换到B203’
    实际效果:AI启动微信→在通讯录搜索“张伟”→进入聊天窗口→长按输入框调出键盘→用ADB Keyboard准确输入中文→点击发送。

这些不是演示视频,是我在自己手机上录下的真实操作流。关键在于:它不依赖APP内置API,不越狱不Root,只靠“看图+点按”就能工作——这意味着,只要界面可见,它理论上能操作任何安卓APP。


2. 准备工作:四样东西,缺一不可

别被“AI”吓住,这其实是一场硬件+软件的精准对接。下面四样东西,必须全部到位,少一样都会卡在第一步。

2.1 硬件清单(真机优先,模拟器慎用)

设备 要求 为什么重要
一台电脑 Windows 10+/macOS 12+,内存≥16GB 运行模型服务(vLLM)和控制端,显存非必需但有更好
一部安卓手机 Android 7.0+,系统未深度定制(推荐小米、华为、OPPO、vivo原生系统) AutoGLM依赖标准ADB协议,某些厂商定制ROM会屏蔽部分调试权限
一根USB数据线 支持数据传输(非仅充电线) 首次连接必须用USB建立信任链,WiFi远程需以此为前提
稳定WiFi环境 手机与电脑在同一局域网(可选但强烈推荐) 后续切换WiFi控制,摆脱线缆束缚,操作更自由

注意:iOS设备不支持。目前Open-AutoGLM仅适配安卓生态。

2.2 软件安装:三步走,稳准快

步骤1:装好Python(3.10或更新版)
  • Windows用户:去 python.org 下载安装包,安装时务必勾选 “Add Python to PATH”。装完打开CMD,输入 python --version,看到 Python 3.10.x 或更高即成功。
  • Mac用户:终端运行 brew install python@3.10(没装Homebrew先装:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)")。
步骤2:配置ADB工具(核心桥梁)

ADB是电脑和手机之间的“翻译官”。下载地址:Android SDK Platform-Tools(选对应系统zip包)。

  • Windows:解压到 D:\platform-tools,右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴 D:\platform-tools →确定。
  • Mac:解压后终端运行 export PATH=$PATH:/Users/你的用户名/Downloads/platform-tools(路径按实际修改),然后 source ~/.zshrc 生效。

验证:终端/CMD输入 adb version,出现版本号(如 Android Debug Bridge version 1.0.41)即成功。

步骤3:手机开启开发者模式 & USB调试

这是最关键的一步,也是新手最容易卡住的地方:

  1. 打开手机【设置】→【关于手机】→连续点击【版本号】7次,直到弹出“您现在处于开发者模式”;
  2. 返回【设置】→【更多设置】→【开发者选项】→打开【USB调试】;
  3. 用USB线连接手机和电脑,手机弹出“允许USB调试吗?”→勾选【始终允许】→点【确定】。

验证是否成功:电脑终端输入 adb devices,若返回类似 ABC123456789 device 的一行,说明连接成功。如果显示 unauthorized,请检查手机是否点了“允许”。


3. 安装部署:五步完成,从克隆到运行

所有操作都在电脑终端(Windows用CMD/PowerShell,Mac用Terminal)中进行。我们采用本地模型服务+本地控制端的最简方案,无需云服务器。

3.1 下载并安装Open-AutoGLM控制端

# 克隆项目(约2MB,秒级完成)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖(耐心等1-2分钟)
pip install -r requirements.txt
pip install -e .

3.2 安装ADB Keyboard(中文输入的关键)

AI要打字,必须用专用输入法。否则它只能点按钮,不能输“毛肚火锅”。

  • 下载 ADBKeyboard.apk(GitHub项目Release页或搜索引擎搜“ADBKeyboard apk”即可找到);
  • 终端执行:
    adb install ADBKeyboard.apk
    
  • 手机设置:【设置】→【系统】→【语言和输入法】→【虚拟键盘】→启用【ADB Keyboard】,并设为默认。

验证:在手机任意输入框长按,应能看到“ADB Keyboard”选项;切换后,用 adb shell input text "test" 命令,手机输入框应出现“test”。

3.3 启动本地模型服务(vLLM)

Open-AutoGLM需要一个“AI大脑”来理解屏幕和指令。我们使用轻量级的 autoglm-phone-9b 模型(约18GB),通过vLLM推理框架启动。

国内用户推荐用ModelScope镜像快速下载

# 创建模型目录
mkdir models && cd models
# 从魔搭下载(比Hugging Face快得多)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
cd ..

启动服务(Linux/Mac)

python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model ./models/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt '{"image":10}' \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --mm_processor_kwargs '{"max_pixels":5000000}'

Windows用户简化命令(功能稍减,但够用):

python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --model ./models/AutoGLM-Phone-9B --port 8000

看到终端输出 Uvicorn running on http://0.0.0.0:8000 即启动成功。保持这个窗口常开。

3.4 连接手机设备(USB or WiFi)

  • USB直连(推荐首次使用):确保 adb devices 已显示设备ID(如 ABC123456789)。
  • WiFi远程(进阶推荐)
    先用USB连上,终端运行:
    adb tcpip 5555
    
    断开USB,手机连WiFi,查看手机IP(【设置】→【关于手机】→【状态】→IP地址),然后:
    adb connect 192.168.1.100:5555  # 替换为你手机的真实IP
    adb devices  # 应显示 IP:5555    device
    

3.5 运行第一个任务:让AI打开“设置”

这是黄金验证步骤。成功了,后面全通。

python main.py \
  --device-id ABC123456789 \          # 替换为你的设备ID或IP:5555
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开设置"

预期输出

💭 思考过程:
当前在桌面,需要打开设置应用

 执行动作: {"action": "Launch", "app": "设置"}

同时,你手机上的“设置”APP会自动启动。

如果卡住或报错,请先回头检查:ADB是否连上?ADB Keyboard是否启用?模型服务端口是否正确?这三个是90%问题的根源。


4. 实战点外卖:手把手跑通全流程

现在,我们正式挑战标题任务:“让手机自动点外卖”。以美团APP为例(其他APP逻辑一致),全程无跳步。

4.1 任务拆解:AI是怎么一步步做的?

你只说一句:“打开美团,搜毛肚火锅,下单一份”,AI内部却完成了至少12个动作:

  1. 截取当前手机屏幕;
  2. 识别桌面图标,定位“美团”APP;
  3. 模拟点击美团图标;
  4. 等待APP加载,再次截图;
  5. 识别顶部搜索框(带放大镜图标);
  6. 点击搜索框;
  7. 调用ADB Keyboard输入“毛肚火锅”;
  8. 点击软键盘“搜索”按钮;
  9. 解析搜索结果页,识别店铺卡片;
  10. 对比各店铺“评分”字段,选出最高分(如4.9);
  11. 点击该店铺进入详情页;
  12. 定位“点餐”按钮并点击……

整个过程全自动,你只需在敏感操作(如支付)前确认。

4.2 执行命令(复制即用)

python main.py \
  --device-id ABC123456789 \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开美团,搜索毛肚火锅,选择评分最高的店铺,下单一份毛肚锅底和一份黄喉,送到公司前台"

提示:首次运行建议在安静环境,全程观察手机屏幕变化。你会看到AI像真人一样“看”、“点”、“输”、“滑”,非常直观。

4.3 关键细节与避坑指南

  • 地址预设很重要:AI无法读取你通讯录或地图,所以“公司前台”这类模糊地址,需提前在美团APP里保存为常用地址,AI才能选中。
  • 支付环节会暂停:当AI走到“确认付款”页时,会输出类似 需要人工确认:即将支付¥88.00,是否继续?,此时你手动点“确认”即可。这是安全机制,防止误扣款。
  • 如果搜索无结果:尝试换关键词,如“重庆毛肚火锅”比“毛肚火锅”更易命中;或加限定词“附近”。
  • APP未安装? AI会明确告诉你:“未检测到美团APP”,请先手动安装。

5. 进阶玩法:不止点外卖,还能这样玩

Open-AutoGLM的能力边界,远超点餐。掌握以下技巧,你能把它变成真正的效率引擎。

5.1 一句话批量操作:朋友圈点赞脚本

不想手动刷朋友圈?写个5行脚本:

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

model_config = ModelConfig(
    base_url="http://localhost:8000/v1",
    model_name="autoglm-phone-9b",
)
agent = PhoneAgent(model_config=model_config)

friends = ["妈妈", "同事小李", "大学室友"]
for name in friends:
    result = agent.run(f"打开微信,进入{name}的朋友圈,点赞最新一条动态")
    print(f"{name}: {result}")

5.2 自定义“快捷指令”:把复杂操作变一句话

编辑 phone_agent/config/prompts.py,在系统提示词里加入你的习惯:

SYSTEM_PROMPT = """
你是一个专注效率的手机助手。当用户说‘查快递’,请自动打开菜鸟裹裹,进入‘我的快递’,筛选‘已签收’,返回最近3条单号。
当用户说‘记笔记’,请打开‘语雀’APP,在‘每日记录’笔记本里新建一页,标题为‘YYYY-MM-DD 日记’,内容留空。
"""

以后只需说 查快递记笔记,AI就按你定的流程走。

5.3 WiFi远程控制:躺在床上指挥客厅手机

把手机放在客厅支架上,电脑在卧室,全程WiFi操作:

  1. 手机开启【无线调试】(在开发者选项里);
  2. 电脑执行 adb connect 192.168.1.100:5555
  3. 后续所有 main.py 命令中,--device-id 直接填 192.168.1.100:5555

从此,语音喊一声,客厅电视投屏、空调调温、甚至扫地机器人启停,都能交给AI。


6. 常见问题速查:卡住了?先看这三条

现象 最可能原因 一句话解决
adb devices 显示 unauthorized 或空白 手机没点“允许USB调试” 拔掉重连,手机弹窗必点“允许”,勾选“始终允许”
模型服务启动报错 CUDA out of memory 显存不足(<12GB)或没独显 --device cpu 参数强制CPU运行(速度慢但能跑)
AI一直“思考”不执行,或点错位置 手机屏幕太暗、锁屏、或APP界面有广告遮挡 保持屏幕常亮、解锁状态;关闭APP开屏广告;首次用简单任务(如“打开设置”)校准

终极心法:所有问题,90%回归到“ADB连上了吗?ADB Keyboard启用了没?模型服务端口对不对?”这三问。


7. 安全与隐私:你的手机,你做主

Open-AutoGLM的设计哲学是“本地优先,隐私可控”:

  • 所有数据不出设备:屏幕截图、文本指令、操作日志,全部在你本地电脑处理,不上传任何云端服务器;
  • 敏感操作强确认:支付、删除联系人、清除聊天记录等动作,AI必定暂停,等你手动点击“确认”才继续;
  • 权限最小化:它只申请“无障碍服务”和“截图”权限,不读取短信、不访问相册、不获取定位,比很多国产APP权限还干净;
  • 可随时接管:运行中按手机电源键,AI立即暂停;想终止,关掉终端窗口即可。

你可以放心让它帮你点外卖、查快递、回消息,而不用担心隐私泄露。


8. 总结:这不是玩具,是生产力新起点

今天这场实操,我们完成了三件事:

  • 搞懂了本质:Open-AutoGLM不是又一个大模型玩具,而是一个能把“语言指令”翻译成“屏幕动作”的真实Agent;
  • 跑通了全流程:从ADB配置、模型启动、到真实点外卖,每一步都有据可依,无玄学步骤;
  • 掌握了主动权:你知道了它能做什么、边界在哪、怎么定制、如何避坑。

下一步,你可以:

  • 把它装在旧手机上,当专属家庭中控(“打开空调26度”“播放客厅音箱”);
  • 给父母手机装上,教他们一句“帮我充100元话费”,AI自动搞定;
  • 在公司内网部署,让AI自动填报周报、抓取竞品价格、监控舆情……

技术的价值,从来不在参数多高,而在是否真正省下了你的时间。当你深夜饿了,不用挣扎起身,只说一句“点份火锅”,手机自己忙活起来——那一刻,AI才真正走进了生活。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐