用Open-AutoGLM实现‘打开小红书搜美食’全过程

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的手机端具身智能操作。用户仅需输入‘打开小红书搜美食’等指令，系统即可自动完成APP启动、界面识别、搜索框点击与内容输入，典型应用于移动端自动化任务执行与AI助手场景。

Lrrrissss

604人浏览 · 2026-01-31 00:24:34

Lrrrissss · 2026-01-31 00:24:34 发布

用Open-AutoGLM实现“打开小红书搜美食”全过程

Open-AutoGLM 不是脚本，也不是遥控器——它是一双能看懂手机屏幕的眼睛，和一双手指灵活、反应精准的AI助手。你只需说一句“打开小红书搜美食”，剩下的，它来完成。

1. 这不是自动化，而是“具身智能”的第一次落地

1.1 为什么传统方案总差一口气？

你可能试过用 Tasker、Auto.js 或 Appium 写自动化脚本：先找图标坐标，再模拟点击，再等页面加载，再找搜索框……但只要小红书更新一次 UI，整个流程就崩了。因为这些工具不理解界面，只认像素点。

而 Open-AutoGLM 的核心突破在于——它真正“看见”了屏幕。
它把每一帧截图送入视觉语言模型（VLM），让 AI 像人一样识别：“这是小红书首页，左上角是搜索栏图标，中间是‘发现’Tab，右下角是‘我’入口”。这不是坐标匹配，是语义理解。

更关键的是，它还能自主规划动作链：
“用户要搜美食” → “得先进入小红书” → “当前没打开，先从桌面找图标” → “找到后点击” → “等待首页加载完成” → “定位搜索栏并点击” → “输入‘美食’” → “点击搜索按钮”。

整个过程无需预设路径，不依赖固定布局，甚至能应对弹窗、广告、登录提示等干扰项。

1.2 它到底在做什么？一句话说清

Open-AutoGLM 是一个端到端的手机任务执行框架，由三部分协同工作：

视觉感知层：实时截取手机屏幕，交由 VLM 分析 UI 元素语义与空间位置
意图决策层：将自然语言指令（如“搜美食”）与当前界面状态结合，生成下一步操作（点击/滑动/输入/长按）
执行控制层：通过 ADB 向安卓设备发送精准指令，包括触控坐标、文本输入、返回键等

它不写代码，不记坐标，不硬编码逻辑——它像一个刚学会用手机的朋友，边看边做，边做边学。

2. 零显卡也能跑：用智谱 API 快速启动

2.1 为什么推荐 API 模式？

本地部署 AutoGLM-Phone 需要 9B 参数量的多模态模型 + GPU 显存支持，对普通开发者门槛高。而智谱 BigModel 提供的 autoglm-phone 在线服务，让你：

无需本地 GPU，笔记本、台式机、甚至 Mac Mini 都可驱动
无需模型量化、vLLM 部署、CUDA 环境配置
新用户赠送充足免费 Token，实测 10 次完整任务（含截图上传+多轮推理）仅消耗约 8000 tokens
模型持续在线更新，自动适配新版 App 界面

这正是“开箱即用”的真实含义：你负责说需求，它负责搞定一切。

2.2 获取你的专属 API Key（3 分钟搞定）

访问智谱 BigModel 官网，注册或登录账号
进入「API 密钥管理」页面，点击「创建新密钥」
填写名称（例如 open-autoglm-phone），选择有效期，点击确认
复制生成的密钥（以 sk- 开头的长字符串），立即保存——页面关闭后无法再次查看

注意：密钥需用英文双引号包裹，且不能有空格。后续命令中若漏掉引号或混入中文符号，会直接报错 Authentication failed。

3. 手机与电脑的“神经连接”：ADB 配置全实录

3.1 手机端：三步激活“被操控权”

别跳过这一步——90% 的失败源于此。我们以主流安卓机型（vivo、小米、华为、OPPO）为准，步骤通用：

开启开发者模式
设置 → 关于手机 → 连续点击「版本号」7 次 → 弹出“您现在处于开发者模式”提示
启用 USB 调试
设置 → 系统与更新 → 开发者选项 → 开启「USB 调试」
（部分品牌路径略有差异：华为为“更多设置→开发者选项”，小米为“我的设备→全部参数”）
安装 ADB Keyboard（关键！）
下载 ADBKeyBoard.apk
用数据线连接手机与电脑，在终端执行：
```
adb install -r ADBKeyboard.apk
```
安装成功后，进入手机「设置→系统管理→语言与输入法→当前输入法」，将默认输入法切换为 ADB Keyboard。

验证方式：在任意输入框长按，若弹出“选择输入法”菜单且 ADB Keyboard 可见，即成功。

3.2 电脑端：让 ADB 成为你身体的延伸

Windows 用户
1. 下载 Android Platform Tools
2. 解压至 C:\platform-tools（路径不含中文和空格）
3. 右键「此电脑」→ 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 C:\platform-tools
4. 重启命令行，输入 adb version，显示版本号即成功

macOS 用户
在终端执行：

# 假设解压到 ~/Downloads/platform-tools
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
source ~/.zshrc
adb version

连接验证
用原装 USB 线连接手机（开启 USB 调试后，手机会弹出“允许 USB 调试吗？”→ 勾选「始终允许」→ 点击确定）
终端运行：
```
adb devices
```
若输出类似 ZY2252XK8L device，说明连接成功。若显示 unauthorized，请检查手机授权弹窗；若为空，重插 USB 线或换接口。

4. 一行命令，启动你的手机 AI 助理

4.1 克隆代码 & 安装依赖（安静高效）

在终端中执行（建议新建文件夹避免路径混乱）：

mkdir autoglm-phone && cd autoglm-phone
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
pip install -r requirements.txt

小贴士：使用 conda create -n autoglm python=3.10 创建独立环境，可彻底规避包冲突。

4.2 执行“打开小红书搜美食”任务（真·一句话）

确保手机已连接、ADB 正常、API Key 已复制，运行以下命令：

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \
  "打开小红书搜索美食"

--base-url：智谱官方 API 地址，固定不变
--model：指定调用 autoglm-phone 专用模型，非通用大模型
--apikey：你刚复制的密钥，必须用英文双引号包裹
最后字符串：自然语言指令，支持中文，无需特殊格式

你会看到终端逐行输出：

[INFO] Taking screenshot...  
[INFO] Sending image + instruction to model...  
[INFO] Model response: {"action": "click", "element": "小红书图标", "coordinates": [240, 420]}  
[INFO] Executing click at (240, 420)  
[INFO] Waiting for app to launch...  
[INFO] Taking screenshot...  
[INFO] Model response: {"action": "click", "element": "搜索栏", "coordinates": [520, 180]}  
...
[INFO] Task completed successfully.

整个过程约 25–45 秒（取决于网络延迟），期间手机屏幕会自动亮起、点击图标、进入 App、点击搜索框、输入文字、触发搜索——你只需看着它完成。

4.3 交互模式：让 AI 助理随时待命

想连续测试多个指令？不用反复敲命令，启用交互模式：

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

运行后出现提示：

Enter your task:

此时输入任意指令即可，例如：

帮我订一杯瑞幸咖啡，门店选最近的
在微博搜‘台风预警’，只看认证用户发布的
打开微信，给张三发消息‘会议改到下午三点’

每条指令都会触发完整感知-决策-执行闭环。退出按 Ctrl+C。

5. 实战拆解：“打开小红书搜美食”的五步真相

我们截取一次真实执行日志，还原 AI 的思考与行动：

5.1 第一步：理解当前界面（桌面层）

截图分析结果：

“当前为安卓桌面，底部有 Dock 栏，含微信、QQ、Chrome 图标；主屏第二页有小红书图标（蓝色书本样式，文字‘小红书’），位于第 2 行第 3 列。”
AI 决策：
{"action": "swipe", "direction": "right", "count": 1} → 滑动到第二页
{"action": "click", "element": "小红书图标", "coordinates": [480, 1120]} → 点击启动

5.2 第二步：识别首页结构（App 层）

截图分析结果：

“小红书首页已加载。顶部有搜索栏（带放大镜图标），中间为信息流，底部 Tab 栏含‘首页’‘发现’‘同城’‘我’。”
AI 决策：
{"action": "click", "element": "搜索栏", "coordinates": [540, 160]} → 点击激活

5.3 第三步：处理输入法与键盘（系统层）

截图分析结果：

“点击搜索栏后，系统软键盘已弹出，但当前输入法为‘百度输入法’，非 ADB Keyboard。”
AI 决策：
{"action": "press", "key": "KEYCODE_SWITCH_CHARSET"} → 触发输入法切换快捷键
{"action": "input_text", "text": "美食"} → 输入文字

5.4 第四步：触发搜索（交互层）

截图分析结果：

“搜索栏内已显示‘美食’，右侧出现‘搜索’按钮（文字为蓝色‘搜索’）。”
AI 决策：
{"action": "click", "element": "搜索按钮", "coordinates": [980, 160]}

5.5 第五步：确认结果（反馈层）

截图分析结果：

“已跳转至搜索结果页，顶部显示‘美食’关键词，下方为图文笔记列表，首条笔记标题为‘南京必吃10家苍蝇馆子’。”
AI 输出：
Result: 已在小红书搜索‘美食’，共找到 24.7 万篇相关笔记，首条为本地探店内容。

全程无硬编码坐标，无界面模板匹配，纯靠视觉理解与动作规划。

6. 常见问题与稳如磐石的解决方案

6.1 连接类问题（占故障率 70%）

现象	原因	解决方案
`adb devices` 无设备	USB 调试未开启 / 手机未授权 / 数据线接触不良	重插线 → 查看手机弹窗 → 换线换口 → 重启 ADB `adb kill-server && adb start-server`
`Connection refused`	智谱 API 地址错误或密钥失效	检查 `--base-url` 是否为 `https://open.bigmodel.cn/api/paas/v4`；重新生成密钥
`UnicodeDecodeError`（Windows）	Python 默认用 GBK 读取 UTF-8 文件	修改 `scripts/check_deployment_cn.py` 第 22 行：`with open(args.messages_file, encoding='utf-8') as f:`

6.2 执行类问题（模型理解偏差）

现象	原因	解决方案
AI 点错位置（如点到通知栏）	截图未完全加载 / 屏幕有遮挡（手势导航条）	在 `main.py` 中增加 `--delay 2` 参数，延长截图等待时间；关闭手势导航，启用三键导航
输入文字失败	ADB Keyboard 未设为默认 / 输入法冲突	手动进入手机设置切换输入法；或在命令中加 `--input-method com.android.adbkeyboard/.AdbIME`
卡在登录页不继续	检测到账号未登录，触发安全机制	模型会主动暂停并输出 `需要人工确认登录，请手动完成`，此时接管操作，登录后再运行指令

6.3 效果优化技巧（提升成功率）

指令越具体，效果越稳定
“搜美食” → “打开小红书，在搜索栏输入‘南京美食’并搜索”
（明确 App 名、操作对象、动作、内容）
保持屏幕常亮与亮度
运行前在手机设置中开启「保持唤醒」或「屏幕超时 10 分钟」，避免截图黑屏。
优先使用 WiFi 连接（进阶）
USB 线易松动，改用 WiFi 调试更稳定：
```
adb tcpip 5555      # 先用 USB 运行一次
adb connect 192.168.1.100:5555   # 断开 USB，连同一 WiFi 后执行
```
后续所有命令中 --device-id 改为 192.168.1.100:5555。