用Open-AutoGLM实现‘打开小红书搜美食’全过程
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的手机端具身智能操作。用户仅需输入‘打开小红书搜美食’等指令,系统即可自动完成APP启动、界面识别、搜索框点击与内容输入,典型应用于移动端自动化任务执行与AI助手场景。
用Open-AutoGLM实现“打开小红书搜美食”全过程
Open-AutoGLM 不是脚本,也不是遥控器——它是一双能看懂手机屏幕的眼睛,和一双手指灵活、反应精准的AI助手。你只需说一句“打开小红书搜美食”,剩下的,它来完成。
1. 这不是自动化,而是“具身智能”的第一次落地
1.1 为什么传统方案总差一口气?
你可能试过用 Tasker、Auto.js 或 Appium 写自动化脚本:先找图标坐标,再模拟点击,再等页面加载,再找搜索框……但只要小红书更新一次 UI,整个流程就崩了。因为这些工具不理解界面,只认像素点。
而 Open-AutoGLM 的核心突破在于——它真正“看见”了屏幕。
它把每一帧截图送入视觉语言模型(VLM),让 AI 像人一样识别:“这是小红书首页,左上角是搜索栏图标,中间是‘发现’Tab,右下角是‘我’入口”。这不是坐标匹配,是语义理解。
更关键的是,它还能自主规划动作链:
“用户要搜美食” → “得先进入小红书” → “当前没打开,先从桌面找图标” → “找到后点击” → “等待首页加载完成” → “定位搜索栏并点击” → “输入‘美食’” → “点击搜索按钮”。
整个过程无需预设路径,不依赖固定布局,甚至能应对弹窗、广告、登录提示等干扰项。
1.2 它到底在做什么?一句话说清
Open-AutoGLM 是一个端到端的手机任务执行框架,由三部分协同工作:
- 视觉感知层:实时截取手机屏幕,交由 VLM 分析 UI 元素语义与空间位置
- 意图决策层:将自然语言指令(如“搜美食”)与当前界面状态结合,生成下一步操作(点击/滑动/输入/长按)
- 执行控制层:通过 ADB 向安卓设备发送精准指令,包括触控坐标、文本输入、返回键等
它不写代码,不记坐标,不硬编码逻辑——它像一个刚学会用手机的朋友,边看边做,边做边学。
2. 零显卡也能跑:用智谱 API 快速启动
2.1 为什么推荐 API 模式?
本地部署 AutoGLM-Phone 需要 9B 参数量的多模态模型 + GPU 显存支持,对普通开发者门槛高。而智谱 BigModel 提供的 autoglm-phone 在线服务,让你:
- 无需本地 GPU,笔记本、台式机、甚至 Mac Mini 都可驱动
- 无需模型量化、vLLM 部署、CUDA 环境配置
- 新用户赠送充足免费 Token,实测 10 次完整任务(含截图上传+多轮推理)仅消耗约 8000 tokens
- 模型持续在线更新,自动适配新版 App 界面
这正是“开箱即用”的真实含义:你负责说需求,它负责搞定一切。
2.2 获取你的专属 API Key(3 分钟搞定)
- 访问 智谱 BigModel 官网,注册或登录账号
- 进入「API 密钥管理」页面,点击「创建新密钥」
- 填写名称(例如
open-autoglm-phone),选择有效期,点击确认 - 复制生成的密钥(以
sk-开头的长字符串),立即保存——页面关闭后无法再次查看
注意:密钥需用英文双引号包裹,且不能有空格。后续命令中若漏掉引号或混入中文符号,会直接报错
Authentication failed。
3. 手机与电脑的“神经连接”:ADB 配置全实录
3.1 手机端:三步激活“被操控权”
别跳过这一步——90% 的失败源于此。我们以主流安卓机型(vivo、小米、华为、OPPO)为准,步骤通用:
-
开启开发者模式
设置 → 关于手机 → 连续点击「版本号」7 次 → 弹出“您现在处于开发者模式”提示 -
启用 USB 调试
设置 → 系统与更新 → 开发者选项 → 开启「USB 调试」
(部分品牌路径略有差异:华为为“更多设置→开发者选项”,小米为“我的设备→全部参数”) -
安装 ADB Keyboard(关键!)
下载 ADBKeyBoard.apk
用数据线连接手机与电脑,在终端执行:adb install -r ADBKeyboard.apk安装成功后,进入手机「设置→系统管理→语言与输入法→当前输入法」,将默认输入法切换为 ADB Keyboard。
验证方式:在任意输入框长按,若弹出“选择输入法”菜单且 ADB Keyboard 可见,即成功。
3.2 电脑端:让 ADB 成为你身体的延伸
-
Windows 用户
- 下载 Android Platform Tools
- 解压至
C:\platform-tools(路径不含中文和空格) - 右键「此电脑」→ 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建 → 粘贴
C:\platform-tools - 重启命令行,输入
adb version,显示版本号即成功
-
macOS 用户
在终端执行:# 假设解压到 ~/Downloads/platform-tools echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc adb version -
连接验证
用原装 USB 线连接手机(开启 USB 调试后,手机会弹出“允许 USB 调试吗?”→ 勾选「始终允许」→ 点击确定)
终端运行:adb devices若输出类似
ZY2252XK8L device,说明连接成功。若显示unauthorized,请检查手机授权弹窗;若为空,重插 USB 线或换接口。
4. 一行命令,启动你的手机 AI 助理
4.1 克隆代码 & 安装依赖(安静高效)
在终端中执行(建议新建文件夹避免路径混乱):
mkdir autoglm-phone && cd autoglm-phone
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
pip install -r requirements.txt
小贴士:使用
conda create -n autoglm python=3.10创建独立环境,可彻底规避包冲突。
4.2 执行“打开小红书搜美食”任务(真·一句话)
确保手机已连接、ADB 正常、API Key 已复制,运行以下命令:
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \
"打开小红书搜索美食"
--base-url:智谱官方 API 地址,固定不变--model:指定调用autoglm-phone专用模型,非通用大模型--apikey:你刚复制的密钥,必须用英文双引号包裹- 最后字符串:自然语言指令,支持中文,无需特殊格式
你会看到终端逐行输出:
[INFO] Taking screenshot...
[INFO] Sending image + instruction to model...
[INFO] Model response: {"action": "click", "element": "小红书图标", "coordinates": [240, 420]}
[INFO] Executing click at (240, 420)
[INFO] Waiting for app to launch...
[INFO] Taking screenshot...
[INFO] Model response: {"action": "click", "element": "搜索栏", "coordinates": [520, 180]}
...
[INFO] Task completed successfully.
整个过程约 25–45 秒(取决于网络延迟),期间手机屏幕会自动亮起、点击图标、进入 App、点击搜索框、输入文字、触发搜索——你只需看着它完成。
4.3 交互模式:让 AI 助理随时待命
想连续测试多个指令?不用反复敲命令,启用交互模式:
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
运行后出现提示:
Enter your task:
此时输入任意指令即可,例如:
帮我订一杯瑞幸咖啡,门店选最近的在微博搜‘台风预警’,只看认证用户发布的打开微信,给张三发消息‘会议改到下午三点’
每条指令都会触发完整感知-决策-执行闭环。退出按 Ctrl+C。
5. 实战拆解:“打开小红书搜美食”的五步真相
我们截取一次真实执行日志,还原 AI 的思考与行动:
5.1 第一步:理解当前界面(桌面层)
-
截图分析结果:
“当前为安卓桌面,底部有 Dock 栏,含微信、QQ、Chrome 图标;主屏第二页有小红书图标(蓝色书本样式,文字‘小红书’),位于第 2 行第 3 列。”
-
AI 决策:
{"action": "swipe", "direction": "right", "count": 1}→ 滑动到第二页{"action": "click", "element": "小红书图标", "coordinates": [480, 1120]}→ 点击启动
5.2 第二步:识别首页结构(App 层)
-
截图分析结果:
“小红书首页已加载。顶部有搜索栏(带放大镜图标),中间为信息流,底部 Tab 栏含‘首页’‘发现’‘同城’‘我’。”
-
AI 决策:
{"action": "click", "element": "搜索栏", "coordinates": [540, 160]}→ 点击激活
5.3 第三步:处理输入法与键盘(系统层)
-
截图分析结果:
“点击搜索栏后,系统软键盘已弹出,但当前输入法为‘百度输入法’,非 ADB Keyboard。”
-
AI 决策:
{"action": "press", "key": "KEYCODE_SWITCH_CHARSET"}→ 触发输入法切换快捷键{"action": "input_text", "text": "美食"}→ 输入文字
5.4 第四步:触发搜索(交互层)
-
截图分析结果:
“搜索栏内已显示‘美食’,右侧出现‘搜索’按钮(文字为蓝色‘搜索’)。”
-
AI 决策:
{"action": "click", "element": "搜索按钮", "coordinates": [980, 160]}
5.5 第五步:确认结果(反馈层)
-
截图分析结果:
“已跳转至搜索结果页,顶部显示‘美食’关键词,下方为图文笔记列表,首条笔记标题为‘南京必吃10家苍蝇馆子’。”
-
AI 输出:
Result: 已在小红书搜索‘美食’,共找到 24.7 万篇相关笔记,首条为本地探店内容。
全程无硬编码坐标,无界面模板匹配,纯靠视觉理解与动作规划。
6. 常见问题与稳如磐石的解决方案
6.1 连接类问题(占故障率 70%)
| 现象 | 原因 | 解决方案 |
|---|---|---|
adb devices 无设备 |
USB 调试未开启 / 手机未授权 / 数据线接触不良 | 重插线 → 查看手机弹窗 → 换线换口 → 重启 ADB adb kill-server && adb start-server |
Connection refused |
智谱 API 地址错误或密钥失效 | 检查 --base-url 是否为 https://open.bigmodel.cn/api/paas/v4;重新生成密钥 |
UnicodeDecodeError(Windows) |
Python 默认用 GBK 读取 UTF-8 文件 | 修改 scripts/check_deployment_cn.py 第 22 行:with open(args.messages_file, encoding='utf-8') as f: |
6.2 执行类问题(模型理解偏差)
| 现象 | 原因 | 解决方案 |
|---|---|---|
| AI 点错位置(如点到通知栏) | 截图未完全加载 / 屏幕有遮挡(手势导航条) | 在 main.py 中增加 --delay 2 参数,延长截图等待时间;关闭手势导航,启用三键导航 |
| 输入文字失败 | ADB Keyboard 未设为默认 / 输入法冲突 | 手动进入手机设置切换输入法;或在命令中加 --input-method com.android.adbkeyboard/.AdbIME |
| 卡在登录页不继续 | 检测到账号未登录,触发安全机制 | 模型会主动暂停并输出 需要人工确认登录,请手动完成,此时接管操作,登录后再运行指令 |
6.3 效果优化技巧(提升成功率)
-
指令越具体,效果越稳定
“搜美食” → “打开小红书,在搜索栏输入‘南京美食’并搜索”
(明确 App 名、操作对象、动作、内容) -
保持屏幕常亮与亮度
运行前在手机设置中开启「保持唤醒」或「屏幕超时 10 分钟」,避免截图黑屏。 -
优先使用 WiFi 连接(进阶)
USB 线易松动,改用 WiFi 调试更稳定:adb tcpip 5555 # 先用 USB 运行一次 adb connect 192.168.1.100:5555 # 断开 USB,连同一 WiFi 后执行后续所有命令中
--device-id改为192.168.1.100:5555。
7. 它能走多远?不止于“搜美食”的 10 个真实场景
Open-AutoGLM 的能力边界,由你的想象力定义。以下是已验证的实用场景:
- 电商提效:
打开淘宝,搜索‘iPhone 15 保护壳’,按销量排序,截图前三款商品价格 - 内容创作:
打开剪映,导入相册最新视频,添加‘科技感’滤镜,导出 1080p - 生活服务:
打开高德地图,搜索‘附近充电桩’,筛选‘国家电网’,导航至最近一个 - 办公辅助:
打开钉钉,进入‘技术部群’,查找昨天张三发的‘接口文档’链接并打开 - 教育学习:
打开网易有道词典,拍照识别这张物理公式图片,翻译成中文并解释原理 - 社交管理:
打开微信,找到备注‘HR-字节’的联系人,发送‘附件是最新简历,请查收’ - 旅行规划:
打开携程,搜索‘上海→北京’高铁,筛选 8 点前出发,截图余票信息 - 健康监测:
打开 Apple Health,查看今天步数,并发送微信给妈妈‘今天走了 8230 步’ - 设备调试:
打开手机设置,进入‘电池’页面,截图当前耗电排行 - 应急响应:
打开支付宝,搜索‘医保电子凭证’,点击‘去激活’,完成人脸识别
所有场景均无需修改代码,仅靠自然语言指令驱动。模型已在小红书、微信、淘宝、高德、钉钉等 30+ 主流 App 上完成基础功能验证。
8. 总结:当手机第一次拥有了“自己的大脑”
8.1 我们真正获得了什么?
- 对用户的解放:不再需要记住 App 路径、按钮位置、操作顺序。一句自然语言,就是最高权限指令。
- 对开发者的启示:UI 自动化正从“坐标驱动”迈向“语义驱动”,未来 App 测试、无障碍交互、老年数字帮扶,都将重构底层逻辑。
- 对技术的印证:多模态大模型 + 真实设备控制 = 具身智能的第一块基石。它不完美,但已足够真实。
8.2 下一步,你可以这样深入
- 本地部署尝鲜:用消费级显卡(RTX 4090)部署
autoglm-phone-9b,延迟可降至 3 秒内 - 定制提示词工程:修改
prompts/phone_agent_prompt.json,强化对特定 App 的理解偏好 - 接入私有知识库:在搜索结果页,让 AI 结合你本地的美食笔记库,推荐更匹配的餐厅
- 构建任务流水线:串联多个指令,如“先搜美食,再查该店评分,最后生成探店文案发小红书”
这不是终点,而是你亲手启动的智能体时代的序章。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)