用Open-AutoGLM实现“打开小红书搜美食”全过程

Open-AutoGLM 不是脚本,也不是遥控器——它是一双能看懂手机屏幕的眼睛,和一双手指灵活、反应精准的AI助手。你只需说一句“打开小红书搜美食”,剩下的,它来完成。

1. 这不是自动化,而是“具身智能”的第一次落地

1.1 为什么传统方案总差一口气?

你可能试过用 Tasker、Auto.js 或 Appium 写自动化脚本:先找图标坐标,再模拟点击,再等页面加载,再找搜索框……但只要小红书更新一次 UI,整个流程就崩了。因为这些工具不理解界面,只认像素点。

而 Open-AutoGLM 的核心突破在于——它真正“看见”了屏幕
它把每一帧截图送入视觉语言模型(VLM),让 AI 像人一样识别:“这是小红书首页,左上角是搜索栏图标,中间是‘发现’Tab,右下角是‘我’入口”。这不是坐标匹配,是语义理解。

更关键的是,它还能自主规划动作链
“用户要搜美食” → “得先进入小红书” → “当前没打开,先从桌面找图标” → “找到后点击” → “等待首页加载完成” → “定位搜索栏并点击” → “输入‘美食’” → “点击搜索按钮”。

整个过程无需预设路径,不依赖固定布局,甚至能应对弹窗、广告、登录提示等干扰项。

1.2 它到底在做什么?一句话说清

Open-AutoGLM 是一个端到端的手机任务执行框架,由三部分协同工作:

  • 视觉感知层:实时截取手机屏幕,交由 VLM 分析 UI 元素语义与空间位置
  • 意图决策层:将自然语言指令(如“搜美食”)与当前界面状态结合,生成下一步操作(点击/滑动/输入/长按)
  • 执行控制层:通过 ADB 向安卓设备发送精准指令,包括触控坐标、文本输入、返回键等

它不写代码,不记坐标,不硬编码逻辑——它像一个刚学会用手机的朋友,边看边做,边做边学。

2. 零显卡也能跑:用智谱 API 快速启动

2.1 为什么推荐 API 模式?

本地部署 AutoGLM-Phone 需要 9B 参数量的多模态模型 + GPU 显存支持,对普通开发者门槛高。而智谱 BigModel 提供的 autoglm-phone 在线服务,让你:

  • 无需本地 GPU,笔记本、台式机、甚至 Mac Mini 都可驱动
  • 无需模型量化、vLLM 部署、CUDA 环境配置
  • 新用户赠送充足免费 Token,实测 10 次完整任务(含截图上传+多轮推理)仅消耗约 8000 tokens
  • 模型持续在线更新,自动适配新版 App 界面

这正是“开箱即用”的真实含义:你负责说需求,它负责搞定一切。

2.2 获取你的专属 API Key(3 分钟搞定)

  1. 访问 智谱 BigModel 官网,注册或登录账号
  2. 进入「API 密钥管理」页面,点击「创建新密钥」
  3. 填写名称(例如 open-autoglm-phone),选择有效期,点击确认
  4. 复制生成的密钥(以 sk- 开头的长字符串),立即保存——页面关闭后无法再次查看

注意:密钥需用英文双引号包裹,且不能有空格。后续命令中若漏掉引号或混入中文符号,会直接报错 Authentication failed

3. 手机与电脑的“神经连接”:ADB 配置全实录

3.1 手机端:三步激活“被操控权”

别跳过这一步——90% 的失败源于此。我们以主流安卓机型(vivo、小米、华为、OPPO)为准,步骤通用:

  • 开启开发者模式
    设置 → 关于手机 → 连续点击「版本号」7 次 → 弹出“您现在处于开发者模式”提示

  • 启用 USB 调试
    设置 → 系统与更新 → 开发者选项 → 开启「USB 调试」
    (部分品牌路径略有差异:华为为“更多设置→开发者选项”,小米为“我的设备→全部参数”)

  • 安装 ADB Keyboard(关键!)
    下载 ADBKeyBoard.apk
    用数据线连接手机与电脑,在终端执行:

    adb install -r ADBKeyboard.apk
    

    安装成功后,进入手机「设置→系统管理→语言与输入法→当前输入法」,将默认输入法切换为 ADB Keyboard

    验证方式:在任意输入框长按,若弹出“选择输入法”菜单且 ADB Keyboard 可见,即成功。

3.2 电脑端:让 ADB 成为你身体的延伸

  • Windows 用户

    1. 下载 Android Platform Tools
    2. 解压至 C:\platform-tools(路径不含中文和空格)
    3. 右键「此电脑」→ 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 C:\platform-tools
    4. 重启命令行,输入 adb version,显示版本号即成功
  • macOS 用户
    在终端执行:

    # 假设解压到 ~/Downloads/platform-tools
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
    source ~/.zshrc
    adb version
    
  • 连接验证
    用原装 USB 线连接手机(开启 USB 调试后,手机会弹出“允许 USB 调试吗?”→ 勾选「始终允许」→ 点击确定)
    终端运行:

    adb devices
    

    若输出类似 ZY2252XK8L device,说明连接成功。若显示 unauthorized,请检查手机授权弹窗;若为空,重插 USB 线或换接口。

4. 一行命令,启动你的手机 AI 助理

4.1 克隆代码 & 安装依赖(安静高效)

在终端中执行(建议新建文件夹避免路径混乱):

mkdir autoglm-phone && cd autoglm-phone
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
pip install -r requirements.txt

小贴士:使用 conda create -n autoglm python=3.10 创建独立环境,可彻底规避包冲突。

4.2 执行“打开小红书搜美食”任务(真·一句话)

确保手机已连接、ADB 正常、API Key 已复制,运行以下命令:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \
  "打开小红书搜索美食"
  • --base-url:智谱官方 API 地址,固定不变
  • --model:指定调用 autoglm-phone 专用模型,非通用大模型
  • --apikey:你刚复制的密钥,必须用英文双引号包裹
  • 最后字符串:自然语言指令,支持中文,无需特殊格式

你会看到终端逐行输出:

[INFO] Taking screenshot...  
[INFO] Sending image + instruction to model...  
[INFO] Model response: {"action": "click", "element": "小红书图标", "coordinates": [240, 420]}  
[INFO] Executing click at (240, 420)  
[INFO] Waiting for app to launch...  
[INFO] Taking screenshot...  
[INFO] Model response: {"action": "click", "element": "搜索栏", "coordinates": [520, 180]}  
...
[INFO] Task completed successfully.

整个过程约 25–45 秒(取决于网络延迟),期间手机屏幕会自动亮起、点击图标、进入 App、点击搜索框、输入文字、触发搜索——你只需看着它完成。

4.3 交互模式:让 AI 助理随时待命

想连续测试多个指令?不用反复敲命令,启用交互模式:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

运行后出现提示:

Enter your task:

此时输入任意指令即可,例如:

  • 帮我订一杯瑞幸咖啡,门店选最近的
  • 在微博搜‘台风预警’,只看认证用户发布的
  • 打开微信,给张三发消息‘会议改到下午三点’

每条指令都会触发完整感知-决策-执行闭环。退出按 Ctrl+C

5. 实战拆解:“打开小红书搜美食”的五步真相

我们截取一次真实执行日志,还原 AI 的思考与行动:

5.1 第一步:理解当前界面(桌面层)

  • 截图分析结果:

    “当前为安卓桌面,底部有 Dock 栏,含微信、QQ、Chrome 图标;主屏第二页有小红书图标(蓝色书本样式,文字‘小红书’),位于第 2 行第 3 列。”

  • AI 决策:
    {"action": "swipe", "direction": "right", "count": 1} → 滑动到第二页
    {"action": "click", "element": "小红书图标", "coordinates": [480, 1120]} → 点击启动

5.2 第二步:识别首页结构(App 层)

  • 截图分析结果:

    “小红书首页已加载。顶部有搜索栏(带放大镜图标),中间为信息流,底部 Tab 栏含‘首页’‘发现’‘同城’‘我’。”

  • AI 决策:
    {"action": "click", "element": "搜索栏", "coordinates": [540, 160]} → 点击激活

5.3 第三步:处理输入法与键盘(系统层)

  • 截图分析结果:

    “点击搜索栏后,系统软键盘已弹出,但当前输入法为‘百度输入法’,非 ADB Keyboard。”

  • AI 决策:
    {"action": "press", "key": "KEYCODE_SWITCH_CHARSET"} → 触发输入法切换快捷键
    {"action": "input_text", "text": "美食"} → 输入文字

5.4 第四步:触发搜索(交互层)

  • 截图分析结果:

    “搜索栏内已显示‘美食’,右侧出现‘搜索’按钮(文字为蓝色‘搜索’)。”

  • AI 决策:
    {"action": "click", "element": "搜索按钮", "coordinates": [980, 160]}

5.5 第五步:确认结果(反馈层)

  • 截图分析结果:

    “已跳转至搜索结果页,顶部显示‘美食’关键词,下方为图文笔记列表,首条笔记标题为‘南京必吃10家苍蝇馆子’。”

  • AI 输出:
    Result: 已在小红书搜索‘美食’,共找到 24.7 万篇相关笔记,首条为本地探店内容。

全程无硬编码坐标,无界面模板匹配,纯靠视觉理解与动作规划。

6. 常见问题与稳如磐石的解决方案

6.1 连接类问题(占故障率 70%)

现象 原因 解决方案
adb devices 无设备 USB 调试未开启 / 手机未授权 / 数据线接触不良 重插线 → 查看手机弹窗 → 换线换口 → 重启 ADB adb kill-server && adb start-server
Connection refused 智谱 API 地址错误或密钥失效 检查 --base-url 是否为 https://open.bigmodel.cn/api/paas/v4;重新生成密钥
UnicodeDecodeError(Windows) Python 默认用 GBK 读取 UTF-8 文件 修改 scripts/check_deployment_cn.py 第 22 行:with open(args.messages_file, encoding='utf-8') as f:

6.2 执行类问题(模型理解偏差)

现象 原因 解决方案
AI 点错位置(如点到通知栏) 截图未完全加载 / 屏幕有遮挡(手势导航条) main.py 中增加 --delay 2 参数,延长截图等待时间;关闭手势导航,启用三键导航
输入文字失败 ADB Keyboard 未设为默认 / 输入法冲突 手动进入手机设置切换输入法;或在命令中加 --input-method com.android.adbkeyboard/.AdbIME
卡在登录页不继续 检测到账号未登录,触发安全机制 模型会主动暂停并输出 需要人工确认登录,请手动完成,此时接管操作,登录后再运行指令

6.3 效果优化技巧(提升成功率)

  • 指令越具体,效果越稳定
    “搜美食” → “打开小红书,在搜索栏输入‘南京美食’并搜索”
    (明确 App 名、操作对象、动作、内容)

  • 保持屏幕常亮与亮度
    运行前在手机设置中开启「保持唤醒」或「屏幕超时 10 分钟」,避免截图黑屏。

  • 优先使用 WiFi 连接(进阶)
    USB 线易松动,改用 WiFi 调试更稳定:

    adb tcpip 5555      # 先用 USB 运行一次
    adb connect 192.168.1.100:5555   # 断开 USB,连同一 WiFi 后执行
    

    后续所有命令中 --device-id 改为 192.168.1.100:5555

7. 它能走多远?不止于“搜美食”的 10 个真实场景

Open-AutoGLM 的能力边界,由你的想象力定义。以下是已验证的实用场景:

  • 电商提效打开淘宝,搜索‘iPhone 15 保护壳’,按销量排序,截图前三款商品价格
  • 内容创作打开剪映,导入相册最新视频,添加‘科技感’滤镜,导出 1080p
  • 生活服务打开高德地图,搜索‘附近充电桩’,筛选‘国家电网’,导航至最近一个
  • 办公辅助打开钉钉,进入‘技术部群’,查找昨天张三发的‘接口文档’链接并打开
  • 教育学习打开网易有道词典,拍照识别这张物理公式图片,翻译成中文并解释原理
  • 社交管理打开微信,找到备注‘HR-字节’的联系人,发送‘附件是最新简历,请查收’
  • 旅行规划打开携程,搜索‘上海→北京’高铁,筛选 8 点前出发,截图余票信息
  • 健康监测打开 Apple Health,查看今天步数,并发送微信给妈妈‘今天走了 8230 步’
  • 设备调试打开手机设置,进入‘电池’页面,截图当前耗电排行
  • 应急响应打开支付宝,搜索‘医保电子凭证’,点击‘去激活’,完成人脸识别

所有场景均无需修改代码,仅靠自然语言指令驱动。模型已在小红书、微信、淘宝、高德、钉钉等 30+ 主流 App 上完成基础功能验证。

8. 总结:当手机第一次拥有了“自己的大脑”

8.1 我们真正获得了什么?

  • 对用户的解放:不再需要记住 App 路径、按钮位置、操作顺序。一句自然语言,就是最高权限指令。
  • 对开发者的启示:UI 自动化正从“坐标驱动”迈向“语义驱动”,未来 App 测试、无障碍交互、老年数字帮扶,都将重构底层逻辑。
  • 对技术的印证:多模态大模型 + 真实设备控制 = 具身智能的第一块基石。它不完美,但已足够真实。

8.2 下一步,你可以这样深入

  • 本地部署尝鲜:用消费级显卡(RTX 4090)部署 autoglm-phone-9b,延迟可降至 3 秒内
  • 定制提示词工程:修改 prompts/phone_agent_prompt.json,强化对特定 App 的理解偏好
  • 接入私有知识库:在搜索结果页,让 AI 结合你本地的美食笔记库,推荐更匹配的餐厅
  • 构建任务流水线:串联多个指令,如“先搜美食,再查该店评分,最后生成探店文案发小红书”

这不是终点,而是你亲手启动的智能体时代的序章。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐