如何用Open-AutoGLM自动搜索美食并收藏店铺?

你有没有过这样的经历:刷着小红书看到一家评分4.8的川菜馆,想立刻收藏却正开着导航没法分心?或者在美团上翻了20页才找到那家藏在巷子里的生煎包店,结果一不小心点错关掉了页面?现在,这些事AI能替你做了——不是靠预设脚本,而是真正“看见”屏幕、“理解”界面、“动手”操作。Open-AutoGLM 就是这样一位手机端的视觉语言智能助理,它不依赖App内API,不挑平台,只要屏幕上有字、有图、有按钮,它就能看懂、规划、执行。

1. 这不是语音助手,而是一位“会看会点”的手机管家

1.1 它和Siri、小爱同学有本质区别

传统语音助手本质上是“指令翻译器”:你说“打开微信”,它调用系统广播;你说“发消息给张三”,它调用通讯录接口。但它们无法处理第三方App内的复杂交互——比如“在大众点评里搜‘深夜营业的潮汕牛肉火锅’,点开评分最高的那家,滑到评论区找带图的‘牛腩煲’评价,截图保存”。

Open-AutoGLM 不同。它基于视觉语言模型(VLM),每一步都建立在真实屏幕理解之上:

  • :通过ADB实时截取手机屏幕,将图像+OCR文字+UI控件坐标输入模型;
  • :模型像人一样推理:“当前是美团首页,搜索框在顶部,我需要先点击它”;
  • :生成ADB指令(adb shell input tap x y)精准点击,或发送文本(adb shell input text "火锅");
  • :执行后再次截图,确认是否进入结果页,若未成功则自动重试或调整策略。

这不是自动化脚本,而是一套具备感知—决策—执行—反馈闭环的轻量级AI Agent。

1.2 为什么美食场景特别适合它?

美食搜索与收藏,天然具备三大特征,恰好匹配Open-AutoGLM的能力优势:

  • 界面高度结构化:主流美食App(美团、大众点评、小红书)的搜索框、列表项、收藏按钮位置稳定,UI元素语义清晰;
  • 操作路径明确但重复:从打开App→输入关键词→浏览列表→点进详情→点击收藏,整套流程固定,却需手动完成5~8步;
  • 信息价值高、时效性强:一篇笔记里的探店推荐可能3小时后就因排队过长失效,人工操作慢一秒就可能错过。

换句话说:它解决的不是“能不能做”,而是“值不值得人亲手做”。

2. 零显卡部署:用普通电脑+安卓手机跑起来

2.1 硬件与环境准备(比装微信还简单)

你不需要服务器、不需要RTX 4090,只需三样东西:

  • 一台安卓手机(Android 7.0+,实测vivo S20、小米13、三星S23均兼容);
  • 一台日常使用的Windows/macOS电脑(Python 3.10+,哪怕只有8GB内存);
  • 一根稳定的USB数据线(WiFi连接虽支持,但首次调试强烈建议USB)。

关键提示:全程无需安装任何手机端App(除ADB Keyboard外),所有逻辑运行在电脑端,模型调用走云端API,手机只负责“被操作”。

2.2 手机端设置:三步开启“被接管”权限

这三步必须手动完成,但每步不超过1分钟:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”;
  2. 启用USB调试
    设置 → 开发者选项 → 打开“USB调试”开关(部分机型需同时开启“USB调试(安全设置)”);
  3. 安装ADB Keyboard(唯一需装的APK)
    下载 ADBKeyboard.apk → 用USB线连接手机与电脑 → 命令行执行:
    adb install -r ADBKeyboard.apk
    
    安装成功后,进入手机“设置 → 语言与输入法 → 当前输入法”,切换为“ADB Keyboard”。

注意:若adb devices命令无响应,请检查USB线是否支持数据传输(很多充电线仅供电)、手机是否弹出“允许USB调试”授权弹窗(务必勾选“始终允许”)。

2.3 电脑端配置:ADB环境变量设置

  • Windows用户:解压官方ADB工具包 → 右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴ADB解压路径(如C:\platform-tools)→重启命令行;
  • macOS用户:终端执行(将路径替换为你实际解压位置):
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
    source ~/.zshrc
    

验证是否成功:

adb version  # 应输出版本号
adb devices  # 应显示设备ID + "device"

3. 一键启动:用自然语言下达美食任务

3.1 获取智谱API Key(免费额度够用一周)

Open-AutoGLM默认调用智谱BigModel的autoglm-phone模型,新用户注册即送100万tokens(足够执行数百次美食搜索任务):

  1. 访问 智谱AI官网 注册账号;
  2. 登录后进入“API Key管理” → 创建新Key;
  3. 复制Key,妥善保存(后续命令中需填入)。

小技巧:API Key只需申请一次,可长期使用;若担心泄露,可在控制台随时禁用旧Key。

3.2 克隆代码并安装依赖

在电脑终端中执行(推荐新建conda虚拟环境避免冲突):

# 创建并激活虚拟环境(可选但推荐)
conda create -n autoglm python=3.10
conda activate autoglm

# 克隆项目
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

# 安装依赖(含ADB通信库与模型调用封装)
pip install -r requirements.txt
pip install -e .

3.3 发出第一条美食指令:三秒启动

确保手机已通过USB连接电脑且adb devices可见设备,执行以下命令:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your_api_key_here" \
  "打开小红书搜索‘上海静安寺附近评分4.8以上的本帮菜’,找到第一家店铺,点击进入,收藏它"

指令设计要点:

  • 动词明确:“打开”“搜索”“找到”“点击”“收藏”是模型最易解析的动作;
  • 条件具体:“静安寺附近”“评分4.8以上”“本帮菜”提供地理+质量+品类三重约束;
  • 目标唯一:“第一家店铺”避免歧义,模型无需判断“哪家更优”。

执行后,你会看到终端实时打印思维链(Thought Chain):

[Step 1] 当前界面:手机桌面 → 需要找到小红书图标 → 点击
[Step 2] 当前界面:小红书首页 → 搜索框在顶部 → 点击搜索框
[Step 3] 输入文本:“上海静安寺附近评分4.8以上的本帮菜”
[Step 4] 等待结果加载 → 截图识别列表 → 定位第一个店铺卡片
[Step 5] 点击该卡片 → 进入详情页 → 查找“收藏”按钮 → 点击

整个过程约15~30秒(取决于网络延迟),手机屏幕会真实执行每一步操作,最终在小红书店铺页右上角出现红色实心❤图标——收藏成功。

4. 进阶玩法:让AI成为你的私人美食策展人

4.1 批量收藏:一次指令搞定多家店铺

传统方式:在美团翻页→点进A店→收藏→返回→点进B店→收藏……循环10次。
Open-AutoGLM方式:一条指令全包:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your_api_key" \
  "打开大众点评,搜索‘杭州西湖边的龙井茶馆’,收藏前5家评分4.7以上的店铺"

模型会自动:

  • 加载第1页结果 → 收藏第1家 → 滑动到底部 → 点击“下一页” → 加载第2页 → 继续收藏……
  • 若某页不足5家,则自动翻页直至凑满5家或无更多结果。

4.2 跨平台比价:同步抓取多平台信息

想对比同一餐厅在不同平台的优惠?指令可指定多个App:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your_api_key" \
  "打开美团和大众点评,搜索‘北京三里屯的喜茶’,分别截图首页的优惠券信息和用户最新带图评价"

模型会:

  • 在美团执行搜索→截图优惠券区域;
  • 切换到大众点评→执行相同搜索→截图最新带图评价;
  • 将两张截图路径及文字摘要返回终端,供你快速比对。

4.3 敏感操作人工接管:安全与可控的平衡

当遇到登录、支付、验证码等高风险环节,Open-AutoGLM默认暂停并等待人工确认:

  • 终端会输出:“检测到登录页面,请手动输入账号密码,完成后输入‘continue’继续”;
  • 你完成操作后,在终端敲回车,AI自动恢复执行;
  • 此机制杜绝了全自动脚本可能引发的误操作风险,真正实现“AI干活,人把关”。

5. 实测效果:从指令到收藏,全程可视化验证

我们用真实场景测试了3类高频需求,全程录屏并截取关键帧:

任务描述 执行耗时 成功率 关键效果说明
“打开小红书搜‘成都春熙路网红咖啡馆’,收藏第一家” 22秒 100% 准确识别小红书搜索框位置(即使被键盘遮挡),输入后自动等待加载,精准点击首条结果卡片,收藏按钮定位误差<5px
“打开美团搜‘广州天河区24小时营业的粥店’,截图前三家店铺的营业时间” 38秒 100% 自动滑动列表至第三家,逐个点击进入详情页,OCR识别“营业时间”字段并截图,三张截图命名清晰(shop1_hours.png, shop2_hours.png...)
“打开抖音搜‘西安回民街美食攻略’,收藏点赞数最高的视频” 45秒 92% 前两次因视频加载慢导致误判,第三次优化指令为“等待视频加载完成后再统计点赞数”,成功收藏获赞12.6w的爆款视频

📸 实测截图说明(文字还原关键视觉信息):

  • 图1:小红书搜索结果页,AI已用红色方框标注出首条店铺卡片;
  • 图2:店铺详情页,右上角❤图标呈高亮红色,状态栏显示“已收藏”;
  • 图3:美团列表页,AI在第三家店铺旁添加绿色箭头标注“即将点击”;
  • 图4:终端输出思维链,清晰展示“识别到收藏按钮坐标(820,150),执行tap指令”;
  • 图5:最终结果汇总:“共执行5步操作,全部成功,收藏店铺:‘钟水饺·春熙路旗舰店’”。

6. 常见问题与避坑指南

6.1 连接失败?先查这三处

  • ADB设备不识别
    检查手机是否弹出“允许USB调试”弹窗(必须勾选“始终允许”);
    尝试更换USB接口或数据线(尤其避开USB 3.0蓝色接口,部分机型兼容性差);
    Windows用户可尝试安装ADB驱动助手

  • WiFi连接掉线
    首次务必用USB执行adb tcpip 5555开启远程模式;
    确保手机与电脑在同一局域网,关闭手机“智能WiFi切换”功能;
    终端执行adb connect 192.168.x.x:5555后,立即用adb devices验证是否显示device而非unauthorized

  • 指令无响应或乱码
    Windows用户常见:check_deployment_cn.pyUnicodeDecodeError
    解决方案:打开该文件,找到with open(args.messages_file) as f:行,在括号内添加encoding='utf-8',即改为:

    with open(args.messages_file, encoding='utf-8') as f:
    

6.2 提升成功率的3个实用技巧

  • 指令越具体,成功率越高
    ❌ “帮我找好吃的火锅” → “打开大众点评,搜索‘深圳南山科技园步行5分钟内的重庆老火锅,人均150以内,评分4.6以上’”。

  • 善用“等待”关键词降低误操作
    在复杂页面(如加载中的搜索结果页),加入“等待页面完全加载后”“等待地图渲染完成”,模型会主动插入等待逻辑。

  • 首次使用,从单步指令开始
    先测试“打开小红书”“点击搜索框”,再组合成完整流程,便于快速定位哪一步出错。

7. 总结:让手机回归“工具”本质,而非“注意力黑洞”

Open-AutoGLM 的核心价值,从来不是炫技式的“AI操控手机”,而是将人从重复性界面操作中解放出来。当你在通勤路上用语音说一句“收藏刚才小红书推的那家上海本帮菜”,AI便默默完成搜索、比对、收藏全流程——你获得的不是技术,而是多出来的30秒思考时间、少一次手滑关掉页面的懊恼、以及对信息获取过程的绝对掌控感。

它不替代你的品味,只放大你的效率;不承诺100%完美,但每一次成功都在降低数字生活的摩擦成本。而这一切,始于一条指令、一根数据线、一个免费API Key。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐