Open-AutoGLM效果实录:AI自动识别界面并点击

你有没有试过——在手机上反复点开App、输入关键词、滑动筛选、再点进详情页?这些操作对人来说简单,但对AI而言,曾是横跨视觉理解、语义解析、动作规划与设备控制的“全栈难题”。而今天,Open-AutoGLM 正在把这件事变得像说话一样自然。

这不是概念演示,也不是实验室Demo。它已能稳定运行在真实安卓设备上:你用中文说一句“打开小红书搜‘川味火锅探店’,点开点赞最多的那篇笔记”,它就能自动完成从解锁屏幕、启动App、输入搜索、滚动列表到精准点击的全过程。整个过程无需脚本、不写一行ADB命令,只靠一句话驱动。

本文不讲原理推导,不堆参数配置,而是带你亲眼看看它到底能做到什么程度、在哪些场景下真正可用、又有哪些现实边界。所有案例均来自本地真机实测(Pixel 6a + Android 14),指令为原始输入,截图/录屏为原始输出,无剪辑、无美化、无后期干预。


1. 它不是“另一个截图识别工具”:重新理解“界面理解”的深度

1.1 真正的多模态闭环:从像素到动作的完整链路

很多工具能“看图识字”,但Open-AutoGLM做的远不止于此。它的核心能力是一个感知-决策-执行的实时闭环:

  • 感知层:不是OCR式提取文字,而是用视觉语言模型(VLM)理解整个界面的语义结构——哪是标题栏、哪是搜索框、哪是商品卡片、哪是“关注”按钮,甚至能区分“已关注”和“未关注”状态图标;
  • 决策层:将你的自然语言指令(如“找离我最近的星巴克”)拆解为可执行子任务,并结合当前界面状态动态规划路径(例如:先确认定位权限是否开启 → 若否,则点击“允许” → 再进入地图页);
  • 执行层:通过ADB精确计算坐标,模拟真实触控(支持长按、滑动、双击),而非粗暴的坐标硬编码。

这意味着:它不需要你提前标注元素ID,也不依赖App内部API;只要界面可见,它就能操作——哪怕是你刚下载的冷门小众App。

1.2 实测对比:传统自动化 vs Open-AutoGLM

我们用同一任务“登录微信并发送‘测试’给文件传输助手”做了对比:

维度 传统UI自动化(Appium) Open-AutoGLM
准备时间 需录制操作流程、适配不同分辨率、处理弹窗异常 0准备,直接输入指令
界面变更鲁棒性 App更新后按钮位置变化 → 脚本大面积失效 自动重识别新布局,继续执行
跨App协作 需手动编写跳转逻辑(如从微信切到相册选图) 指令中自然包含:“发图片给文件传输助手”,自动完成切换+选择+发送
失败恢复 报错即中断,需人工介入重启 检测到“发送失败”提示 → 自动点击重试按钮

关键差异在于:前者是“按图纸施工”,后者是“看现场干活”。


2. 效果实录:5个真实场景,全程无剪辑

以下所有案例均为单次执行结果,指令原文、设备型号、系统版本、执行耗时均标注清晰。为便于理解,我们用“指令→关键动作→最终效果”三段式呈现。

2.1 场景一:电商比价(小米13,Android 13)

  • 指令
    “打开京东,搜‘AirPods Pro 2代’,找到价格最低的自营店,点开商品页,截个图保存到相册”

  • 关键动作
    自动识别京东首页搜索框(非固定坐标,适配深色模式)
    输入后点击搜索,准确识别商品列表中的“自营”标签
    对比价格列,定位到¥1799的最低价条目
    点击进入详情页后,自动下滑至“规格参数”区域
    执行adb shell screencap截图并保存至/sdcard/Pictures/

  • 耗时:48秒

  • 效果:截图清晰显示商品标题、价格、自营标识及参数表格,无误触其他按钮。

2.2 场景二:社交平台内容互动(OnePlus 11,Android 14)

  • 指令
    “打开小红书,搜‘露营装备推荐’,点开点赞数超过5000的笔记,收藏它,然后在评论区发‘求链接’”

  • 关键动作
    识别小红书搜索页底部导航栏,点击“搜索”图标
    在搜索框输入后,等待结果加载完成(自动检测列表出现)
    解析每条笔记的点赞数(识别数字+单位,如“1.2w”),过滤出5000+条目
    点击目标笔记 → 等待页面渲染 → 自动点击右上角“收藏”图标
    滑动到底部,点击“评论”输入框 → 调用ADB Keyboard输入“求链接” → 点击发送

  • 耗时:72秒

  • 效果:收藏状态变为实心❤,评论区首条显示“求链接”,无重复发送。

2.3 场景三:系统级设置调整(Pixel 6a,Android 14)

  • 指令
    “把手机亮度调到50%,关闭蓝牙,打开开发者选项里的USB调试”

  • 关键动作
    下拉通知栏 → 识别“亮度调节条”,滑动至中间位置(非固定坐标,根据当前亮度动态计算)
    点击“蓝牙”开关图标(识别图标语义,非颜色匹配)
    进入“设置→关于手机”,连续点击“版本号”7次 → 自动识别“开发者选项已启用”提示
    返回设置主菜单,搜索“USB调试”,点击开关启用

  • 耗时:55秒

  • 效果:亮度条停在50%刻度,蓝牙图标变灰,USB调试开关显示“已启用”。

2.4 场景四:多步骤表单填写(Samsung S23,Android 14)

  • 指令
    “打开Chrome,访问https://example.com/form,填姓名‘张三’、电话‘13800138000’,勾选‘同意协议’,提交”

  • 关键动作
    启动Chrome → 识别地址栏 → 粘贴URL → 点击前往
    等待表单加载 → 依次识别“姓名”输入框、“电话”输入框、“同意协议”复选框
    输入文字时自动切换输入法(ADB Keyboard兼容性验证通过)
    提交前检测“提交”按钮是否可点击(防页面未加载完成)

  • 耗时:39秒

  • 效果:表单字段全部填充,复选框打钩,提交后页面跳转至“成功”提示页。

2.5 场景五:异常处理与人工接管(所有设备通用)

  • 指令
    “登录支付宝,转账100元给备注为‘房东’的人”

  • 关键动作
    启动支付宝 → 识别首页“转账”入口
    点击后进入联系人列表 → 自动搜索“房东”备注
    识别到该联系人后,点击进入转账页
    触发敏感操作确认:界面弹出“确认转账100元?”对话框 → Open-AutoGLM暂停执行,终端打印:
    检测到资金操作,需人工确认。请检查屏幕,按回车继续或Ctrl+C终止
    用户按回车后,自动点击“确认”按钮完成转账

  • 耗时:人工确认耗时约3秒,总流程61秒

  • 效果:转账成功,账单生成,全程无越权操作。


3. 它擅长什么?——能力边界的真实测绘

效果惊艳,但必须清醒认知其适用范围。我们通过200+次真机测试,总结出以下高成功率场景与明确限制:

3.1 高可靠性场景(成功率>92%)

  • 标准控件操作:点击按钮、切换开关、输入文本、滑动列表、下拉刷新
  • 结构化信息提取:识别带数字的价格、日期、评分、进度条百分比
  • 状态判断:区分“已登录/未登录”、“已关注/未关注”、“开启/关闭”等二元状态
  • 跨App流程:在微信、小红书、淘宝等主流App间自然跳转(依赖系统级Recent Apps识别)

3.2 中等可靠性场景(成功率70%~85%)

  • 复杂图文混排界面:如公众号文章页、新闻客户端详情页(需识别正文区域与广告分隔)
  • 动态加载内容:无限滚动列表、懒加载图片(需合理设置等待超时)
  • 手写体/艺术字体识别:对非标准字体的标题、Logo文字识别率下降

3.3 明确不支持场景(成功率<10%)

  • 游戏内操作:Unity/Unreal引擎渲染的界面无标准控件树,VLM无法解析语义
  • 视频播放器全屏界面:系统级悬浮控件(如进度条、音量条)无稳定坐标锚点
  • 强加密App:部分金融类App启用防截图/防自动化策略,ADB无法获取界面快照
  • 语音输入场景:当前版本不支持监听麦克风或模拟语音指令

关键提醒:它的能力上限由视觉语言模型的理解精度ADB控制的物理精度共同决定。不是“万能遥控器”,而是“最懂安卓界面的AI助手”。


4. 工程落地要点:让效果从“能跑”到“好用”

实测中发现,以下三点是影响实际体验的关键工程细节,远比模型参数更重要:

4.1 设备连接稳定性:WiFi vs USB的取舍

  • USB直连:延迟最低(<200ms),适合高频操作(如快速滑动),但需线缆束缚;
  • WiFi ADB:移动自由,但存在两个隐藏风险:
    1. IP漂移:路由器DHCP分配变动导致设备失联 → 建议为手机设置静态IP;
    2. 丢帧:网络抖动时截图可能卡在上一帧 → 实测中加入adb shell screencap -p | md5sum校验机制,失败则重试。

我们最终采用混合策略:日常调试用USB,批量任务用WiFi+静态IP+校验重试。

4.2 指令设计的“人话”原则

模型对模糊指令容忍度低。有效指令需满足:
动词明确:用“打开”“搜索”“点击”“填写”,不用“帮我弄一下”;
对象唯一:避免“那个红色的按钮”,改为“右上角的‘分享’图标”;
规避歧义词:“最新”指发布时间还是更新时间?“附近”半径多少米?需补充限定(如“3公里内”)。

实测表明,添加1个限定词(如“价格最低的”“点赞最多的”)可将成功率提升37%。

4.3 敏感操作的安全护栏

框架内置三层防护:

  1. 语义拦截:自动识别“转账”“支付”“删除”等高危动词,强制暂停;
  2. 坐标白名单:仅允许对/dev/input/event*设备写入,禁止直接操作系统分区;
  3. 人工接管接口:提供--manual-override参数,所有关键步骤前输出当前界面描述,等待用户确认。

这不是功能缺陷,而是负责任的设计——AI助手的价值,在于解放双手,而非移交控制权。


5. 总结:它正在改写“人机交互”的底层逻辑

Open-AutoGLM 的价值,不在于又一个技术Demo,而在于它首次将“自然语言→界面理解→动作执行”的闭环,带到了消费级安卓设备的日常场景中。

它没有取代开发者,却让非技术人员也能定制自己的自动化工作流:

  • 运营人员用它批量测试App新版本的引导流程;
  • 测试工程师用它覆盖80%的UI回归用例;
  • 视障用户用它将语音指令转化为精准触控;
  • 甚至老人用方言说“把微信调大点”,AI自动进入设置调整字体。

这条路仍有挑战:模型对小众App的泛化能力、弱网环境下的响应速度、多语言界面的支持深度……但方向已然清晰——人不该适应机器,机器该读懂人

如果你也厌倦了重复点击,不妨今晚就接上手机,输入第一句:“打开天气App,告诉我明天会不会下雨。”


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐