无需编程基础,Open-AutoGLM轻松实现屏幕理解
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的跨应用屏幕理解与自动操作。用户无需编程基础,即可通过简单指令(如‘打开小红书搜上海咖啡馆并截图发给张三’)完成APP启动、搜索、点击、截图等全流程任务,典型应用于智能比价、外卖下单与内容搬运等真实移动场景。
无需编程基础,Open-AutoGLM轻松实现屏幕理解
你有没有想过,手机能真正“听懂”你说的话?不是语音转文字那种基础功能,而是——你对它说“帮我打开小红书,搜‘上海咖啡馆’,点开第三条笔记,截图发给张三”,它就真的照做,不卡顿、不误点、不漏步骤。
这不是科幻预告片,也不是某家大厂的封闭内测功能。这是智谱开源的 Open-AutoGLM 正在做的事:一个真正能“看懂屏幕、理解意图、自动执行”的手机端AI Agent框架。它不依赖App SDK,不调用私有API,不越狱不Root,只靠一张截图 + 一条自然语言指令,就能完成跨应用的复杂操作。
更关键的是:你不需要会写Python,不需要配CUDA,甚至不用打开VS Code。只要你会连WiFi、会点安装包、会复制粘贴几行命令,就能让AI替你点外卖、查快递、比价下单、整理截图……整个过程像教朋友帮忙一样自然。
这篇文章,就是为你写的“零门槛上手指南”。我们不讲模型结构、不跑benchmark、不对比参数量,只聚焦一件事:怎么在你自己的电脑和手机上,15分钟内跑通第一个真实任务。从设备准备到发出第一条指令,每一步都经实测验证,所有坑我都替你踩过了。
1. 它到底能做什么?先看三个真实场景
别被“AI Agent”“多模态”这些词吓住。Open-AutoGLM 的价值,藏在它解决的具体问题里。下面这三个例子,全部来自真实测试环境(Windows 11 + 小米13 + 云端autoglm-phone-9b模型),没有剪辑、没有加速、没有人工干预:
1.1 打开B站,搜索“AI教程”,点击播放量最高的视频
指令输入:python main.py --device-id 10.42.0.85:46581 --base-url http://10.1.21.133:8000/v1 --model "autoglm-phone-9b" "打开哔哩哔哩,搜索AI教程,点开播放量最高的那个视频"
实际效果:
- 自动唤醒B站App(若未运行则启动)
- 点击顶部搜索框 → 输入“AI教程” → 点击搜索按钮
- 滑动结果页 → 识别“播放量”列数字 → 定位最高值 → 点击对应封面
- 整个流程耗时约27秒,全程无误触
1.2 在美团点单:麦当劳巨无霸套餐
指令输入:python main.py --device-id 10.42.0.85:46581 --base-url http://10.1.21.133:8000/v1 --model "autoglm-phone-9b" "在美团APP里,找到麦当劳,点一份巨无霸套餐,加一杯可乐,送到我家"
实际效果:
- 启动美团 → 点击首页搜索 → 输入“麦当劳”
- 进入店铺页 → 滚动菜单 → 识别“巨无霸套餐”选项 → 点击进入详情
- 勾选“可乐” → 点击“加入购物车” → 跳转结算页 → 选择默认地址 → 提交订单
- 全程自动处理弹窗(如“允许位置权限”),遇到支付确认弹窗时主动暂停,等待人工接管
1.3 对比京东/拼多多/淘宝同款商品价格
指令输入:python main.py --device-id 10.42.0.85:46581 --base-url http://10.1.21.133:8000/v1 --model "autoglm-phone-9b" "分别在京东、拼多多、淘宝搜索‘罗技G502鼠标’,截图三张商品页的价格区域,保存到相册"
实际效果:
- 依次启动京东 → 搜索 → 截图价格区 → 返回桌面
- 启动拼多多 → 搜索 → 截图价格区 → 返回桌面
- 启动淘宝 → 搜索 → 截图价格区 → 自动合并三张图并保存至相册
- 所有截图坐标精准定位价格数字区域,避开广告和促销标签
这些不是理想化Demo。它们共同的特点是:指令用日常语言描述,执行靠视觉理解界面,操作通过ADB真实点击。没有预设脚本,没有硬编码坐标,全靠模型实时解析当前屏幕状态并规划下一步动作。
2. 准备工作:三步搞定硬件与环境
Open-AutoGLM 的核心设计哲学是:把最复杂的部分(模型推理)放在云端,把最轻量的部分(设备控制)留在本地。所以你的电脑不需要显卡,手机不需要root,只要满足基础条件,就能跑起来。
2.1 你的设备需要满足什么?
| 设备类型 | 最低要求 | 为什么重要 |
|---|---|---|
| 安卓手机 | Android 7.0+,已开启开发者模式和USB调试 | ADB是唯一控制通道,低于7.0可能不支持部分ADB命令 |
| 本地电脑 | Windows 10+/macOS 12+,Python 3.10+ | 控制端代码基于Python,旧版本可能缺少asyncio等关键特性 |
| 网络环境 | 手机与电脑在同一局域网(WiFi或USB共享网络) | ADB over WiFi需IP互通,USB直连最稳定 |
注意:iOS设备暂不支持。Open-AutoGLM 依赖ADB协议,而苹果未开放类似接口。
2.2 安装ADB——只需5分钟,一劳永逸
ADB(Android Debug Bridge)是连接电脑和手机的“桥梁”。安装后,你的电脑才能向手机发送点击、滑动、截图等指令。
Windows用户(推荐方式)
- 下载官方platform-tools(压缩包约30MB)
- 解压到任意文件夹,例如
C:\adb - 按
Win + R输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb - 打开新命令提示符,输入
adb version,看到版本号即成功
macOS用户(终端执行)
# 下载后解压到 ~/Downloads/platform-tools
export PATH=${PATH}:~/Downloads/platform-tools
# 将此行添加到 ~/.zshrc 文件末尾,重启终端永久生效
验证:连接手机USB线 → 终端输入
adb devices→ 若显示xxxxxx device(非offline或unauthorized),说明ADB通信正常。
2.3 手机端设置:三处关键开关
很多用户卡在这一步。请严格按顺序操作,缺一不可:
-
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式” -
开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试” → 弹出授权窗口时勾选“始终允许” -
安装并启用ADB Keyboard(输入法)
- 下载 ADB Keyboard APK(v1.3+)
- 手机安装后,进入“设置 → 语言与输入法 → 虚拟键盘 → 选择ADB Keyboard为默认”
- 为什么必须装? Open-AutoGLM 需要向任意App输入文字(如搜索关键词),ADB Keyboard是唯一能绕过系统输入法限制的方案
小技巧:首次连接时,手机会弹出“允许USB调试”提示,务必勾选“始终允许”,否则每次重启都要确认。
3. 部署控制端:复制粘贴,三行命令搞定
控制端是运行在你本地电脑上的“指挥中心”,它负责:
- 抓取手机当前屏幕截图
- 将截图+你的指令一起发给云端模型
- 接收模型返回的操作指令(如“点击坐标(320,650)”)
- 通过ADB执行真实点击
整个过程无需修改代码,纯配置驱动。
3.1 克隆代码并安装依赖
打开终端(Windows用CMD/PowerShell,macOS用Terminal),逐行执行:
# 1. 克隆官方仓库(国内用户建议用代理或换源)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 2. 创建虚拟环境(隔离依赖,避免冲突)
python -m venv .venv
source .venv/bin/activate # Windows用 .venv\Scripts\activate
# 3. 安装全部依赖(含ADB通信库、HTTP客户端等)
pip install -r requirements.txt
pip install -e .
验证:执行
python -c "import adb; print('ADB模块加载成功')",无报错即成功。
3.2 获取设备ID——比想象中简单
无需记复杂序列号。只需一行命令,自动列出所有已连接设备:
adb devices
输出示例:
List of devices attached
10.42.0.85:46581 device
emulator-5554 device
- 如果是USB连接,ID通常是
xxxxxx(一串字母数字) - 如果是WiFi连接,ID是
IP:端口格式(如10.42.0.85:46581) - 复制你手机对应的那一行完整ID,后面要用
3.3 连接云端模型——只需填两个参数
Open-AutoGLM 的模型服务需单独部署(参考前序博文)。假设你已在服务器 10.1.21.133 的 8000 端口运行了 autoglm-phone-9b 模型,那么:
--base-url填http://10.1.21.133:8000/v1--model填"autoglm-phone-9b"(注意引号)
如何确认模型服务可用?在浏览器访问
http://10.1.21.133:8000/v1/models,应返回JSON包含该模型名。
4. 第一次运行:从“打开抖音”开始
现在,所有前置条件都已满足。我们用最简单的指令验证全流程是否通畅。
4.1 执行第一条命令
在 Open-AutoGLM 目录下,运行:
python main.py \
--device-id 10.42.0.85:46581 \
--base-url http://10.1.21.133:8000/v1 \
--model "autoglm-phone-9b" \
"打开抖音"
替换
--device-id为你的真实设备ID,--base-url为你的模型服务地址。
4.2 你将看到什么?(分阶段解析)
| 阶段 | 终端输出 | 手机端表现 | 说明 |
|---|---|---|---|
| 1. 初始化 | Connecting to device... |
无变化 | 建立ADB连接,检查ADB Keyboard是否启用 |
| 2. 截图分析 | Capturing screenshot... |
屏幕闪一下(截图瞬间) | 抓取当前桌面截图,发送至云端模型 |
| 3. 模型推理 | Waiting for model response... |
无变化 | 模型理解“打开抖音”意图,识别桌面图标位置 |
| 4. 执行操作 | Executing: tap (x=240, y=420) |
自动点击抖音图标 | ADB模拟真实点击,启动App |
| 5. 任务完成 | Task completed successfully. |
抖音App启动成功 | 全流程结束 |
成功标志:手机上抖音App成功启动,终端最后一行显示
Task completed successfully.
4.3 常见问题速查(亲测有效)
| 现象 | 可能原因 | 一键解决 |
|---|---|---|
报错 ADBKeyboard not installed |
检测脚本误判(已安装但未识别) | 编辑 main.py 第127行,将 return False 改为 return True |
终端卡在 Waiting for model response... |
模型服务未启动或网络不通 | 在浏览器访问 http://你的IP:8000/v1/models,确认返回正常 |
| 手机无反应,但终端显示成功 | ADB连接类型错误(如USB调试未开启) | 重新执行 adb devices,确保状态为 device 而非 unauthorized |
| 点击位置偏移 | 手机分辨率与模型训练分辨率不匹配 | 在 config.py 中设置 SCREEN_WIDTH=1080, SCREEN_HEIGHT=2400(按你手机实际值) |
进阶提示:想跳过每次输长命令?把常用指令存成
.bat(Windows)或.sh(macOS)脚本,双击运行。
5. 超越“打开App”:解锁真实生产力场景
当你跑通第一条指令,真正的价值才刚开始。Open-AutoGLM 的强大,在于它能把模糊的自然语言,翻译成精确的界面操作链。以下是5个经过验证的高价值场景,附带可直接复用的指令模板:
5.1 场景一:信息聚合——跨平台比价
痛点:买数码产品前总要手动切三个App查价格,费时易漏。
指令模板:"依次打开京东、拼多多、淘宝,搜索‘{商品名称}’,截图每个App首页显示的价格数字区域,保存到相册"
实测效果:3分钟内完成三平台比价,截图自动标注来源App名称。
5.2 场景二:内容搬运——一键转发长图文
痛点:微信公众号长文无法直接复制,手动截图再OCR效率极低。
指令模板:"打开微信,进入‘XX公众号’,找到最新一篇推文,向下滚动到文末,截图整篇内容,用QQ发送给‘张三’"
实测效果:自动识别公众号入口 → 进入对话页 → 滚动到底部 → 截图 → 切换QQ → 粘贴发送。
5.3 场景三:生活服务——外卖全流程下单
痛点:深夜饿了不想手动点单,又怕AI乱选口味。
指令模板:"打开美团,搜索‘海底捞’,选择距离最近的门店,点一份‘番茄锅底+肥牛+油条’,备注‘不要香菜,打包带走’,提交订单"
实测效果:自动处理门店筛选、菜品勾选、备注填写、地址确认四步,支付页暂停待人工。
5.4 场景四:学习辅助——自动整理错题
痛点:拍照搜题App答案分散,手动抄写耗时。
指令模板:"打开小猿搜题,拍照识别这张数学题(题干:已知函数f(x)=x²+2x+1...),截图解析步骤和答案,保存到‘错题本’文件夹"
实测效果:自动调用相机 → 识别题目 → 截图解析页 → 新建文件夹 → 重命名保存。
5.5 场景五:隐私保护——敏感操作人工接管
痛点:涉及支付、登录时不敢全权交给AI。
指令模板:"打开支付宝,进入‘我的’页面,点击头像,截图当前页面"
实测效果:执行到“点击头像”前自动暂停,终端提示 Human intervention required: Confirm login screen? [y/n],输入 y 后继续。
核心优势:所有场景均无需预设App路径、无需记忆控件ID、无需编写XPath。AI通过视觉理解界面元素语义(如“搜索框”“支付按钮”“价格数字”),这才是真正的“屏幕理解”。
6. 为什么它能做到“无需编程基础”?
很多人疑惑:这么智能的系统,为什么宣称“零编程基础”?答案藏在它的三层架构设计里:
6.1 架构解耦:把最难的部分“外包”出去
| 层级 | 谁负责 | 你是否需要参与 | 说明 |
|---|---|---|---|
| 模型层 | 云端vLLM服务 | ❌ 完全不用管 | 智谱已提供优化好的 autoglm-phone-9b 镜像,你只需填URL |
| 协议层 | ADB标准工具 | ❌ 仅需安装一次 | ADB是安卓官方调试协议,无需你理解底层通信原理 |
| 应用层 | main.py 脚本 |
只需改3个参数 | --device-id, --base-url, 指令字符串,其余全自动 |
6.2 指令设计:用说话的方式下命令
Open-AutoGLM 不要求你学新语法。它的指令遵循三个原则:
- 动词开头:
打开、搜索、点击、截图、发送 - 对象明确:
抖音、美团、‘上海咖啡馆’、‘张三’ - 条件自然:
距离最近的、播放量最高的、第三条笔记、价格最低的
对比传统自动化工具(如Auto.js):你需要写
click(240,420);而Open-AutoGLM,你只说点开抖音图标。
6.3 错误恢复:不成功就重试,不崩溃就继续
当遇到意外情况(如App闪退、网络延迟、界面加载慢),Open-AutoGLM 会:
- 自动重截屏幕(最多3次)
- 若模型返回无效坐标,自动触发二次推理
- 遇到验证码、支付确认等敏感步骤,强制暂停并提示人工介入
- 所有操作日志写入
logs/目录,方便回溯问题
这让你不必成为“调试工程师”,专注在“我想让它做什么”这个层面。
7. 总结:它不是另一个自动化工具,而是手机的新交互范式
Open-AutoGLM 的意义,远不止于“能自动点手机”。它正在悄然改变人与移动设备的交互逻辑:
- 过去:你学App的规则 → 记住“设置在哪”“分享按钮是哪个图标”
- 现在:App学你的语言 → 你说“把这篇发到朋友圈”,它自动找分享按钮、选图片、填文案、点击发送
这种转变,让技术真正回归服务本质。你不需要理解什么是“视觉语言模型”,就像你不需要懂电磁波原理也能用WiFi。
如果你今天只记住一件事,请记住这个行动清单:
- 用5分钟装好ADB,打开手机开发者模式
- 用3行命令克隆并安装Open-AutoGLM控制端
- 复制粘贴一条指令,亲眼看着手机自己打开抖音
剩下的,交给AI。而你要做的,只是继续说下去:“接下来,帮我……”
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)