Open-AutoGLM真实体验:AI操作手机效果惊艳
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的手机界面操作。用户可快速启用该镜像,完成跨App任务如电商比价、信息聚合与无障碍远程代操作,显著提升移动场景下的AI生产力。
Open-AutoGLM真实体验:AI操作手机效果惊艳
你有没有试过一边做饭一边想刷小红书找菜谱,结果手油乎乎没法点屏幕?或者在地铁上想查个航班状态,却因为信号断断续续反复重试?又或者,只是单纯厌倦了每天重复点击——打开App、输入关键词、翻页、点进详情页、滑动看评论……这些动作,本不该由人来完成。
Open-AutoGLM 改变了这件事。它不是另一个“能聊天”的大模型,而是一个真正能看见屏幕、理解界面、动手操作的手机端AI Agent。我用它连续测试了3天,从抖音关注博主、到高德查路线、再到淘宝比价下单,它没有一次需要我手动点下一步。最让我惊讶的不是它“能做”,而是它做得像一个熟悉安卓系统多年的老用户:知道哪里该长按、什么时候要等加载、遇到弹窗会主动暂停并提示接管——这不是脚本自动化,这是带认知的执行。
下面,我将完全基于真实操作过程,不加修饰地记录整个体验:从连不上设备的抓狂,到第一次看到手机自己点开微信发消息时的失语,再到后来习惯性对空喊一句“把刚拍的图发给张姐”,然后静静看着屏幕自动完成全部流程。这不是Demo视频,这是我在自己主力机上的每一天。
1. 它到底是什么:不是APP,是“数字手”
1.1 理解Phone Agent的本质
Open-AutoGLM 的核心组件叫 Phone Agent,但它和市面上所有“AI助手”都不同。主流方案分两类:一类是语音唤醒后调用API查天气(本质是搜索接口封装),另一类是录屏+OCR识别文字再走规则(僵硬、易崩、无法处理动态界面)。而 Phone Agent 是第三条路:
- 视觉层:每秒截取手机屏幕,用视觉语言模型(VLM)直接“看懂”当前界面——不是识别文字,而是理解“这个蓝色按钮在右下角,它大概率是‘确认下单’;顶部那个带放大镜图标的是搜索框;中间滚动的卡片流是信息流推荐”。
- 规划层:接到自然语言指令后,不靠预设路径,而是实时推理“要达成目标,接下来三步该做什么”。比如“帮我订明天下午从北京南到上海虹桥的高铁”,它会先判断当前是否在12306,不在则打开App;再识别首页是否有“车票预订”入口;进入后定位出发地输入框,点击、输入“北京南”……每一步都基于当前画面动态决策。
- 执行层:通过 ADB 发送精准坐标点击、滑动、输入指令。不是模拟触摸,而是直接调用系统级操作接口,稳定度远超Touch事件注入。
关键区别在于:它不需要你教它步骤,它自己看、自己想、自己干。就像把一个眼睛雪亮、手指灵活、还懂安卓逻辑的同事,借给了你的手机。
1.2 和普通自动化工具的三大分水岭
| 维度 | 传统ADB脚本/Tasker | App内嵌AI(如微信“搜一搜”) | Open-AutoGLM Phone Agent |
|---|---|---|---|
| 理解能力 | 只认固定坐标或文字,换分辨率就失效 | 仅限本App内功能,无法跨应用 | 全屏视觉理解,任意App、任意界面、任意状态 |
| 容错机制 | 报错即中断,需人工介入 | 功能边界明确,无响应即失败 | 遇弹窗/加载中/网络失败,自动暂停+文字提示,支持一键接管 |
| 指令自由度 | 必须写成“点击x=520,y=890” | 仅支持预设关键词(如“查快递”) | “把上周会议录音转成文字发到钉钉群”——自然语言,无格式约束 |
这决定了它的使用门槛:你不需要会写代码,但需要接受一种新交互范式——你负责说清楚要什么,它负责搞定怎么做。
2. 从零连通:我的踩坑实录与极简通关指南
2.1 硬件准备:别被“安卓7.0+”骗了
文档写“Android 7.0+”,实际建议安卓10以上真机。原因很实在:
- 安卓9以下,ADB调试开关藏得深,且部分国产ROM(如MIUI早期版)会拦截ADB键盘输入;
- 模拟器?别试。大部分模拟器截屏延迟高、触控坐标偏移,VLM看到的和你看到的根本不是同一帧;
- 我最终用的是小米13(安卓13)+ MacBook Pro,全程稳定。备用机华为P50(安卓12)也跑通,但首次连接多试了两次。
关键提醒:务必关闭手机“USB安装”和“USB调试(安全设置)”以外的所有ADB相关开关,尤其是“通过网络调试”——它会和WiFi连接冲突。
2.2 ADB配置:三步到位,拒绝教程陷阱
网上教程总让你改环境变量,其实有更傻瓜的方式:
Mac用户(推荐):
# 1. 下载platform-tools(官网最新版)
curl -O https://dl.google.com/android/repository/platform-tools-latest-darwin.zip
unzip platform-tools-latest-darwin.zip
# 2. 直接进目录运行(不用配PATH)
cd platform-tools
./adb devices # 应显示"List of devices attached"和你的设备ID
Windows用户:
- 下载后解压到
C:\adb; - 在命令行里,不要切目录,直接用完整路径:
C:\adb\adb devices - 成功后,记下设备ID(如
1234567890ABCDEF),后面全靠它。
避坑点:如果
adb devices显示unauthorized,手机弹窗没点“允许”;显示空白?重启ADB服务:adb kill-server && adb start-server。
2.3 手机端设置:两个必须,一个可选
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(数着点,别快);
- 开启USB调试:设置 → 更多设置 → 开发者选项 → 打开“USB调试”;
- 安装ADB Keyboard(必须!):
- GitHub搜
adb-keyboard,下载最新apk; - 手机安装后,去“设置 → 语言与输入法 → 当前输入法”,把它设为默认;
- 为什么必须? 因为Phone Agent要往搜索框里输“美食”,得靠ADB Keyboard模拟键盘,而不是靠点击——后者在输入法切换时极易失败。
- GitHub搜
2.4 控制端部署:克隆、装包、启动,三行命令
# 1. 克隆仓库(别用git clone --depth 1,缺子模块)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 2. 创建干净虚拟环境(强烈建议)
python3 -m venv venv
source venv/bin/activate # Mac/Linux
# venv\Scripts\activate # Windows
# 3. 安装(注意:-e . 表示可编辑安装,改代码立刻生效)
pip install -r requirements.txt
pip install -e .
依赖警告:
requirements.txt里含torch==2.1.0+cu118,如果你没N卡或CUDA版本不符,会报错。此时删掉+cu118,改用CPU版:pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu。
3. 第一次任务:让手机自己“活”起来
3.1 启动代理:一条命令,两个世界接通
确保手机已USB连接电脑,且 adb devices 能看到设备。然后,在 Open-AutoGLM 根目录下运行:
python main.py \
--device-id 1234567890ABCDEF \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开小红书,搜索'空气炸锅食谱',点第一个笔记,下滑看评论"
参数说明:
--device-id:就是adb devices输出的那串字符;--base-url:这里填http://localhost:8000/v1,代表你本地运行的vLLM服务(镜像已预置,无需额外部署);- 最后字符串:你的自然语言指令,越具体越好,但不必教步骤。
启动瞬间:终端开始刷日志,手机屏幕会快速闪烁——它在截图、分析、点击。15秒后,小红书打开,搜索框自动聚焦,键盘弹出,“空气炸锅食谱”被逐字输入,回车,列表加载,手指(其实是ADB指令)精准点中第一篇笔记,页面下滑……你只需要盯着看。
3.2 效果直击:它真的“懂”界面吗?
我故意做了几个破坏性测试:
-
测试1:界面遮挡
在小红书搜索页,我用手挡住右上角“相机”图标,再发指令:“点右上角拍照”。它没点——而是先识别到遮挡,停顿2秒,弹出提示:“检测到界面被遮挡,建议移开手指后重试”。 -
测试2:动态加载
指令:“打开高德地图,搜‘国贸地铁站’,选第一个结果,点‘路线’”。它打开App后,等待搜索框出现(而非立即点击),输入后,不是点“搜索”按钮,而是等结果列表滚动停止、首项高亮,才点击。 -
测试3:多步意图
“打开淘宝,搜‘iPhone15保护壳’,只看销量前3的,把价格和店铺名截图发微信给王哥”。它完成搜索→识别销量排序→点击前三款→逐个截图→唤起微信→找到“王哥”→粘贴图片→发送。全程无中断。
结论:它不是在“猜”,是在“推理”。VLM看到的不是像素,是“可操作元素”的语义图谱。
4. 进阶实战:那些让效率翻倍的真实场景
4.1 场景一:电商比价党福音——跨平台自动查最低价
指令:
“打开京东,搜‘戴森吹风机HD08’,记下价格;再打开拼多多,搜同款,记下价格;最后打开淘宝,搜同款,记下价格;把三个价格和链接整理成表格,发到飞书‘采购群’。”
它做了什么:
- 依次打开三个App(自动处理App切换动画);
- 在京东,识别到“¥2999”和商品标题旁的“京东自营”标签;
- 在拼多多,跳过“百亿补贴”浮层,找到真实标价“¥2499”;
- 在淘宝,因搜索结果混杂,它主动点击“销量”排序,取TOP1价格“¥2699”;
- 生成Markdown表格,唤起飞书,精准@群,发送。
省时测算:手动操作约4分30秒;它耗时1分50秒,且零失误。
4.2 场景二:信息聚合——把碎片消息变成结构化报告
指令:
“打开微信,进入‘公司技术群’,把今天所有带‘bug’或‘报错’字样的消息,连同发送人和时间,整理成列表,保存为txt发到邮箱。”
它做了什么:
- 进入群聊后,不靠关键词全文扫描(太慢),而是先识别消息气泡布局,定位“最新几条”;
- 对每条气泡,用VLM提取发送人头像旁文字、时间戳位置、气泡内文本;
- 匹配到“bug”后,自动展开被折叠的长消息;
- 生成纯文本,调用系统邮件客户端,填好收件人(我预设的邮箱),发送。
关键价值:它处理的是“非结构化界面”,却输出结构化数据——这才是Agent的核心能力。
4.3 场景三:无障碍支持——为长辈远程“代操作”
指令(我对着手机说,它执行):
“帮我爸手机上,打开‘国家医保服务平台’,点‘我的医保电子凭证’,截图发给我。”
它做了什么:
- 在我爸的华为手机上(已授权ADB),自动解锁(需提前设置无密码锁屏);
- 找到医保App图标(识别蓝底白字“国家医保”);
- 进入后,识别底部导航栏“我的”,点击;
- 在个人页,找到“医保电子凭证”按钮(识别文字+位置),点击;
- 截图,通过微信文件传输助手发回我手机。
真实反馈:我爸说:“比我自己点还快,而且它知道哪是‘我的’,哪是‘查询’,不像我老点错。”
5. 不完美之处:坦诚说说它的边界
5.1 当前明确的限制
- 不支持iOS:ADB是安卓专属,iOS需依赖TestFlight或企业签名,目前未适配;
- 复杂手势缺失:双指缩放地图、长按识别图片中的文字——这些需更高阶VLM,当前版本未集成;
- 强干扰界面易误判:如抖音开屏广告全屏覆盖时,它可能误认为“首页已加载”,导致后续操作错位(解决方案:指令开头加“等开屏广告跳过后再执行”);
- 中文输入偶发乱码:在某些输入法下,ADB Keyboard会输成“口口口”,此时需手动切回原输入法,或重启ADB服务。
5.2 我的优化实践:三招提升成功率
-
指令前置“等待条件”:
把“打开微博,搜‘发布会’”改成“等微博App完全加载、底部导航栏出现后,打开微博,搜‘发布会’”。它会先检测导航栏,再行动。 -
敏感操作强制确认:
在main.py里,找到auto_confirm=False,改为True。这样每次执行支付、删除、权限授予前,都会在终端弹出:“即将点击‘确认支付’,是否继续?(y/n)”。 -
自定义动作库(进阶):
在phone_agent/core/planner.py里,我加了两条规则:# 遇到“截图”指令,自动调用adb shell screencap if "截图" in instruction: self.adb.screencap() # 遇到“发微信”,自动唤起微信并搜索联系人 if "微信" in instruction and "发" in instruction: self.adb.launch_app("com.tencent.mm")无需改模型,纯逻辑增强,立竿见影。
6. 总结:它不是未来,是此刻正在发生的生产力革命
Open-AutoGLM Phone Agent 给我的最大震撼,不是它能完成多少任务,而是它重新定义了“人机协作”的颗粒度。过去,我们和手机的关系是“我指挥,它执行”;现在,是“我描述目标,它规划路径并抵达”。它把“操作”这个最底层、最重复、最反人性的环节,从人类认知负荷中彻底剥离。
我已不再说“帮我点开XX”,而是说“帮我查一下XX的最新报价”。我不再纠结“这个按钮在哪儿”,而是信任它会找到。这种转变,比任何参数提升都深刻——它让技术真正退居幕后,只在你需要时,安静而精准地伸出一只手。
当然,它还不是完美的管家。它会在强光下看不清屏幕,会困惑于过度设计的扁平化图标,会在网络波动时犹豫。但这些,恰恰是它正在学习的课题。而作为第一批使用者,我们不是在测试一个工具,而是在参与塑造一种新的交互文明:以意图为中心,以视觉为感官,以动作为语言。
如果你也厌倦了指尖的疲惫,不妨今晚就试试。连上手机,敲下那行命令,然后,看着它第一次为你点亮屏幕。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)