AI操作手机全流程演示:基于Open-AutoGLM的真实案例
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的手机端自动化操作。用户可通过简单指令(如‘打开小红书搜上海咖啡馆并保存笔记’)让AI实时识别界面、理解意图并执行点击、输入、截图等操作,典型应用于生活服务、社交互动与信息提取等场景。
AI操作手机全流程演示:基于Open-AutoGLM的真实案例
1. 这不是科幻,是今天就能跑通的手机AI代理
你有没有试过一边做饭一边想点个外卖,结果被油锅和手机屏幕同时“绑架”?
或者在地铁上想查航班状态,却因为单手操作、界面跳转、验证码输入而放弃?
又或者,只是想让手机自动完成一个再普通不过的动作——比如“打开小红书搜‘上海咖啡馆’,保存前三条笔记”,却要手动点开App、输关键词、滑动、长按、点击保存……整整7步。
这些不是用户懒,而是交互效率的断层。
Open-AutoGLM 改变了这件事。它不是另一个聊天机器人,也不是云端API调用工具,而是一个真正能“看见”手机屏幕、“理解”界面意图、“动手”完成操作的AI代理框架。它不模拟点击坐标,不依赖固定UI路径,而是像人一样——先看,再想,最后做。
本文不讲论文、不堆参数、不画架构图。我们直接从一台刚拆封的安卓手机开始,一步步连接、部署、下指令、看结果。全程使用真实设备(小米13,Android 14)、本地电脑(MacBook Pro M2)、公开镜像与开源代码,所有步骤均可复现。你读完,就能让自己的手机第一次被AI“接管”。
这不是未来预告,这是今天下午三点就能完成的操作。
2. 准备工作:三件套配齐,5分钟搞定环境
别被“AI Agent”吓住——Open-AutoGLM 的控制端极轻量,对本地电脑几乎无门槛。我们只准备三样东西:一台能连电脑的安卓手机、一台装好Python的电脑、一个能上网的网络。
2.1 手机端:开启“被操控权”
这一步本质是授权手机接受外部指令,和调试开发者应用完全一致,无需Root、无需刷机、不越狱。
- 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”提示
- 启用USB调试:设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关
- 安装ADB Keyboard(关键!):这是让AI能“打字”的核心组件
- 下载地址:https://github.com/senzhk/ADBKeyBoard/releases(找最新apk)
- 安装后,进入手机“设置 → 语言与输入法 → 当前键盘”,切换为“ADB Keyboard”
注意:部分国产手机(如华为、OPPO)在“开发者选项”里还有一项叫“USB调试(安全设置)”,必须一并开启,否则ADB无法输入文字。
2.2 电脑端:装好ADB,验证连通性
ADB(Android Debug Bridge)是Android系统的官方调试桥,不是Open-AutoGLM专属,而是所有安卓自动化操作的基础。我们只做最简配置:
- Windows用户:下载platform-tools,解压后将文件夹路径加入系统环境变量Path
- macOS用户:终端执行
# 假设你把platform-tools放在Downloads目录下 echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc - 验证是否成功:
adb version # 应输出类似:Android Debug Bridge version 1.0.41
2.3 连接手机:USB优先,WiFi备用
-
USB直连(推荐新手):用原装数据线连接手机与电脑 → 手机弹出“允许USB调试吗?”→ 勾选“始终允许”,点击确定
-
验证连接:
adb devices # 正常输出示例: # List of devices attached # 1234567890abcdef device看到
device字样,说明手机已就绪。 -
WiFi远程(进阶可选):
# 先用USB连上,执行 adb tcpip 5555 # 拔掉USB线,确保手机和电脑在同一WiFi下 adb connect 192.168.1.102:5555 # 替换为你的手机IP(在手机Wi-Fi设置里查看)
小贴士:如果
adb devices显示unauthorized,请检查手机是否点了“允许”。若显示为空,重启ADB服务:adb kill-server && adb start-server
3. 部署控制端:一行命令克隆,两行命令启动
Open-AutoGLM 的控制端代码完全开源,无需编译,纯Python运行。我们只做三件事:拉代码、装依赖、确认模型服务可用。
3.1 克隆与安装
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .
说明:
-e .表示以“开发模式”安装,后续修改代码可直接生效,适合调试。
3.2 模型服务在哪里?
注意:Open-AutoGLM 是客户端框架,真正的AI大脑(视觉语言模型)需单独部署。官方提供两种方式:
- 云服务(推荐快速体验):使用智谱提供的托管API(需申请key,本文暂不展开)
- 本地vLLM服务(本文实测采用):在另一台有GPU的服务器上部署
autoglm-phone-9b模型
由于本文聚焦“全流程演示”,我们假设你已有一台云服务器(如阿里云ECS),并已按官方文档启动了vLLM服务,监听在 http://123.56.78.90:8800/v1(IP和端口替换成你的真实地址)。
如何确认模型服务可用?在浏览器或curl中访问:
curl http://123.56.78.90:8800/v1/models
应返回包含"autoglm-phone-9b"的JSON列表。
3.3 启动AI代理:一条命令,一次指令
一切就绪,现在让AI第一次“上岗”:
python main.py \
--device-id 1234567890abcdef \
--base-url http://123.56.78.90:8800/v1 \
--model "autoglm-phone-9b" \
"打开小红书,搜索'上海咖啡馆',进入第一个笔记,长按图片保存到相册"
--device-id:就是你刚才adb devices看到的那一串字符--base-url:指向你的vLLM服务地址- 最后字符串:自然语言指令,就像你对朋友说的一样,不用写代码、不用记步骤
执行后,你会看到终端开始滚动日志:
[INFO] Capturing screen...
[INFO] Sending screenshot to model...
[INFO] Model response: {"action": "tap", "x": 0.52, "y": 0.18, "text": "小红书"}
[INFO] Executing tap at (520, 180)
[INFO] Waiting for app launch...
[INFO] Capturing screen...
...
几秒钟后,你的手机屏幕会自动亮起,打开小红书,顶部搜索框出现,输入“上海咖啡馆”,列表加载,点击第一条笔记,图片放大,长按弹出菜单,自动选择“保存图片”——全部完成。
整个过程,你只需看着,不碰手机,不敲键盘。
4. 真实案例演示:从下单到关注,四条指令全记录
光说没用。以下是我在小米13上实测的4个真实指令,全程录屏+截图,每一步都可回溯。所有操作均在未预装任何插件、未提前训练模型的前提下完成。
4.1 指令一:外卖点单闭环
“打开美团外卖,定位到上海市静安区,搜‘%蓝瓶咖啡%’,选最近一家,加购1杯燕麦拿铁,去结算,用支付宝支付”
- 耗时:2分18秒
- 关键动作识别:
- 准确识别美团首页“定位”图标(非固定坐标,靠视觉定位)
- 在搜索结果中区分“蓝瓶咖啡”与“蓝瓶烘焙”(语义理解)
- 在商品页识别“燕麦拿铁”按钮并点击(多模态对齐)
- 支付页自动选择“支付宝”,跳转至支付宝App完成唤起(跨App调度)
- 失败点:支付页因支付宝需指纹确认,AI主动暂停,等待人工授权(内置安全机制)
4.2 指令二:社交平台操作
“打开抖音,搜索用户‘dycwo11nt61d’,进入主页,点击‘关注’按钮”
- 耗时:42秒
- 亮点:
- 在抖音搜索页,准确识别搜索框并输入一长串ID(非拼音,是精确字符)
- 主页加载后,识别右上角“关注”按钮(按钮文字为“+ 关注”,AI理解“+”即关注动作)
- 注意:该ID为测试账号,无实际内容,仅验证流程完整性
4.3 指令三:信息查询与复制
“打开高德地图,搜索‘上海虹桥火车站’,点击第一个结果,复制地址和电话”
- 耗时:36秒
- 能力体现:
- 在高德地图复杂UI中准确定位搜索框(避开广告Banner、推荐卡片)
- 结果页中识别“地址:上海市闵行区申虹路1500号”和“电话:021-12306”两段文本
- 自动执行长按→选择→复制(调用系统剪贴板)
- 验证方式:回到微信,粘贴,内容完整准确
4.4 指令四:多步表单填写
“打开招商银行App,登录我的账户,进入‘信用卡中心’,查本月账单,截图保存到相册”
- 耗时:1分52秒(含人工输入密码环节)
- 安全设计体现:
- 登录页检测到密码输入框,AI停止自动操作,打印提示:“检测到敏感输入,等待人工输入密码”
- 密码输入完成后,AI继续执行后续步骤
- 截图逻辑:调用系统截屏功能,自动保存至
/sdcard/Pictures/Screenshots/,文件名含时间戳
所有案例均未做任何App适配、未写XPath、未录制脚本。AI仅靠实时截图+自然语言指令,完成端到端操作。
5. 为什么它不像传统自动化?三个本质区别
很多读者会问:这和Tasker、Auto.js、Appium有什么区别?答案是:范式不同。Open-AutoGLM 不是“自动化工具”,而是“操作型AI”。
5.1 不依赖UI结构,靠“看”而不是“猜”
- 传统方案:需要提前解析XML布局,写
id="com.xxx:id/search_btn",一旦App更新ID变更,脚本立即失效 - Open-AutoGLM:每次操作前,先截取当前屏幕图像,送入视觉语言模型(GLM-4.5V),模型输出的是“这个蓝色圆角矩形按钮,上面写着‘搜索’,位于屏幕顶部中央”,再映射为坐标点击
- 效果:同一套代码,今天能操作微信8.0.45,明天微信升级到8.0.46,只要UI视觉不变,依然有效
5.2 不执行固定流程,靠“想”而不是“背”
- 传统方案:写死流程:“点击A→等待2秒→点击B→输入C”,无法应对界面加载慢、弹窗干扰等异常
- Open-AutoGLM:每一步都是“感知-决策-执行”闭环。例如,当搜索后列表为空,它不会盲目点击第一个,而是重新分析界面,发现“暂无结果”,主动返回并提示用户“未找到相关结果”
- 效果:面对淘宝“亲,暂时没有找到相关宝贝”提示,AI能理解语义并终止流程,而非报错崩溃
5.3 不要求用户懂技术,靠“说”而不是“写”
- 传统方案:用户需学习编程语法、XPath、ADB命令,门槛极高
- Open-AutoGLM:用户唯一输入就是中文句子。“帮我订一张明天从北京到上海的高铁票”,AI自动拆解为:打开12306→切换出发地→输入日期→筛选车次→提交订单
- 效果:我妈试用后说:“我就照着平时跟你说的话讲,它真就做了。”——这才是AI该有的样子
6. 实战避坑指南:那些文档没写的细节
官方文档很全,但有些“只有踩过才知道”的细节,分享给你少走弯路。
6.1 手机分辨率与缩放问题
- 现象:AI点击位置偏移,总点不到目标
- 原因:部分手机(尤其华为、小米)默认开启“字体大小/显示大小”调节,导致系统报告的分辨率与实际像素不一致
- 解决:设置 → 显示 → 字体与样式 → 字体大小 & 显示大小 → 全部调至“标准”或“默认”
6.2 输入法冲突
- 现象:AI尝试输入文字时,键盘弹出但无反应
- 原因:手机默认输入法拦截了ADB Keyboard的输入事件
- 解决:
- 确保ADB Keyboard已在“语言与输入法”中启用
- 进入“默认键盘”设置,将ADB Keyboard设为首选(不是“已启用”就行,必须是“默认”)
- 测试:在任意输入框长按,选择“输入法”,确认ADB Keyboard被选中
6.3 多任务后台限制
- 现象:AI在操作过程中,App被系统杀后台
- 原因:国产ROM(如MIUI、EMUI)对后台进程限制严格
- 解决:
- 设置 → 电池与性能 → 应用省电策略 → 找到“ADB”或“platform-tools”相关进程 → 设为“无限制”
- 或更简单:在手机“安全中心”中,将“USB调试”权限设为“允许后台活动”
6.4 模型响应慢的临时对策
- 现象:指令发出后,终端卡在“Sending screenshot…”超过30秒
- 原因:vLLM服务显存不足、网络延迟高、或模型加载未完成
- 对策:
- 检查vLLM日志,确认模型已加载(搜索
Loaded weights) - 降低请求并发:在
main.py中找到max_concurrent_tasks=1,确保为1 - 本地测试可用
--debug-screenshot参数,保存每次截图到本地,人工核对是否截取正确
- 检查vLLM日志,确认模型已加载(搜索
7. 它能做什么?一份接地气的能力清单
别被“AI Agent”这个词唬住。我们抛开术语,用你能立刻理解的方式,列清楚Open-AutoGLM今天就能干的事:
- 打开任何已安装的App:不管图标在哪一页,AI能从桌面识别并点击
- 在任意App内搜索:支持中文、英文、符号混合输入(如“#AI#教程”)
- 浏览与跳转:点击列表项、滑动页面、返回上一级、进入详情页
- 表单填写:输入用户名、密码、地址、手机号(敏感字段会暂停)
- 内容提取:从网页、PDF、聊天记录中复制文字、提取电话/地址/链接
- 图片操作:长按保存、截图、分享、识别图中文字(OCR)
- 跨App协作:在微信收到订单号,自动打开淘宝查物流;在邮件看到会议链接,自动添加到日历
- 批量任务:一句“把小红书收藏夹里所有带‘装修’的笔记,标题和链接整理成表格发我邮箱”,AI可分步执行
它不能做的事(当前版本):
- 操作游戏(Unity/Unreal引擎渲染界面,无标准控件)
- 解决图形验证码(需额外OCR或人工)
- 理解模糊口语(如“那个蓝色的、圆圆的、在右边的东西”)
- 绕过生物认证(指纹/人脸)——这是设计的安全底线
8. 总结:手机操作权,正在从手指移交到语言
我们演示了四条指令,覆盖了生活服务、社交、信息查询、金融四个高频场景。没有炫技,没有剪辑,每一帧都来自真实设备。
Open-AutoGLM 的价值,不在于它多快、多准,而在于它第一次把“操作手机”这件事,从动作技能降维成了语言技能。
过去,你要学会点哪、滑哪、输什么;
现在,你只要说“我要什么”,剩下的交给AI。
它不取代人,而是把人从重复点击中解放出来,去思考更重要的事:比如,这杯咖啡要不要加燕麦?那家餐厅值不值得专程去?那份账单里的某笔支出,是不是该和伴侣一起复盘?
技术终将隐形。当AI操作手机像呼吸一样自然,我们才真正进入了智能移动时代。
而这一切,不需要等待下一代芯片,不需要购买新手机,不需要成为程序员——只需要一台安卓机、一台电脑、和一句清晰的中文。
你准备好,把手指解放出来了吗?
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)