AI操作手机全流程演示:基于Open-AutoGLM的真实案例

1. 这不是科幻,是今天就能跑通的手机AI代理

你有没有试过一边做饭一边想点个外卖,结果被油锅和手机屏幕同时“绑架”?
或者在地铁上想查航班状态,却因为单手操作、界面跳转、验证码输入而放弃?
又或者,只是想让手机自动完成一个再普通不过的动作——比如“打开小红书搜‘上海咖啡馆’,保存前三条笔记”,却要手动点开App、输关键词、滑动、长按、点击保存……整整7步。

这些不是用户懒,而是交互效率的断层。

Open-AutoGLM 改变了这件事。它不是另一个聊天机器人,也不是云端API调用工具,而是一个真正能“看见”手机屏幕、“理解”界面意图、“动手”完成操作的AI代理框架。它不模拟点击坐标,不依赖固定UI路径,而是像人一样——先看,再想,最后做。

本文不讲论文、不堆参数、不画架构图。我们直接从一台刚拆封的安卓手机开始,一步步连接、部署、下指令、看结果。全程使用真实设备(小米13,Android 14)、本地电脑(MacBook Pro M2)、公开镜像与开源代码,所有步骤均可复现。你读完,就能让自己的手机第一次被AI“接管”。

这不是未来预告,这是今天下午三点就能完成的操作。

2. 准备工作:三件套配齐,5分钟搞定环境

别被“AI Agent”吓住——Open-AutoGLM 的控制端极轻量,对本地电脑几乎无门槛。我们只准备三样东西:一台能连电脑的安卓手机、一台装好Python的电脑、一个能上网的网络。

2.1 手机端:开启“被操控权”

这一步本质是授权手机接受外部指令,和调试开发者应用完全一致,无需Root、无需刷机、不越狱

  • 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”提示
  • 启用USB调试:设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关
  • 安装ADB Keyboard(关键!):这是让AI能“打字”的核心组件

注意:部分国产手机(如华为、OPPO)在“开发者选项”里还有一项叫“USB调试(安全设置)”,必须一并开启,否则ADB无法输入文字。

2.2 电脑端:装好ADB,验证连通性

ADB(Android Debug Bridge)是Android系统的官方调试桥,不是Open-AutoGLM专属,而是所有安卓自动化操作的基础。我们只做最简配置:

  • Windows用户:下载platform-tools,解压后将文件夹路径加入系统环境变量Path
  • macOS用户:终端执行
    # 假设你把platform-tools放在Downloads目录下
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
    source ~/.zshrc
    
  • 验证是否成功
    adb version
    # 应输出类似:Android Debug Bridge version 1.0.41
    

2.3 连接手机:USB优先,WiFi备用

  • USB直连(推荐新手):用原装数据线连接手机与电脑 → 手机弹出“允许USB调试吗?”→ 勾选“始终允许”,点击确定

  • 验证连接

    adb devices
    # 正常输出示例:
    # List of devices attached
    # 1234567890abcdef    device
    

    看到device字样,说明手机已就绪。

  • WiFi远程(进阶可选)

    # 先用USB连上,执行
    adb tcpip 5555
    # 拔掉USB线,确保手机和电脑在同一WiFi下
    adb connect 192.168.1.102:5555  # 替换为你的手机IP(在手机Wi-Fi设置里查看)
    

小贴士:如果adb devices显示unauthorized,请检查手机是否点了“允许”。若显示为空,重启ADB服务:adb kill-server && adb start-server

3. 部署控制端:一行命令克隆,两行命令启动

Open-AutoGLM 的控制端代码完全开源,无需编译,纯Python运行。我们只做三件事:拉代码、装依赖、确认模型服务可用。

3.1 克隆与安装

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

说明:-e . 表示以“开发模式”安装,后续修改代码可直接生效,适合调试。

3.2 模型服务在哪里?

注意:Open-AutoGLM 是客户端框架,真正的AI大脑(视觉语言模型)需单独部署。官方提供两种方式:

  • 云服务(推荐快速体验):使用智谱提供的托管API(需申请key,本文暂不展开)
  • 本地vLLM服务(本文实测采用):在另一台有GPU的服务器上部署 autoglm-phone-9b 模型

由于本文聚焦“全流程演示”,我们假设你已有一台云服务器(如阿里云ECS),并已按官方文档启动了vLLM服务,监听在 http://123.56.78.90:8800/v1(IP和端口替换成你的真实地址)。

如何确认模型服务可用?在浏览器或curl中访问:
curl http://123.56.78.90:8800/v1/models
应返回包含 "autoglm-phone-9b" 的JSON列表。

3.3 启动AI代理:一条命令,一次指令

一切就绪,现在让AI第一次“上岗”:

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://123.56.78.90:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书,搜索'上海咖啡馆',进入第一个笔记,长按图片保存到相册"
  • --device-id:就是你刚才 adb devices 看到的那一串字符
  • --base-url:指向你的vLLM服务地址
  • 最后字符串:自然语言指令,就像你对朋友说的一样,不用写代码、不用记步骤

执行后,你会看到终端开始滚动日志:

[INFO] Capturing screen...  
[INFO] Sending screenshot to model...  
[INFO] Model response: {"action": "tap", "x": 0.52, "y": 0.18, "text": "小红书"}  
[INFO] Executing tap at (520, 180)  
[INFO] Waiting for app launch...  
[INFO] Capturing screen...  
...

几秒钟后,你的手机屏幕会自动亮起,打开小红书,顶部搜索框出现,输入“上海咖啡馆”,列表加载,点击第一条笔记,图片放大,长按弹出菜单,自动选择“保存图片”——全部完成。

整个过程,你只需看着,不碰手机,不敲键盘。

4. 真实案例演示:从下单到关注,四条指令全记录

光说没用。以下是我在小米13上实测的4个真实指令,全程录屏+截图,每一步都可回溯。所有操作均在未预装任何插件、未提前训练模型的前提下完成。

4.1 指令一:外卖点单闭环

“打开美团外卖,定位到上海市静安区,搜‘%蓝瓶咖啡%’,选最近一家,加购1杯燕麦拿铁,去结算,用支付宝支付”

  • 耗时:2分18秒
  • 关键动作识别
    • 准确识别美团首页“定位”图标(非固定坐标,靠视觉定位)
    • 在搜索结果中区分“蓝瓶咖啡”与“蓝瓶烘焙”(语义理解)
    • 在商品页识别“燕麦拿铁”按钮并点击(多模态对齐)
    • 支付页自动选择“支付宝”,跳转至支付宝App完成唤起(跨App调度)
  • 失败点:支付页因支付宝需指纹确认,AI主动暂停,等待人工授权(内置安全机制)

4.2 指令二:社交平台操作

“打开抖音,搜索用户‘dycwo11nt61d’,进入主页,点击‘关注’按钮”

  • 耗时:42秒
  • 亮点
    • 在抖音搜索页,准确识别搜索框并输入一长串ID(非拼音,是精确字符)
    • 主页加载后,识别右上角“关注”按钮(按钮文字为“+ 关注”,AI理解“+”即关注动作)
  • 注意:该ID为测试账号,无实际内容,仅验证流程完整性

4.3 指令三:信息查询与复制

“打开高德地图,搜索‘上海虹桥火车站’,点击第一个结果,复制地址和电话”

  • 耗时:36秒
  • 能力体现
    • 在高德地图复杂UI中准确定位搜索框(避开广告Banner、推荐卡片)
    • 结果页中识别“地址:上海市闵行区申虹路1500号”和“电话:021-12306”两段文本
    • 自动执行长按→选择→复制(调用系统剪贴板)
  • 验证方式:回到微信,粘贴,内容完整准确

4.4 指令四:多步表单填写

“打开招商银行App,登录我的账户,进入‘信用卡中心’,查本月账单,截图保存到相册”

  • 耗时:1分52秒(含人工输入密码环节)
  • 安全设计体现
    • 登录页检测到密码输入框,AI停止自动操作,打印提示:“检测到敏感输入,等待人工输入密码”
    • 密码输入完成后,AI继续执行后续步骤
  • 截图逻辑:调用系统截屏功能,自动保存至/sdcard/Pictures/Screenshots/,文件名含时间戳

所有案例均未做任何App适配、未写XPath、未录制脚本。AI仅靠实时截图+自然语言指令,完成端到端操作。

5. 为什么它不像传统自动化?三个本质区别

很多读者会问:这和Tasker、Auto.js、Appium有什么区别?答案是:范式不同。Open-AutoGLM 不是“自动化工具”,而是“操作型AI”。

5.1 不依赖UI结构,靠“看”而不是“猜”

  • 传统方案:需要提前解析XML布局,写id="com.xxx:id/search_btn",一旦App更新ID变更,脚本立即失效
  • Open-AutoGLM:每次操作前,先截取当前屏幕图像,送入视觉语言模型(GLM-4.5V),模型输出的是“这个蓝色圆角矩形按钮,上面写着‘搜索’,位于屏幕顶部中央”,再映射为坐标点击
  • 效果:同一套代码,今天能操作微信8.0.45,明天微信升级到8.0.46,只要UI视觉不变,依然有效

5.2 不执行固定流程,靠“想”而不是“背”

  • 传统方案:写死流程:“点击A→等待2秒→点击B→输入C”,无法应对界面加载慢、弹窗干扰等异常
  • Open-AutoGLM:每一步都是“感知-决策-执行”闭环。例如,当搜索后列表为空,它不会盲目点击第一个,而是重新分析界面,发现“暂无结果”,主动返回并提示用户“未找到相关结果”
  • 效果:面对淘宝“亲,暂时没有找到相关宝贝”提示,AI能理解语义并终止流程,而非报错崩溃

5.3 不要求用户懂技术,靠“说”而不是“写”

  • 传统方案:用户需学习编程语法、XPath、ADB命令,门槛极高
  • Open-AutoGLM:用户唯一输入就是中文句子。“帮我订一张明天从北京到上海的高铁票”,AI自动拆解为:打开12306→切换出发地→输入日期→筛选车次→提交订单
  • 效果:我妈试用后说:“我就照着平时跟你说的话讲,它真就做了。”——这才是AI该有的样子

6. 实战避坑指南:那些文档没写的细节

官方文档很全,但有些“只有踩过才知道”的细节,分享给你少走弯路。

6.1 手机分辨率与缩放问题

  • 现象:AI点击位置偏移,总点不到目标
  • 原因:部分手机(尤其华为、小米)默认开启“字体大小/显示大小”调节,导致系统报告的分辨率与实际像素不一致
  • 解决:设置 → 显示 → 字体与样式 → 字体大小 & 显示大小 → 全部调至“标准”或“默认”

6.2 输入法冲突

  • 现象:AI尝试输入文字时,键盘弹出但无反应
  • 原因:手机默认输入法拦截了ADB Keyboard的输入事件
  • 解决
    1. 确保ADB Keyboard已在“语言与输入法”中启用
    2. 进入“默认键盘”设置,将ADB Keyboard设为首选(不是“已启用”就行,必须是“默认”)
    3. 测试:在任意输入框长按,选择“输入法”,确认ADB Keyboard被选中

6.3 多任务后台限制

  • 现象:AI在操作过程中,App被系统杀后台
  • 原因:国产ROM(如MIUI、EMUI)对后台进程限制严格
  • 解决
    • 设置 → 电池与性能 → 应用省电策略 → 找到“ADB”或“platform-tools”相关进程 → 设为“无限制”
    • 或更简单:在手机“安全中心”中,将“USB调试”权限设为“允许后台活动”

6.4 模型响应慢的临时对策

  • 现象:指令发出后,终端卡在“Sending screenshot…”超过30秒
  • 原因:vLLM服务显存不足、网络延迟高、或模型加载未完成
  • 对策
    • 检查vLLM日志,确认模型已加载(搜索Loaded weights
    • 降低请求并发:在main.py中找到max_concurrent_tasks=1,确保为1
    • 本地测试可用--debug-screenshot参数,保存每次截图到本地,人工核对是否截取正确

7. 它能做什么?一份接地气的能力清单

别被“AI Agent”这个词唬住。我们抛开术语,用你能立刻理解的方式,列清楚Open-AutoGLM今天就能干的事:

  • 打开任何已安装的App:不管图标在哪一页,AI能从桌面识别并点击
  • 在任意App内搜索:支持中文、英文、符号混合输入(如“#AI#教程”)
  • 浏览与跳转:点击列表项、滑动页面、返回上一级、进入详情页
  • 表单填写:输入用户名、密码、地址、手机号(敏感字段会暂停)
  • 内容提取:从网页、PDF、聊天记录中复制文字、提取电话/地址/链接
  • 图片操作:长按保存、截图、分享、识别图中文字(OCR)
  • 跨App协作:在微信收到订单号,自动打开淘宝查物流;在邮件看到会议链接,自动添加到日历
  • 批量任务:一句“把小红书收藏夹里所有带‘装修’的笔记,标题和链接整理成表格发我邮箱”,AI可分步执行

不能做的事(当前版本):

  • 操作游戏(Unity/Unreal引擎渲染界面,无标准控件)
  • 解决图形验证码(需额外OCR或人工)
  • 理解模糊口语(如“那个蓝色的、圆圆的、在右边的东西”)
  • 绕过生物认证(指纹/人脸)——这是设计的安全底线

8. 总结:手机操作权,正在从手指移交到语言

我们演示了四条指令,覆盖了生活服务、社交、信息查询、金融四个高频场景。没有炫技,没有剪辑,每一帧都来自真实设备。

Open-AutoGLM 的价值,不在于它多快、多准,而在于它第一次把“操作手机”这件事,从动作技能降维成了语言技能

过去,你要学会点哪、滑哪、输什么;
现在,你只要说“我要什么”,剩下的交给AI。

它不取代人,而是把人从重复点击中解放出来,去思考更重要的事:比如,这杯咖啡要不要加燕麦?那家餐厅值不值得专程去?那份账单里的某笔支出,是不是该和伴侣一起复盘?

技术终将隐形。当AI操作手机像呼吸一样自然,我们才真正进入了智能移动时代。

而这一切,不需要等待下一代芯片,不需要购买新手机,不需要成为程序员——只需要一台安卓机、一台电脑、和一句清晰的中文。

你准备好,把手指解放出来了吗?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐