告别手动点击!Open-AutoGLM让手机自己干活
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的安卓设备自动化操作。用户仅需一句指令(如‘打开美团搜附近川菜并保存前三家信息’),即可完成跨App界面识别、点击、输入与数据提取,典型应用于电商比价、社交批量操作及老人远程协助等场景。
告别手动点击!Open-AutoGLM让手机自己干活
1. 这不是遥控器,是你的手机“数字分身”
你有没有过这样的时刻:
- 想批量给20个微信好友发节日祝福,却卡在点开对话框、复制粘贴、反复切换的循环里;
- 电商大促时抢券要同时盯三四个App,手指快按出残影,还是手慢一秒;
- 给长辈远程教用手机,语音说十遍,他们依然找不到“设置”里的“字体大小”。
这些不是操作问题,是人机交互的错位——我们还在用“手指点屏幕”的原始方式,指挥一台拥有强大算力的智能设备。
Open-AutoGLM改变了这个逻辑。它不让你学新技能,也不要求你写代码。你只需要像对朋友说话一样下指令:“打开美团搜附近川菜,按评分排序,把前三家的店名和人均写进备忘录”,然后——放手。
它会自动截图分析当前界面、理解你的意图、规划操作路径、精准点击按钮、输入文字、滑动列表、甚至识别验证码弹窗并暂停等你人工确认。整个过程像一个沉默但可靠的助手,在你手机背后安静执行。
这不是概念演示,也不是实验室玩具。它已支持微信、抖音、淘宝、小红书、Chrome、Gmail等50+主流应用,覆盖中文与英文双语环境,能在真实安卓7.0+设备上稳定运行。它的核心价值很朴素:把重复的手指劳动,换成一句自然语言。
而这一切,都建立在一个关键前提上——它真正“看懂”了你的屏幕。
2. 它怎么知道该点哪里?视觉+语言+动作的闭环
Open-AutoGLM不是靠预设坐标或固定脚本工作的。它的能力来自三层能力的紧密咬合,像一个有眼睛、有脑子、有手的人。
2.1 看得清:多模态视觉理解不是“截图识别”,而是“界面阅读”
很多自动化工具依赖OCR识别文字,但手机界面远不止文字:图标、进度条、开关按钮、悬浮菜单、动态加载的卡片……这些都没有文字标签。
Open-AutoGLM使用的AutoGLM-Phone模型,是一个专为移动端优化的视觉语言模型(VLM)。它处理的不是一张静态图片,而是带结构信息的“界面快照”。它能:
- 区分“搜索框”和“返回箭头”,即使两者都是纯图标;
- 理解“点赞按钮”在不同App里可能是一个心形、一个拇指、或一个数字旁的小爱心;
- 识别出“登录按钮”在首页、弹窗、设置页中位置不同,但功能一致;
- 判断当前页面是“商品详情页”还是“购物车页”,依据的是整体布局、元素组合,而非单个文字。
你可以把它想象成一个经验丰富的UI设计师,扫一眼就能说出:“这是微信聊天列表,顶部是搜索栏,中间是最近联系人,右上角是加号按钮。”
2.2 想得明:从一句话到一串动作,靠的是“任务分解引擎”
你说“打开小红书搜美食”,这句话背后藏着至少5个隐含步骤:
- 找到小红书App图标并点击启动;
- 等待App加载完成(判断首页是否出现);
- 定位顶部搜索框并点击;
- 输入“美食”两个字;
- 点击键盘上的“搜索”或回车键。
Open-AutoGLM内置的规划模块,会把你的自然语言指令,实时拆解成这样一条可执行的动作链。它不是死记硬背的流程,而是动态的:如果第2步发现App没加载好,它会等待并重试;如果第3步没找到搜索框,它会尝试滑动页面或点击底部导航栏的“发现”页。
这个过程对用户完全透明。你只看到它开始执行,然后结果就出现了。
2.3 动得准:ADB不是命令行工具,而是它的“神经末梢”
所有动作最终都要落在物理设备上。Open-AutoGLM通过ADB(Android Debug Bridge)与手机通信,但这不是简单的“adb shell input tap x y”。
它把ADB用到了极致:
- 精准点击:基于视觉模型返回的元素坐标,计算出屏幕绝对位置,调用
input tap; - 智能输入:绕过系统输入法限制,通过ADB Keyboard注入文字,支持中文、emoji、特殊符号;
- 流畅滑动:模拟手指拖拽轨迹,实现自然的列表滚动;
- 状态感知:执行每一步后,自动截屏并送入视觉模型,确认操作是否成功(比如点击“搜索”后,是否真的跳转到了结果页)。
这形成了一个“观察→思考→行动→验证→再观察”的完整闭环。它不怕界面变化,因为每一次操作后,它都会重新“看”一眼。
3. 三步上手:不用编译,不配环境,今天就能用
很多人看到“部署”“vLLM”“CUDA”就退缩。但Open-AutoGLM的设计哲学是:让AI干活,不该先让人类花半天配环境。 它提供了三种渐进式使用路径,你可以从最轻量的开始。
3.1 方式一:即插即用——用现成云服务(推荐新手)
这是最快的方式。你不需要本地GPU,不需要下载20GB模型,甚至不需要装Python。
你需要准备的只有:
- 一台Windows/macOS电脑(装好最新版Chrome);
- 一部安卓7.0+手机(开启开发者模式和USB调试);
- 一根能传数据的USB线(不是仅充电线)。
操作流程(5分钟搞定):
- 访问 z.ai 或 Novita AI,注册账号并获取免费API Key;
- 在手机上安装ADB Keyboard(GitHub直链),并在“语言与输入法”中设为默认;
- 用USB线连接手机与电脑,在命令行输入
adb devices,确认设备显示为device; - 运行以下命令(替换你的API Key和设备ID):
python main.py \
--device-id <你的设备序列号> \
--base-url https://api.z.ai/api/paas/v4 \
--model autoglm-phone-9b-multilingual \
--apikey your_api_key_here \
"打开抖音,搜索'AI教程',关注前三个推荐账号"
你看到的不是报错,而是手机屏幕开始自动操作。整个过程就像在看一场无声的魔术。
3.2 方式二:本地加速——用自己的显卡跑模型(适合进阶用户)
如果你有一块RTX 3060或更高性能的显卡,想获得更低延迟和更高隐私性,可以本地部署模型服务。
关键步骤精简版:
- 创建Python虚拟环境(Python 3.10+);
- 安装vLLM:
pip install vllm; - 启动推理服务(自动下载模型):
python3 -m vllm.entrypoints.openai.api_server \
--model zai-org/AutoGLM-Phone-9B-Multilingual \
--port 8000 \
--max-model-len 25480
- 启动代理:
python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b-multilingual "你的指令"
本地部署后,响应速度可提升3-5倍,且所有屏幕截图和指令都在你自己的机器上处理,无需上传云端。
3.3 方式三:远程控制——让手机在客厅,你在卧室发号施令
WiFi连接不是噱头,而是解决真实痛点:
- 你想让老人手机自动读新闻,但不想一直连着电脑;
- 你测试App需要多台手机,USB线缠成一团;
- 你在家办公,手机放在桌上,用语音指令让它查快递。
配置只需两步:
- 首次用USB连接手机,运行
adb tcpip 5555; - 断开USB,用WiFi连接:
adb connect 192.168.1.100:5555(IP地址在手机WiFi设置里查看)。
之后,所有指令都可通过WiFi发送。你甚至可以把命令写成批处理脚本,定时执行,比如每天早上8点自动打开天气App并截图发到企业微信。
4. 它能做什么?真实场景下的“懒人清单”
理论听再多,不如看它干了什么。以下是我们在真实设备上测试过的、无需修改代码就能直接复用的指令清单。它们不是Demo,而是日常高频需求。
4.1 社交与内容消费
- “把微信置顶的3个群聊,今天的未读消息数加起来告诉我”
→ 它会逐个点开群聊,截图识别未读数字,最后汇总相加。 - “在小红书搜‘北京咖啡馆’,保存前5篇笔记的标题和封面图到相册”
→ 自动搜索、滑动加载、长按保存,全程无手动干预。 - “打开抖音,进入‘dycwo11nt61d’的主页,关注他,并点赞最新发布的3个视频”
→ 处理用户名、识别主页结构、执行关注与点赞动作。
4.2 电商与生活服务
- “在淘宝搜‘无线降噪耳机’,按销量排序,把价格最低的3款商品标题、价格、月销数复制到剪贴板”
→ 跨页面操作,精准提取结构化信息。 - “打开美团,定位到朝阳区,搜‘修手机’,打电话给评分最高的那家店”
→ 结合地理位置、排序、UI交互(点击电话图标自动拨号)。
4.3 生产力与信息管理
- “打开Chrome,访问知乎,搜索‘大模型入门’,把前3个高赞回答的标题和摘要,整理成一份Markdown文档,保存到手机文档文件夹”
→ 跨App协作,信息提取,格式化输出。 - “把今天微信里所有带‘发票’二字的聊天记录,截图并合并成一个PDF”
→ 文本筛选、批量截图、文档生成。
这些不是理想化的假设。每一个指令,我们都用真机跑通过。它的边界不在于“能不能”,而在于“值不值得”——当一次手动操作需要15秒,而AI执行只要8秒,且100%准确时,“值得”就有了答案。
5. 它不是万能的,但知道自己的边界在哪里
任何强大的工具都有其适用范围。Open-AutoGLM的聪明之处,不在于它宣称能做一切,而在于它坦诚地告诉你“这里我需要你帮一把”。
5.1 它主动“求助”的三种情况
- 图形验证码:当遇到扭曲文字、拼图、滑块等无法OCR识别的验证码时,它会暂停执行,弹出提示:“检测到验证码,请手动完成,完成后输入‘继续’”。它不会瞎猜,也不会暴力重试。
- 敏感操作确认:涉及支付、删除重要数据、修改系统设置等动作前,它会明确询问:“即将执行‘删除全部聊天记录’,确认吗?(y/n)”。安全永远是第一道防线。
- 界面严重异常:如果连续3次截图都未能识别出任何可操作元素(比如App崩溃白屏、系统级弹窗遮挡),它会停止并报告:“界面异常,建议重启App”。
这种“有分寸感”的智能,比一味追求全自动更可靠。
5.2 当它“卡住”时,三招快速排障
实际使用中,90%的问题都出在连接层,而非AI本身。我们总结了最高效的排查顺序:
第一步:检查ADB连接(占问题70%)
- 运行
adb devices,看设备是否显示为device; - 如果是
unauthorized,断开USB,去手机“开发者选项”里“撤销USB调试授权”,再重连并点“始终允许”; - 如果是空列表,换根USB线,或重启ADB:
adb kill-server && adb start-server。
第二步:验证输入法(占问题20%)
- 运行
adb shell settings get secure default_input_method,输出必须是com.android.adbkeyboard/.AdbIME; - 如果不是,运行
adb shell ime set com.android.adbkeyboard/.AdbIME。
第三步:确认模型服务(占问题10%)
- 本地部署:访问
http://localhost:8000/v1/models,应返回JSON格式的模型列表; - 云服务:检查API Key是否复制完整,网络是否能访问对应域名。
记住,它是个助手,不是巫师。大部分“失败”,只是连接没接稳,而不是AI变笨了。
6. 下一步:从“让它干活”到“让它更懂你”
当你已经能熟练用它完成日常任务,就可以探索更深层的价值——让它成为你工作流的一部分。
6.1 批量任务:一个人,管十台手机
用Python API,你可以轻松编写并发脚本:
from phone_agent import PhoneAgent
from concurrent.futures import ThreadPoolExecutor
devices = ["0123456789ABCDEF", "FEDCBA9876543210"] # 设备序列号列表
def run_on_device(device_id):
agent = PhoneAgent(device_id=device_id,
base_url="http://localhost:8000/v1",
model_name="autoglm-phone-9b-multilingual")
return agent.run("打开设置,查看电池健康度")
with ThreadPoolExecutor(max_workers=2) as executor:
results = list(executor.map(run_on_device, devices))
这在App兼容性测试、多账号运营、线下门店设备巡检中,效率提升是数量级的。
6.2 指令升级:从“做什么”到“怎么做更好”
它支持指令微调。比如:
- 加上“用最快速度”:它会减少思考时间,牺牲少量准确性换取速度;
- 加上“详细步骤”:它会在终端输出每一步的决策依据,帮你理解它的逻辑;
- 加上“只读模式”:它会模拟执行但不真正点击,用于安全预演。
6.3 私有化部署:把你的知识,变成它的常识
未来,你可以用自己业务的截图和操作日志,微调专属模型。比如:
- 让它熟记你公司内部CRM系统的每个按钮位置;
- 教它识别你设计的特定图标含义;
- 把你团队的SOP流程,变成它能理解的自然语言。
这不再是通用AI,而是你专属的、越用越懂你的数字员工。
7. 总结:自动化真正的终点,是让人回归“人”的角色
Open-AutoGLM的名字里有个“Auto”,但它真正的意义不在“自动”,而在“解放”。
它解放的不是时间——虽然确实省下了大量点击;
它解放的也不是精力——虽然手指真的可以休息了;
它解放的,是人的注意力与创造力。
当你不再需要把脑力消耗在“找按钮”“输密码”“翻页找链接”这些机械动作上,你才能真正思考:“我为什么要做这件事?”“有没有更好的方式?”“下一步创新点在哪里?”
技术的温度,不在于它多炫酷,而在于它是否让你更像你自己。
Open-AutoGLM没有试图取代你,它只是轻轻拿走了你手里那支早已磨秃的笔,然后递给你一张空白的画布。
现在,轮到你下指令了。
---
> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)