告别手动点击！Open-AutoGLM让手机自己干活

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的安卓设备自动化操作。用户仅需一句指令（如‘打开美团搜附近川菜并保存前三家信息’），即可完成跨App界面识别、点击、输入与数据提取，典型应用于电商比价、社交批量操作及老人远程协助等场景。

随红

344人浏览 · 2026-02-01 00:38:21

随红 · 2026-02-01 00:38:21 发布

告别手动点击！Open-AutoGLM让手机自己干活

1. 这不是遥控器，是你的手机“数字分身”

你有没有过这样的时刻：

想批量给20个微信好友发节日祝福，却卡在点开对话框、复制粘贴、反复切换的循环里；
电商大促时抢券要同时盯三四个App，手指快按出残影，还是手慢一秒；
给长辈远程教用手机，语音说十遍，他们依然找不到“设置”里的“字体大小”。

这些不是操作问题，是人机交互的错位——我们还在用“手指点屏幕”的原始方式，指挥一台拥有强大算力的智能设备。

Open-AutoGLM改变了这个逻辑。它不让你学新技能，也不要求你写代码。你只需要像对朋友说话一样下指令：“打开美团搜附近川菜，按评分排序，把前三家的店名和人均写进备忘录”，然后——放手。

它会自动截图分析当前界面、理解你的意图、规划操作路径、精准点击按钮、输入文字、滑动列表、甚至识别验证码弹窗并暂停等你人工确认。整个过程像一个沉默但可靠的助手，在你手机背后安静执行。

这不是概念演示，也不是实验室玩具。它已支持微信、抖音、淘宝、小红书、Chrome、Gmail等50+主流应用，覆盖中文与英文双语环境，能在真实安卓7.0+设备上稳定运行。它的核心价值很朴素：把重复的手指劳动，换成一句自然语言。

而这一切，都建立在一个关键前提上——它真正“看懂”了你的屏幕。

2. 它怎么知道该点哪里？视觉+语言+动作的闭环

Open-AutoGLM不是靠预设坐标或固定脚本工作的。它的能力来自三层能力的紧密咬合，像一个有眼睛、有脑子、有手的人。

2.1 看得清：多模态视觉理解不是“截图识别”，而是“界面阅读”

很多自动化工具依赖OCR识别文字，但手机界面远不止文字：图标、进度条、开关按钮、悬浮菜单、动态加载的卡片……这些都没有文字标签。

Open-AutoGLM使用的AutoGLM-Phone模型，是一个专为移动端优化的视觉语言模型（VLM）。它处理的不是一张静态图片，而是带结构信息的“界面快照”。它能：

区分“搜索框”和“返回箭头”，即使两者都是纯图标；
理解“点赞按钮”在不同App里可能是一个心形、一个拇指、或一个数字旁的小爱心；
识别出“登录按钮”在首页、弹窗、设置页中位置不同，但功能一致；
判断当前页面是“商品详情页”还是“购物车页”，依据的是整体布局、元素组合，而非单个文字。

你可以把它想象成一个经验丰富的UI设计师，扫一眼就能说出：“这是微信聊天列表，顶部是搜索栏，中间是最近联系人，右上角是加号按钮。”

2.2 想得明：从一句话到一串动作，靠的是“任务分解引擎”

你说“打开小红书搜美食”，这句话背后藏着至少5个隐含步骤：

找到小红书App图标并点击启动；
等待App加载完成（判断首页是否出现）；
定位顶部搜索框并点击；
输入“美食”两个字；
点击键盘上的“搜索”或回车键。

Open-AutoGLM内置的规划模块，会把你的自然语言指令，实时拆解成这样一条可执行的动作链。它不是死记硬背的流程，而是动态的：如果第2步发现App没加载好，它会等待并重试；如果第3步没找到搜索框，它会尝试滑动页面或点击底部导航栏的“发现”页。

这个过程对用户完全透明。你只看到它开始执行，然后结果就出现了。

2.3 动得准：ADB不是命令行工具，而是它的“神经末梢”

所有动作最终都要落在物理设备上。Open-AutoGLM通过ADB（Android Debug Bridge）与手机通信，但这不是简单的“adb shell input tap x y”。

它把ADB用到了极致：

精准点击：基于视觉模型返回的元素坐标，计算出屏幕绝对位置，调用input tap；
智能输入：绕过系统输入法限制，通过ADB Keyboard注入文字，支持中文、emoji、特殊符号；
流畅滑动：模拟手指拖拽轨迹，实现自然的列表滚动；
状态感知：执行每一步后，自动截屏并送入视觉模型，确认操作是否成功（比如点击“搜索”后，是否真的跳转到了结果页）。

这形成了一个“观察→思考→行动→验证→再观察”的完整闭环。它不怕界面变化，因为每一次操作后，它都会重新“看”一眼。

3. 三步上手：不用编译，不配环境，今天就能用

很多人看到“部署”“vLLM”“CUDA”就退缩。但Open-AutoGLM的设计哲学是：让AI干活，不该先让人类花半天配环境。 它提供了三种渐进式使用路径，你可以从最轻量的开始。

3.1 方式一：即插即用——用现成云服务（推荐新手）

这是最快的方式。你不需要本地GPU，不需要下载20GB模型，甚至不需要装Python。

你需要准备的只有：

一台Windows/macOS电脑（装好最新版Chrome）；
一部安卓7.0+手机（开启开发者模式和USB调试）；
一根能传数据的USB线（不是仅充电线）。

操作流程（5分钟搞定）：

访问 z.ai 或 Novita AI，注册账号并获取免费API Key；
在手机上安装ADB Keyboard（GitHub直链），并在“语言与输入法”中设为默认；
用USB线连接手机与电脑，在命令行输入 adb devices，确认设备显示为 device；
运行以下命令（替换你的API Key和设备ID）：

python main.py \
  --device-id <你的设备序列号> \
  --base-url https://api.z.ai/api/paas/v4 \
  --model autoglm-phone-9b-multilingual \
  --apikey your_api_key_here \
  "打开抖音，搜索'AI教程'，关注前三个推荐账号"

你看到的不是报错，而是手机屏幕开始自动操作。整个过程就像在看一场无声的魔术。

3.2 方式二：本地加速——用自己的显卡跑模型（适合进阶用户）

如果你有一块RTX 3060或更高性能的显卡，想获得更低延迟和更高隐私性，可以本地部署模型服务。

关键步骤精简版：

创建Python虚拟环境（Python 3.10+）；
安装vLLM：pip install vllm；
启动推理服务（自动下载模型）：

python3 -m vllm.entrypoints.openai.api_server \
  --model zai-org/AutoGLM-Phone-9B-Multilingual \
  --port 8000 \
  --max-model-len 25480

启动代理：python main.py --base-url http://localhost:8000/v1 --model autoglm-phone-9b-multilingual "你的指令"

本地部署后，响应速度可提升3-5倍，且所有屏幕截图和指令都在你自己的机器上处理，无需上传云端。

3.3 方式三：远程控制——让手机在客厅，你在卧室发号施令

WiFi连接不是噱头，而是解决真实痛点：

你想让老人手机自动读新闻，但不想一直连着电脑；
你测试App需要多台手机，USB线缠成一团；
你在家办公，手机放在桌上，用语音指令让它查快递。

配置只需两步：

首次用USB连接手机，运行 adb tcpip 5555；
断开USB，用WiFi连接：adb connect 192.168.1.100:5555（IP地址在手机WiFi设置里查看）。

之后，所有指令都可通过WiFi发送。你甚至可以把命令写成批处理脚本，定时执行，比如每天早上8点自动打开天气App并截图发到企业微信。

4. 它能做什么？真实场景下的“懒人清单”

理论听再多，不如看它干了什么。以下是我们在真实设备上测试过的、无需修改代码就能直接复用的指令清单。它们不是Demo，而是日常高频需求。

4.1 社交与内容消费

“把微信置顶的3个群聊，今天的未读消息数加起来告诉我”
→ 它会逐个点开群聊，截图识别未读数字，最后汇总相加。
“在小红书搜‘北京咖啡馆’，保存前5篇笔记的标题和封面图到相册”
→ 自动搜索、滑动加载、长按保存，全程无手动干预。
“打开抖音，进入‘dycwo11nt61d’的主页，关注他，并点赞最新发布的3个视频”
→ 处理用户名、识别主页结构、执行关注与点赞动作。

4.2 电商与生活服务

“在淘宝搜‘无线降噪耳机’，按销量排序，把价格最低的3款商品标题、价格、月销数复制到剪贴板”
→ 跨页面操作，精准提取结构化信息。
“打开美团，定位到朝阳区，搜‘修手机’，打电话给评分最高的那家店”
→ 结合地理位置、排序、UI交互（点击电话图标自动拨号）。

4.3 生产力与信息管理

“打开Chrome，访问知乎，搜索‘大模型入门’，把前3个高赞回答的标题和摘要，整理成一份Markdown文档，保存到手机文档文件夹”
→ 跨App协作，信息提取，格式化输出。
“把今天微信里所有带‘发票’二字的聊天记录，截图并合并成一个PDF”
→ 文本筛选、批量截图、文档生成。

这些不是理想化的假设。每一个指令，我们都用真机跑通过。它的边界不在于“能不能”，而在于“值不值得”——当一次手动操作需要15秒，而AI执行只要8秒，且100%准确时，“值得”就有了答案。

5. 它不是万能的，但知道自己的边界在哪里

任何强大的工具都有其适用范围。Open-AutoGLM的聪明之处，不在于它宣称能做一切，而在于它坦诚地告诉你“这里我需要你帮一把”。

5.1 它主动“求助”的三种情况

图形验证码：当遇到扭曲文字、拼图、滑块等无法OCR识别的验证码时，它会暂停执行，弹出提示：“检测到验证码，请手动完成，完成后输入‘继续’”。它不会瞎猜，也不会暴力重试。
敏感操作确认：涉及支付、删除重要数据、修改系统设置等动作前，它会明确询问：“即将执行‘删除全部聊天记录’，确认吗？（y/n）”。安全永远是第一道防线。
界面严重异常：如果连续3次截图都未能识别出任何可操作元素（比如App崩溃白屏、系统级弹窗遮挡），它会停止并报告：“界面异常，建议重启App”。

这种“有分寸感”的智能，比一味追求全自动更可靠。

5.2 当它“卡住”时，三招快速排障

实际使用中，90%的问题都出在连接层，而非AI本身。我们总结了最高效的排查顺序：

第一步：检查ADB连接（占问题70%）

运行 adb devices，看设备是否显示为 device；
如果是 unauthorized，断开USB，去手机“开发者选项”里“撤销USB调试授权”，再重连并点“始终允许”；
如果是空列表，换根USB线，或重启ADB：adb kill-server && adb start-server。

第二步：验证输入法（占问题20%）

运行 adb shell settings get secure default_input_method，输出必须是 com.android.adbkeyboard/.AdbIME；
如果不是，运行 adb shell ime set com.android.adbkeyboard/.AdbIME。

第三步：确认模型服务（占问题10%）

本地部署：访问 http://localhost:8000/v1/models，应返回JSON格式的模型列表；
云服务：检查API Key是否复制完整，网络是否能访问对应域名。

记住，它是个助手，不是巫师。大部分“失败”，只是连接没接稳，而不是AI变笨了。

6. 下一步：从“让它干活”到“让它更懂你”

当你已经能熟练用它完成日常任务，就可以探索更深层的价值——让它成为你工作流的一部分。

6.1 批量任务：一个人，管十台手机

用Python API，你可以轻松编写并发脚本：

from phone_agent import PhoneAgent
from concurrent.futures import ThreadPoolExecutor

devices = ["0123456789ABCDEF", "FEDCBA9876543210"]  # 设备序列号列表

def run_on_device(device_id):
    agent = PhoneAgent(device_id=device_id, 
                      base_url="http://localhost:8000/v1",
                      model_name="autoglm-phone-9b-multilingual")
    return agent.run("打开设置，查看电池健康度")

with ThreadPoolExecutor(max_workers=2) as executor:
    results = list(executor.map(run_on_device, devices))

这在App兼容性测试、多账号运营、线下门店设备巡检中，效率提升是数量级的。

6.2 指令升级：从“做什么”到“怎么做更好”

它支持指令微调。比如：

加上“用最快速度”：它会减少思考时间，牺牲少量准确性换取速度；
加上“详细步骤”：它会在终端输出每一步的决策依据，帮你理解它的逻辑；
加上“只读模式”：它会模拟执行但不真正点击，用于安全预演。

6.3 私有化部署：把你的知识，变成它的常识

未来，你可以用自己业务的截图和操作日志，微调专属模型。比如：

让它熟记你公司内部CRM系统的每个按钮位置；
教它识别你设计的特定图标含义；
把你团队的SOP流程，变成它能理解的自然语言。

这不再是通用AI，而是你专属的、越用越懂你的数字员工。

7. 总结：自动化真正的终点，是让人回归“人”的角色

Open-AutoGLM的名字里有个“Auto”，但它真正的意义不在“自动”，而在“解放”。

它解放的不是时间——虽然确实省下了大量点击；
它解放的也不是精力——虽然手指真的可以休息了；
它解放的，是人的注意力与创造力。

当你不再需要把脑力消耗在“找按钮”“输密码”“翻页找链接”这些机械动作上，你才能真正思考：“我为什么要做这件事？”“有没有更好的方式？”“下一步创新点在哪里？”

技术的温度，不在于它多炫酷，而在于它是否让你更像你自己。
Open-AutoGLM没有试图取代你，它只是轻轻拿走了你手里那支早已磨秃的笔，然后递给你一张空白的画布。

现在，轮到你下指令了。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

2026全球AI大模型格局：寡头固化与细分突围

龙虾开发者社区

2026 年深度解析：Hermes Agent/OpenClaw怎么部署？百炼 token Plan 配置要点

龙虾开发者社区

由浅入深理解 Skills

Skills是Anthropic推出的模块化能力包系统，通过渐进式披露机制实现按需加载，大幅提升Token效率。Skills正在成为AI Agent能力扩展的事实标准，具有跨平台兼容性和低创作门槛优势，适合有固定工作流、团队协作和Token消耗大的用户使用。

龙虾开发者社区

所有评论(0)

查看更多评论

随红

@weixin_35871529

已为社区贡献29条内容

告别手动点击！Open-AutoGLM让手机自己干活

随红

告别手动点击！Open-AutoGLM让手机自己干活

1. 这不是遥控器，是你的手机“数字分身”

2. 它怎么知道该点哪里？视觉+语言+动作的闭环

2.1 看得清：多模态视觉理解不是“截图识别”，而是“界面阅读”

2.2 想得明：从一句话到一串动作，靠的是“任务分解引擎”

2.3 动得准：ADB不是命令行工具，而是它的“神经末梢”

3. 三步上手：不用编译，不配环境，今天就能用

3.1 方式一：即插即用——用现成云服务（推荐新手）

3.2 方式二：本地加速——用自己的显卡跑模型（适合进阶用户）

3.3 方式三：远程控制——让手机在客厅，你在卧室发号施令

4. 它能做什么？真实场景下的“懒人清单”

4.1 社交与内容消费

4.2 电商与生活服务

4.3 生产力与信息管理

5. 它不是万能的，但知道自己的边界在哪里

5.1 它主动“求助”的三种情况

5.2 当它“卡住”时，三招快速排障

6. 下一步：从“让它干活”到“让它更懂你”

6.1 批量任务：一个人，管十台手机

6.2 指令升级：从“做什么”到“怎么做更好”

6.3 私有化部署：把你的知识，变成它的常识

7. 总结：自动化真正的终点，是让人回归“人”的角色

所有评论(0)

温馨提示：您尚未绑定手机号

随红