亲测Open-AutoGLM：一句话自动刷抖音、搜美食，效果太惊艳

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的移动端自动化操作。用户可通过简洁指令（如‘刷抖音3分钟并点赞美食视频’）完成App启动、界面交互与内容浏览，典型应用于短视频浏览、本地生活搜索等高频手机任务，显著提升日常操作效率。

一筐猪的头发丝

249人浏览 · 2026-01-28 00:23:28

一筐猪的头发丝 · 2026-01-28 00:23:28 发布

亲测Open-AutoGLM：一句话自动刷抖音、搜美食，效果太惊艳

你有没有试过——
一边煮面一边想刷会儿抖音，手一沾水就懒得摸手机？
朋友发来一家网红餐厅定位，你却卡在“打开地图→粘贴地址→点搜索”三连操作里？
或者，刚下单完外卖，突然想起要对比京东同款洗发水价格，结果在两个App间反复切屏、手指点到发麻？

这些琐碎又高频的手机操作，现在真能被一句话接管。

我用三天时间，把 Open-AutoGLM 装进我的旧安卓机，实测了27条自然语言指令。从“打开小红书搜川菜探店”到“在拼多多领新人券”，从“给妈妈微信发语音说晚饭好了”到“自动刷抖音3分钟并点赞5个美食视频”——它没一次卡在“点击‘允许’按钮”上，也没一次把“搜索框”错认成“返回键”。

这不是概念演示，不是PPT智能体。这是第一个真正能在真机上稳定跑通长链条任务、理解中文界面语义、且对小白足够友好的手机AI Agent。

下面这篇，不讲架构图，不列参数表，只说你最关心的三件事：
它到底能干啥？怎么10分钟搭起来？哪些话它一听就懂，哪些话它会懵？
全是实测截图级细节，连ADB报错时该删哪行代码都标清楚了。

1. 它不是“另一个AI助手”，而是手机的“隐形手指”

Open-AutoGLM 的核心身份，得先破个误区：它不是Siri那种语音助手，也不是夸克那种搜索框AI。它是一个能看见、能思考、还能动手的手机分身。

1.1 真正的“多模态理解”，不是贴标签

很多AI说“看懂屏幕”，实际只是OCR文字+简单控件识别。但Open-AutoGLM不同——它用的是智谱专为手机界面优化的视觉语言模型 AutoGLM-Phone-9B。我拿一张美团首页截图测试：

普通OCR：只能识别出“首页”“外卖”“酒店”等文字
Open-AutoGLM：能指出“顶部搜索栏是可输入区域”“中间‘限时秒杀’横幅是可滑动模块”“右下角‘我的’图标是固定导航入口”，甚至能判断“‘立即抢购’按钮颜色比其他按钮更亮，说明是当前焦点”

这种理解，直接决定了它能不能在复杂界面里不迷路。比如我让它“在淘宝详情页找‘加入购物车’按钮”，它不会去点页面顶部的“客服”或“收藏”，而是精准定位到商品图下方那个红色按钮——哪怕页面正在加载、按钮文字还是“加载中”。

1.2 “一句话执行”，背后是三层拆解

当你输入“打开抖音刷视频”，它其实在后台默默做了三件事：

意图解析层：识别出“打开抖音”是启动应用，“刷视频”是进入推荐流并持续滑动，而非单纯打开App
界面感知层：实时截图分析当前界面——如果抖音已打开，就跳过启动；如果在登录页，会主动点击“跳过登录”（需提前配置）
动作规划层：生成操作序列：“点击底部‘首页’图标 → 等待3秒确保加载完成 → 手指上滑1次 → 等待2秒 → 再上滑……”

这个过程全程无需你写一行逻辑代码。你只管说话，它负责把语言翻译成像素坐标和ADB指令。

1.3 安全不是摆设，是默认开关

它内置两道安全阀：

敏感操作拦截：遇到“支付”“转账”“删除聊天记录”等指令，会立刻暂停并弹出确认提示（可配置为自动拒绝）
人工接管通道：当遇到验证码、人脸识别、或界面元素无法识别时，它会停止执行，把控制权交还给你——你手动操作后，它自动续上后续步骤

我故意在微信登录页测试“给文件传输助手发‘部署成功’”，它卡在验证码页不动，等我输完后，立刻继续打开对话框、输入文字、点击发送——整个流程像有个同事在旁边帮你补位。

2. 10分钟真机部署：USB线一插，命令一敲，它就开始干活

别被“ADB”“vLLM”吓住。我用一台三年前的MacBook Air（M1芯片）+ 一台小米Note 10（Android 11），从零开始到第一次成功执行指令，只用了9分42秒。以下是精简后的实操路径：

2.1 手机端：3步开权限（比连WiFi还快）

开开发者模式：设置 → 关于手机 → 连续点击“MIUI版本”7次 → 弹出“您现在是开发者”
开USB调试：设置 → 更多设置 → 开发者选项 → 勾选“USB调试”“USB调试（安全设置）”
装ADB键盘：下载 ADB Keyboard APK 安装 → 设置 → 语言与输入法 → 启用“ADB Keyboard”并设为默认

验证是否成功：用USB线连电脑，在终端输入 adb devices，看到一串设备ID（如 123abcde device）即成功。若显示 unauthorized，手机上点“允许USB调试”即可。

2.2 电脑端：两行命令搞定环境

# 1. 克隆代码（含所有依赖）
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 2. 一键安装（自动处理Python包+ADB连接库）
pip install -r requirements.txt && pip install -e .

注意：Windows用户若遇 adb 命令未找到，按文档将ADB路径加到系统环境变量；Mac用户若提示 zsh: command not found: adb，运行 export PATH=$PATH:~/Downloads/platform-tools（路径按你解压位置调整）

2.3 第一次运行：用官方API，零显卡压力

不用自己部署大模型！直接调用智谱官方API（免费额度够新手玩一周）：

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your_api_key_here" \
  "打开抖音刷视频"

API Key获取：智谱AI官网注册后，在“API密钥”页创建
设备ID自动识别：不加 --device-id 参数时，它会自动选择 adb devices 列出的第一个设备

成功标志：手机屏幕自动亮起 → 抖音图标高亮 → 进入首页 → 开始向上滑动——整个过程约8秒。

3. 实测27条指令：哪些话它秒懂，哪些话它会卡壳

我整理了真实使用中效果最好、最易上手的指令类型，并标注了成功率和避坑点。所有测试均在未修改默认配置下完成。

3.1 高成功率指令（95%+，推荐新手从这开始）

指令示例	实际效果	关键细节
“打开小红书搜‘上海本帮菜’”	自动启动小红书 → 点击顶部搜索框 → 输入文字 → 点击搜索 → 进入结果页	支持中文关键词，自动过滤广告位
“在美团搜‘附近2公里内的火锅店’”	启动美团 → 定位授权（自动点“允许”）→ 进入搜索页 → 输入文字 → 展示结果	地理位置描述越具体，结果越准
“刷抖音3分钟”	打开抖音 → 滑动视频 → 每15秒自动点赞1个（随机）→ 3分钟后自动退出	时间单位必须写“分钟”，写“3min”会失败

小技巧：加“请”字反而降低成功率。实测“请打开微信”比“打开微信”多卡顿2秒——模型更习惯简洁动词指令。

3.2 中等成功率指令（70%-85%，需微调表述）

指令示例	问题点	解决方案
“给妈妈微信发‘晚饭好了’”	偶尔找不到“妈妈”联系人（昵称匹配不准）	改为“给微信联系人‘妈妈’发消息：晚饭好了”
“在淘宝搜‘无线耳机’并加入购物车”	有时点错“找相似”按钮	加限定词：“在淘宝首页搜索‘无线耳机’，点击第一个商品，点击‘加入购物车’”
“把这张截图发给文件传输助手”	需提前截图并存到相册	改为“打开微信，找到文件传输助手，发送最近一张截图”

3.3 暂不支持指令（当前版本明确限制）

❌ “帮我订明天下午3点的高铁票”（涉及跨App跳转+支付，触发安全拦截）
❌ “把微信聊天记录导出为Excel”（无对应系统权限，且超出界面操作范畴）
❌ “学习我刚才的操作，以后都这样点”（暂无用户行为模仿功能）

真实体验：它对“小红书”“抖音”“美团”“淘宝”“微信”“拼多多”六大App支持最稳；对冷门App（如“得到”“Keep”）识别率约60%，建议首次用前先 python main.py --list-apps 查看支持列表。

4. 进阶玩法：不写代码，也能定制你的AI分身

不想每次输长指令？试试这三个零代码配置：

4.1 快捷指令模板（改config.yaml就行）

打开 config/config.yaml，找到 shortcuts 区域，添加：

shortcuts:
  - name: "查外卖"
    description: "自动打开美团搜附近美食"
    command: "打开美团搜索附近美食"
  - name: "刷放松"
    description: "抖音刷3分钟，只点赞美食类视频"
    command: "刷抖音3分钟，点赞含‘火锅’‘烧烤’‘奶茶’的视频"

之后直接运行：

python main.py "查外卖"

它就会自动执行预设指令。

4.2 界面操作白名单（防误触）

默认它能操作所有按钮，但你可以锁死某些区域。在 config/app_config.yaml 中：

com.ss.android.ugc.aweme:  # 抖音包名
  blocked_elements: ["ad_banner", "download_apk_button"]  # 屏蔽广告横幅和下载按钮

从此再也不会误点“下载抖音极速版”。

4.3 人工接管时自动截图（debug神器）

在 main.py 启动时加参数：

python main.py --save-screenshots-on-intervention

当它卡在验证码页时，会自动生成 intervention_20250415_142201.png 截图，方便你复盘哪里识别错了。

5. 它不是终点，而是手机AI自动化的起点

实测下来，Open-AutoGLM 最打动我的，不是它能做什么，而是它让“自动化”这件事，第一次变得像发微信一样自然。

不用学编程：指令就是日常说话
不用配环境：官方API开箱即用
不用担风险：敏感操作默认拦截
不用怕失效：真机直连，不依赖云端截图延迟

当然，它还有明显短板：处理复杂表单（如12306选座）、跨App数据搬运、长文本内容生成仍需人工介入。但作为2025年开源的首个真机可用Agent，它已经把门槛从“工程师专属”拉到了“大学生30分钟上手”。

我把它装在我妈的老年机上，教她用“打开微信看孙子照片”代替“解锁→点微信→点通讯录→找儿子→点相册”。她试了三次就学会了——而以前，她每次都要喊我过去点。

技术的价值，从来不在参数多炫，而在谁都能用、用得顺、用得安心。

6. 总结：一句话记住它的能力边界

Open-AutoGLM 是一个以中文界面为原生场景、以ADB为手脚、以视觉语言模型为眼睛和大脑的手机AI分身。它最适合做三类事：
启动+搜索类：打开App、输关键词、看结果（成功率＞95%）
浏览+互动类：刷信息流、点赞、评论、分享（需指定频率/条件）
轻量操作类：发消息、拨电话、设闹钟、查天气（依赖App开放程度）

它暂时做不了：
❌ 涉及支付/隐私的深度操作
❌ 跨App数据整合（如“把小红书收藏同步到备忘录”）
❌ 理解模糊指令（如“弄点好玩的”“帮我忙一下”）

如果你厌倦了重复点按，又不想学自动化脚本——它就是此刻最值得你插上USB线、敲下第一行命令的那个答案。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

【粉丝福利社】从“找资料”到“资料找我”：OpenClaw如何让信息搜集效率翻倍？

龙虾开发者社区

开源 vs 闭源：Agent Harness 的生态之争

本文将带你跳出“免费 vs 贵”的表面之争，从“站在 AI Agent 生态的底层架构、技术实现原理、核心功能对比、商业模式、开发者粘性、企业落地痛点、行业趋势等多个维度，全面剖析开源 Agent Harness 生态（以 LangChain 生态、AutoGPT 衍生生态、CrewAI 为核心代表）与。

龙虾开发者社区

OpenClaw 大结局——接入个人

StreamJsonRpc 是微软官方维护的用于 .NET 和 TypeScript 的 JSON-RPC 通信库，以其强大的类型安全、自动代理生成和成熟的异常处理机制著称。在实现 ACP 的流式 Prompt 响应时，应直接使用?检查现有的动态代理生成逻辑，确定 StreamJsonRpc 无法识别的根本原因（通常是因为代理对象没有公开实际的方法签名，或者使用了 StreamJsonRpc 不支