手把手教你用Open-AutoGLM：一句话让AI自动刷抖音、点外卖

本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架Open-AutoGLM。该平台简化了部署流程，用户可快速搭建环境，实现通过自然语言指令让AI自动操作手机，例如完成自动点外卖、刷抖音等日常任务，极大提升移动端自动化效率。

Salton Z

176人浏览 · 2026-03-20 00:12:03

Salton Z · 2026-03-20 00:12:03 发布

手把手教你用Open-AutoGLM：一句话让AI自动刷抖音、点外卖

1. 项目介绍：你的手机AI管家

想象一下这个场景：你正忙着写代码，突然想点杯咖啡，但手机在充电，走过去拿又嫌麻烦。或者，你想在抖音上找某个博主的视频，但需要手动搜索、滑动、点击，一套流程下来，几分钟就没了。

现在，你只需要对着电脑说一句话：“帮我打开美团，点一杯最近的星巴克拿铁”，或者“打开抖音，搜索并关注博主‘科技小张’”。剩下的，AI会帮你全部搞定。

这就是 Open-AutoGLM 带来的能力。它是一个开源的手机端AI智能助理框架，由智谱AI发布。简单来说，它让一个大模型学会了“看”你的手机屏幕，并“动手”帮你操作手机。

它的核心工作原理，其实就三步：

看懂屏幕：通过ADB（安卓调试桥）实时获取手机屏幕截图。
思考决策：视觉语言大模型（AutoGLM-Phone-9B）分析截图，理解你下达的文本指令（如“点外卖”），然后规划下一步该点哪里、输入什么。
执行操作：通过ADB向手机发送模拟的点击、滑动、输入等命令，完成整个任务流程。

它就像一个不知疲倦、绝对服从的数字助手，帮你处理手机上那些重复、繁琐的操作。无论是安卓用户还是苹果用户（通过额外的适配），现在都能体验到这种“动动嘴，事办成”的便捷。

接下来的教程，我将以最常见的安卓手机+Windows电脑的组合为例，带你从零开始，一步步部署并玩转这个AI手机管家。

2. 环境准备：连接你的手机与电脑

要让AI控制你的手机，第一步就是建立电脑和手机之间的通信桥梁。这里我们使用 ADB（Android Debug Bridge），它是安卓官方提供的调试工具，也是我们实现自动化的基础。

2.1 电脑端：安装ADB工具

ADB是一个命令行工具，我们需要把它下载到电脑上，并配置好环境变量，让系统在任何地方都能找到它。

对于Windows用户：

下载ADB工具包：访问 Android Platform Tools 官方下载页面，下载适用于Windows的zip包。
解压到指定目录：比如解压到 C:\platform-tools。记住这个路径。
配置环境变量（这是关键步骤）：
- 在Windows搜索框输入“环境变量”，选择“编辑系统环境变量”。
- 点击“环境变量”按钮。
- 在“系统变量”区域，找到并选中 Path 变量，点击“编辑”。
- 点击“新建”，然后将你解压的ADB工具路径（例如 C:\platform-tools）添加进去。
- 一路点击“确定”保存。
验证安装：打开命令提示符（CMD）或 PowerShell，输入 adb version 并回车。如果显示出版本号（如 Android Debug Bridge version 1.0.41），说明配置成功。

对于macOS/Linux用户： 通常可以通过包管理器直接安装，更简单。

# macOS 使用 Homebrew
brew install android-platform-tools

# Ubuntu/Debian 使用 apt
sudo apt update && sudo apt install android-tools-adb

安装后，同样在终端输入 adb version 验证。

2.2 手机端：开启调试模式

现在，我们需要在手机上打开“开发者选项”，并启用USB调试。

开启开发者选项：进入手机的“设置” -> “关于手机”，连续点击“版本号”7次，直到出现“您已处于开发者模式”的提示。
启用USB调试：返回“设置”，找到新出现的“开发者选项”或“系统开发者选项”，进入后开启“USB调试”开关。
安装ADB键盘（可选但推荐）：为了能让电脑通过ADB向手机输入文字，我们需要一个特殊的输入法。
- 在手机浏览器中搜索并下载 ADBKeyboard.apk 进行安装。
- 安装后，进入“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”，将默认输入法切换为 “ADB Keyboard”。

2.3 连接测试

用USB数据线将手机连接到电脑。此时手机会弹出“是否允许USB调试”的提示，勾选“始终允许”并点击确定。

在电脑的命令行中，输入：

adb devices

你会看到类似以下的输出：

List of devices attached
abcdef123456    device

这表示你的设备已被成功识别。abcdef123456 就是你的设备ID。如果显示的是 unauthorized，请检查手机是否点击了“允许”。

恭喜！ 至此，硬件和基础通信环境已经搭建完成。你的电脑已经获得了控制手机的“钥匙”。

3. 部署AI控制端：让电脑拥有“大脑”

环境通了，接下来我们要给电脑装上“大脑”——即Open-AutoGLM的控制程序。它负责接收你的指令，调用AI模型进行思考，并指挥ADB执行操作。

3.1 获取项目代码

打开命令行，找一个你喜欢的目录，克隆开源仓库：

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

3.2 安装Python依赖

这个项目是用Python写的，我们需要安装它所需的所有“零件”。

# 安装核心依赖包
pip install -r requirements.txt

# 以“开发模式”安装本项目，方便后续修改代码
pip install -e .

这个过程会下载一些机器学习相关的库，如torch, transformers等，请保持网络通畅。

3.3 连接云端AI模型（核心）

Open-AutoGLM本身是一个“执行框架”，它的“思考能力”来源于智谱AI的 AutoGLM-Phone-9B 大模型。我们需要获得调用这个模型的权限。

获取API Key：
- 访问智谱AI开放平台。
- 注册并登录后，在控制台找到“API Key管理”。
- 创建一个新的API Key，并妥善保存。它看起来像一串长字符（如 abc123def456...）。
理解运行逻辑：当你运行程序时，本地代码会将手机截图和你的指令一起，发送到智谱AI的云端模型。模型分析后，返回一个操作指令（如“点击坐标(500, 800)”），本地程序再通过ADB执行这个点击。

至此，控制端部署完成。 你的电脑已经具备了“感知-决策-执行”的完整能力链条。

4. 实战演练：一句话搞定复杂操作

理论准备就绪，让我们通过两个最实用的例子，看看这个AI助手到底有多强大。

在运行任何命令前，请确保：

手机通过USB连接电脑，且 adb devices 能识别设备。
手机屏幕已解锁。
你已准备好自己的智谱AI API Key。

4.1 案例一：自动刷抖音并关注博主

你的指令是：“打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！”

在 Open-AutoGLM 项目目录下，打开命令行，运行：

python main.py \
  --device-id <你的设备ID> \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "你的API Key" \
  "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

请将 <你的设备ID> 替换为 adb devices 命令显示的那串字符，将 你的API Key 替换为你实际申请的Key。

接下来，神奇的事情发生了：

自动启动：AI会先启动抖音APP（如果没打开的话）。
精准搜索：它会自动点击顶部的搜索框，输入“dycwo11nt61d”进行搜索。
智能识别：在搜索结果中，模型能“看懂”屏幕，识别出哪个是用户头像、哪个是“关注”按钮。
完成关注：自动点击进入博主主页，然后点击“关注”按钮。
任务报告：完成后，在命令行里会输出总结：“已成功打开抖音，搜索到博主XXX并关注。”

整个过程完全自动化，你只需要在开始时输入一行命令，然后就可以看着手机屏幕自己“动”起来，直到任务完成。

4.2 案例二：自动点外卖

我们来一个更复杂的任务：“打开美团，搜索附近的火锅店，按评分排序，找到评分最高的一家，点进店铺。”

运行命令：

python main.py \
  --device-id <你的设备ID> \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey “你的API Key” \
  “打开美团，搜索附近的火锅店，按评分排序，找到评分最高的一家，点进店铺。”

AI的执行逻辑链：

理解复杂指令：模型首先拆解你的命令：打开美团 -> 搜索“火锅” -> 点击排序按钮 -> 选择“好评优先” -> 在列表中找到评分最高的店铺 -> 点击进入。
处理交互细节：在这个过程中，它可能会遇到弹窗（比如美团的活动弹窗），模型会先识别并关闭这些弹窗，再继续主任务。
视觉判断：排序后，列表里可能有多家5.0分的店。模型会结合“距离”等信息，选择一个最符合“附近评分最高”逻辑的店铺进入。
任务闭环：最终，你的手机屏幕会停留在那家评分最高的火锅店详情页，你可以手动完成下单的最后一步（选择套餐、付款等）。AI已经帮你完成了从搜索到决策的最繁琐部分。

4.3 使用Python API进行更灵活的控制

如果你是一名开发者，想将这项功能集成到自己的应用中，Open-AutoGLM也提供了Python API：

from phone_agent.adb import ADBConnection, list_devices

# 1. 创建连接管理器
conn = ADBConnection()

# 2. 连接你的设备（可以通过WiFi连接，更灵活）
# 先用USB线执行：adb tcpip 5555
# 然后断开USB，执行：
success, message = conn.connect("192.168.1.100:5555") # 替换为你的手机IP
print(f"连接状态: {message}")

# 3. 列出所有已连接的设备
devices = list_devices()
for device in devices:
    print(f"设备ID: {device.device_id} - 连接类型: {device.connection_type.value}")

# 之后，你可以将 device-id 参数传递给 main.py 或其他函数，实现远程控制。

这种方式特别适合需要远程管理多台设备，或者将自动化能力嵌入到工作流中的场景。

5. 原理浅析与能力边界

了解了怎么用，我们再来简单看看它背后的原理，这能帮你更好地理解它能做什么、不能做什么。

5.1 它是如何工作的？

整个过程是一个“感知-思考-行动”的循环：

[你的指令] 
    ↓
[AI模型] ← (手机截图 + 指令) → [规划下一步操作：点击(300,500)/输入“火锅”/滑动...]
    ↓
[ADB执行操作] → 改变手机状态
    ↓
[获取新截图] → 循环，直到任务完成或失败

感知：通过ADB实时截取手机屏幕，转化为图像。
思考：将截图和你的文本指令一起，送入AutoGLM-Phone-9B模型。这个模型经过特殊训练，能同时理解图像和文字，输出一个具体的“动作”。
行动：程序解析这个“动作”，通过ADB向手机发送对应的触摸或输入命令。
循环：执行后，再次截图，观察屏幕变化，决定下一个动作，如此循环，像玩一个“点击游戏”一样，一步步完成任务。

5.2 它的能力强在哪里？

真正的“看懂”屏幕：不同于基于坐标录制的传统自动化工具，它是基于视觉理解的。即使APP界面改版、按钮位置变了，只要模型能识别出“搜索框”、“关注按钮”，它就能正确操作，适应性更强。
处理模糊指令：你说“评分最高的”，它能理解要去点“排序”按钮，选“好评优先”。你说“最近的一家”，它会结合距离信息做判断。
应对弹窗干扰：模型被训练过识别常见弹窗（广告、权限申请），并优先关闭它们，保证了主流程的顺畅。

5.3 目前需要注意的边界

需要清晰的屏幕内容：如果屏幕截图模糊、内容过于复杂或动态（如快速滚动的视频流），模型可能识别错误。
逻辑过于复杂的任务：对于需要多步骤深度推理或跨多个APP协同的任务（如“对比美团和饿了么上同一家店的价格”），目前可能无法完美处理。
登录/支付等安全环节：出于安全考虑，框架通常设计为在遇到登录页面、短信验证码或支付密码输入时暂停，等待人工接管。这是非常重要的安全特性。
网络依赖：由于需要调用云端大模型，整个过程需要稳定的网络连接。

6. 常见问题与排查

在尝鲜过程中，你可能会遇到一些小问题，这里列出最常见的几种及其解决方法：

问题：运行命令后没反应，或提示连接错误。
- 排查：首先运行 adb devices，确认设备状态是 device 而不是 offline 或 unauthorized。如果是 unauthorized，检查手机屏幕上的USB调试授权提示。
问题：程序启动了，但操作点不准，老是点错地方。
- 排查：这可能是ADB截图坐标和手机实际分辨率不匹配。确保电脑上安装的ADB工具是最新版本。不同手机型号的屏幕密度不同，在极端情况下可能需要调整代码中的坐标转换逻辑（对于高级用户）。
问题：提示模型调用失败或超时。
- 排查：检查你的 API Key 是否正确，以及是否有足够的额度。检查网络连接，特别是能否访问智谱AI的API服务。
问题：任务执行到一半卡住了。
- 观察：查看命令行输出的“思考过程”。模型会把它“看到”的屏幕描述和“决定”的操作打印出来。这能帮你判断是模型没识别出界面元素，还是遇到了未预料的弹窗。你可以手动干预一下（比如帮忙点掉一个弹窗），程序可能会继续执行。
问题：想控制WiFi连接的手机，怎么办？
- 方法：先用USB线执行一次 adb tcpip 5555 开启手机的网络调试端口。然后断开USB，在电脑上执行 adb connect 手机IP地址:5555 进行无线连接。后续命令中的 --device-id 就使用这个IP地址。