手把手教你用Open-AutoGLM:一句话让AI自动刷抖音、点外卖

1. 项目介绍:你的手机AI管家

想象一下这个场景:你正忙着写代码,突然想点杯咖啡,但手机在充电,走过去拿又嫌麻烦。或者,你想在抖音上找某个博主的视频,但需要手动搜索、滑动、点击,一套流程下来,几分钟就没了。

现在,你只需要对着电脑说一句话:“帮我打开美团,点一杯最近的星巴克拿铁”,或者“打开抖音,搜索并关注博主‘科技小张’”。剩下的,AI会帮你全部搞定。

这就是 Open-AutoGLM 带来的能力。它是一个开源的手机端AI智能助理框架,由智谱AI发布。简单来说,它让一个大模型学会了“看”你的手机屏幕,并“动手”帮你操作手机。

它的核心工作原理,其实就三步:

  1. 看懂屏幕:通过ADB(安卓调试桥)实时获取手机屏幕截图。
  2. 思考决策:视觉语言大模型(AutoGLM-Phone-9B)分析截图,理解你下达的文本指令(如“点外卖”),然后规划下一步该点哪里、输入什么。
  3. 执行操作:通过ADB向手机发送模拟的点击、滑动、输入等命令,完成整个任务流程。

它就像一个不知疲倦、绝对服从的数字助手,帮你处理手机上那些重复、繁琐的操作。无论是安卓用户还是苹果用户(通过额外的适配),现在都能体验到这种“动动嘴,事办成”的便捷。

接下来的教程,我将以最常见的安卓手机+Windows电脑的组合为例,带你从零开始,一步步部署并玩转这个AI手机管家。

2. 环境准备:连接你的手机与电脑

要让AI控制你的手机,第一步就是建立电脑和手机之间的通信桥梁。这里我们使用 ADB(Android Debug Bridge),它是安卓官方提供的调试工具,也是我们实现自动化的基础。

2.1 电脑端:安装ADB工具

ADB是一个命令行工具,我们需要把它下载到电脑上,并配置好环境变量,让系统在任何地方都能找到它。

对于Windows用户:

  1. 下载ADB工具包:访问 Android Platform Tools 官方下载页面,下载适用于Windows的zip包。
  2. 解压到指定目录:比如解压到 C:\platform-tools。记住这个路径。
  3. 配置环境变量(这是关键步骤)
    • 在Windows搜索框输入“环境变量”,选择“编辑系统环境变量”。
    • 点击“环境变量”按钮。
    • 在“系统变量”区域,找到并选中 Path 变量,点击“编辑”。
    • 点击“新建”,然后将你解压的ADB工具路径(例如 C:\platform-tools)添加进去。
    • 一路点击“确定”保存。
  4. 验证安装:打开命令提示符(CMD)或 PowerShell,输入 adb version 并回车。如果显示出版本号(如 Android Debug Bridge version 1.0.41),说明配置成功。

对于macOS/Linux用户: 通常可以通过包管理器直接安装,更简单。

# macOS 使用 Homebrew
brew install android-platform-tools

# Ubuntu/Debian 使用 apt
sudo apt update && sudo apt install android-tools-adb

安装后,同样在终端输入 adb version 验证。

2.2 手机端:开启调试模式

现在,我们需要在手机上打开“开发者选项”,并启用USB调试。

  1. 开启开发者选项:进入手机的“设置” -> “关于手机”,连续点击“版本号”7次,直到出现“您已处于开发者模式”的提示。
  2. 启用USB调试:返回“设置”,找到新出现的“开发者选项”或“系统开发者选项”,进入后开启“USB调试”开关。
  3. 安装ADB键盘(可选但推荐):为了能让电脑通过ADB向手机输入文字,我们需要一个特殊的输入法。
    • 在手机浏览器中搜索并下载 ADBKeyboard.apk 进行安装。
    • 安装后,进入“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”,将默认输入法切换为 “ADB Keyboard”

2.3 连接测试

用USB数据线将手机连接到电脑。此时手机会弹出“是否允许USB调试”的提示,勾选“始终允许”并点击确定。

在电脑的命令行中,输入:

adb devices

你会看到类似以下的输出:

List of devices attached
abcdef123456    device

这表示你的设备已被成功识别。abcdef123456 就是你的设备ID。如果显示的是 unauthorized,请检查手机是否点击了“允许”。

恭喜! 至此,硬件和基础通信环境已经搭建完成。你的电脑已经获得了控制手机的“钥匙”。

3. 部署AI控制端:让电脑拥有“大脑”

环境通了,接下来我们要给电脑装上“大脑”——即Open-AutoGLM的控制程序。它负责接收你的指令,调用AI模型进行思考,并指挥ADB执行操作。

3.1 获取项目代码

打开命令行,找一个你喜欢的目录,克隆开源仓库:

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

3.2 安装Python依赖

这个项目是用Python写的,我们需要安装它所需的所有“零件”。

# 安装核心依赖包
pip install -r requirements.txt

# 以“开发模式”安装本项目,方便后续修改代码
pip install -e .

这个过程会下载一些机器学习相关的库,如torch, transformers等,请保持网络通畅。

3.3 连接云端AI模型(核心)

Open-AutoGLM本身是一个“执行框架”,它的“思考能力”来源于智谱AI的 AutoGLM-Phone-9B 大模型。我们需要获得调用这个模型的权限。

  1. 获取API Key

    • 访问 智谱AI开放平台
    • 注册并登录后,在控制台找到“API Key管理”。
    • 创建一个新的API Key,并妥善保存。它看起来像一串长字符(如 abc123def456...)。
  2. 理解运行逻辑:当你运行程序时,本地代码会将手机截图和你的指令一起,发送到智谱AI的云端模型。模型分析后,返回一个操作指令(如“点击坐标(500, 800)”),本地程序再通过ADB执行这个点击。

至此,控制端部署完成。 你的电脑已经具备了“感知-决策-执行”的完整能力链条。

4. 实战演练:一句话搞定复杂操作

理论准备就绪,让我们通过两个最实用的例子,看看这个AI助手到底有多强大。

在运行任何命令前,请确保:

  1. 手机通过USB连接电脑,且 adb devices 能识别设备。
  2. 手机屏幕已解锁。
  3. 你已准备好自己的智谱AI API Key

4.1 案例一:自动刷抖音并关注博主

你的指令是:“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”

Open-AutoGLM 项目目录下,打开命令行,运行:

python main.py \
  --device-id <你的设备ID> \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "你的API Key" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

请将 <你的设备ID> 替换为 adb devices 命令显示的那串字符,将 你的API Key 替换为你实际申请的Key。

接下来,神奇的事情发生了:

  1. 自动启动:AI会先启动抖音APP(如果没打开的话)。
  2. 精准搜索:它会自动点击顶部的搜索框,输入“dycwo11nt61d”进行搜索。
  3. 智能识别:在搜索结果中,模型能“看懂”屏幕,识别出哪个是用户头像、哪个是“关注”按钮。
  4. 完成关注:自动点击进入博主主页,然后点击“关注”按钮。
  5. 任务报告:完成后,在命令行里会输出总结:“已成功打开抖音,搜索到博主XXX并关注。”

整个过程完全自动化,你只需要在开始时输入一行命令,然后就可以看着手机屏幕自己“动”起来,直到任务完成。

4.2 案例二:自动点外卖

我们来一个更复杂的任务:“打开美团,搜索附近的火锅店,按评分排序,找到评分最高的一家,点进店铺。”

运行命令:

python main.py \
  --device-id <你的设备ID> \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey “你的API Key” \
  “打开美团,搜索附近的火锅店,按评分排序,找到评分最高的一家,点进店铺。”

AI的执行逻辑链:

  1. 理解复杂指令:模型首先拆解你的命令:打开美团 -> 搜索“火锅” -> 点击排序按钮 -> 选择“好评优先” -> 在列表中找到评分最高的店铺 -> 点击进入。
  2. 处理交互细节:在这个过程中,它可能会遇到弹窗(比如美团的活动弹窗),模型会先识别并关闭这些弹窗,再继续主任务。
  3. 视觉判断:排序后,列表里可能有多家5.0分的店。模型会结合“距离”等信息,选择一个最符合“附近评分最高”逻辑的店铺进入。
  4. 任务闭环:最终,你的手机屏幕会停留在那家评分最高的火锅店详情页,你可以手动完成下单的最后一步(选择套餐、付款等)。AI已经帮你完成了从搜索到决策的最繁琐部分。

4.3 使用Python API进行更灵活的控制

如果你是一名开发者,想将这项功能集成到自己的应用中,Open-AutoGLM也提供了Python API:

from phone_agent.adb import ADBConnection, list_devices

# 1. 创建连接管理器
conn = ADBConnection()

# 2. 连接你的设备(可以通过WiFi连接,更灵活)
# 先用USB线执行:adb tcpip 5555
# 然后断开USB,执行:
success, message = conn.connect("192.168.1.100:5555") # 替换为你的手机IP
print(f"连接状态: {message}")

# 3. 列出所有已连接的设备
devices = list_devices()
for device in devices:
    print(f"设备ID: {device.device_id} - 连接类型: {device.connection_type.value}")

# 之后,你可以将 device-id 参数传递给 main.py 或其他函数,实现远程控制。

这种方式特别适合需要远程管理多台设备,或者将自动化能力嵌入到工作流中的场景。

5. 原理浅析与能力边界

了解了怎么用,我们再来简单看看它背后的原理,这能帮你更好地理解它能做什么、不能做什么。

5.1 它是如何工作的?

整个过程是一个“感知-思考-行动”的循环:

[你的指令] 
    ↓
[AI模型] ← (手机截图 + 指令) → [规划下一步操作:点击(300,500)/输入“火锅”/滑动...]
    ↓
[ADB执行操作] → 改变手机状态
    ↓
[获取新截图] → 循环,直到任务完成或失败
  1. 感知:通过ADB实时截取手机屏幕,转化为图像。
  2. 思考:将截图和你的文本指令一起,送入AutoGLM-Phone-9B模型。这个模型经过特殊训练,能同时理解图像和文字,输出一个具体的“动作”。
  3. 行动:程序解析这个“动作”,通过ADB向手机发送对应的触摸或输入命令。
  4. 循环:执行后,再次截图,观察屏幕变化,决定下一个动作,如此循环,像玩一个“点击游戏”一样,一步步完成任务。

5.2 它的能力强在哪里?

  • 真正的“看懂”屏幕:不同于基于坐标录制的传统自动化工具,它是基于视觉理解的。即使APP界面改版、按钮位置变了,只要模型能识别出“搜索框”、“关注按钮”,它就能正确操作,适应性更强。
  • 处理模糊指令:你说“评分最高的”,它能理解要去点“排序”按钮,选“好评优先”。你说“最近的一家”,它会结合距离信息做判断。
  • 应对弹窗干扰:模型被训练过识别常见弹窗(广告、权限申请),并优先关闭它们,保证了主流程的顺畅。

5.3 目前需要注意的边界

  • 需要清晰的屏幕内容:如果屏幕截图模糊、内容过于复杂或动态(如快速滚动的视频流),模型可能识别错误。
  • 逻辑过于复杂的任务:对于需要多步骤深度推理或跨多个APP协同的任务(如“对比美团和饿了么上同一家店的价格”),目前可能无法完美处理。
  • 登录/支付等安全环节:出于安全考虑,框架通常设计为在遇到登录页面、短信验证码或支付密码输入时暂停,等待人工接管。这是非常重要的安全特性。
  • 网络依赖:由于需要调用云端大模型,整个过程需要稳定的网络连接。

6. 常见问题与排查

在尝鲜过程中,你可能会遇到一些小问题,这里列出最常见的几种及其解决方法:

  • 问题:运行命令后没反应,或提示连接错误。

    • 排查:首先运行 adb devices,确认设备状态是 device 而不是 offlineunauthorized。如果是 unauthorized,检查手机屏幕上的USB调试授权提示。
  • 问题:程序启动了,但操作点不准,老是点错地方。

    • 排查:这可能是ADB截图坐标和手机实际分辨率不匹配。确保电脑上安装的ADB工具是最新版本。不同手机型号的屏幕密度不同,在极端情况下可能需要调整代码中的坐标转换逻辑(对于高级用户)。
  • 问题:提示模型调用失败或超时。

    • 排查:检查你的 API Key 是否正确,以及是否有足够的额度。检查网络连接,特别是能否访问智谱AI的API服务。
  • 问题:任务执行到一半卡住了。

    • 观察:查看命令行输出的“思考过程”。模型会把它“看到”的屏幕描述和“决定”的操作打印出来。这能帮你判断是模型没识别出界面元素,还是遇到了未预料的弹窗。你可以手动干预一下(比如帮忙点掉一个弹窗),程序可能会继续执行。
  • 问题:想控制WiFi连接的手机,怎么办?

    • 方法:先用USB线执行一次 adb tcpip 5555 开启手机的网络调试端口。然后断开USB,在电脑上执行 adb connect 手机IP地址:5555 进行无线连接。后续命令中的 --device-id 就使用这个IP地址。

7. 总结与展望

通过这篇教程,你已经成功地将一个强大的AI智能体部署到了你的电脑上,并让它成为了你手机的“隐形助手”。从环境搭建到实战应用,我们见证了如何用一句自然语言指令,完成打开APP、搜索、点击、判断这一系列原本需要手动操作的任务。

回顾一下核心价值:

  • 解放双手:将重复、固定的手机操作流程自动化。
  • 自然交互:用说话的方式给手机下命令,无需学习任何脚本或编程。
  • 视觉智能:真正“看懂”屏幕,适应性远超基于坐标的自动化工具。

你可以尝试的更多场景:

  • 信息收集:“打开微博,搜索今天关于AI的热搜话题,截图保存前三条。”
  • 日常管理:“打开微信,找到文件传输助手,把相册里今天拍的第一张照片发过去。”
  • 内容创作:“打开小红书,发布一篇笔记,标题用‘今日咖啡探店’,图片选相册里最新的那张。”

这项技术的未来充满想象。随着模型理解能力和规划能力的进一步增强,或许不久的将来,我们可以用一句话安排整个早晨:“帮我叫车去公司,路上点好咖啡到前台,顺便把昨晚的会议纪要摘要发到工作群。”

自动化不是要取代我们,而是将我们从琐碎中解放出来,让我们能更专注于创造和思考。Open-AutoGLM正是这样一把钥匙,为你打开了通往更高效数字生活的一扇门。现在就动手试试,体验一句指令带来的魔力吧。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐