用Open-AutoGLM做了个自动关注抖音号的小工具

1. 引言:从一句话指令到全自动操作

你有没有想过,只要说一句“帮我关注这个抖音号”,手机就能自己打开抖音、搜索用户、进入主页并完成关注?听起来像科幻片里的场景,但现在借助 Open-AutoGLM,这一切已经可以实现。

这不是某个大厂的黑科技产品,而是一个开源项目——AutoGLM-Phone,由智谱推出的一款基于视觉语言模型的 AI 手机智能助理框架。它能“看懂”手机屏幕内容,并通过 ADB 自动操控设备。你只需要用自然语言下指令,比如:“打开小红书搜美食”、“在微博点赞那条热评”,AI 就能理解你的意图,规划步骤,一步步点击、滑动、输入,全程无需手动干预。

本文就带你用 Open-AutoGLM 实现一个实用小工具:自动关注指定抖音号。整个过程不需要写复杂脚本,也不需要逆向 App 接口,只需一条命令,让 AI 替你完成所有操作。


2. 核心原理:AI 是怎么“操控”手机的?

要理解这个工具是如何工作的,我们得先搞清楚 Open-AutoGLM 的底层逻辑。它的运行机制可以用三个词概括:感知 → 思考 → 行动

2.1 多模态感知:AI 在“看”你的手机

每次执行任务时,AI 都会通过 ADB(Android Debug Bridge)获取以下信息:

  • 当前屏幕截图(图像)
  • 界面 UI 结构(XML 元素树,包含按钮、输入框等控件的位置和文本)
  • 前台应用名称(Activity)

这些数据组合起来,构成了 AI 对当前手机状态的理解。就像人看到屏幕一样,它不仅能“看见”画面,还能“读懂”每个按钮叫什么、在哪里。

2.2 智能思考:拆解任务,规划路径

当你输入“打开抖音搜索 dycwo11nt61d 并关注他”时,AI 会在内部进行推理:

  1. 是否已安装抖音?如果没有,提示安装。
  2. 如果已安装,是否已启动?如果没开,先启动 App。
  3. 进入首页后,找到搜索入口(可能是放大镜图标或“发现”页)。
  4. 点击搜索框,调出键盘,输入账号名。
  5. 执行搜索,进入结果页,点击目标用户。
  6. 判断当前是否已关注,若未关注,则点击“关注”按钮。

这一系列思考过程通常隐藏在 <think> 标签中,不会直接输出,但它是整个自动化流程的大脑。

2.3 动作执行:真实模拟用户操作

想好了怎么做,AI 就开始动手。它会生成一个 JSON 格式的动作指令,通过 ADB 发送给手机,支持的操作包括:

  • Tap:点击坐标或元素
  • Swipe:滑动
  • Type:输入文字
  • Launch:启动 App
  • Back / Home:返回或回到主屏
  • Wait:等待加载
  • Take_over:请求人工接管(如遇到验证码)

每执行一步,AI 都会重新截图、读取 UI,判断下一步该怎么走,形成一个闭环控制。

举个例子:当你要关注一个抖音号时,AI 可能会这样操作:

{ "action": "Tap", "element": [540, 1200] }

这表示点击屏幕中间偏下的位置,可能是“关注”按钮;接着:

{ "action": "Wait", "duration": "3 seconds" }

等待关注成功动画结束。

整个过程就像一位虚拟助手在替你操作手机,而且永远不会手抖点错。


3. 环境搭建:让电脑能“控制”手机

要想让 AI 替你操作手机,首先得建立连接。以下是完整部署流程。

3.1 准备工作

你需要准备以下几样东西:

  • 一台 Android 7.0+ 的手机(真机或模拟器均可)
  • 一台运行 Windows 或 macOS 的电脑
  • Python 3.10+
  • ADB 工具(Android SDK Platform Tools)

3.2 安装 ADB 并配置环境变量

Windows 用户:
  1. 下载 Platform Tools 并解压。
  2. 将解压路径添加到系统 PATH 环境变量中。
    • 快捷键 Win + R → 输入 sysdm.cpl → 高级 → 环境变量 → 编辑 Path → 添加路径。
  3. 打开命令行,输入:
    adb version
    
    若显示版本号即为安装成功。
macOS 用户:

在终端执行:

export PATH=${PATH}:~/Downloads/platform-tools

(假设你把文件解压到了 Downloads 目录)

也可以将这行加入 .zshrc.bash_profile 实现永久生效。

3.3 手机端设置

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您已处于开发者模式”。

  2. 开启 USB 调试
    返回设置 → 开发者选项 → 启用“USB 调试”。

  3. 安装 ADB Keyboard

    • 下载 ADB Keyboard APK 并安装。
    • 进入“语言与输入法”设置,将默认输入法切换为 ADB Keyboard
      (这是关键!否则 AI 无法输入文字)

4. 部署 Open-AutoGLM 控制端

现在我们可以下载并配置本地控制程序了。

4.1 克隆项目并安装依赖

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

pip install -r requirements.txt
pip install -e .

4.2 连接设备

确保手机通过 USB 连接到电脑,然后运行:

adb devices

你应该能看到类似这样的输出:

List of devices attached
AERFUT4B08000806    device

记下设备 ID(如 AERFUT4B08000806),后面要用。

小贴士:如果你希望无线连接,可以用 WiFi 方式:

adb tcpip 5555
adb connect 192.168.x.x:5555

断开 USB 后仍可远程控制,适合长期运行任务。


5. 实战演示:一键关注抖音号

终于到了最激动人心的部分——让 AI 替你关注抖音号!

5.1 命令行启动代理

假设你已经在云服务器上部署了 AutoGLM 模型服务(例如使用 vLLM),并且开放了端口 8800,那么你可以这样运行:

python main.py \
  --device-id AERFUT4B08000806 \
  --base-url http://your-server-ip:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过 adb devices 获取的设备 ID
  • --base-url:你的模型服务地址(必须是公网 IP 或内网可达)
  • --model:模型名称,需与服务端一致
  • 最后的字符串:自然语言指令,越清晰越好

5.2 实际执行流程解析

AI 收到指令后,会自动执行以下步骤:

  1. 启动抖音 App

    { "action": "Launch", "package": "com.ss.android.ugc.aweme" }
    
  2. 寻找搜索入口

    • 分析 UI 结构,找到“发现”或“搜索”按钮
    • 点击进入搜索页面
  3. 点击输入框并输入账号

    • 使用 Tap 点击搜索框
    • 使用 Type 输入 dycwo11nt61d
  4. 执行搜索

    • 模拟点击“搜索”按钮或回车键
  5. 进入用户主页

    • 在搜索结果中识别目标账号
    • 点击头像或用户名进入主页
  6. 判断并点击关注

    • 检查是否存在“已关注”标签
    • 若未关注,则点击“关注”按钮
  7. 确认完成

    • 等待 2 秒,再次检查 UI 是否出现“已关注”
    • 输出任务完成日志

整个过程大约耗时 15–30 秒,完全自动化,无需任何人工干预。


6. 常见问题与解决方案

虽然 Open-AutoGLM 很强大,但在实际使用中也会遇到一些常见问题。以下是几个典型情况及应对方法。

6.1 文字输入失败

现象:AI 显示要输入账号,但屏幕上没有反应。

原因:未正确启用 ADB Keyboard。

解决办法

  • 确保已安装 ADB Keyboard APK
  • 进入“设置 → 语言与输入法 → 默认键盘”,选择 ADB Keyboard
  • 可尝试重启输入法服务

6.2 ADB 连接不稳定

现象:执行中途断连,任务中断。

建议

  • 优先使用 USB 连接,比 WiFi 更稳定
  • 若必须用 WiFi,确保手机和电脑在同一局域网
  • 定期检查 adb devices 是否仍显示设备在线

6.3 模型响应慢或乱码

现象:AI 长时间无响应,或输出乱码指令。

可能原因

  • 服务端显存不足
  • max-model-len 设置过小
  • 模型加载错误

排查建议

  • 检查 vLLM 启动参数是否包含:
    --max-model-len 25480 --mm_processor_kwargs '{"max_pixels":5000000}'
    
  • 确认 GPU 显存足够(FP16 模式约需 20GB)
  • 查看服务端日志是否有 OOM 错误

6.4 敏感操作拦截

现象:AI 在支付、登录等界面停止执行。

这是正常行为!出于安全考虑,Open-AutoGLM 在检测到敏感操作时会主动请求人工接管:

{ "action": "Take_over", "reason": "Detected login screen with password field" }

此时你需要手动完成验证,之后 AI 会继续后续操作。


7. 进阶玩法:不只是关注抖音号

你以为这只是个“关注工具”?其实它的潜力远不止于此。只要你能用语言描述清楚任务,Open-AutoGLM 几乎都能帮你完成。

7.1 批量操作神器

想象一下这些场景:

  • “帮我把我关注的所有抖音博主都点赞一遍最新视频”
  • “每天早上 8 点打开健康码打卡”
  • “把小红书收藏夹里所有商品加购物车”

这些重复性高、规则明确的任务,都可以交给 AI 自动完成。

7.2 移动测试自动化

对于开发者来说,Open-AutoGLM 是绝佳的移动端自动化测试工具:

  • 自动遍历 App 所有功能模块
  • 模拟用户操作路径,记录异常行为
  • 截图上报 Bug,生成测试报告

相比传统脚本,它不怕界面变化,真正做到了“语义级”自动化。

7.3 跨平台通用性

由于其基于多模态理解,同一个指令可以在不同品牌手机、不同系统版本上运行。哪怕抖音改版了 UI,AI 也能根据新布局重新规划路径,不像传统自动化脚本那样容易失效。


8. 总结:AI Agent 正在改变人机交互方式

通过这次实践,我们只用一条自然语言指令,就实现了对抖音号的全自动关注。整个过程无需编写代码、无需了解 App 内部结构,甚至不需要一直盯着手机。

这就是 Open-AutoGLM 的魅力所在:它把复杂的自动化技术封装成一句“人话”,让每个人都能轻松使用。

未来已来:也许不久之后,我们会习惯这样说:

“帮我订明天早上的高铁票。” “把上周拍的照片整理成相册发朋友圈。” “查一下最近三个月的消费记录,做个图表。”

而这些任务,都会由 AI 自动完成。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐