Open-AutoGLM+抖音自动化：关注博主任务部署实战案例

本文介绍了如何在星图GPU平台上一键自动化部署智谱开源的Open-AutoGLM手机端AI Agent框架，并实战演示了其核心应用场景：通过自然语言指令，让AI自动操作手机完成在抖音上搜索并关注指定博主的任务，展现了手机自动化操作的便捷性。

张阿拉撕裤

914人浏览 · 2026-03-08 03:23:58

张阿拉撕裤 · 2026-03-08 03:23:58 发布

Open-AutoGLM+抖音自动化：关注博主任务部署实战案例

你是不是也遇到过这种情况？朋友分享了一个抖音博主的账号，让你去关注一下。你打开抖音，在搜索框里输入那一长串复杂的抖音号，结果发现输错了，或者搜出来一堆相似的用户，还得一个个点进去确认。整个过程繁琐又耗时。

如果有一个智能助理，你只需要对它说一句：“打开抖音，搜索抖音号为 dycwo11nt61d 的博主并关注他”，它就能自动帮你完成所有操作，是不是很酷？

今天，我们就来实战部署这样一个“手机智能助理”——基于智谱开源的 Open-AutoGLM 框架，特别是其 Phone Agent 组件。它能看懂你的手机屏幕，理解你的自然语言指令，并像真人一样操作你的手机，自动完成各种任务。

1. 项目简介：你的手机AI管家

在开始动手之前，我们先来了解一下这个强大的工具到底是什么。

1.1 什么是 Open-AutoGLM Phone Agent？

简单来说，Phone Agent 是一个能“看见”并“操作”你手机的AI助手。

想象一下，你有一个非常聪明的朋友坐在你旁边。你把手机屏幕给他看，然后用嘴告诉他你想做什么，比如“打开小红书搜一下周末去哪玩”。他不仅听懂了你的话，还能看懂你手机屏幕上每个按钮是干什么的，然后伸出手指，帮你一步步点开App、输入文字、点击搜索。

Phone Agent 干的就是这个“聪明朋友”的活儿，只不过它是完全自动化的。它的核心工作流程分为三步：

看屏幕：通过一个强大的视觉语言模型，实时分析你手机屏幕的截图。它能识别出哪里是搜索框，哪里是“关注”按钮，哪里是视频播放区域。
想计划：结合你给出的指令（如“关注某某博主”），AI会分析当前屏幕状态，并规划出一系列操作步骤。比如：“第一步，点击顶部的搜索框；第二步，输入抖音号；第三步，在搜索结果中点击正确的用户头像；第四步，进入主页后点击关注按钮。”
动手做：通过 ADB（Android调试桥） 这个工具，将规划好的点击、滑动、输入等操作，真实地发送到你的手机上执行。

整个过程，你只需要动动嘴（输入指令），剩下的交给AI。

1.2 为什么选择它来做自动化？

你可能会问，市面上不是有各种自动化脚本工具吗？Phone Agent 的优势在于它的 “智能” 和 “通用性”。

无需精确坐标：传统的自动化脚本需要你事先录制操作或编写精确的屏幕坐标（比如点击(500, 800)位置）。一旦App更新、界面改版，坐标变了，脚本就失效了。而Phone Agent靠“视觉理解”来定位元素，只要按钮还在屏幕上，它就能“找到”并点击，适应性更强。
理解自然语言：你不用学习复杂的编程或脚本语法。用大白话告诉它你要干什么就行，比如“把刚才刷到的那个搞笑视频点赞收藏一下”。
处理不确定性：如果搜索结果显示多个用户，AI可以尝试理解哪个更可能是目标，或者停下来等你确认。它内置了敏感操作确认机制，在遇到登录、支付验证等场景时，可以暂停并请求人工接管，更安全。

接下来，我们就从零开始，搭建一套能自动执行“关注抖音博主”任务的完整系统。

2. 环境准备：连接你的手机与电脑

要让AI控制你的手机，首先得在它们之间建立一条“控制通道”。我们分两步走：先在云端部署AI大脑（服务端），再在本地电脑配置控制端。

2.1 服务端部署（云端AI大脑）

Phone Agent 的“思考”部分——也就是那个能看懂屏幕、规划操作的视觉语言模型——通常需要较强的GPU算力。因此，我们一般将它部署在云服务器上。

这里我们使用 CSDN星图镜像广场 提供的一键部署镜像，这是最快最省事的方法。

前往镜像广场：访问 CSDN星图镜像广场。
搜索镜像：在搜索框中输入“AutoGLM-Phone”或相关关键词，找到对应的预置镜像。这类镜像通常已经打包好了模型文件、推理引擎（如vLLM）和API服务。
一键部署：点击该镜像的“部署”按钮。平台会引导你选择服务器配置（建议选择带有GPU的机型以获得更好性能），并完成部署。
获取访问地址：部署成功后，你会获得一个服务访问地址（通常是一个IP和端口号，例如 http://123.45.67.89:8800）。记下这个地址，我们稍后会用到。这个地址后需要加上 /v1 作为API的基础路径。

核心概念：你可以把云服务器想象成一个24小时在线的“AI大脑”。本地电脑上的控制程序会把手机截图和你的指令发送给这个“大脑”，“大脑”思考后返回操作计划，控制程序再执行。

2.2 客户端准备（本地电脑控制端）

“大脑”在云端准备好了，现在我们需要在本地电脑上配置“手”和“眼睛”，也就是通过ADB连接手机，并调用云端AI服务的程序。

2.2.1 安装ADB工具

ADB是连接电脑和安卓设备的桥梁。我们需要先安装它。

Windows用户：
1. 从官网下载 Android SDK Platform-Tools 。
2. 解压到一个方便的目录，例如 C:\platform-tools。
3. 配置环境变量（这是关键步骤）：
  - 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
  - 在“系统变量”中找到并选中 Path，点击“编辑”。
  - 点击“新建”，将你解压的路径（如 C:\platform-tools）添加进去。
  - 点击“确定”保存所有设置。
4. 验证：打开命令提示符（CMD）或 PowerShell，输入 adb version 并回车。如果显示版本信息，说明配置成功。

macOS/Linux用户：通常可以通过包管理器安装，或者同样下载解压后配置路径。

# 例如，在终端中临时添加路径（每次新开终端需要重新执行）
export PATH=$PATH:~/Downloads/platform-tools

# 或者，将上述命令添加到你的 ~/.zshrc 或 ~/.bash_profile 文件中使其永久生效
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
source ~/.zshrc

# 验证安装
adb version

2.2.2 手机端设置

要让电脑控制手机，需要在手机上打开几个开关。

开启开发者选项：
- 进入手机的“设置” -> “关于手机”。
- 连续点击“版本号”7次左右，直到出现“您已处于开发者模式”的提示。
开启USB调试：
- 返回“设置”，现在你应该能看到新增的“开发者选项”或“系统开发者选项”。
- 进入“开发者选项”，找到并开启“USB调试”。
安装ADB键盘（关键！）：
- 为什么需要这个？因为AI需要通过电脑向手机输入文字（比如搜索抖音号）。普通方式输入可能不灵，ADB键盘是专为这种自动化控制设计的输入法。
- 下载 ADB Keyboard 的APK文件并安装到手机。
- 安装后，进入手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”。
- 将默认输入法切换为 “ADB Keyboard”。

2.2.3 部署控制端代码

现在，我们把Phone Agent的控制程序下载到本地电脑。

打开终端或命令提示符，执行以下命令：

# 1. 克隆智谱的开源仓库到本地
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 2. 安装项目所需的Python依赖包
pip install -r requirements.txt

# 3. 以“可编辑”模式安装本项目，方便后续调用
pip install -e .

3. 实战演练：自动关注抖音博主

所有准备工作就绪，让我们开始真正的自动化任务。

3.1 连接你的手机

首先，用USB数据线将手机连接到电脑。然后，在电脑终端执行：

adb devices

你会看到类似下面的输出：

List of devices attached
abcdefg123456    device

这表示你的设备（abcdefg123456 是设备序列号）已成功连接。请记下这个设备ID。

如果想用WiFi连接（更灵活，但可能稍不稳定）：

# 1. 先用USB线连接一次，开启网络调试端口
adb tcpip 5555

# 2. 断开USB线，确保手机和电脑在同一个WiFi下
# 3. 查看手机的IP地址（通常在设置->关于手机->状态信息里）
# 4. 使用IP地址连接
adb connect 192.168.1.100:5555  # 将 192.168.1.100 替换为你手机的IP

再次运行 adb devices，你应该能看到一个通过 IP:5555 连接的设备。

3.2 运行你的第一个AI指令

激动人心的时刻到了！我们让AI执行“关注抖音博主”的任务。

在 Open-AutoGLM 项目目录下，打开终端，运行以下命令。请务必将尖括号 < > 中的内容替换成你自己的信息。

python main.py \
  --device-id <你的设备ID或IP:5555> \
  --base-url http://<云服务器IP>:<映射端口>/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数解释：

--device-id：就是你刚才用 adb devices 看到的那个ID。如果是WiFi连接，就是 192.168.1.100:5555 这种格式。
--base-url：你在 2.1 节 从CSDN星图镜像广场部署后获得的服务地址，记得末尾加上 /v1。
--model：指定要使用的模型名称，这里我们用 autoglm-phone-9b。
最后的字符串：就是你给AI下的自然语言指令。你可以随意修改，比如“打开微信，找到张三的聊天框，问他晚上吃什么”。

运行后，你会看到：

程序开始运行，AI会先尝试理解你的指令。
手机会自动亮屏、解锁（如果未设置密码）、打开抖音App。
你会看到屏幕上的搜索框被自动点击，抖音号被自动输入。
AI会浏览搜索结果，识别出目标博主的头像并点击进入其主页。
最后，找到并点击“关注”按钮。
任务完成后，AI可能会输出“任务完成”或类似的日志。

整个过程完全自动，你的手机会像被一个隐形人操作一样，流畅地完成所有步骤。

3.3 使用Python API进行更灵活的控制

除了命令行，你还可以用Python代码来更精细地控制整个过程，比如加入错误处理、循环任务等。

# 示例：使用Python API连接并执行任务
from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent
import asyncio

async def main():
    # 1. 创建ADB连接管理器
    conn = ADBConnection()

    # 2. 连接你的设备 (替换为你的设备ID或IP)
    device_id = "192.168.1.100:5555"  # 或 USB 连接的设备序列号
    success, message = conn.connect(device_id)
    if not success:
        print(f"连接失败: {message}")
        return
    print(f"连接成功: {message}")

    # 3. 列出所有已连接的设备（可选，用于检查）
    devices = list_devices()
    print("当前连接的设备:")
    for device in devices:
        print(f"  - {device.device_id}")

    # 4. 创建Phone Agent实例
    # 注意：这里的 base_url 同样需要替换为你的云端服务地址
    agent = PhoneAgent(
        device_id=device_id,
        base_url="http://你的云服务器IP:端口/v1", # 替换这里
        model="autoglm-phone-9b"
    )

    # 5. 给AI下达任务指令
    task = "打开抖音，搜索用户‘科技美学’，进入他的主页，然后点开最新发布的一个视频，给它点赞。"
    print(f"执行任务: {task}")

    try:
        # 运行AI代理，执行任务
        await agent.run(task)
        print("任务执行完毕！")
    except Exception as e:
        print(f"任务执行出错: {e}")
    finally:
        # 6. 任务结束，断开连接
        conn.disconnect(device_id)
        print("设备连接已断开。")

# 运行异步主函数
if __name__ == "__main__":
    asyncio.run(main())

这段代码给了你更大的灵活性，你可以把它集成到更复杂的自动化流程中。

4. 常见问题与排查

第一次部署运行时，可能会遇到一些小问题。别担心，这里有一些常见的排查思路。

问题：运行命令后，提示连接被拒绝或超时。
- 检查1：确认你的 --base-url 参数是否正确，特别是IP、端口和 /v1 后缀。可以在电脑浏览器里尝试访问 http://<你的IP>:<端口>/health 看看服务是否正常（如果镜像提供了健康检查端点）。
- 检查2：检查云服务器的安全组或防火墙设置，是否放行了你使用的端口（如8800）。
- 检查3：确保本地电脑的网络能访问到云服务器。
问题：ADB连接成功，但AI操作时手机没反应，或者报错。
- 检查1：确认手机已开启“USB调试”和“ADB键盘”输入法。
- 检查2：手机屏幕是否锁屏？AI通常需要屏幕处于解锁状态才能操作。你可以先手动解锁，或者确保手机设置为“永不锁屏”。
- 检查3：对于某些国产手机（如小米、华为），可能需要在“开发者选项”中额外开启“USB调试（安全设置）”或“允许通过USB调试修改权限”等选项。
问题：AI执行任务时卡在某个步骤，或者点错了地方。
- 原因1：网络延迟。截图上传和指令下发有延迟，可能导致AI看到的屏幕状态和实际不符。尝试使用USB连接而非WiFi。
- 原因2：界面识别偏差。不同手机型号、不同抖音版本，界面元素可能略有差异。这是视觉模型的通用挑战。可以尝试让指令更明确，或者手动干预一下。
- 原因3：模型能力边界。当前模型可能对某些复杂、动态的界面（如充满浮动弹窗的界面）理解不够好。这是技术发展的正常过程。