Open-AutoGLM+抖音自动化:关注博主任务部署实战案例

你是不是也遇到过这种情况?朋友分享了一个抖音博主的账号,让你去关注一下。你打开抖音,在搜索框里输入那一长串复杂的抖音号,结果发现输错了,或者搜出来一堆相似的用户,还得一个个点进去确认。整个过程繁琐又耗时。

如果有一个智能助理,你只需要对它说一句:“打开抖音,搜索抖音号为 dycwo11nt61d 的博主并关注他”,它就能自动帮你完成所有操作,是不是很酷?

今天,我们就来实战部署这样一个“手机智能助理”——基于智谱开源的 Open-AutoGLM 框架,特别是其 Phone Agent 组件。它能看懂你的手机屏幕,理解你的自然语言指令,并像真人一样操作你的手机,自动完成各种任务。

1. 项目简介:你的手机AI管家

在开始动手之前,我们先来了解一下这个强大的工具到底是什么。

1.1 什么是 Open-AutoGLM Phone Agent?

简单来说,Phone Agent 是一个能“看见”并“操作”你手机的AI助手

想象一下,你有一个非常聪明的朋友坐在你旁边。你把手机屏幕给他看,然后用嘴告诉他你想做什么,比如“打开小红书搜一下周末去哪玩”。他不仅听懂了你的话,还能看懂你手机屏幕上每个按钮是干什么的,然后伸出手指,帮你一步步点开App、输入文字、点击搜索。

Phone Agent 干的就是这个“聪明朋友”的活儿,只不过它是完全自动化的。它的核心工作流程分为三步:

  1. 看屏幕:通过一个强大的视觉语言模型,实时分析你手机屏幕的截图。它能识别出哪里是搜索框,哪里是“关注”按钮,哪里是视频播放区域。
  2. 想计划:结合你给出的指令(如“关注某某博主”),AI会分析当前屏幕状态,并规划出一系列操作步骤。比如:“第一步,点击顶部的搜索框;第二步,输入抖音号;第三步,在搜索结果中点击正确的用户头像;第四步,进入主页后点击关注按钮。”
  3. 动手做:通过 ADB(Android调试桥) 这个工具,将规划好的点击、滑动、输入等操作,真实地发送到你的手机上执行。

整个过程,你只需要动动嘴(输入指令),剩下的交给AI。

1.2 为什么选择它来做自动化?

你可能会问,市面上不是有各种自动化脚本工具吗?Phone Agent 的优势在于它的 “智能”“通用性”

  • 无需精确坐标:传统的自动化脚本需要你事先录制操作或编写精确的屏幕坐标(比如点击(500, 800)位置)。一旦App更新、界面改版,坐标变了,脚本就失效了。而Phone Agent靠“视觉理解”来定位元素,只要按钮还在屏幕上,它就能“找到”并点击,适应性更强。
  • 理解自然语言:你不用学习复杂的编程或脚本语法。用大白话告诉它你要干什么就行,比如“把刚才刷到的那个搞笑视频点赞收藏一下”。
  • 处理不确定性:如果搜索结果显示多个用户,AI可以尝试理解哪个更可能是目标,或者停下来等你确认。它内置了敏感操作确认机制,在遇到登录、支付验证等场景时,可以暂停并请求人工接管,更安全。

接下来,我们就从零开始,搭建一套能自动执行“关注抖音博主”任务的完整系统。

2. 环境准备:连接你的手机与电脑

要让AI控制你的手机,首先得在它们之间建立一条“控制通道”。我们分两步走:先在云端部署AI大脑(服务端),再在本地电脑配置控制端。

2.1 服务端部署(云端AI大脑)

Phone Agent 的“思考”部分——也就是那个能看懂屏幕、规划操作的视觉语言模型——通常需要较强的GPU算力。因此,我们一般将它部署在云服务器上。

这里我们使用 CSDN星图镜像广场 提供的一键部署镜像,这是最快最省事的方法。

  1. 前往镜像广场:访问 CSDN星图镜像广场
  2. 搜索镜像:在搜索框中输入“AutoGLM-Phone”或相关关键词,找到对应的预置镜像。这类镜像通常已经打包好了模型文件、推理引擎(如vLLM)和API服务。
  3. 一键部署:点击该镜像的“部署”按钮。平台会引导你选择服务器配置(建议选择带有GPU的机型以获得更好性能),并完成部署。
  4. 获取访问地址:部署成功后,你会获得一个服务访问地址(通常是一个IP和端口号,例如 http://123.45.67.89:8800)。记下这个地址,我们稍后会用到。这个地址后需要加上 /v1 作为API的基础路径。

核心概念:你可以把云服务器想象成一个24小时在线的“AI大脑”。本地电脑上的控制程序会把手机截图和你的指令发送给这个“大脑”,“大脑”思考后返回操作计划,控制程序再执行。

2.2 客户端准备(本地电脑控制端)

“大脑”在云端准备好了,现在我们需要在本地电脑上配置“手”和“眼睛”,也就是通过ADB连接手机,并调用云端AI服务的程序。

2.2.1 安装ADB工具

ADB是连接电脑和安卓设备的桥梁。我们需要先安装它。

  • Windows用户

    1. 从官网下载 Android SDK Platform-Tools
    2. 解压到一个方便的目录,例如 C:\platform-tools
    3. 配置环境变量(这是关键步骤):
      • 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
      • 在“系统变量”中找到并选中 Path,点击“编辑”。
      • 点击“新建”,将你解压的路径(如 C:\platform-tools)添加进去。
      • 点击“确定”保存所有设置。
    4. 验证:打开命令提示符(CMD)或 PowerShell,输入 adb version 并回车。如果显示版本信息,说明配置成功。
  • macOS/Linux用户: 通常可以通过包管理器安装,或者同样下载解压后配置路径。

    # 例如,在终端中临时添加路径(每次新开终端需要重新执行)
    export PATH=$PATH:~/Downloads/platform-tools
    
    # 或者,将上述命令添加到你的 ~/.zshrc 或 ~/.bash_profile 文件中使其永久生效
    echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc
    source ~/.zshrc
    
    # 验证安装
    adb version
    
2.2.2 手机端设置

要让电脑控制手机,需要在手机上打开几个开关。

  1. 开启开发者选项
    • 进入手机的“设置” -> “关于手机”。
    • 连续点击“版本号”7次左右,直到出现“您已处于开发者模式”的提示。
  2. 开启USB调试
    • 返回“设置”,现在你应该能看到新增的“开发者选项”或“系统开发者选项”。
    • 进入“开发者选项”,找到并开启“USB调试”。
  3. 安装ADB键盘(关键!)
    • 为什么需要这个?因为AI需要通过电脑向手机输入文字(比如搜索抖音号)。普通方式输入可能不灵,ADB键盘是专为这种自动化控制设计的输入法。
    • 下载 ADB Keyboard 的APK文件并安装到手机。
    • 安装后,进入手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”。
    • 将默认输入法切换为 “ADB Keyboard”
2.2.3 部署控制端代码

现在,我们把Phone Agent的控制程序下载到本地电脑。

打开终端或命令提示符,执行以下命令:

# 1. 克隆智谱的开源仓库到本地
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 2. 安装项目所需的Python依赖包
pip install -r requirements.txt

# 3. 以“可编辑”模式安装本项目,方便后续调用
pip install -e .

3. 实战演练:自动关注抖音博主

所有准备工作就绪,让我们开始真正的自动化任务。

3.1 连接你的手机

首先,用USB数据线将手机连接到电脑。然后,在电脑终端执行:

adb devices

你会看到类似下面的输出:

List of devices attached
abcdefg123456    device

这表示你的设备(abcdefg123456 是设备序列号)已成功连接。请记下这个设备ID。

如果想用WiFi连接(更灵活,但可能稍不稳定):

# 1. 先用USB线连接一次,开启网络调试端口
adb tcpip 5555

# 2. 断开USB线,确保手机和电脑在同一个WiFi下
# 3. 查看手机的IP地址(通常在设置->关于手机->状态信息里)
# 4. 使用IP地址连接
adb connect 192.168.1.100:5555  # 将 192.168.1.100 替换为你手机的IP

再次运行 adb devices,你应该能看到一个通过 IP:5555 连接的设备。

3.2 运行你的第一个AI指令

激动人心的时刻到了!我们让AI执行“关注抖音博主”的任务。

Open-AutoGLM 项目目录下,打开终端,运行以下命令。请务必将尖括号 < > 中的内容替换成你自己的信息

python main.py \
  --device-id <你的设备ID或IP:5555> \
  --base-url http://<云服务器IP>:<映射端口>/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数解释:

  • --device-id:就是你刚才用 adb devices 看到的那个ID。如果是WiFi连接,就是 192.168.1.100:5555 这种格式。
  • --base-url:你在 2.1 节 从CSDN星图镜像广场部署后获得的服务地址,记得末尾加上 /v1
  • --model:指定要使用的模型名称,这里我们用 autoglm-phone-9b
  • 最后的字符串:就是你给AI下的自然语言指令。你可以随意修改,比如“打开微信,找到张三的聊天框,问他晚上吃什么”。

运行后,你会看到:

  1. 程序开始运行,AI会先尝试理解你的指令。
  2. 手机会自动亮屏、解锁(如果未设置密码)、打开抖音App。
  3. 你会看到屏幕上的搜索框被自动点击,抖音号被自动输入。
  4. AI会浏览搜索结果,识别出目标博主的头像并点击进入其主页。
  5. 最后,找到并点击“关注”按钮。
  6. 任务完成后,AI可能会输出“任务完成”或类似的日志。

整个过程完全自动,你的手机会像被一个隐形人操作一样,流畅地完成所有步骤。

3.3 使用Python API进行更灵活的控制

除了命令行,你还可以用Python代码来更精细地控制整个过程,比如加入错误处理、循环任务等。

# 示例:使用Python API连接并执行任务
from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent
import asyncio

async def main():
    # 1. 创建ADB连接管理器
    conn = ADBConnection()

    # 2. 连接你的设备 (替换为你的设备ID或IP)
    device_id = "192.168.1.100:5555"  # 或 USB 连接的设备序列号
    success, message = conn.connect(device_id)
    if not success:
        print(f"连接失败: {message}")
        return
    print(f"连接成功: {message}")

    # 3. 列出所有已连接的设备(可选,用于检查)
    devices = list_devices()
    print("当前连接的设备:")
    for device in devices:
        print(f"  - {device.device_id}")

    # 4. 创建Phone Agent实例
    # 注意:这里的 base_url 同样需要替换为你的云端服务地址
    agent = PhoneAgent(
        device_id=device_id,
        base_url="http://你的云服务器IP:端口/v1", # 替换这里
        model="autoglm-phone-9b"
    )

    # 5. 给AI下达任务指令
    task = "打开抖音,搜索用户‘科技美学’,进入他的主页,然后点开最新发布的一个视频,给它点赞。"
    print(f"执行任务: {task}")

    try:
        # 运行AI代理,执行任务
        await agent.run(task)
        print("任务执行完毕!")
    except Exception as e:
        print(f"任务执行出错: {e}")
    finally:
        # 6. 任务结束,断开连接
        conn.disconnect(device_id)
        print("设备连接已断开。")

# 运行异步主函数
if __name__ == "__main__":
    asyncio.run(main())

这段代码给了你更大的灵活性,你可以把它集成到更复杂的自动化流程中。

4. 常见问题与排查

第一次部署运行时,可能会遇到一些小问题。别担心,这里有一些常见的排查思路。

  • 问题:运行命令后,提示连接被拒绝或超时。

    • 检查1:确认你的 --base-url 参数是否正确,特别是IP、端口和 /v1 后缀。可以在电脑浏览器里尝试访问 http://<你的IP>:<端口>/health 看看服务是否正常(如果镜像提供了健康检查端点)。
    • 检查2:检查云服务器的安全组或防火墙设置,是否放行了你使用的端口(如8800)。
    • 检查3:确保本地电脑的网络能访问到云服务器。
  • 问题:ADB连接成功,但AI操作时手机没反应,或者报错。

    • 检查1:确认手机已开启“USB调试”和“ADB键盘”输入法。
    • 检查2:手机屏幕是否锁屏?AI通常需要屏幕处于解锁状态才能操作。你可以先手动解锁,或者确保手机设置为“永不锁屏”。
    • 检查3:对于某些国产手机(如小米、华为),可能需要在“开发者选项”中额外开启“USB调试(安全设置)”或“允许通过USB调试修改权限”等选项。
  • 问题:AI执行任务时卡在某个步骤,或者点错了地方。

    • 原因1:网络延迟。截图上传和指令下发有延迟,可能导致AI看到的屏幕状态和实际不符。尝试使用USB连接而非WiFi。
    • 原因2:界面识别偏差。不同手机型号、不同抖音版本,界面元素可能略有差异。这是视觉模型的通用挑战。可以尝试让指令更明确,或者手动干预一下。
    • 原因3:模型能力边界。当前模型可能对某些复杂、动态的界面(如充满浮动弹窗的界面)理解不够好。这是技术发展的正常过程。

5. 总结与展望

通过今天的实战,我们成功部署了一个能“听懂话、会操作”的手机AI助手,并让它完成了“自动关注抖音博主”这个具体任务。回顾一下我们的核心步骤:

  1. 理解原理:Phone Agent = 视觉理解(看懂屏幕)+ 任务规划(思考步骤)+ ADB执行(动手操作)。
  2. 搭建环境:利用 CSDN星图镜像广场 一键部署云端AI服务,在本地配置ADB和控制端代码。
  3. 连接设备:通过USB或WiFi将手机与电脑连接,并完成手机端的必要设置。
  4. 执行任务:用一句简单的自然语言指令,驱动AI完成从打开App到最终关注的全流程自动化。

这个案例只是一个开始。Open-AutoGLM Phone Agent 的能力远不止于此。你可以尝试让它:

  • 自动刷短视频并点赞评论。
  • 定时在微信群里发送消息
  • 自动完成一些游戏里的日常任务
  • 作为测试工具,自动遍历App的各个功能点。

自动化正在让我们的数字生活变得更加高效。随着多模态大模型技术的不断进步,这类AI智能体的理解和执行能力只会越来越强,能处理的场景也会越来越复杂。现在,就动手试试,打造一个属于你自己的手机自动化管家吧!


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐