Open-AutoGLM+抖音自动化:关注博主任务部署实战案例
本文介绍了如何在星图GPU平台上一键自动化部署智谱开源的Open-AutoGLM手机端AI Agent框架,并实战演示了其核心应用场景:通过自然语言指令,让AI自动操作手机完成在抖音上搜索并关注指定博主的任务,展现了手机自动化操作的便捷性。
Open-AutoGLM+抖音自动化:关注博主任务部署实战案例
你是不是也遇到过这种情况?朋友分享了一个抖音博主的账号,让你去关注一下。你打开抖音,在搜索框里输入那一长串复杂的抖音号,结果发现输错了,或者搜出来一堆相似的用户,还得一个个点进去确认。整个过程繁琐又耗时。
如果有一个智能助理,你只需要对它说一句:“打开抖音,搜索抖音号为 dycwo11nt61d 的博主并关注他”,它就能自动帮你完成所有操作,是不是很酷?
今天,我们就来实战部署这样一个“手机智能助理”——基于智谱开源的 Open-AutoGLM 框架,特别是其 Phone Agent 组件。它能看懂你的手机屏幕,理解你的自然语言指令,并像真人一样操作你的手机,自动完成各种任务。
1. 项目简介:你的手机AI管家
在开始动手之前,我们先来了解一下这个强大的工具到底是什么。
1.1 什么是 Open-AutoGLM Phone Agent?
简单来说,Phone Agent 是一个能“看见”并“操作”你手机的AI助手。
想象一下,你有一个非常聪明的朋友坐在你旁边。你把手机屏幕给他看,然后用嘴告诉他你想做什么,比如“打开小红书搜一下周末去哪玩”。他不仅听懂了你的话,还能看懂你手机屏幕上每个按钮是干什么的,然后伸出手指,帮你一步步点开App、输入文字、点击搜索。
Phone Agent 干的就是这个“聪明朋友”的活儿,只不过它是完全自动化的。它的核心工作流程分为三步:
- 看屏幕:通过一个强大的视觉语言模型,实时分析你手机屏幕的截图。它能识别出哪里是搜索框,哪里是“关注”按钮,哪里是视频播放区域。
- 想计划:结合你给出的指令(如“关注某某博主”),AI会分析当前屏幕状态,并规划出一系列操作步骤。比如:“第一步,点击顶部的搜索框;第二步,输入抖音号;第三步,在搜索结果中点击正确的用户头像;第四步,进入主页后点击关注按钮。”
- 动手做:通过 ADB(Android调试桥) 这个工具,将规划好的点击、滑动、输入等操作,真实地发送到你的手机上执行。
整个过程,你只需要动动嘴(输入指令),剩下的交给AI。
1.2 为什么选择它来做自动化?
你可能会问,市面上不是有各种自动化脚本工具吗?Phone Agent 的优势在于它的 “智能” 和 “通用性”。
- 无需精确坐标:传统的自动化脚本需要你事先录制操作或编写精确的屏幕坐标(比如点击(500, 800)位置)。一旦App更新、界面改版,坐标变了,脚本就失效了。而Phone Agent靠“视觉理解”来定位元素,只要按钮还在屏幕上,它就能“找到”并点击,适应性更强。
- 理解自然语言:你不用学习复杂的编程或脚本语法。用大白话告诉它你要干什么就行,比如“把刚才刷到的那个搞笑视频点赞收藏一下”。
- 处理不确定性:如果搜索结果显示多个用户,AI可以尝试理解哪个更可能是目标,或者停下来等你确认。它内置了敏感操作确认机制,在遇到登录、支付验证等场景时,可以暂停并请求人工接管,更安全。
接下来,我们就从零开始,搭建一套能自动执行“关注抖音博主”任务的完整系统。
2. 环境准备:连接你的手机与电脑
要让AI控制你的手机,首先得在它们之间建立一条“控制通道”。我们分两步走:先在云端部署AI大脑(服务端),再在本地电脑配置控制端。
2.1 服务端部署(云端AI大脑)
Phone Agent 的“思考”部分——也就是那个能看懂屏幕、规划操作的视觉语言模型——通常需要较强的GPU算力。因此,我们一般将它部署在云服务器上。
这里我们使用 CSDN星图镜像广场 提供的一键部署镜像,这是最快最省事的方法。
- 前往镜像广场:访问 CSDN星图镜像广场。
- 搜索镜像:在搜索框中输入“AutoGLM-Phone”或相关关键词,找到对应的预置镜像。这类镜像通常已经打包好了模型文件、推理引擎(如vLLM)和API服务。
- 一键部署:点击该镜像的“部署”按钮。平台会引导你选择服务器配置(建议选择带有GPU的机型以获得更好性能),并完成部署。
- 获取访问地址:部署成功后,你会获得一个服务访问地址(通常是一个IP和端口号,例如
http://123.45.67.89:8800)。记下这个地址,我们稍后会用到。这个地址后需要加上/v1作为API的基础路径。
核心概念:你可以把云服务器想象成一个24小时在线的“AI大脑”。本地电脑上的控制程序会把手机截图和你的指令发送给这个“大脑”,“大脑”思考后返回操作计划,控制程序再执行。
2.2 客户端准备(本地电脑控制端)
“大脑”在云端准备好了,现在我们需要在本地电脑上配置“手”和“眼睛”,也就是通过ADB连接手机,并调用云端AI服务的程序。
2.2.1 安装ADB工具
ADB是连接电脑和安卓设备的桥梁。我们需要先安装它。
-
Windows用户:
- 从官网下载 Android SDK Platform-Tools 。
- 解压到一个方便的目录,例如
C:\platform-tools。 - 配置环境变量(这是关键步骤):
- 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
- 在“系统变量”中找到并选中
Path,点击“编辑”。 - 点击“新建”,将你解压的路径(如
C:\platform-tools)添加进去。 - 点击“确定”保存所有设置。
- 验证:打开命令提示符(CMD)或 PowerShell,输入
adb version并回车。如果显示版本信息,说明配置成功。
-
macOS/Linux用户: 通常可以通过包管理器安装,或者同样下载解压后配置路径。
# 例如,在终端中临时添加路径(每次新开终端需要重新执行) export PATH=$PATH:~/Downloads/platform-tools # 或者,将上述命令添加到你的 ~/.zshrc 或 ~/.bash_profile 文件中使其永久生效 echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc # 验证安装 adb version
2.2.2 手机端设置
要让电脑控制手机,需要在手机上打开几个开关。
- 开启开发者选项:
- 进入手机的“设置” -> “关于手机”。
- 连续点击“版本号”7次左右,直到出现“您已处于开发者模式”的提示。
- 开启USB调试:
- 返回“设置”,现在你应该能看到新增的“开发者选项”或“系统开发者选项”。
- 进入“开发者选项”,找到并开启“USB调试”。
- 安装ADB键盘(关键!):
- 为什么需要这个?因为AI需要通过电脑向手机输入文字(比如搜索抖音号)。普通方式输入可能不灵,ADB键盘是专为这种自动化控制设计的输入法。
- 下载 ADB Keyboard 的APK文件并安装到手机。
- 安装后,进入手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”。
- 将默认输入法切换为 “ADB Keyboard”。
2.2.3 部署控制端代码
现在,我们把Phone Agent的控制程序下载到本地电脑。
打开终端或命令提示符,执行以下命令:
# 1. 克隆智谱的开源仓库到本地
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 2. 安装项目所需的Python依赖包
pip install -r requirements.txt
# 3. 以“可编辑”模式安装本项目,方便后续调用
pip install -e .
3. 实战演练:自动关注抖音博主
所有准备工作就绪,让我们开始真正的自动化任务。
3.1 连接你的手机
首先,用USB数据线将手机连接到电脑。然后,在电脑终端执行:
adb devices
你会看到类似下面的输出:
List of devices attached
abcdefg123456 device
这表示你的设备(abcdefg123456 是设备序列号)已成功连接。请记下这个设备ID。
如果想用WiFi连接(更灵活,但可能稍不稳定):
# 1. 先用USB线连接一次,开启网络调试端口
adb tcpip 5555
# 2. 断开USB线,确保手机和电脑在同一个WiFi下
# 3. 查看手机的IP地址(通常在设置->关于手机->状态信息里)
# 4. 使用IP地址连接
adb connect 192.168.1.100:5555 # 将 192.168.1.100 替换为你手机的IP
再次运行 adb devices,你应该能看到一个通过 IP:5555 连接的设备。
3.2 运行你的第一个AI指令
激动人心的时刻到了!我们让AI执行“关注抖音博主”的任务。
在 Open-AutoGLM 项目目录下,打开终端,运行以下命令。请务必将尖括号 < > 中的内容替换成你自己的信息。
python main.py \
--device-id <你的设备ID或IP:5555> \
--base-url http://<云服务器IP>:<映射端口>/v1 \
--model "autoglm-phone-9b" \
"打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
参数解释:
--device-id:就是你刚才用adb devices看到的那个ID。如果是WiFi连接,就是192.168.1.100:5555这种格式。--base-url:你在 2.1 节 从CSDN星图镜像广场部署后获得的服务地址,记得末尾加上/v1。--model:指定要使用的模型名称,这里我们用autoglm-phone-9b。- 最后的字符串:就是你给AI下的自然语言指令。你可以随意修改,比如“打开微信,找到张三的聊天框,问他晚上吃什么”。
运行后,你会看到:
- 程序开始运行,AI会先尝试理解你的指令。
- 手机会自动亮屏、解锁(如果未设置密码)、打开抖音App。
- 你会看到屏幕上的搜索框被自动点击,抖音号被自动输入。
- AI会浏览搜索结果,识别出目标博主的头像并点击进入其主页。
- 最后,找到并点击“关注”按钮。
- 任务完成后,AI可能会输出“任务完成”或类似的日志。
整个过程完全自动,你的手机会像被一个隐形人操作一样,流畅地完成所有步骤。
3.3 使用Python API进行更灵活的控制
除了命令行,你还可以用Python代码来更精细地控制整个过程,比如加入错误处理、循环任务等。
# 示例:使用Python API连接并执行任务
from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent
import asyncio
async def main():
# 1. 创建ADB连接管理器
conn = ADBConnection()
# 2. 连接你的设备 (替换为你的设备ID或IP)
device_id = "192.168.1.100:5555" # 或 USB 连接的设备序列号
success, message = conn.connect(device_id)
if not success:
print(f"连接失败: {message}")
return
print(f"连接成功: {message}")
# 3. 列出所有已连接的设备(可选,用于检查)
devices = list_devices()
print("当前连接的设备:")
for device in devices:
print(f" - {device.device_id}")
# 4. 创建Phone Agent实例
# 注意:这里的 base_url 同样需要替换为你的云端服务地址
agent = PhoneAgent(
device_id=device_id,
base_url="http://你的云服务器IP:端口/v1", # 替换这里
model="autoglm-phone-9b"
)
# 5. 给AI下达任务指令
task = "打开抖音,搜索用户‘科技美学’,进入他的主页,然后点开最新发布的一个视频,给它点赞。"
print(f"执行任务: {task}")
try:
# 运行AI代理,执行任务
await agent.run(task)
print("任务执行完毕!")
except Exception as e:
print(f"任务执行出错: {e}")
finally:
# 6. 任务结束,断开连接
conn.disconnect(device_id)
print("设备连接已断开。")
# 运行异步主函数
if __name__ == "__main__":
asyncio.run(main())
这段代码给了你更大的灵活性,你可以把它集成到更复杂的自动化流程中。
4. 常见问题与排查
第一次部署运行时,可能会遇到一些小问题。别担心,这里有一些常见的排查思路。
-
问题:运行命令后,提示连接被拒绝或超时。
- 检查1:确认你的
--base-url参数是否正确,特别是IP、端口和/v1后缀。可以在电脑浏览器里尝试访问http://<你的IP>:<端口>/health看看服务是否正常(如果镜像提供了健康检查端点)。 - 检查2:检查云服务器的安全组或防火墙设置,是否放行了你使用的端口(如8800)。
- 检查3:确保本地电脑的网络能访问到云服务器。
- 检查1:确认你的
-
问题:ADB连接成功,但AI操作时手机没反应,或者报错。
- 检查1:确认手机已开启“USB调试”和“ADB键盘”输入法。
- 检查2:手机屏幕是否锁屏?AI通常需要屏幕处于解锁状态才能操作。你可以先手动解锁,或者确保手机设置为“永不锁屏”。
- 检查3:对于某些国产手机(如小米、华为),可能需要在“开发者选项”中额外开启“USB调试(安全设置)”或“允许通过USB调试修改权限”等选项。
-
问题:AI执行任务时卡在某个步骤,或者点错了地方。
- 原因1:网络延迟。截图上传和指令下发有延迟,可能导致AI看到的屏幕状态和实际不符。尝试使用USB连接而非WiFi。
- 原因2:界面识别偏差。不同手机型号、不同抖音版本,界面元素可能略有差异。这是视觉模型的通用挑战。可以尝试让指令更明确,或者手动干预一下。
- 原因3:模型能力边界。当前模型可能对某些复杂、动态的界面(如充满浮动弹窗的界面)理解不够好。这是技术发展的正常过程。
5. 总结与展望
通过今天的实战,我们成功部署了一个能“听懂话、会操作”的手机AI助手,并让它完成了“自动关注抖音博主”这个具体任务。回顾一下我们的核心步骤:
- 理解原理:Phone Agent = 视觉理解(看懂屏幕)+ 任务规划(思考步骤)+ ADB执行(动手操作)。
- 搭建环境:利用 CSDN星图镜像广场 一键部署云端AI服务,在本地配置ADB和控制端代码。
- 连接设备:通过USB或WiFi将手机与电脑连接,并完成手机端的必要设置。
- 执行任务:用一句简单的自然语言指令,驱动AI完成从打开App到最终关注的全流程自动化。
这个案例只是一个开始。Open-AutoGLM Phone Agent 的能力远不止于此。你可以尝试让它:
- 自动刷短视频并点赞评论。
- 定时在微信群里发送消息。
- 自动完成一些游戏里的日常任务。
- 作为测试工具,自动遍历App的各个功能点。
自动化正在让我们的数字生活变得更加高效。随着多模态大模型技术的不断进步,这类AI智能体的理解和执行能力只会越来越强,能处理的场景也会越来越复杂。现在,就动手试试,打造一个属于你自己的手机自动化管家吧!
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)