用Open-AutoGLM做了个自动关注抖音号的小工具
本文介绍了基于“星图GPU”平台自动化部署Open-AutoGLM——智谱开源的手机端AI Agent框架,实现自然语言驱动的移动端智能操作。该镜像可快速构建如“自动关注抖音号”等典型应用,通过多模态感知与ADB操控,完成从指令理解、界面识别到真实点击的全流程自动化,显著降低AI应用开发门槛。
用Open-AutoGLM做了个自动关注抖音号的小工具
1. 引言:从一句话指令到全自动操作
你有没有想过,只要说一句“帮我关注这个抖音号”,手机就能自己打开抖音、搜索用户、进入主页并完成关注?听起来像科幻片里的场景,但现在借助 Open-AutoGLM,这一切已经可以实现。
这不是某个大厂的黑科技产品,而是一个开源项目——AutoGLM-Phone,由智谱推出的一款基于视觉语言模型的 AI 手机智能助理框架。它能“看懂”手机屏幕内容,并通过 ADB 自动操控设备。你只需要用自然语言下指令,比如:“打开小红书搜美食”、“在微博点赞那条热评”,AI 就能理解你的意图,规划步骤,一步步点击、滑动、输入,全程无需手动干预。
本文就带你用 Open-AutoGLM 实现一个实用小工具:自动关注指定抖音号。整个过程不需要写复杂脚本,也不需要逆向 App 接口,只需一条命令,让 AI 替你完成所有操作。
2. 核心原理:AI 是怎么“操控”手机的?
要理解这个工具是如何工作的,我们得先搞清楚 Open-AutoGLM 的底层逻辑。它的运行机制可以用三个词概括:感知 → 思考 → 行动。
2.1 多模态感知:AI 在“看”你的手机
每次执行任务时,AI 都会通过 ADB(Android Debug Bridge)获取以下信息:
- 当前屏幕截图(图像)
- 界面 UI 结构(XML 元素树,包含按钮、输入框等控件的位置和文本)
- 前台应用名称(Activity)
这些数据组合起来,构成了 AI 对当前手机状态的理解。就像人看到屏幕一样,它不仅能“看见”画面,还能“读懂”每个按钮叫什么、在哪里。
2.2 智能思考:拆解任务,规划路径
当你输入“打开抖音搜索 dycwo11nt61d 并关注他”时,AI 会在内部进行推理:
- 是否已安装抖音?如果没有,提示安装。
- 如果已安装,是否已启动?如果没开,先启动 App。
- 进入首页后,找到搜索入口(可能是放大镜图标或“发现”页)。
- 点击搜索框,调出键盘,输入账号名。
- 执行搜索,进入结果页,点击目标用户。
- 判断当前是否已关注,若未关注,则点击“关注”按钮。
这一系列思考过程通常隐藏在 <think> 标签中,不会直接输出,但它是整个自动化流程的大脑。
2.3 动作执行:真实模拟用户操作
想好了怎么做,AI 就开始动手。它会生成一个 JSON 格式的动作指令,通过 ADB 发送给手机,支持的操作包括:
Tap:点击坐标或元素Swipe:滑动Type:输入文字Launch:启动 AppBack/Home:返回或回到主屏Wait:等待加载Take_over:请求人工接管(如遇到验证码)
每执行一步,AI 都会重新截图、读取 UI,判断下一步该怎么走,形成一个闭环控制。
举个例子:当你要关注一个抖音号时,AI 可能会这样操作:
{ "action": "Tap", "element": [540, 1200] }这表示点击屏幕中间偏下的位置,可能是“关注”按钮;接着:
{ "action": "Wait", "duration": "3 seconds" }等待关注成功动画结束。
整个过程就像一位虚拟助手在替你操作手机,而且永远不会手抖点错。
3. 环境搭建:让电脑能“控制”手机
要想让 AI 替你操作手机,首先得建立连接。以下是完整部署流程。
3.1 准备工作
你需要准备以下几样东西:
- 一台 Android 7.0+ 的手机(真机或模拟器均可)
- 一台运行 Windows 或 macOS 的电脑
- Python 3.10+
- ADB 工具(Android SDK Platform Tools)
3.2 安装 ADB 并配置环境变量
Windows 用户:
- 下载 Platform Tools 并解压。
- 将解压路径添加到系统
PATH环境变量中。- 快捷键 Win + R → 输入
sysdm.cpl→ 高级 → 环境变量 → 编辑Path→ 添加路径。
- 快捷键 Win + R → 输入
- 打开命令行,输入:
若显示版本号即为安装成功。adb version
macOS 用户:
在终端执行:
export PATH=${PATH}:~/Downloads/platform-tools
(假设你把文件解压到了 Downloads 目录)
也可以将这行加入 .zshrc 或 .bash_profile 实现永久生效。
3.3 手机端设置
-
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您已处于开发者模式”。 -
开启 USB 调试
返回设置 → 开发者选项 → 启用“USB 调试”。 -
安装 ADB Keyboard
- 下载 ADB Keyboard APK 并安装。
- 进入“语言与输入法”设置,将默认输入法切换为 ADB Keyboard。
(这是关键!否则 AI 无法输入文字)
4. 部署 Open-AutoGLM 控制端
现在我们可以下载并配置本地控制程序了。
4.1 克隆项目并安装依赖
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .
4.2 连接设备
确保手机通过 USB 连接到电脑,然后运行:
adb devices
你应该能看到类似这样的输出:
List of devices attached
AERFUT4B08000806 device
记下设备 ID(如 AERFUT4B08000806),后面要用。
小贴士:如果你希望无线连接,可以用 WiFi 方式:
adb tcpip 5555 adb connect 192.168.x.x:5555断开 USB 后仍可远程控制,适合长期运行任务。
5. 实战演示:一键关注抖音号
终于到了最激动人心的部分——让 AI 替你关注抖音号!
5.1 命令行启动代理
假设你已经在云服务器上部署了 AutoGLM 模型服务(例如使用 vLLM),并且开放了端口 8800,那么你可以这样运行:
python main.py \
--device-id AERFUT4B08000806 \
--base-url http://your-server-ip:8800/v1 \
--model "autoglm-phone-9b" \
"打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
参数说明:
--device-id:通过adb devices获取的设备 ID--base-url:你的模型服务地址(必须是公网 IP 或内网可达)--model:模型名称,需与服务端一致- 最后的字符串:自然语言指令,越清晰越好
5.2 实际执行流程解析
AI 收到指令后,会自动执行以下步骤:
-
启动抖音 App
{ "action": "Launch", "package": "com.ss.android.ugc.aweme" } -
寻找搜索入口
- 分析 UI 结构,找到“发现”或“搜索”按钮
- 点击进入搜索页面
-
点击输入框并输入账号
- 使用
Tap点击搜索框 - 使用
Type输入dycwo11nt61d
- 使用
-
执行搜索
- 模拟点击“搜索”按钮或回车键
-
进入用户主页
- 在搜索结果中识别目标账号
- 点击头像或用户名进入主页
-
判断并点击关注
- 检查是否存在“已关注”标签
- 若未关注,则点击“关注”按钮
-
确认完成
- 等待 2 秒,再次检查 UI 是否出现“已关注”
- 输出任务完成日志
整个过程大约耗时 15–30 秒,完全自动化,无需任何人工干预。
6. 常见问题与解决方案
虽然 Open-AutoGLM 很强大,但在实际使用中也会遇到一些常见问题。以下是几个典型情况及应对方法。
6.1 文字输入失败
现象:AI 显示要输入账号,但屏幕上没有反应。
原因:未正确启用 ADB Keyboard。
解决办法:
- 确保已安装 ADB Keyboard APK
- 进入“设置 → 语言与输入法 → 默认键盘”,选择 ADB Keyboard
- 可尝试重启输入法服务
6.2 ADB 连接不稳定
现象:执行中途断连,任务中断。
建议:
- 优先使用 USB 连接,比 WiFi 更稳定
- 若必须用 WiFi,确保手机和电脑在同一局域网
- 定期检查
adb devices是否仍显示设备在线
6.3 模型响应慢或乱码
现象:AI 长时间无响应,或输出乱码指令。
可能原因:
- 服务端显存不足
max-model-len设置过小- 模型加载错误
排查建议:
- 检查 vLLM 启动参数是否包含:
--max-model-len 25480 --mm_processor_kwargs '{"max_pixels":5000000}' - 确认 GPU 显存足够(FP16 模式约需 20GB)
- 查看服务端日志是否有 OOM 错误
6.4 敏感操作拦截
现象:AI 在支付、登录等界面停止执行。
这是正常行为!出于安全考虑,Open-AutoGLM 在检测到敏感操作时会主动请求人工接管:
{ "action": "Take_over", "reason": "Detected login screen with password field" }
此时你需要手动完成验证,之后 AI 会继续后续操作。
7. 进阶玩法:不只是关注抖音号
你以为这只是个“关注工具”?其实它的潜力远不止于此。只要你能用语言描述清楚任务,Open-AutoGLM 几乎都能帮你完成。
7.1 批量操作神器
想象一下这些场景:
- “帮我把我关注的所有抖音博主都点赞一遍最新视频”
- “每天早上 8 点打开健康码打卡”
- “把小红书收藏夹里所有商品加购物车”
这些重复性高、规则明确的任务,都可以交给 AI 自动完成。
7.2 移动测试自动化
对于开发者来说,Open-AutoGLM 是绝佳的移动端自动化测试工具:
- 自动遍历 App 所有功能模块
- 模拟用户操作路径,记录异常行为
- 截图上报 Bug,生成测试报告
相比传统脚本,它不怕界面变化,真正做到了“语义级”自动化。
7.3 跨平台通用性
由于其基于多模态理解,同一个指令可以在不同品牌手机、不同系统版本上运行。哪怕抖音改版了 UI,AI 也能根据新布局重新规划路径,不像传统自动化脚本那样容易失效。
8. 总结:AI Agent 正在改变人机交互方式
通过这次实践,我们只用一条自然语言指令,就实现了对抖音号的全自动关注。整个过程无需编写代码、无需了解 App 内部结构,甚至不需要一直盯着手机。
这就是 Open-AutoGLM 的魅力所在:它把复杂的自动化技术封装成一句“人话”,让每个人都能轻松使用。
未来已来:也许不久之后,我们会习惯这样说:
“帮我订明天早上的高铁票。” “把上周拍的照片整理成相册发朋友圈。” “查一下最近三个月的消费记录,做个图表。”
而这些任务,都会由 AI 自动完成。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)