智谱AutoGLM实战案例:自动打开抖音关注博主完整流程

你是不是也想过,如果能有个AI助手,动动嘴皮子就能让它帮你完成手机上那些重复、繁琐的操作,那该多省事?比如,你想关注一个抖音博主,但只知道他的抖音号,还得手动打开App、搜索、点关注……步骤虽简单,却也挺费时间。

今天,我就带你亲手实现这个想法。我们将使用智谱开源的 AutoGLM-Phone 框架,让它像一个真正的手机智能助理一样,听懂你的自然语言指令,然后自动操控你的手机,完成“打开抖音,搜索指定博主并关注”的全过程。

整个过程就像在指挥一个看不见的“数字员工”,你只需要告诉它“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”,剩下的点击、滑动、输入,全部交给AI。下面,我们就从零开始,一步步搭建这个神奇的AI手机助手。

1. 项目与环境准备:让电脑认识你的手机

在让AI动起来之前,我们需要搭建好沟通的桥梁。核心是让我们的电脑能够“看见”并“控制”手机屏幕,这需要借助一个名为 ADB 的工具。

1.1 安装与配置ADB工具

ADB是“Android Debug Bridge”的缩写,是谷歌官方提供的调试工具,也是我们实现手机自动化的基石。

第一步:下载ADB工具包 访问Android开发者官网的平台工具下载页面,根据你的电脑系统(Windows或macOS)下载对应的压缩包。

第二步:配置环境变量(以Windows为例) 为了让电脑在任何地方都能识别adb命令,我们需要把它添加到系统环境变量中。

  1. 将下载的压缩包解压到一个你容易找到的文件夹,例如 C:\platform-tools
  2. 在Windows搜索栏输入“环境变量”,选择“编辑系统环境变量”。
  3. 在弹出的窗口中点击“环境变量”。
  4. 在“系统变量”区域,找到并选中名为 Path 的变量,点击“编辑”。
  5. 点击“新建”,然后将你解压的ADB文件夹路径(例如 C:\platform-tools)添加进去。
  6. 一路点击“确定”保存。

验证安装: 打开命令提示符(CMD)或PowerShell,输入以下命令:

adb version

如果看到类似 Android Debug Bridge version 1.0.41 的版本信息,恭喜你,ADB安装成功!

1.2 准备安卓设备并开启调试

你需要一部安卓手机(系统7.0以上)或者一个安卓模拟器。这里以真机为例:

  1. 开启开发者模式:进入手机的“设置” > “关于手机”,连续点击“版本号”7次左右,直到出现“您已处于开发者模式”的提示。
  2. 启用USB调试:返回设置,找到新出现的“开发者选项”(通常在“系统”或“关于手机”附近),进入后开启“USB调试”开关。
  3. 连接电脑:用USB数据线将手机连接到电脑。此时手机可能会弹出“是否允许USB调试”的对话框,选择“允许”。

验证连接: 再次打开命令提示符,输入:

adb devices

如果连接成功,你会看到类似下面的输出,其中 xxxxxxxx 就是你的设备ID。

List of devices attached
xxxxxxxx        device

如果显示 unauthorized,请检查手机是否点击了“允许USB调试”。如果什么都没显示,请检查数据线、驱动或重新插拔。

1.3 获取AutoGLM控制端代码

AutoGLM的控制逻辑运行在我们的电脑上。我们需要从GitHub上获取官方开源代码。

打开命令提示符,导航到你希望存放项目的目录,然后执行:

# 克隆项目仓库到本地
git clone https://github.com/zai-org/Open-AutoGLM
# 进入项目文件夹
cd Open-AutoGLM

接下来,安装项目运行所需的所有Python库依赖:

# 安装依赖包
pip install -r requirements.txt
# 以“可编辑模式”安装当前项目,方便后续修改代码
pip install -e .

至此,你的本地控制端就准备好了。

2. 启动AI大脑:部署模型服务

AutoGLM的“智能”来自于其背后的视觉语言大模型。我们需要一个地方来运行这个模型。你有两种选择:使用智谱AI提供的在线API(最简单),或者在本地或云服务器上部署开源模型(更灵活、私密)。为了快速体验,我们选择第一种。

2.1 获取智谱AI的API密钥

  1. 访问智谱AI开放平台,注册并登录。
  2. 在控制台页面,找到并点击“API密钥”。
  3. 点击“创建新的API密钥”,给它起个名字(例如“AutoGLM测试”),然后创建。
  4. 创建成功后,立即复制生成的这一长串密钥(以 sk- 开头),并妥善保存。这个密钥相当于密码,不要泄露给他人。

有了API密钥,我们就获得了调用智谱云端AI模型能力的通行证。

3. 实战演练:让AI自动关注抖音博主

所有准备工作就绪,现在就是见证奇迹的时刻。我们将指挥AI完成一个具体任务:自动打开抖音,搜索指定抖音号的博主并点击关注。

3.1 理解任务与指令

我们的目标是关注抖音号为 dycwo11nt61d 的博主。对于人类来说,步骤是:

  1. 解锁手机,找到并打开“抖音”App。
  2. 点击顶部的搜索框。
  3. 输入抖音号 dycwo11nt61d
  4. 在搜索结果中,找到该博主并进入其主页。
  5. 点击“关注”按钮。

对于AI,我们只需要用一句自然语言概括这个意图。AutoGLM模型会自己分解这些步骤。

3.2 执行自动化命令

确保你的手机通过USB连接电脑,并且 adb devices 能正确识别设备。

Open-AutoGLM 项目目录下,打开命令提示符,执行以下命令。请将 <你的设备ID> 替换为 adb devices 列出的ID,将 <你的API密钥> 替换为你刚才复制的密钥。

python main.py \
  --device-id <你的设备ID> \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "<你的API密钥>" \
  "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

命令参数解读:

  • --device-id: 指定要控制的手机。
  • --base-url: 指定模型服务的地址,这里使用智谱官方的API端点。
  • --model: 指定使用的模型名称,autoglm-phone 是专门用于手机操作的模型。
  • --apikey: 你的身份验证密钥。
  • 最后的字符串:你给AI下达的自然语言指令。

3.3 观察AI的思考与行动

运行命令后,你的手机会自动亮屏(如果锁屏了,AI会先尝试解锁)。同时,在电脑的命令行窗口,你会看到类似下面的实时日志:

[INFO] 指令接收: 打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!
[THINK] 任务分解: 1. 解锁手机。2. 找到并启动抖音应用。3. 点击搜索图标。4. 输入抖音号。5. 在结果中点击用户。6. 在用户主页点击关注按钮。
[ACTION] 执行: tap(坐标) - 点击“抖音”应用图标。
[ACTION] 执行: tap(坐标) - 点击顶部搜索框。
[ACTION] 执行: text(“dycwo11nt61d”) - 在搜索框输入抖音号。
[ACTION] 执行: tap(坐标) - 点击搜索结果中的用户头像。
[ACTION] 执行: tap(坐标) - 点击红色“关注”按钮。
[SUCCESS] 任务完成!

你会亲眼看到手机屏幕被自动操作:应用被打开、搜索框被点击、文字被输入、页面跳转、最终点击关注。整个过程完全自动化,无需你触碰手机。

4. 原理浅析与扩展思考

看到这里,你可能既觉得神奇,又有些疑问:它到底是怎么做到的?还能做什么?

4.1 AutoGLM-Phone 是如何工作的?

你可以把整个过程想象成一个“感知-思考-行动”的循环:

  1. 感知(See):AI通过ADB实时获取手机屏幕截图。
  2. 思考(Think):将截图和你的指令一起,送入 autoglm-phone 这个多模态大模型。模型能“看懂”屏幕上有什么(图标、文字、按钮),并“理解”你的指令,然后规划出下一步应该做什么动作(比如:点哪里、输入什么)。
  3. 行动(Act):AI通过ADB将规划好的动作(如 tap(500, 800))发送给手机执行。
  4. 循环:执行一个动作后,屏幕内容变化,AI再次“感知”新屏幕,继续“思考”下一步,直到任务完成或无法继续。

4.2 你还能用它做什么?

这个框架的潜力远不止关注一个博主。任何你可以在手机上通过固定流程完成的任务,理论上都可以交给它。比如:

  • 生活助手:“帮我用美团点一份附近评分最高的披萨外卖,用支付宝付款。”
  • 信息收集:“打开微信,把公众号‘AI科技评论’最近三篇文章的标题和链接发到我的文件传输助手。”
  • 自动化测试:作为开发者,可以让它自动遍历你的App,进行简单的UI自动化测试。
  • 跨应用任务:“把相册里最新拍的三张照片,用微信发给我妈妈。”

它的核心价值在于,你不需要编写复杂的脚本或录制宏,只需要用说话的方式下达命令

4.3 遇到的问题与优化思路

在实际使用中,你可能会遇到一些问题,这里提供一些思路:

  • 任务失败或陷入循环:有时AI可能会卡在某一步,比如找不到元素、误识别。这是因为模型对复杂或非常规界面的理解还有限。你可以在指令中提供更详细的描述,或者分步下达指令。
  • 安全性考虑:框架内置了敏感操作(如支付、删除)确认机制,或支持人工接管。对于重要操作,务必保持关注。
  • 使用在线API的顾虑:如果你担心隐私或需要更高频使用,可以参考项目文档,在本地或自己的云服务器上部署开源的模型,实现完全私有的自动化。

5. 总结

通过这个实战案例,我们完成了一次从零开始的AI手机助手搭建。从配置ADB连接,到获取AI能力(API Key),最后用一句自然语言指令驱动AI完成了“打开抖音关注博主”的完整流程。

这不仅仅是完成了一个小任务,更是亲手触摸到了未来人机交互的一种可能:意图即命令,语言即程序。AutoGLM这类框架,正在努力缩小“人类想法”与“机器执行”之间的鸿沟。

当然,目前的技术还在发展初期,面对复杂多变的真实手机环境,它可能还会“犯傻”。但这一步的迈出至关重要。你可以以此为基础,去探索更多自动化的可能性,甚至阅读其开源代码,理解其原理并进行定制化改进。

技术的乐趣在于动手尝试。不妨现在就按照教程操作一遍,亲眼看看AI是如何成为你手机上的“隐形之手”的。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐