低成本实现手机自动化？Open-AutoGLM部署案例降本60%

本文介绍了如何在星图GPU平台上自动化部署智谱开源的手机端AI Agent框架Open-AutoGLM，以构建低成本手机自动化助手。该方案通过云端部署AI模型、本地控制端操作手机的混合架构，可将综合成本降低60%以上，典型应用场景包括自动执行App签到、浏览任务或自动化测试等重复性操作。

bsdr

280人浏览 · 2026-03-04 15:59:17

bsdr · 2026-03-04 15:59:17 发布

低成本实现手机自动化？Open-AutoGLM部署案例降本60%

你是不是也想过，要是手机能自己干活就好了？比如，每天自动帮你签到领积分、刷短视频、或者处理一些重复的点击操作。以前要实现这些，要么得自己写复杂的脚本，要么得花钱买现成的自动化工具，成本高不说，还经常因为手机系统更新而失效。

现在，有个开源项目让这件事变得简单又便宜。智谱AI开源的 Open-AutoGLM，特别是其中的 AutoGLM-Phone 框架，就是一个能“看懂”手机屏幕并“动手”操作的AI智能助理。你只需要像和朋友聊天一样，用自然语言告诉它“打开小红书搜美食”，它就能自己理解、规划并完成整个操作流程。

更棒的是，通过合理的云端部署方案，我们可以将这类AI自动化任务的成本大幅降低。今天，我就带你一步步搭建一个属于自己的低成本手机AI助手，看看如何将部署和运行成本优化60%以上。

1. 什么是Open-AutoGLM与AutoGLM-Phone？

简单来说，Open-AutoGLM 是智谱AI开源的一系列AI智能体框架，而 AutoGLM-Phone 是其中一个专门为操控安卓手机设计的“大脑”和“手”。

你可以把它想象成一个坐在你手机里的“数字员工”。这个员工有点特别：

它有眼睛（多模态理解）：它能“看到”你手机的屏幕截图，不仅能识别文字，还能理解图标、按钮布局和整个界面的意思。
它有大脑（意图解析与规划）：你用自然语言下指令，比如“把我的微信头像换成昨天拍的那张海边日落”，它能理解你的复杂意图，并拆解成一步步可执行的操作计划。
它有手（自动化操作）：通过ADB这个安卓调试工具，它可以模拟人的点击、滑动、输入文字等操作，精准地执行大脑规划好的每一步。

传统的手机自动化工具（如某些自动化测试框架或按键精灵）需要你精确地告诉它“点击坐标(500, 800)”或“查找‘登录’按钮的ID”。而AutoGLM-Phone的颠覆性在于，你只需要告诉它“做什么”，它自己会去思考“怎么做”。这大大降低了使用门槛，也让自动化脚本的适应性更强，不易因界面微调而失效。

2. 为什么能降本60%？云端部署的精打细算

让AI模型在本地手机或电脑上运行，对硬件要求很高，尤其是需要强大的显卡（GPU）。这对于个人或小团队来说，初始硬件投入就是一笔不小的开支。

成本优化的核心思路是：算力上云，控制端本地。

我们把最耗资源的AI模型（也就是“大脑”）部署在云端GPU服务器上，而本地电脑或手机只负责发送指令、接收屏幕画面和控制操作。这样带来几个显著的降本优势：

成本项	传统本地部署方案	云端+本地混合方案	节省估算
硬件投入	需购买高性能GPU电脑/服务器，一次性投入高。	只需普通电脑/手机，利用云端按需租用GPU。	节省80%+的初始硬件成本。
电费与运维	本地服务器24小时运行，电费高，需自行维护。	云端服务器按需启停，电费包含在服务费中，运维由云厂商负责。	节省运维人力，电费转化为可预测的弹性支出。
部署效率	环境配置复杂，依赖冲突多，耗时耗力。	使用云厂商的预置镜像或容器服务，分钟级部署。	部署时间从数天缩短到小时级，人力成本大幅降低。
资源利用率	本地GPU在空闲时依然消耗资源，利用率低。	云端GPU可随时释放，只为实际推理时间付费。	将固定成本转化为可变成本，资源利用率接近100%。

通过将模型服务部署在CSDN星图镜像广场这类提供预置AI镜像的平台，我们可以直接使用优化好的环境，免去了从零搭建的繁琐，进一步压低了时间和技术成本。综合算下来，整体拥有成本降低60%是一个很现实的数字。

3. 实战部署：搭建你的低成本手机AI助手

接下来，我们分两步走：第一步在云端部署AI模型服务（大脑），第二步在本地电脑配置控制端（小脑和手）。

3.1 第一步：云端部署AI模型服务（大脑）

我们选择在云服务器上部署模型，这里以使用CSDN星图的预置镜像为例，这是最快最省事的方式。

1. 准备云服务器

前往主流云服务平台（如阿里云、腾讯云等）。
选购一台带有GPU的实例（例如NVIDIA T4或V100）。对于AutoGLM-Phone-9B这类模型，一块T4显卡通常足够。
在创建实例时，关键一步是选择镜像。我们直接搜索并选择 CSDN星图 提供的与 vLLM 或 智谱AutoGLM 相关的预置镜像。这镜像已经装好了CUDA、Python、vLLM等所有依赖，开箱即用。

2. 一键启动模型服务 通过SSH登录到你的云服务器。由于使用了预置镜像，环境已经就绪，我们直接启动vLLM服务来加载AutoGLM-Phone模型。

# 假设你已经通过 git clone 或其它方式将模型文件放在了 /home/user/autoglm-phone-9b 目录下
# 启动 vLLM 推理服务
python -m vllm.entrypoints.openai.api_server \
    --model /home/user/autoglm-phone-9b \  # 你的模型路径
    --served-model-name autoglm-phone-9b \
    --tensor-parallel-size 1 \  # 如果只有一张GPU，就设为1
    --gpu-memory-utilization 0.9 \
    --max-model-len 8192 \
    --port 8800  # 指定服务端口

3. 验证服务 服务启动后，在云服务器本地测试一下：

curl http://localhost:8800/v1/models

如果返回了模型信息JSON，说明“大脑”已经成功上线。记住，你需要配置云服务器的安全组/防火墙，放行你指定的端口（如8800），这样你的本地电脑才能访问到它。

3.2 第二步：本地配置控制端与连接手机（小脑和手）

现在，我们在本地电脑上配置控制程序，并通过ADB连接安卓手机。

1. 硬件与环境准备

操作系统：Windows 10/11 或 macOS。
Python环境：安装Python 3.10或以上版本。
安卓设备：一部Android 7.0以上的手机（或模拟器），用于被控制。
ADB工具：这是连接电脑和手机的桥梁。
- Windows：下载platform-tools压缩包，解压后将其路径（例如 C:\platform-tools）添加到系统的Path环境变量中。打开命令提示符，输入adb version能显示版本号即成功。
- macOS/Linux：通常可通过Homebrew安装：brew install android-platform-tools。

2. 手机端设置 要让电脑控制手机，需要在手机上打开几个开关：

开启开发者模式：进入手机设置 > 关于手机，连续点击版本号7次，直到出现“您已处于开发者模式”的提示。
开启USB调试：返回设置，进入新出现的开发者选项，找到并开启USB调试。
安装ADB Keyboard（可选但推荐）：为了让AI能直接在手机上输入文字，需要安装一个特殊的输入法。下载ADB Keyboard的APK文件安装到手机，然后在设置 > 语言与输入法中，将默认键盘改为ADB Keyboard。

3. 部署本地控制端代码 本地控制端代码来自Open-AutoGLM项目。

# 克隆项目代码到本地
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装项目所需的Python库
pip install -r requirements.txt
# 以可编辑模式安装，方便后续修改
pip install -e .

4. 连接手机到电脑 有两种连接方式：

USB连接（最稳定）：用数据线连接手机和电脑。在电脑命令行执行：
```
adb devices
```
如果看到一串设备ID后面跟着device字样，说明连接成功。
WiFi连接（更灵活）：首先用USB线连接一次，执行：
```
adb tcpip 5555
```
手机会重启ADB服务并监听5555端口。然后拔掉USB线，确保手机和电脑在同一个WiFi下，执行：
```
adb connect 你的手机IP地址:5555
```
连接成功后，同样用adb devices查看。

4. 让AI动起来：执行你的第一个自动化指令

万事俱备，现在让我们命令AI开始工作！

4.1 通过命令行运行

在本地Open-AutoGLM项目目录下，打开终端，运行以下命令：

python main.py \
  --device-id <你的设备ID> \
  --base-url http://<你的云服务器IP地址>:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音，搜索用户‘科技美学’并关注他"

你需要替换几个参数：

--device-id：填写adb devices命令显示的那个设备ID。
--base-url：填写你云端模型服务的地址和端口。
最后的字符串：就是你想让AI执行的自然语言指令。

运行后，你会看到终端开始输出日志，同时你的手机会自动亮屏、解锁（如果未设置密码）、打开抖音、进入搜索栏、输入文字、点击搜索、进入用户主页、点击关注……整个过程完全自动，就像有个隐形人在操作。

4.2 通过Python API集成

如果你想将这项能力集成到自己的Python项目中，可以这样调用：

from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent

# 1. 连接手机
conn = ADBConnection()
success, message = conn.connect("192.168.1.100:5555")  # 你的手机IP
print(f"连接状态: {message}")

# 2. 创建AI代理
agent = PhoneAgent(
    device_id="192.168.1.100:5555",
    base_url="http://你的云服务器IP:8800/v1",
    model_name="autoglm-phone-9b"
)

# 3. 下达指令
task_result = agent.run_task("打开微信，找到与张三的聊天框，发送消息‘我马上到’。")
print(f"任务执行结果: {task_result}")

# 4. 断开连接
conn.disconnect("192.168.1.100:5555")

5. 效果展示与成本分析：它真的能省钱吗？

让我们看两个实际场景，对比一下成本。

场景一：电商运营的每日签到与浏览任务 某电商运营小组需要管理10个店铺账号，每个账号每天需要完成App签到、浏览推荐商品15分钟等任务。以往需要安排实习生手动操作，耗时约2人时/天。

传统人力成本：按实习生薪资折算，约60元/天。
Open-AutoGLM方案：
- 云端GPU服务器（按需使用，每天运行2小时）：费用约5元/天。
- 旧手机/模拟器作为设备：初始投入约500元（可重复使用），折旧成本可忽略。
- 月度成本：人力方案约1800元，AI方案约150元+少量电费，节省超过90%。

场景二：App自动化测试 开发团队需要对一款新App进行100个核心流程的回归测试。每次版本更新都需要执行。

传统方案：使用商业自动化测试平台或编写维护大量脚本，单次执行成本约2000元。
Open-AutoGLM方案：将测试用例转化为自然语言指令（如“注册新账号，绑定手机号，完成首次充值”）。部署一次模型服务后，可无限次执行。主要成本是编写指令的时间和云服务器按量计费。单次测试成本可降至几十元，长期节省显著。

效果展示：在实际使用中，AutoGLM-Phone对于结构清晰、操作逻辑常见的任务（如打开App、搜索、点击、滑动浏览、简单的表单填写）完成度很高。它的优势在于泛化能力：即使界面略有改动，它也能通过“视觉理解”重新定位按钮，而不像传统脚本会因为控件ID变化而彻底失效。

6. 总结与展望

通过将Open-AutoGLM的AI模型部署在云端，本地仅保留轻量化的控制端，我们成功构建了一个高性能、低门槛、低成本的手机自动化方案。这套方案的核心价值在于：

成本革命：将高昂的固定硬件投入转化为灵活的按需付费，综合成本下降60%以上，让中小团队甚至个人开发者都能轻松用上顶尖的AI自动化能力。
效率飞跃：自然语言交互极大降低了自动化脚本的编写和维护难度。从“写代码”到“说人话”，开发效率提升不止一个数量级。
运维简化：利用CSDN星图镜像广场等平台的预置环境，避免了深度学习环境部署的“地狱级”难度，真正做到开箱即用，聚焦业务本身。

当然，这项技术仍在发展中。对于极其复杂的多步骤任务、需要高度逻辑判断的场景，或者遇到验证码等强安全拦截时，可能还需要结合规则引擎或人工接管。但毫无疑问，它为我们打开了一扇新的大门：让AI真正成为我们数字生活的助手，替我们处理那些重复、琐碎的手机操作，从而释放出更多时间和精力。

未来，随着模型小型化和终端算力提升，或许“大脑”也能直接运行在手机上，实现完全离线的智能助理。但在此之前，云端协同的混合架构，无疑是当前最具性价比和实用性的选择。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

QClaw体验：微信里的本地AI助手，让智能触手可及

龙虾开发者社区

VibeVoice Pro流式TTS效果展示：300ms低延迟真实音频生成作品集

本文介绍了如何在星图GPU平台自动化部署VibeVoice Pro：零延迟流式音频引擎镜像，实现300ms低延迟的实时语音生成。该技术特别适用于智能助手对话场景，能够提供自然流畅的语音交互体验，显著提升用户满意度。

龙虾开发者社区

WorkBuddy使用心得：腾讯版“免部署小龙虾“的办公新体验

龙虾开发者社区

所有评论(0)

查看更多评论

bsdr

@weixin_35516624

已为社区贡献27条内容