低成本实现手机自动化?Open-AutoGLM部署案例降本60%

你是不是也想过,要是手机能自己干活就好了?比如,每天自动帮你签到领积分、刷短视频、或者处理一些重复的点击操作。以前要实现这些,要么得自己写复杂的脚本,要么得花钱买现成的自动化工具,成本高不说,还经常因为手机系统更新而失效。

现在,有个开源项目让这件事变得简单又便宜。智谱AI开源的 Open-AutoGLM,特别是其中的 AutoGLM-Phone 框架,就是一个能“看懂”手机屏幕并“动手”操作的AI智能助理。你只需要像和朋友聊天一样,用自然语言告诉它“打开小红书搜美食”,它就能自己理解、规划并完成整个操作流程。

更棒的是,通过合理的云端部署方案,我们可以将这类AI自动化任务的成本大幅降低。今天,我就带你一步步搭建一个属于自己的低成本手机AI助手,看看如何将部署和运行成本优化60%以上。

1. 什么是Open-AutoGLM与AutoGLM-Phone?

简单来说,Open-AutoGLM 是智谱AI开源的一系列AI智能体框架,而 AutoGLM-Phone 是其中一个专门为操控安卓手机设计的“大脑”和“手”。

你可以把它想象成一个坐在你手机里的“数字员工”。这个员工有点特别:

  1. 它有眼睛(多模态理解):它能“看到”你手机的屏幕截图,不仅能识别文字,还能理解图标、按钮布局和整个界面的意思。
  2. 它有大脑(意图解析与规划):你用自然语言下指令,比如“把我的微信头像换成昨天拍的那张海边日落”,它能理解你的复杂意图,并拆解成一步步可执行的操作计划。
  3. 它有手(自动化操作):通过ADB这个安卓调试工具,它可以模拟人的点击、滑动、输入文字等操作,精准地执行大脑规划好的每一步。

传统的手机自动化工具(如某些自动化测试框架或按键精灵)需要你精确地告诉它“点击坐标(500, 800)”或“查找‘登录’按钮的ID”。而AutoGLM-Phone的颠覆性在于,你只需要告诉它“做什么”,它自己会去思考“怎么做”。这大大降低了使用门槛,也让自动化脚本的适应性更强,不易因界面微调而失效。

2. 为什么能降本60%?云端部署的精打细算

让AI模型在本地手机或电脑上运行,对硬件要求很高,尤其是需要强大的显卡(GPU)。这对于个人或小团队来说,初始硬件投入就是一笔不小的开支。

成本优化的核心思路是:算力上云,控制端本地。

我们把最耗资源的AI模型(也就是“大脑”)部署在云端GPU服务器上,而本地电脑或手机只负责发送指令、接收屏幕画面和控制操作。这样带来几个显著的降本优势:

成本项 传统本地部署方案 云端+本地混合方案 节省估算
硬件投入 需购买高性能GPU电脑/服务器,一次性投入高。 只需普通电脑/手机,利用云端按需租用GPU。 节省80%+的初始硬件成本。
电费与运维 本地服务器24小时运行,电费高,需自行维护。 云端服务器按需启停,电费包含在服务费中,运维由云厂商负责。 节省运维人力,电费转化为可预测的弹性支出。
部署效率 环境配置复杂,依赖冲突多,耗时耗力。 使用云厂商的预置镜像或容器服务,分钟级部署。 部署时间从数天缩短到小时级,人力成本大幅降低。
资源利用率 本地GPU在空闲时依然消耗资源,利用率低。 云端GPU可随时释放,只为实际推理时间付费。 将固定成本转化为可变成本,资源利用率接近100%。

通过将模型服务部署在CSDN星图镜像广场这类提供预置AI镜像的平台,我们可以直接使用优化好的环境,免去了从零搭建的繁琐,进一步压低了时间和技术成本。综合算下来,整体拥有成本降低60%是一个很现实的数字。

3. 实战部署:搭建你的低成本手机AI助手

接下来,我们分两步走:第一步在云端部署AI模型服务(大脑),第二步在本地电脑配置控制端(小脑和手)。

3.1 第一步:云端部署AI模型服务(大脑)

我们选择在云服务器上部署模型,这里以使用CSDN星图的预置镜像为例,这是最快最省事的方式。

1. 准备云服务器

  • 前往主流云服务平台(如阿里云、腾讯云等)。
  • 选购一台带有GPU的实例(例如NVIDIA T4或V100)。对于AutoGLM-Phone-9B这类模型,一块T4显卡通常足够。
  • 在创建实例时,关键一步是选择镜像。我们直接搜索并选择 CSDN星图 提供的与 vLLM智谱AutoGLM 相关的预置镜像。这镜像已经装好了CUDA、Python、vLLM等所有依赖,开箱即用。

2. 一键启动模型服务 通过SSH登录到你的云服务器。由于使用了预置镜像,环境已经就绪,我们直接启动vLLM服务来加载AutoGLM-Phone模型。

# 假设你已经通过 git clone 或其它方式将模型文件放在了 /home/user/autoglm-phone-9b 目录下
# 启动 vLLM 推理服务
python -m vllm.entrypoints.openai.api_server \
    --model /home/user/autoglm-phone-9b \  # 你的模型路径
    --served-model-name autoglm-phone-9b \
    --tensor-parallel-size 1 \  # 如果只有一张GPU,就设为1
    --gpu-memory-utilization 0.9 \
    --max-model-len 8192 \
    --port 8800  # 指定服务端口

3. 验证服务 服务启动后,在云服务器本地测试一下:

curl http://localhost:8800/v1/models

如果返回了模型信息JSON,说明“大脑”已经成功上线。记住,你需要配置云服务器的安全组/防火墙,放行你指定的端口(如8800),这样你的本地电脑才能访问到它。

3.2 第二步:本地配置控制端与连接手机(小脑和手)

现在,我们在本地电脑上配置控制程序,并通过ADB连接安卓手机。

1. 硬件与环境准备

  • 操作系统:Windows 10/11 或 macOS。
  • Python环境:安装Python 3.10或以上版本。
  • 安卓设备:一部Android 7.0以上的手机(或模拟器),用于被控制。
  • ADB工具:这是连接电脑和手机的桥梁。
    • Windows:下载platform-tools压缩包,解压后将其路径(例如 C:\platform-tools)添加到系统的Path环境变量中。打开命令提示符,输入adb version能显示版本号即成功。
    • macOS/Linux:通常可通过Homebrew安装:brew install android-platform-tools

2. 手机端设置 要让电脑控制手机,需要在手机上打开几个开关:

  1. 开启开发者模式:进入手机设置 > 关于手机,连续点击版本号7次,直到出现“您已处于开发者模式”的提示。
  2. 开启USB调试:返回设置,进入新出现的开发者选项,找到并开启USB调试
  3. 安装ADB Keyboard(可选但推荐):为了让AI能直接在手机上输入文字,需要安装一个特殊的输入法。下载ADB Keyboard的APK文件安装到手机,然后在设置 > 语言与输入法中,将默认键盘改为ADB Keyboard

3. 部署本地控制端代码 本地控制端代码来自Open-AutoGLM项目。

# 克隆项目代码到本地
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装项目所需的Python库
pip install -r requirements.txt
# 以可编辑模式安装,方便后续修改
pip install -e .

4. 连接手机到电脑 有两种连接方式:

  • USB连接(最稳定):用数据线连接手机和电脑。在电脑命令行执行:
    adb devices
    
    如果看到一串设备ID后面跟着device字样,说明连接成功。
  • WiFi连接(更灵活):首先用USB线连接一次,执行:
    adb tcpip 5555
    
    手机会重启ADB服务并监听5555端口。然后拔掉USB线,确保手机和电脑在同一个WiFi下,执行:
    adb connect 你的手机IP地址:5555
    
    连接成功后,同样用adb devices查看。

4. 让AI动起来:执行你的第一个自动化指令

万事俱备,现在让我们命令AI开始工作!

4.1 通过命令行运行

在本地Open-AutoGLM项目目录下,打开终端,运行以下命令:

python main.py \
  --device-id <你的设备ID> \
  --base-url http://<你的云服务器IP地址>:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音,搜索用户‘科技美学’并关注他"

你需要替换几个参数:

  • --device-id:填写adb devices命令显示的那个设备ID。
  • --base-url:填写你云端模型服务的地址和端口。
  • 最后的字符串:就是你想让AI执行的自然语言指令。

运行后,你会看到终端开始输出日志,同时你的手机会自动亮屏、解锁(如果未设置密码)、打开抖音、进入搜索栏、输入文字、点击搜索、进入用户主页、点击关注……整个过程完全自动,就像有个隐形人在操作。

4.2 通过Python API集成

如果你想将这项能力集成到自己的Python项目中,可以这样调用:

from phone_agent.adb import ADBConnection, list_devices
from phone_agent.agent import PhoneAgent

# 1. 连接手机
conn = ADBConnection()
success, message = conn.connect("192.168.1.100:5555")  # 你的手机IP
print(f"连接状态: {message}")

# 2. 创建AI代理
agent = PhoneAgent(
    device_id="192.168.1.100:5555",
    base_url="http://你的云服务器IP:8800/v1",
    model_name="autoglm-phone-9b"
)

# 3. 下达指令
task_result = agent.run_task("打开微信,找到与张三的聊天框,发送消息‘我马上到’。")
print(f"任务执行结果: {task_result}")

# 4. 断开连接
conn.disconnect("192.168.1.100:5555")

5. 效果展示与成本分析:它真的能省钱吗?

让我们看两个实际场景,对比一下成本。

场景一:电商运营的每日签到与浏览任务 某电商运营小组需要管理10个店铺账号,每个账号每天需要完成App签到、浏览推荐商品15分钟等任务。以往需要安排实习生手动操作,耗时约2人时/天。

  • 传统人力成本:按实习生薪资折算,约60元/天。
  • Open-AutoGLM方案
    • 云端GPU服务器(按需使用,每天运行2小时):费用约5元/天。
    • 旧手机/模拟器作为设备:初始投入约500元(可重复使用),折旧成本可忽略。
    • 月度成本:人力方案约1800元,AI方案约150元+少量电费,节省超过90%

场景二:App自动化测试 开发团队需要对一款新App进行100个核心流程的回归测试。每次版本更新都需要执行。

  • 传统方案:使用商业自动化测试平台或编写维护大量脚本,单次执行成本约2000元。
  • Open-AutoGLM方案:将测试用例转化为自然语言指令(如“注册新账号,绑定手机号,完成首次充值”)。部署一次模型服务后,可无限次执行。主要成本是编写指令的时间和云服务器按量计费。单次测试成本可降至几十元,长期节省显著

效果展示: 在实际使用中,AutoGLM-Phone对于结构清晰、操作逻辑常见的任务(如打开App、搜索、点击、滑动浏览、简单的表单填写)完成度很高。它的优势在于泛化能力:即使界面略有改动,它也能通过“视觉理解”重新定位按钮,而不像传统脚本会因为控件ID变化而彻底失效。

6. 总结与展望

通过将Open-AutoGLM的AI模型部署在云端,本地仅保留轻量化的控制端,我们成功构建了一个高性能、低门槛、低成本的手机自动化方案。这套方案的核心价值在于:

  1. 成本革命:将高昂的固定硬件投入转化为灵活的按需付费,综合成本下降60%以上,让中小团队甚至个人开发者都能轻松用上顶尖的AI自动化能力。
  2. 效率飞跃:自然语言交互极大降低了自动化脚本的编写和维护难度。从“写代码”到“说人话”,开发效率提升不止一个数量级。
  3. 运维简化:利用CSDN星图镜像广场等平台的预置环境,避免了深度学习环境部署的“地狱级”难度,真正做到开箱即用,聚焦业务本身。

当然,这项技术仍在发展中。对于极其复杂的多步骤任务、需要高度逻辑判断的场景,或者遇到验证码等强安全拦截时,可能还需要结合规则引擎或人工接管。但毫无疑问,它为我们打开了一扇新的大门:让AI真正成为我们数字生活的助手,替我们处理那些重复、琐碎的手机操作,从而释放出更多时间和精力。

未来,随着模型小型化和终端算力提升,或许“大脑”也能直接运行在手机上,实现完全离线的智能助理。但在此之前,云端协同的混合架构,无疑是当前最具性价比和实用性的选择。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐