Open-AutoGLM保姆级教程:10分钟让AI帮你操作手机,零基础也能玩转
本文介绍了如何在星图GPU平台上自动化部署智谱开源的Open-AutoGLM镜像,快速搭建手机端AI Agent。该框架能通过自然语言指令,让AI自动操作安卓手机,完成如自动搜索菜谱、播放音乐等日常任务,实现“动口不动手”的智能交互体验。
Open-AutoGLM保姆级教程:10分钟让AI帮你操作手机,零基础也能玩转
想象一下这个场景:你正忙着做饭,突然想用手机搜个菜谱。你只需要对着电脑说一句“打开小红书搜红烧肉做法”,你的手机就会自动亮屏、解锁、打开App、输入关键词、展示结果——全程无需你动手。
这不是科幻电影,而是今天就能用上的技术。Open-AutoGLM,一个由智谱AI开源的手机智能体框架,正在让这种“动口不动手”的操作变成现实。
你可能觉得这听起来很复杂,需要懂编程、会配置环境、还得有高性能电脑。别担心,这篇教程就是为你准备的。无论你是完全零基础的小白,还是想快速上手的开发者,我都会用最直白的话,带你在10分钟内完成部署,让AI成为你的手机管家。
1. 它到底是什么?能做什么?
简单来说,Open-AutoGLM是一个“手机遥控器”,但这个遥控器不是用手按的,而是用“说话”来控制的。它的核心是一个能看懂手机屏幕的AI模型(AutoGLM-Phone-9B)和一个执行操作的框架(Phone Agent)。
它的工作原理分三步:
- 看屏幕:通过ADB(一个安卓调试工具)实时获取你手机的屏幕截图。
- 想事情:AI模型分析截图,理解当前界面有什么(按钮、文字、图标),并结合你的指令(比如“打开微信”),思考下一步该点哪里。
- 做动作:通过ADB模拟你的手指,执行点击、滑动、输入等操作。
它能帮你做什么?
- 日常偷懒:一句“打开网易云音乐播放我的日推”,音乐就响起来了。
- 信息收集:“打开淘宝,搜索无线耳机,按销量排序,截图前5个商品”。
- 社交管理:“打开微博,给特别关注的最新动态点个赞”。
- 自动化测试:如果你是App开发者,可以用它自动测试各种功能流程。
听起来很酷,对吧?接下来,我们从零开始,把它装起来。
2. 准备工作:三样东西备齐就行
在动手之前,你需要准备好三样东西:一台电脑、一部安卓手机、一个能上网的环境。我会把每一步都拆解得清清楚楚。
2.1 第一步:准备你的电脑环境
你的电脑可以是Windows、Mac或者Linux。首先,确保安装了Python。
- 检查Python版本:打开电脑的命令行(Windows叫“命令提示符”或“PowerShell”,Mac/Linux叫“终端”)。
- 输入
python --version或python3 --version并回车。 - 如果显示版本是 3.10或更高(比如3.10.12, 3.11.4),那就没问题。如果版本太低或者没安装,去Python官网下载最新版安装即可。
2.2 第二步:安装“遥控器”——ADB工具
ADB(Android Debug Bridge)是让电脑和手机“对话”的桥梁。安装它就像给电脑装个手机驱动程序。
下载ADB:
- 访问谷歌官方的平台工具下载页面。
- 根据你的电脑系统(Windows、Mac、Linux)下载对应的压缩包。
- 下载后,把它解压到一个你记得住的文件夹,比如
C:\platform-tools或~/Downloads/platform-tools。
配置环境变量(让电脑能找到它):
- Windows用户:
- 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
- 在“系统变量”里找到并选中
Path,点击“编辑”。 - 点击“新建”,把刚才解压的
platform-tools文件夹的完整路径粘贴进去(例如C:\platform-tools)。 - 一路点击“确定”保存。
- Mac/Linux用户:
- 打开终端,输入以下命令(请把
~/Downloads/platform-tools替换成你的实际路径):echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc # 如果你用zsh # 或者 echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.bash_profile # 如果你用bash - 然后输入
source ~/.zshrc(或source ~/.bash_profile)让配置生效。
- 打开终端,输入以下命令(请把
验证安装: 打开命令行,输入 adb version 然后回车。如果出现一串版本信息,恭喜你,ADB安装成功!
2.3 第三步:设置你的安卓手机
你的手机需要是Android 7.0或以上版本。
-
开启开发者模式:
- 进入手机“设置” -> “关于手机”。
- 找到“版本号”,连续快速点击7次,直到出现“您已处于开发者模式”的提示。
-
开启USB调试:
- 返回“设置”,现在你应该能看到多了一个“开发者选项”或“开发人员选项”。
- 点进去,找到“USB调试”并打开它。
- 非常重要:同时找到“USB调试(安全设置)”或“通过USB验证应用”之类的选项,也把它打开。很多朋友卡在这一步,AI能打开App但点不了屏幕,就是因为这个开关没开。
-
安装ADB键盘(为了输入中文):
- 在电脑浏览器下载 ADB Keyboard的APK文件。
- 用USB线连接手机和电脑,在命令行进入你下载APK的目录,执行:
adb install ADBKeyboard.apk - 安装成功后,在手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”里,能看到“ADB Keyboard”选项。不需要把它设为默认,系统会在需要时自动调用它。
好了,万事俱备,只欠东风。接下来我们安装核心的Open-AutoGLM。
3. 10分钟快速部署:让AI跑起来
整个过程就像安装一个软件,跟着步骤走就行。
3.1 下载项目代码
在命令行里,执行以下命令,把项目代码“克隆”到你的电脑上:
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
如果提示 git 命令找不到,你需要先安装Git。
3.2 创建独立的Python环境(推荐)
为了避免和你电脑上其他Python项目冲突,我们创建一个独立的“小房间”来安装这个项目的依赖。
# Windows用户
python -m venv venv
venv\Scripts\activate
# Mac/Linux用户
python3 -m venv venv
source venv/bin/activate
执行成功后,命令行前面会出现 (venv) 字样,表示你已经在这个“小房间”里了。
3.3 安装项目依赖
在 (venv) 环境下,运行以下命令来安装所有必需的软件包:
pip install -r requirements.txt
pip install -e .
这个过程需要下载一些东西,请保持网络通畅。如果下载慢,可以在命令后面加上 -i https://pypi.tuna.tsinghua.edu.cn/simple 使用国内的镜像源加速。
至此,控制端的代码就部署好了。但AI的大脑——模型,还需要部署。你有两个选择,我强烈建议新手选第一个。
4. 选择你的“AI大脑”:云端还是本地?
Open-AutoGLM需要一个AI模型来理解屏幕和思考。你可以用别人搭好的云端服务(省事),也可以自己在家部署(更自由)。
4.1 方案一:使用云端API(新手首选,最快)
直接用智谱AI等公司提供的在线服务,你只需要一个API密钥。
- 获取API密钥:
- 访问智谱AI开放平台,注册账号。
- 在控制台创建一个API Key。新用户通常有免费额度。
- 测试连接:
- 用USB线连接手机和电脑,确保
adb devices命令能列出你的设备。 - 在Open-AutoGLM项目目录下,运行:
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API密钥" "打开设置" - 如果看到手机自动打开了“设置”应用,那么恭喜你,成功了!整个过程可能只需几秒钟。
- 用USB线连接手机和电脑,确保
优点:无需强大硬件,5分钟就能用上。 缺点:需要网络,且长期使用有费用(按调用次数计费)。
4.2 方案二:本地部署模型(适合有显卡的玩家)
如果你有一张显存足够大(建议16GB以上,如RTX 3090/4090)的显卡,可以把模型下载到本地运行,响应更快,也没有后续费用。
- 使用vLLM部署(推荐):
- 确保你的显卡驱动和CUDA已正确安装。
- 在命令行运行以下命令启动模型服务(第一次运行会下载约18GB的模型文件):
# Linux/Mac python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 # Windows (CMD) python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model zai-org/AutoGLM-Phone-9B ^ --port 8000 ^ --max-model-len 25480
- 测试本地服务:
- 服务启动后,在另一个命令行窗口测试:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开设置"
- 服务启动后,在另一个命令行窗口测试:
优点:响应快,数据隐私好,一次部署长期使用。 缺点:对硬件要求高,部署过程稍复杂。
无论你选择哪种方案,现在你的AI助手应该已经能听懂指令并操作手机了。让我们玩点更实际的。
5. 实战演练:三种方式指挥你的AI
5.1 玩法一:命令行直接下指令(最常用)
就像在跟一个超级助手对话,你说,它做。
执行单个任务:
# 使用云端API
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API密钥" "打开网易云音乐,搜索‘周杰伦’并播放第一首歌"
# 使用本地模型(如果你部署了的话)
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开网易云音乐,搜索‘周杰伦’并播放第一首歌"
进入交互模式(连续对话): 直接运行 python main.py ... 但不加最后的指令,你会进入一个交互式命令行。你可以连续输入指令,AI会依次执行。
> 打开微信
> 找到文件传输助手
> 发送消息:测试AI助手
> 回到手机桌面
5.2 玩法二:写Python脚本(适合开发者)
如果你想把它集成到自己的自动化程序里,或者执行更复杂的逻辑,可以使用Python API。
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
# 1. 配置AI模型(这里以云端为例)
config = ModelConfig(
base_url="https://open.bigmodel.cn/api/paas/v4",
model_name="autoglm-phone",
api_key="你的API密钥"
)
# 2. 创建AI助手实例
my_assistant = PhoneAgent(model_config=config)
# 3. 让它执行一系列任务
tasks = [
"解锁手机屏幕",
"打开淘宝",
"在搜索框输入‘夏季短袖’",
"点击搜索按钮",
"滑动屏幕浏览前3个商品"
]
for task in tasks:
print(f"正在执行: {task}")
result = my_assistant.run(task)
print(f"结果: {result}\n")
5.3 玩法三:控制远程手机(进阶技巧)
你的手机不一定非得用USB连着电脑。只要手机和电脑在同一个Wi-Fi下,就可以无线控制。
- 先用USB线连接一次,开启无线调试:
adb tcpip 5555 - 拔掉USB线,使用Wi-Fi连接:
adb connect 你的手机IP地址:5555 # 例如:adb connect 192.168.1.105:5555 - 在命令中指定设备ID:
python main.py --device-id 192.168.1.105:5555 --base-url ... --model ... "打开相机"
6. 避坑指南:我踩过的雷,你别再踩
在实际使用中,你可能会遇到一些小问题。别慌,大部分都有现成的解决办法。
6.1 问题:adb devices 显示 unauthorized 或没设备
- 原因:手机没有授权电脑的调试请求。
- 解决:检查手机屏幕,应该会弹出一个“允许USB调试吗?”的对话框,勾选“始终允许”并确定。如果没弹出,重启
adb服务:adb kill-server然后adb start-server。
6.2 问题:AI能打开App,但点不了屏幕上的按钮
- 原因:99%是因为没开启“USB调试(安全设置)”。
- 解决:进入手机“开发者选项”,仔细找找,把“USB调试(安全设置)”、“通过USB验证应用”、“USB安装”这类选项全部打开。
6.3 问题:AI无法在输入框里输入中文
- 原因:ADB Keyboard没有正确工作。
- 解决:确认ADB Keyboard已安装。在手机“设置”->“语言与输入法”->“虚拟键盘”中,确保“ADB Keyboard”是开启状态。不需要把它设为默认输入法。
6.4 问题:运行命令时出现中文乱码(Windows常见)
- 解决:在运行命令前,先设置一下命令行编码。
- CMD:
chcp 65001然后运行你的命令。 - PowerShell:在脚本最前面加上
$env:PYTHONIOENCODING="utf-8"。
- CMD:
6.5 问题:任务执行到一半卡住了
- 可能原因:页面加载慢、弹出广告、网络问题。
- 解决:
- 在指令中增加等待,比如“打开美团,等待3秒,搜索奶茶店”。
- 遇到弹窗,可以手动关闭,然后让AI继续。
- 对于复杂任务,拆分成多个简单指令分步执行。
7. 让AI更“聪明”的使用技巧
AI毕竟不是真人,给它清晰的指令,它能完成得更好。
-
指令要具体:
- 模糊:“帮我看看微信”。
- 具体:“打开微信,查看‘文件传输助手’聊天窗口的最新一条消息”。
-
复杂任务分步走: 对于“打开淘宝,找个200块左右的蓝牙耳机,看看评价,然后加入购物车”这种多步骤任务,可以分成两三条指令来发,成功率更高。
-
利用好“人工接管”功能: 系统很聪明,遇到登录界面、支付密码、验证码等敏感或复杂操作时,它会暂停并提示你手动处理。你处理完后,它可以从断点继续执行。这是保障安全的重要机制。
-
了解它的能力边界:
- 擅长:常规的点击、滑动、输入、启动/关闭应用。对主流App(微信、淘宝、抖音等)支持很好。
- 不擅长/需谨慎:涉及人脸识别、指纹支付、银行转账等极高安全级别的操作。切勿让AI处理此类敏感信息。
8. 总结:你的数字生活新起点
通过这篇教程,你已经成功解锁了一项“超能力”——用自然语言控制手机。从环境配置、模型选择到实战指令和问题排查,我们走完了从零到一的完整路径。
回顾一下核心价值:
- 极致便捷:动动嘴皮子就能完成手机操作,释放双手。
- 高度自动化:可集成到脚本中,实现定时、批量任务。
- 强大可扩展:开发者可以基于此框架,构建更复杂的自动化流程。
最后几点叮嘱:
- 安全第一:不要在指令中包含密码、支付信息等敏感内容。对于敏感操作,务必使用“人工接管”或亲自处理。
- 遵守规则:请将这项技术用于提高个人效率等合法合规的用途,尊重各平台的服务条款。
- 保持探索:Open-AutoGLM仍在快速发展,关注其GitHub仓库,未来会有更多强大的功能。
技术的目的,是让人生活得更轻松。现在,你已经拥有了一个24小时待命、绝对服从、且不知疲倦的手机助手。接下来,用它去创造、去优化、去享受更高效的数字生活吧。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)