零基础也能懂!Open-AutoGLM手机智能体保姆级教程
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的安卓手机自动化操作。用户无需编程基础,即可让AI理解屏幕、规划步骤并执行任务,典型应用场景包括自动打开App、跨应用信息提取与发送、电商比价等重复性高频操作。
零基础也能懂!Open-AutoGLM手机智能体保姆级教程
你有没有想过,让AI替你点开微信、搜索商品、填写表单、甚至帮你抢演唱会门票?不是写代码,不是配脚本,就只是像跟朋友说话一样说一句:“帮我把小红书里那篇咖啡探店笔记发到朋友圈”,事情就办成了。
Open-AutoGLM 就是这样一个“能看会想还会动手”的手机智能体。它不依赖App内嵌SDK,不挑机型,不需越狱,只要一部安卓手机+一台普通电脑,就能让AI真正接管你的手机屏幕——不是模拟点击,而是理解界面、规划步骤、精准执行。
更关键的是:它开源、免费、文档完整,连没写过一行Python的新手,按着步骤走,2小时内就能让它帮你自动刷完一条抖音。
这篇教程,就是为你写的。没有术语轰炸,不讲模型原理,只告诉你每一步该点什么、输什么、等多久、出错了怎么救。从拆开手机包装盒开始,到让AI第一次成功打开应用,全程手把手。
准备好了吗?我们开始。
1. 先搞懂它到底能干什么(别跳过这步)
1.1 它不是“自动化工具”,而是“能看懂屏幕的AI助手”
很多同学一看到“手机自动化”,第一反应是Tasker或Auto.js——写规则、设条件、抓控件ID。但Open-AutoGLM完全不同:
- 它用眼睛看:每次操作前,自动截一张当前手机屏幕图,交给视觉语言模型分析
- 它用脑子想:结合你的自然语言指令(比如“找到美团里评分4.8以上的川菜馆”),理解UI结构、识别按钮位置、判断当前页面状态
- 它用手操作:通过ADB命令,真实点击、滑动、输入文字,就像你亲手在操作
所以它不怕App更新——按钮挪了位置?没关系,它重新看图再找;界面换主题了?没问题,它照样认得清“搜索框”在哪。
1.2 真实能做的5件事(附小白友好说明)
| 你能说的话 | 它实际做了什么 | 新手注意点 |
|---|---|---|
| “打开淘宝,搜‘无线降噪耳机’,点销量最高的那个” | 自动启动淘宝→点搜索框→输入文字→点搜索→分析商品列表→定位“销量”排序按钮→点击→等待刷新→识别第一个商品卡片→点击进入 | 全程无需你碰手机,但首次使用需提前登录淘宝账号 |
| “把相册里今天拍的3张照片发给微信里的‘家人群’” | 打开相册→筛选今日照片→长按选中3张→点分享→在微信联系人里搜索“家人群”→点进去→发送 | 需确保微信已登录且“家人群”名称准确(支持模糊匹配) |
| “打开设置,关掉蓝牙和定位服务” | 进入系统设置→滑动查找“蓝牙”开关→点击关闭→返回上一级→再找“位置信息”→关闭总开关 | 系统设置菜单因品牌而异(华为/小米/三星),它能自适应识别 |
| “在Chrome里打开知乎,搜‘如何自学Python’,把前两条回答复制下来” | 启动Chrome→输入知乎网址→等待加载→点顶部搜索框→输入关键词→点搜索→滚动页面→识别前两条回答区域→长按选择→复制文本 | 复制内容会暂存到电脑剪贴板,你可直接粘贴到记事本 |
| “帮我订明天上午10点从北京南到上海虹桥的高铁票” | 打开12306 App→点“车票预订”→选择日期为明天→出发地输“北京南”→到达地输“上海虹桥”→点查询→选中首班G字头列车→提交订单→跳转支付页(停在此步,需你手动支付) | 涉及支付等敏感操作,它会主动暂停并提示你接管 |
划重点:它不是万能的,但对重复性高、步骤清晰、界面稳定的任务,成功率超过90%。第一次运行建议选“打开Chrome搜Python”这种简单任务,建立信心。
2. 准备工作:3样东西,10分钟搞定
别被“ADB”“vLLM”吓到。这一步只需要你:
- 插一根数据线
- 点几下手机设置
- 在电脑上敲3条命令
全部操作都在你眼皮底下,错了一键重来。
2.1 你的设备清单(检查一下)
| 设备 | 要求 | 怎么确认? |
|---|---|---|
| 安卓手机 | Android 7.0(2016年发布)及以上 | 设置 → 关于手机 → 查看“Android版本” |
| 电脑 | Windows/macOS/Linux(推荐Win10/11或Mac M1/M2) | 任意系统都行,Win用户建议用PowerShell(比CMD更稳) |
| USB数据线 | 必须支持数据传输(很多充电线不行!) | 连上电脑后,手机通知栏是否弹出“正在传输文件”?没弹=换线 |
小技巧:如果手机连电脑没反应,试试换个USB口,或重启手机开发者选项(后面教)。
2.2 手机端:3步开启“被控制权限”
这是最关键的一步,但只需点5下:
-
打开开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!” -
开启USB调试
返回设置主菜单 → 找到“开发者选项” → 开启“USB调试”
部分手机(如华为、小米)还需额外开启:- “USB调试(安全设置)”
- “MIUI优化” → 关闭(小米)
- “仅充电模式下允许ADB调试” → 开启(华为)
-
安装并启用ADB键盘(解决中文输入问题)
- 用电脑浏览器打开这个链接下载APK:https://github.com/senzhk/ADBKeyBoard/releases/download/v1.0/ADBKeyboard.apk
- 用数据线把APK文件传到手机,用文件管理器安装
- 安装后:设置 → 语言与输入法 → 虚拟键盘 → 找到“ADB Keyboard” → 启用 + 设为默认
完成后,手机通知栏应显示“USB调试已连接”,且输入法切换时能看到“ADB Keyboard”。
2.3 电脑端:装好ADB,1分钟验证
ADB是连接手机的“翻译官”,必须先装好:
-
Windows用户:
下载地址:https://developer.android.com/tools/releases/platform-tools
解压到C:\platform-tools→ 右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建 → 粘贴C:\platform-tools
打开PowerShell,输入:adb version显示版本号即成功。
-
Mac用户:
打开终端,输入:brew install android-platform-tools adb version -
Linux用户(Ubuntu):
sudo apt update && sudo apt install android-tools-adb adb version
验证连接:手机用数据线连电脑 → PowerShell/终端输入:
adb devices
如果看到一串字母数字(如 ZY223456789 device),说明一切就绪。
如果显示 unauthorized,请回到手机,点“允许USB调试”。
3. 部署控制端:5条命令,零配置完成
Open-AutoGLM的控制程序就在GitHub上,我们把它“搬”到你电脑里。全程不用改任何代码,纯复制粘贴。
3.1 下载代码 + 安装依赖(复制这5行)
打开PowerShell(Win)或终端(Mac/Linux),逐行执行(别合并):
# 1. 创建一个干净的文件夹(避免污染其他项目)
mkdir auto-glm && cd auto-glm
# 2. 从GitHub下载最新代码
git clone https://github.com/zai-org/Open-AutoGLM.git
# 3. 进入项目目录
cd Open-AutoGLM
# 4. 创建Python虚拟环境(隔离依赖,强烈推荐!)
python -m venv venv
# 5. 激活环境并安装所有需要的包
# Windows用户:
venv\Scripts\activate
# Mac/Linux用户:
source venv/bin/activate
# 安装依赖(这步约2分钟,请耐心)
pip install -r requirements.txt
pip install -e .
执行完最后一条命令,光标回到$或PS>,没有报错,就成功了。
验证小测试:在激活的环境中输入
python -c "from phone_agent import PhoneAgent; print(' 控制端安装成功')"输出即通过。
3.2 启动AI大脑:用现成云服务(新手首选)
本地跑大模型?显卡不够、下载慢、还容易崩。新手第一课:先用别人搭好的“AI服务器”。
我们推荐两个免部署、免GPU、注册即用的服务:
| 服务 | 特点 | 注册后怎么做 |
|---|---|---|
| z.ai(推荐) | 专为AutoGLM优化,响应快,支持中文指令 | 注册 → 进入控制台 → 复制API Key → 记下来 |
| ModelScope(魔搭) | 阿里开源平台,免费额度充足 | 搜索“AutoGLM-Phone-9B” → 点“在线体验” → 复制API地址 |
为什么推荐云服务?
- 本地跑9B模型至少需要24GB显存(RTX4090级别)
- 云服务1秒启动,你省下2小时下载+配置时间
- 教程后续所有命令,都默认用z.ai(最稳)
4. 第一次运行:让AI打开Chrome(30秒见证奇迹)
现在,你离“AI替你操作手机”只剩最后一步。深呼吸,照做:
4.1 获取你的设备ID(1秒钟)
还在PowerShell/终端里,输入:
adb devices
输出类似:
List of devices attached
ZY223456789 device
记住 ZY223456789 这串字符(你的设备ID,每台手机不同)。
4.2 发出第一条指令(复制粘贴,改两处)
在同一个终端窗口,输入(把 <你的设备ID> 和 <你的API Key> 替换成你的真实值):
python main.py \
--device-id ZY223456789 \
--base-url https://api.z.ai/api/paas/v4 \
--model autoglm-phone-9b-multilingual \
--apikey your_api_key_here \
"打开Chrome浏览器"
替换说明:
ZY223456789→ 你上一步看到的设备IDyour_api_key_here→ 你在z.ai控制台复制的密钥(一长串字母数字,别漏字符)
如果一切顺利,你会看到:
- 终端快速滚动日志(别怕,这是AI在思考)
- 手机屏幕自动亮起 → Chrome图标被点击 → 浏览器打开
- 终端最后输出
Task completed successfully!
恭喜!你刚刚完成了全球首个“用中文指挥AI操作手机”的实验。
4.3 如果卡住了?3个高频问题自查
| 现象 | 原因 | 1分钟解决法 |
|---|---|---|
终端报错 Connection refused 或 timeout |
API地址或Key错了 | 重新去z.ai复制Key,检查地址是否为 https://api.z.ai/api/paas/v4 |
手机没反应,终端停在 Waiting for screenshot... |
ADB没连上 | 重新执行 adb devices,确认设备显示为 device(不是 unauthorized) |
| Chrome打开了,但没执行搜索 | 指令太简略 | 改成 "打开Chrome浏览器,并在地址栏输入 https://www.python.org" |
成功后,立刻试试进阶指令:
python main.py --device-id ZY223456789 --base-url https://api.z.ai/api/paas/v4 --model autoglm-phone-9b-multilingual --apikey your_key "在Chrome里搜索‘Open-AutoGLM 教程’"
5. 进阶玩法:从“单次任务”到“随叫随到”
学会第一条指令只是开始。下面这些功能,能让它真正成为你的“手机外脑”。
5.1 交互模式:像聊天一样连续下指令
不想每次输一堆参数?开启“对话模式”:
python main.py \
--device-id ZY223456789 \
--base-url https://api.z.ai/api/paas/v4 \
--model autoglm-phone-9b-multilingual \
--apikey your_key
回车后,你会看到一个 > 提示符。现在,直接输入自然语言:
> 打开微信
> 给张三发消息“周末聚餐地点定啦,在三里屯”
> 打开小红书
> 搜索“露营装备推荐”
> 点赞第一条笔记
每输一条,AI自动执行,完成后继续等你下一条。适合探索性操作。
5.2 WiFi无线控制:摆脱数据线束缚
想让AI在隔壁房间操作你的手机?用WiFi:
- 手机和电脑连同一个WiFi
- 手机开启“无线调试”(设置 → 开发者选项 → 无线调试 → 开启)
- 电脑终端输入:
(adb connect 192.168.1.100:5555192.168.1.100是手机IP,可在手机WiFi设置里看到) - 验证:
adb devices应显示192.168.1.100:5555 device - 后续所有命令,把
--device-id ZY223456789换成--device-id 192.168.1.100:5555
从此,你躺在沙发上,用笔记本就能指挥客厅里的手机。
5.3 敏感操作保护:支付/密码场景自动暂停
当AI遇到需要输入密码、确认支付、读取短信验证码时,它会主动停止,并在终端提示:
检测到敏感操作:即将跳转至支付宝支付页
请手动完成支付,完成后按回车继续...
你只需:
- 拿起手机,完成支付
- 回到电脑,按一下回车键
- AI继续执行下一步
安全、可控,绝不会擅自提交你的银行卡。
6. 常见问题速查(遇到就翻,不求甚解)
| 问题 | 最可能原因 | 一句话解决 |
|---|---|---|
adb devices 不显示设备 |
USB调试没开,或数据线不支持传输 | 重进开发者选项,确认“USB调试”已开;换根线再试 |
执行时提示 Input method not set |
ADB Keyboard没设为默认 | 手机设置 → 语言与输入法 → 把ADB Keyboard设为默认 |
| 中文输入变成乱码 | Windows系统编码问题 | 在PowerShell里先输:$env:PYTHONIOENCODING="utf-8",再运行命令 |
| AI点了错误位置,或找不到按钮 | 屏幕分辨率太高(如2K屏),截图模糊 | 在手机设置 → 显示 → 缩放与字体 → 调小“显示大小” |
| 想换用自己部署的模型 | 你有GPU服务器 | 把 --base-url 改成 http://你的IP:8000/v1,删掉 --apikey |
记住:90%的问题,重启ADB+重连手机就能解决。
命令:adb kill-server && adb start-server && adb devices
7. 你可以这样用它(灵感来自真实用户)
别只停留在“打开App”。看看这些普通人已经实现的场景:
- 学生党:每天早8点,自动打开教务系统 → 查询课表 → 截图发到班级群
- 电商运营:批量给10个新品视频加字幕 → 用AI识别画面+语音 → 自动生成SRT文件
- 银发族:语音说“给我儿子打视频”,AI自动打开微信 → 找到联系人 → 点击视频通话
- 程序员:测试新App时,让AI自动执行50遍“注册-登录-下单”流程,生成崩溃日志报告
它的能力边界,取决于你敢不敢想。而第一步,永远是——让它成功打开Chrome。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)