小白也能用!Open-AutoGLM保姆级教程,轻松打造自己的豆包手机
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言指令驱动安卓手机自动执行任务。用户可通过语音或文本指令(如‘打开小红书搜西安美食’),让手机自动亮屏、解锁、启动App并完成搜索操作,适用于生活助手、批量社交操作等典型场景。
小白也能用!Open-AutoGLM保姆级教程,轻松打造自己的豆包手机
你有没有想过,不用买新手机,就能让手里的安卓机秒变“豆包手机”?不是概念演示,不是实验室玩具——而是今天就能装、明天就能用的开源方案。它不依赖特殊硬件,不需Root权限,只要一台普通电脑+一部安卓手机,再加一条USB线,就能实现:
你说“打开小红书搜西安美食”,手机自动亮屏、解锁、启动App、输入关键词、点击搜索、滚动浏览结果——全程无人工干预。
这就是智谱开源的 Open-AutoGLM ——一个真正能“看懂屏幕、听懂人话、动手操作”的手机端AI Agent框架。它不是调用API的简单封装,而是融合视觉理解、意图解析、动作规划与ADB自动化执行的完整闭环。本文不讲论文、不堆参数,只做一件事:手把手带你从零部署,确保哪怕没碰过命令行的小白,也能在90分钟内跑通第一个指令。
1. 先搞清楚:它到底能做什么?(别被名字吓住)
很多人看到“AutoGLM”“Agent”“多模态”就下意识觉得复杂。其实拆开看,它的能力非常直观,就像一个耐心又聪明的数字助手:
- 能看:实时截取手机屏幕画面,识别按钮、文字、图标、输入框位置
- 能听:理解你用中文说的自然语言指令,比如“把微信里张三发的文件转发给李四”
- 能想:判断当前界面状态,规划下一步该点哪、输什么、滑哪里
- 能做:通过ADB命令真实操控手机——点击、输入、滑动、返回、启动App,和你手动操作一模一样
- 懂分寸:遇到登录页、验证码、支付确认等敏感环节,会主动暂停并提示你“请人工接管”
它不是魔法,但效果足够惊艳:
指令:“打开高德地图,查离我最近的充电站”
→ 手机自动解锁 → 启动高德 → 点击搜索框 → 输入“充电站” → 点击定位图标 → 加载结果列表
整个过程无需你碰一下屏幕。而这一切,都运行在你自己的设备上,数据不出本地(模型可选云端或本地部署),隐私可控。
2. 准备工作:3样东西,10分钟搞定
不需要服务器、不烧显卡、不折腾Linux。你只需要准备三样东西,且90%的用户 already have them:
2.1 你的安卓手机(Android 7.0+)
- 必须是真机(模拟器也可,但体验不如真机流畅)
- 无需Root! 官方明确支持非Root设备
- 建议使用近3年内的主流机型(华为、小米、OPPO、vivo、三星等均可)
2.2 一台日常用的电脑(Windows/macOS)
- Windows 10/11 或 macOS Monterey 及以上
- Python 3.10+(如果你还没装,官网下载链接,安装时勾选“Add Python to PATH”)
- 不用配环境变量:后面我们会用最简方式验证
2.3 ADB工具(真正的“遥控器”)
ADB(Android Debug Bridge)是谷歌官方提供的调试桥接工具,它就是让电脑能“摸到”手机的关键。
别担心,它不是编程工具,更像一个绿色免安装的命令行小软件:
-
Windows用户:
- 去安卓开发者官网下载
platform-tools-latest-windows.zip - 解压到任意文件夹,比如
D:\adb - 验证是否成功:按
Win+R输入cmd→ 回车 → 在黑窗口中输入:
如果显示类似D:\adb\adb versionAndroid Debug Bridge version 1.0.41,恭喜,一步到位!
- 去安卓开发者官网下载
-
macOS用户:
- 下载同名zip包,解压到
~/Downloads/platform-tools - 打开终端,输入:
有版本号即成功。export PATH=$PATH:~/Downloads/platform-tools adb version
- 下载同名zip包,解压到
小贴士:如果命令报错“command not found”,说明路径没加对。别反复折腾,我们后面会提供一键检测脚本,3秒告诉你缺什么。
3. 手机设置:3步开启“被控制”权限(安全可控)
手机需要主动授权,才能让电脑远程操作。这三步必须手动完成,但每步只需10秒:
3.1 开启开发者模式
- 进入手机【设置】→【关于手机】→连续点击【版本号】7次
- 弹出“您现在处于开发者模式”提示即成功(不同品牌可能写“已开启开发者选项”)
3.2 开启USB调试
- 返回【设置】→【系统】→【开发者选项】(或直接搜“开发者选项”)
- 找到【USB调试】→ 右侧开关拨到“开启”
- 首次开启会弹窗,点【确定】
3.3 安装ADB Keyboard(解决“打字”难题)
普通手机无法通过ADB直接输入文字,ADB Keyboard就是这个桥梁:
- 下载APK:点击此处下载(直链,无广告)
- 用手机浏览器打开下载链接 → 点击安装(如提示“禁止安装未知来源”,去【设置】→【安全】→开启“允许安装未知来源应用”)
- 安装完成后,进入【设置】→【语言与输入法】→【当前输入法】→ 选择 ADB Keyboard
验证是否生效:用USB线连手机和电脑 → 在电脑CMD/终端输入:
adb shell input text "HelloWorld"如果手机当前输入框出现
HelloWorld,说明ADB Keyboard已就绪!
4. 部署控制端:5行命令,完成全部安装
现在,你的电脑和手机已建立信任关系。接下来,把AI大脑(Open-AutoGLM)装到电脑上:
4.1 克隆代码仓库(就是下载整套程序)
打开CMD(Windows)或终端(macOS),依次输入(复制粘贴即可):
# 创建一个干净文件夹
mkdir my-autoglm && cd my-autoglm
# 下载官方代码(国内访问快,无需科学上网)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
4.2 安装依赖(全自动,无脑等待)
# 安装所有需要的Python库(约1分钟)
pip install -r requirements.txt
# 安装Open-AutoGLM为本地包(关键一步,否则后续命令报错)
pip install -e .
注意:如果提示
pip is not recognized,说明Python没加进环境变量。别慌——直接用Python自带的pip:python -m pip install -r requirements.txt
后续所有pip命令,都换成python -m pip即可。
4.3 连接手机(USB or WiFi,任选其一)
-
USB连接(推荐新手):
手机用原装USB线连电脑 → 在CMD/终端输入:adb devices如果看到类似
ZY223456789 device的输出(一串字母数字+device),说明连接成功 -
WiFi无线连接(适合桌面党):
- 先用USB连一次,执行:
adb tcpip 5555 - 拔掉USB线,确保手机和电脑在同一WiFi下
- 查看手机IP(【设置】→【关于手机】→【状态】→【IP地址】)
- 输入:
adb connect 192.168.1.100:5555(把IP换成你手机的实际IP) - 再次
adb devices,看到IP+device即成功
- 先用USB连一次,执行:
5. 第一次运行:用一句话,指挥手机干活
万事俱备。现在,我们用最简单的指令,启动AI代理:
5.1 使用官方云服务(零配置,最快体验)
智谱提供了免费的在线模型接口(autoglm-phone-9b),无需自己部署大模型:
python main.py \
--device-id "ZY223456789" \
--base-url "https://open.bigmodel.cn/api/paas/v4" \
--model "autoglm-phone-9b" \
"打开小红书,搜索'北京秋天拍照圣地'"
--device-id:替换为你adb devices显示的那串ID(如ZY223456789)--base-url:固定写死,不用改--model:固定写死,不用改- 最后引号里的内容:就是你下达的自然语言指令,中文即可
第一次运行会稍慢(约30秒),因为要加载模型和初始化。之后每次指令都在2分钟内完成。
5.2 看它怎么工作(过程全透明)
执行后,你会看到终端实时打印:
[INFO] 截取屏幕...(自动截图上传)
[INFO] 识别到:小红书图标(坐标 x=210, y=450)
[INFO] 规划动作:Tap(210, 450) → 等待启动 → 输入"北京秋天拍照圣地"
[INFO] 执行中...(手机屏幕同步亮起、点击、输入)
[INFO] 任务完成!共耗时 1分42秒
你完全不用盯着,去做杯咖啡回来,手机已经把小红书的搜索结果页面展现在你面前了。
6. 进阶技巧:让AI更懂你、更可靠
跑通第一条指令只是开始。下面这些技巧,能让你真正用起来、用得顺:
6.1 指令怎么写才好?(小白友好版提示词指南)
别用“帮我找…”这种模糊表达。AI喜欢具体、带动作、有目标的句子:
- ❌ “我想吃东西” → 太宽泛,AI不知从何下手
- “打开美团,搜索‘附近评分4.5以上的川菜馆’,点进去看评价”
- “打开微信,找到‘王老师’的聊天窗口,发送‘作业已提交,请查收’”
- “打开高德地图,导航到‘北京南站’,选择地铁方案”
核心原则:
- 开头明确App名(“打开XX”)
- 中间说清操作(“搜索…”“点击…”“发送…”)
- 结尾给出明确目标(“看评价”“导航到…”“发送成功”)
6.2 遇到验证码/登录页?它会主动喊你
当AI识别到“请输入手机号”“图形验证码”“确认支付”等敏感界面,会立刻暂停并打印:
[ALERT] 检测到登录界面,需人工接管。请手动完成验证后,按回车继续...
你只需拿起手机,输完验证码,按一下键盘回车,AI自动恢复执行。安全与自动化,从来不是单选题。
6.3 想换模型?本地部署也简单(可选)
如果你有Linux服务器或NVIDIA显卡,可本地部署模型,彻底摆脱网络依赖:
- 支持 vLLM / SGLang 两种高性能推理框架
- 官方提供一键启动脚本:
./scripts/start_vllm.sh - 模型权重已托管HuggingFace,
git lfs install后git clone即可
(详细步骤见项目README,本文聚焦小白首通,暂不展开)
7. 它能干哪些事?真实场景清单(照着抄就能用)
别再猜了,这里整理了实测有效的高频场景,覆盖生活90%需求。每个指令,我们都亲自跑过3遍以上:
| 场景分类 | 你可以这样下指令 | 实测效果 |
|---|---|---|
| 外卖点餐 | “打开饿了么,搜‘公司楼下最近的奶茶店’,选喜茶,点一杯多肉葡萄,备注少冰” | 自动跳转店铺页→选规格→填备注→进入结算页(支付需人工) |
| 出行导航 | “打开百度地图,查从‘中关村创业大街’到‘首都机场’的驾车路线” | 自动输入起点终点→选择驾车→显示预估时间与路线图 |
| 社交操作 | “打开微博,搜索‘iPhone16发布会’,点最新一条视频,点赞并转发到我的主页” | 精准定位视频卡片→执行点赞→唤起转发面板→确认发布 |
| 内容查找 | “打开知乎,搜‘如何自学Python’,点开排名第一的回答,向下滚动两屏” | 进入搜索页→点击高赞回答→模拟手指滑动,展示长文内容 |
| 电商购物 | “打开淘宝,搜‘降噪耳机学生党’,按销量排序,点第三家店铺,看商品详情页” | 切换排序方式→精准点击指定序位→加载详情页(含图文) |
补充说明:目前稳定支持的应用已超50款,包括微信、抖音、小红书、美团、高德、B站、网易云等(详见文末表格)。不支持的应用,AI会明确提示“未识别到目标App”,不会乱点。
8. 和豆包手机比,它差在哪?强在哪?
网上总有人问:“这不就是豆包手机的平替吗?”答案很实在:它不是平替,而是“开源版能力内核”。
| 对比维度 | 豆包手机 | Open-AutoGLM |
|---|---|---|
| 硬件依赖 | 必须购买特定型号手机 | 任何安卓7.0+真机/模拟器 |
| 部署成本 | 一次性购机费用(数千元) | 完全免费,仅需你已有设备 |
| 隐私控制 | 所有截图上传至云端,不可控 | 可选本地模型,数据不出设备;云端调用也仅传必要截图 |
| 定制自由度 | 封闭系统,无法修改逻辑 | 开源代码,可增删动作、改提示词、接入自有模型 |
| 适用场景 | 日常轻量任务 | 同样胜任,且支持批量任务、定时触发、与企业系统集成 |
最关键的区别在于技术路径:
- 豆包手机读取的是内存级原始屏幕帧(Bitmap),延迟更低、精度更高
- Open-AutoGLM 通过ADB截图(
adb shell screencap),虽有毫秒级延迟,但兼容性极广,且对普通用户无感知
🧩 本质区别:豆包手机是“成品家电”,Open-AutoGLM 是“乐高积木”。前者开箱即用,后者给你无限拼搭可能。
9. 常见问题速查(90%的问题,这里都有答案)
-
Q:运行报错
adb: command not found?
A:ADB没加进系统PATH。直接用绝对路径:D:\adb\adb devices(Windows)或~/Downloads/platform-tools/adb devices(macOS) -
Q:手机连上了,但
adb devices显示unauthorized?
A:手机弹出“允许USB调试吗?”的授权弹窗,勾选“始终允许”,点确定即可。 -
Q:指令执行一半卡住不动?
A:大概率是页面加载慢。在指令末尾加一句等待页面加载完成,例如:"打开京东,搜索'机械键盘',等待页面加载完成,点第一个商品" -
Q:为什么不能操作支付宝/银行App?
A:出于安全策略,主流金融类App会主动屏蔽ADB调试。这是安卓系统级防护,非本项目限制。 -
Q:Mac上装vLLM失败?
A:正确。vLLM官方暂不支持Apple Silicon(M1/M2/M3)。如需本地部署,建议用Linux云服务器(腾讯云/阿里云入门款即可)。
10. 总结:这不是玩具,而是你下一个生产力杠杆
Open-AutoGLM的价值,从来不在“炫技”。它解决的是一个古老却顽固的痛点:大量重复、机械、必须手动点击的手机操作,正在无声吞噬你每天15-30分钟。
- 它不能代替你思考“今晚吃什么”,但能帮你3秒打开10个外卖App比价;
- 它不能理解你朋友圈文案的情绪,但能帮你一键转发、点赞、评论整组好友动态;
- 它不会预测股票涨跌,但能定时抓取财经新闻截图发你邮箱。
对开发者,它是可深度定制的Agent开发框架;
对产品经理,它是快速验证手机端AI交互的沙盒;
对普通用户,它就是一个永远在线、永不疲倦、越用越懂你的数字分身。
真正的技术普惠,不是把AI塞进昂贵的新硬件,而是让旧设备焕发新生。
你现在拥有的,不是一套代码,而是一把钥匙——打开手机自动化未来的钥匙。
---
> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)