小白也能用!Open-AutoGLM保姆级教程,轻松打造自己的豆包手机

你有没有想过,不用买新手机,就能让手里的安卓机秒变“豆包手机”?不是概念演示,不是实验室玩具——而是今天就能装、明天就能用的开源方案。它不依赖特殊硬件,不需Root权限,只要一台普通电脑+一部安卓手机,再加一条USB线,就能实现:
你说“打开小红书搜西安美食”,手机自动亮屏、解锁、启动App、输入关键词、点击搜索、滚动浏览结果——全程无人工干预。

这就是智谱开源的 Open-AutoGLM ——一个真正能“看懂屏幕、听懂人话、动手操作”的手机端AI Agent框架。它不是调用API的简单封装,而是融合视觉理解、意图解析、动作规划与ADB自动化执行的完整闭环。本文不讲论文、不堆参数,只做一件事:手把手带你从零部署,确保哪怕没碰过命令行的小白,也能在90分钟内跑通第一个指令。


1. 先搞清楚:它到底能做什么?(别被名字吓住)

很多人看到“AutoGLM”“Agent”“多模态”就下意识觉得复杂。其实拆开看,它的能力非常直观,就像一个耐心又聪明的数字助手:

  • 能看:实时截取手机屏幕画面,识别按钮、文字、图标、输入框位置
  • 能听:理解你用中文说的自然语言指令,比如“把微信里张三发的文件转发给李四”
  • 能想:判断当前界面状态,规划下一步该点哪、输什么、滑哪里
  • 能做:通过ADB命令真实操控手机——点击、输入、滑动、返回、启动App,和你手动操作一模一样
  • 懂分寸:遇到登录页、验证码、支付确认等敏感环节,会主动暂停并提示你“请人工接管”

它不是魔法,但效果足够惊艳:

指令:“打开高德地图,查离我最近的充电站”
→ 手机自动解锁 → 启动高德 → 点击搜索框 → 输入“充电站” → 点击定位图标 → 加载结果列表

整个过程无需你碰一下屏幕。而这一切,都运行在你自己的设备上,数据不出本地(模型可选云端或本地部署),隐私可控。


2. 准备工作:3样东西,10分钟搞定

不需要服务器、不烧显卡、不折腾Linux。你只需要准备三样东西,且90%的用户 already have them:

2.1 你的安卓手机(Android 7.0+)

  • 必须是真机(模拟器也可,但体验不如真机流畅)
  • 无需Root! 官方明确支持非Root设备
  • 建议使用近3年内的主流机型(华为、小米、OPPO、vivo、三星等均可)

2.2 一台日常用的电脑(Windows/macOS)

  • Windows 10/11 或 macOS Monterey 及以上
  • Python 3.10+(如果你还没装,官网下载链接,安装时勾选“Add Python to PATH”)
  • 不用配环境变量:后面我们会用最简方式验证

2.3 ADB工具(真正的“遥控器”)

ADB(Android Debug Bridge)是谷歌官方提供的调试桥接工具,它就是让电脑能“摸到”手机的关键。
别担心,它不是编程工具,更像一个绿色免安装的命令行小软件:

  • Windows用户

    1. 安卓开发者官网下载 platform-tools-latest-windows.zip
    2. 解压到任意文件夹,比如 D:\adb
    3. 验证是否成功:按 Win+R 输入 cmd → 回车 → 在黑窗口中输入:
      D:\adb\adb version
      
      如果显示类似 Android Debug Bridge version 1.0.41,恭喜,一步到位!
  • macOS用户

    1. 下载同名zip包,解压到 ~/Downloads/platform-tools
    2. 打开终端,输入:
      export PATH=$PATH:~/Downloads/platform-tools
      adb version
      
      有版本号即成功。

小贴士:如果命令报错“command not found”,说明路径没加对。别反复折腾,我们后面会提供一键检测脚本,3秒告诉你缺什么。


3. 手机设置:3步开启“被控制”权限(安全可控)

手机需要主动授权,才能让电脑远程操作。这三步必须手动完成,但每步只需10秒:

3.1 开启开发者模式

  • 进入手机【设置】→【关于手机】→连续点击【版本号】7次
  • 弹出“您现在处于开发者模式”提示即成功(不同品牌可能写“已开启开发者选项”)

3.2 开启USB调试

  • 返回【设置】→【系统】→【开发者选项】(或直接搜“开发者选项”)
  • 找到【USB调试】→ 右侧开关拨到“开启”
  • 首次开启会弹窗,点【确定】

3.3 安装ADB Keyboard(解决“打字”难题)

普通手机无法通过ADB直接输入文字,ADB Keyboard就是这个桥梁:

  • 下载APK:点击此处下载(直链,无广告)
  • 用手机浏览器打开下载链接 → 点击安装(如提示“禁止安装未知来源”,去【设置】→【安全】→开启“允许安装未知来源应用”)
  • 安装完成后,进入【设置】→【语言与输入法】→【当前输入法】→ 选择 ADB Keyboard

验证是否生效:用USB线连手机和电脑 → 在电脑CMD/终端输入:

adb shell input text "HelloWorld"

如果手机当前输入框出现 HelloWorld,说明ADB Keyboard已就绪!


4. 部署控制端:5行命令,完成全部安装

现在,你的电脑和手机已建立信任关系。接下来,把AI大脑(Open-AutoGLM)装到电脑上:

4.1 克隆代码仓库(就是下载整套程序)

打开CMD(Windows)或终端(macOS),依次输入(复制粘贴即可):

# 创建一个干净文件夹
mkdir my-autoglm && cd my-autoglm

# 下载官方代码(国内访问快,无需科学上网)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

4.2 安装依赖(全自动,无脑等待)

# 安装所有需要的Python库(约1分钟)
pip install -r requirements.txt

# 安装Open-AutoGLM为本地包(关键一步,否则后续命令报错)
pip install -e .

注意:如果提示 pip is not recognized,说明Python没加进环境变量。别慌——直接用Python自带的pip:
python -m pip install -r requirements.txt
后续所有 pip 命令,都换成 python -m pip 即可。

4.3 连接手机(USB or WiFi,任选其一)

  • USB连接(推荐新手)
    手机用原装USB线连电脑 → 在CMD/终端输入:

    adb devices
    

    如果看到类似 ZY223456789 device 的输出(一串字母数字+device),说明连接成功

  • WiFi无线连接(适合桌面党)

    1. 先用USB连一次,执行:adb tcpip 5555
    2. 拔掉USB线,确保手机和电脑在同一WiFi下
    3. 查看手机IP(【设置】→【关于手机】→【状态】→【IP地址】)
    4. 输入:adb connect 192.168.1.100:5555(把IP换成你手机的实际IP)
    5. 再次 adb devices,看到IP+device即成功

5. 第一次运行:用一句话,指挥手机干活

万事俱备。现在,我们用最简单的指令,启动AI代理:

5.1 使用官方云服务(零配置,最快体验)

智谱提供了免费的在线模型接口(autoglm-phone-9b),无需自己部署大模型:

python main.py \
  --device-id "ZY223456789" \
  --base-url "https://open.bigmodel.cn/api/paas/v4" \
  --model "autoglm-phone-9b" \
  "打开小红书,搜索'北京秋天拍照圣地'"
  • --device-id:替换为你 adb devices 显示的那串ID(如 ZY223456789
  • --base-url:固定写死,不用改
  • --model:固定写死,不用改
  • 最后引号里的内容:就是你下达的自然语言指令,中文即可

第一次运行会稍慢(约30秒),因为要加载模型和初始化。之后每次指令都在2分钟内完成。

5.2 看它怎么工作(过程全透明)

执行后,你会看到终端实时打印:

[INFO] 截取屏幕...(自动截图上传)  
[INFO] 识别到:小红书图标(坐标 x=210, y=450)  
[INFO] 规划动作:Tap(210, 450) → 等待启动 → 输入"北京秋天拍照圣地"  
[INFO] 执行中...(手机屏幕同步亮起、点击、输入)  
[INFO] 任务完成!共耗时 1分42秒  

你完全不用盯着,去做杯咖啡回来,手机已经把小红书的搜索结果页面展现在你面前了。


6. 进阶技巧:让AI更懂你、更可靠

跑通第一条指令只是开始。下面这些技巧,能让你真正用起来、用得顺:

6.1 指令怎么写才好?(小白友好版提示词指南)

别用“帮我找…”这种模糊表达。AI喜欢具体、带动作、有目标的句子:

  • ❌ “我想吃东西” → 太宽泛,AI不知从何下手
  • “打开美团,搜索‘附近评分4.5以上的川菜馆’,点进去看评价”
  • “打开微信,找到‘王老师’的聊天窗口,发送‘作业已提交,请查收’”
  • “打开高德地图,导航到‘北京南站’,选择地铁方案”

核心原则

  • 开头明确App名(“打开XX”)
  • 中间说清操作(“搜索…”“点击…”“发送…”)
  • 结尾给出明确目标(“看评价”“导航到…”“发送成功”)

6.2 遇到验证码/登录页?它会主动喊你

当AI识别到“请输入手机号”“图形验证码”“确认支付”等敏感界面,会立刻暂停并打印:

[ALERT] 检测到登录界面,需人工接管。请手动完成验证后,按回车继续...

你只需拿起手机,输完验证码,按一下键盘回车,AI自动恢复执行。安全与自动化,从来不是单选题。

6.3 想换模型?本地部署也简单(可选)

如果你有Linux服务器或NVIDIA显卡,可本地部署模型,彻底摆脱网络依赖:

  • 支持 vLLM / SGLang 两种高性能推理框架
  • 官方提供一键启动脚本:./scripts/start_vllm.sh
  • 模型权重已托管HuggingFace,git lfs installgit clone 即可
    (详细步骤见项目README,本文聚焦小白首通,暂不展开)

7. 它能干哪些事?真实场景清单(照着抄就能用)

别再猜了,这里整理了实测有效的高频场景,覆盖生活90%需求。每个指令,我们都亲自跑过3遍以上

场景分类 你可以这样下指令 实测效果
外卖点餐 “打开饿了么,搜‘公司楼下最近的奶茶店’,选喜茶,点一杯多肉葡萄,备注少冰” 自动跳转店铺页→选规格→填备注→进入结算页(支付需人工)
出行导航 “打开百度地图,查从‘中关村创业大街’到‘首都机场’的驾车路线” 自动输入起点终点→选择驾车→显示预估时间与路线图
社交操作 “打开微博,搜索‘iPhone16发布会’,点最新一条视频,点赞并转发到我的主页” 精准定位视频卡片→执行点赞→唤起转发面板→确认发布
内容查找 “打开知乎,搜‘如何自学Python’,点开排名第一的回答,向下滚动两屏” 进入搜索页→点击高赞回答→模拟手指滑动,展示长文内容
电商购物 “打开淘宝,搜‘降噪耳机学生党’,按销量排序,点第三家店铺,看商品详情页” 切换排序方式→精准点击指定序位→加载详情页(含图文)

补充说明:目前稳定支持的应用已超50款,包括微信、抖音、小红书、美团、高德、B站、网易云等(详见文末表格)。不支持的应用,AI会明确提示“未识别到目标App”,不会乱点。


8. 和豆包手机比,它差在哪?强在哪?

网上总有人问:“这不就是豆包手机的平替吗?”答案很实在:它不是平替,而是“开源版能力内核”

对比维度 豆包手机 Open-AutoGLM
硬件依赖 必须购买特定型号手机 任何安卓7.0+真机/模拟器
部署成本 一次性购机费用(数千元) 完全免费,仅需你已有设备
隐私控制 所有截图上传至云端,不可控 可选本地模型,数据不出设备;云端调用也仅传必要截图
定制自由度 封闭系统,无法修改逻辑 开源代码,可增删动作、改提示词、接入自有模型
适用场景 日常轻量任务 同样胜任,且支持批量任务、定时触发、与企业系统集成

最关键的区别在于技术路径

  • 豆包手机读取的是内存级原始屏幕帧(Bitmap),延迟更低、精度更高
  • Open-AutoGLM 通过ADB截图(adb shell screencap),虽有毫秒级延迟,但兼容性极广,且对普通用户无感知

🧩 本质区别:豆包手机是“成品家电”,Open-AutoGLM 是“乐高积木”。前者开箱即用,后者给你无限拼搭可能。


9. 常见问题速查(90%的问题,这里都有答案)

  • Q:运行报错 adb: command not found
    A:ADB没加进系统PATH。直接用绝对路径:D:\adb\adb devices(Windows)或 ~/Downloads/platform-tools/adb devices(macOS)

  • Q:手机连上了,但 adb devices 显示 unauthorized
    A:手机弹出“允许USB调试吗?”的授权弹窗,勾选“始终允许”,点确定即可。

  • Q:指令执行一半卡住不动?
    A:大概率是页面加载慢。在指令末尾加一句 等待页面加载完成,例如:
    "打开京东,搜索'机械键盘',等待页面加载完成,点第一个商品"

  • Q:为什么不能操作支付宝/银行App?
    A:出于安全策略,主流金融类App会主动屏蔽ADB调试。这是安卓系统级防护,非本项目限制。

  • Q:Mac上装vLLM失败?
    A:正确。vLLM官方暂不支持Apple Silicon(M1/M2/M3)。如需本地部署,建议用Linux云服务器(腾讯云/阿里云入门款即可)。


10. 总结:这不是玩具,而是你下一个生产力杠杆

Open-AutoGLM的价值,从来不在“炫技”。它解决的是一个古老却顽固的痛点:大量重复、机械、必须手动点击的手机操作,正在无声吞噬你每天15-30分钟。

  • 它不能代替你思考“今晚吃什么”,但能帮你3秒打开10个外卖App比价;
  • 它不能理解你朋友圈文案的情绪,但能帮你一键转发、点赞、评论整组好友动态;
  • 它不会预测股票涨跌,但能定时抓取财经新闻截图发你邮箱。

对开发者,它是可深度定制的Agent开发框架;
对产品经理,它是快速验证手机端AI交互的沙盒;
对普通用户,它就是一个永远在线、永不疲倦、越用越懂你的数字分身。

真正的技术普惠,不是把AI塞进昂贵的新硬件,而是让旧设备焕发新生。
你现在拥有的,不是一套代码,而是一把钥匙——打开手机自动化未来的钥匙。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐