Open-AutoGLM保姆级教学：连ADB都不会也能学会

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的手机自动化操作。用户仅需输入中文指令，即可让AI自动完成抖音关注、小红书搜索、电商比价等真实任务，大幅降低移动端AI应用门槛。

ELSON麦香包

218人浏览 · 2026-01-31 02:00:16

ELSON麦香包 · 2026-01-31 02:00:16 发布

Open-AutoGLM保姆级教学：连ADB都不会也能学会

你有没有想过，手机能自己“看懂”屏幕、听懂你说话，然后像真人一样点开APP、输入文字、滑动页面、完成任务？不是科幻电影，是今天就能上手的现实——Open-AutoGLM，一个真正让AI在手机上“动手做事”的智能体框架。

更关键的是：它不要求你会写代码，不强制你背命令，甚至不需要你搞懂什么是ADB、什么是vLLM、什么是端口映射。这篇教程专为“零基础但想立刻用起来”的人设计。哪怕你上次接触命令行还是在大学计算机课上按错Ctrl+C，只要愿意花45分钟，就能让AI替你刷抖音、搜小红书、比价下单、关注博主、发朋友圈……全程用大白话指挥，它来执行。

这不是概念演示，而是可复现、可落地、已开源的真实系统。下面，我们就从“完全没碰过ADB”开始，一步步带你搭起属于自己的手机AI助理。

1. 先搞明白：它到底能帮你做什么？

别急着装软件，先看清价值——这决定了你愿不愿意往下走。

Open-AutoGLM（准确说是其核心框架 AutoGLM-Phone）不是一个聊天机器人，而是一个会看、会想、会点、会输、会判断的手机操作员。它的能力链条非常清晰：

看：实时截取手机屏幕，用视觉语言模型理解当前界面（比如识别出“小红书首页”“搜索框”“点赞按钮”“商品价格标签”）
听：接收你用中文说的自然指令，比如“帮我把这张截图里的地址发到微信给张三”
想：自动拆解任务逻辑（先打开微信→找到张三→点击输入框→粘贴地址→发送）
做：通过ADB向手机发送精准操作指令（点击坐标、滑动轨迹、输入文字、返回上一页）
判：遇到登录页、验证码、弹窗等敏感操作时主动暂停，等你人工确认后再继续

举几个真实能跑通的例子：

“打开美团，搜‘附近2公里内评分4.8以上的川菜馆’，选第一家，复制电话号码发我微信”
“进淘宝，搜‘iPhone15保护壳磨砂黑’，按销量排序，把前3个商品标题和价格截图发我”
“打开抖音，搜用户‘dycwo11nt61d’，点进主页，点关注按钮”

所有这些，你只需要在命令行里敲一句中文，回车，然后看着手机自己动起来。没有脚本、不写XPath、不录UI自动化流程——纯靠语言驱动。

1.1 它为什么能做到？三个关键模块缺一不可

模块	作用	小白友好解释
视觉语言模型（VLM）	理解屏幕截图内容	就像给AI配了一双眼睛+一个大脑，它能认出图标、文字、按钮位置，知道“放大镜图标=搜索”，“红色购物车=下单入口”
任务规划器（Planner）	把你的指令拆成可执行步骤	你说“订外卖”，它自动规划：打开APP→点首页搜索→输入菜名→选店铺→加购→结算→填地址→支付
ADB执行引擎	真正操控手机硬件	相当于AI的手指，能模拟点击、滑动、长按、输入文字，所有操作都通过标准安卓调试协议完成

注意：ADB本身只是安卓官方提供的调试工具（类似手机的“维修接口”），我们不用学它全部命令，只需让它连上、被AI调用即可。后面所有ADB操作，都会封装成一行命令或图形化提示，你照着点就行。

2. 服务器端部署：租一台“AI大脑”，5分钟搞定

Open-AutoGLM需要强大算力运行大模型，所以得把“思考部分”放在云端服务器，本地只负责“传指令”和“传画面”。好消息是：现在租服务器比买奶茶还简单。

2.1 选一台带显卡的云服务器（3分钟）

推荐平台：算力云（gpu.ai-galaxy.cn）
理由：价格透明、显卡型号全、国内访问快、新用户送券（注册即领，省下首小时费用）。

操作步骤：

访问注册链接（含优惠券） → 填邮箱注册
登录后进入控制台 → 点“创建实例”
关键配置选择（直接抄作业）：
- 显卡：选 A100-40G 或 A40（40G显存是稳定运行9B模型的黄金线）
- 系统镜像：选 Ubuntu 22.04 LTS（最稳，教程全）
- 带宽：拉满（下载模型动辄10GB+，慢带宽等1小时起步）
- 计费模式：选“按小时付费”（试完就关，花多少算多少）

小贴士：首次创建时，控制台会显示“外网端口”与“容器内端口”的映射关系（例如：外网8800 → 容器内8000）。这个数字后面要用，截图保存。

2.2 一键安装Docker和vLLM（2分钟）

连接服务器（用系统自带的SSH或Termius等工具），粘贴以下三段命令，每段回车执行，无需理解：

# 第一步：安装Docker（容器运行环境）
sudo apt update && sudo apt install -y docker.io
sudo systemctl start docker && sudo systemctl enable docker

# 第二步：配置国内镜像加速（让下载飞起来）
sudo mkdir -p /etc/docker
sudo tee /etc/docker/daemon.json <<-'EOF'
{
    "registry-mirrors": ["https://docker.m.daocloud.io"]
}
EOF
sudo systemctl restart docker

# 第三步：拉取并启动vLLM服务（AI大脑上线）
sudo docker run -d \
  --gpus all \
  -p 8800:8000 \
  --ipc=host \
  -v /root/model:/app/model \
  --name autoglm-vllm \
  vllm/vllm-openai:v0.12.0

执行完第三条命令后，输入 sudo docker ps，看到 autoglm-vllm 在运行状态，说明AI大脑已启动。

2.3 下载模型文件（自动完成，不用操心）

vLLM容器启动后，会自动从魔搭社区（ModelScope）下载 ZhipuAI/AutoGLM-Phone-9B 模型。你只需等待3–8分钟（取决于带宽），期间可以去倒杯水。

注意：如果等10分钟还没好，可能是网络问题。此时手动执行：
sudo docker exec -it autoglm-vllm bash -c "pip install modelscope && modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/app/model'"

3. 本地电脑准备：连手机就像连WiFi一样简单

现在，“大脑”在云端跑起来了，接下来让“手”和“眼”（你的手机）连上去。这里彻底告别复杂ADB配置——我们只做三件事：装一个工具、开一个开关、点一下确认。

3.1 下载并安装ADB工具包（1分钟）

Windows用户：去 Android Platform Tools官网下载zip包 → 解压到 D:\adb（路径越短越好）
macOS用户：打开终端，输入
```
brew install android-platform-tools
```
验证是否成功：终端输入 adb version，看到版本号（如 Android Debug Bridge version 1.0.41）即成功

关键突破：我们不配置环境变量！后面所有ADB命令，都直接用完整路径调用，避免90%的新手卡点。

3.2 手机设置：三步开启“被AI操控”权限

拿出你的安卓手机（Android 7.0以上，华为/小米/OPPO/vivo均支持），按顺序操作：

开开发者模式：
设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”
开USB调试：
设置 → 系统 → 开发者选项 → 找到“USB调试” → 右侧滑动开启 → 弹窗点“确定”
装ADB键盘（解决输入问题）：
- 用手机浏览器访问 ADB Keyboard APK下载页
- 下载安装（允许“未知来源应用”）
- 设置 → 语言与输入法 → 虚拟键盘 → 选择“ADB Keyboard”为默认输入法

完成后，手机顶部状态栏会出现“开发者选项已启用”和“USB调试已启用”提示。

3.3 连接手机：USB线一插，自动识别

用原装USB线将手机连电脑 → 手机弹窗点“允许USB调试” → 电脑终端执行：

# Windows用户（假设ADB在D:\adb）：
D:\adb\adb devices

# macOS用户：
adb devices

如果看到一串字母数字（如 FA6AJ0308723 device），说明连接成功！这串就是你的设备ID，后面要用。

🔁 如果显示 ???????? no permissions：拔掉USB线，重启手机再重连一次，90%能解决。

4. 控制端部署：三行命令，让AI开始干活

现在，“大脑”在云上，“手眼”在手机上，只差一个“翻译官”把你的中文指令传过去。这就是Open-AutoGLM控制端。

4.1 克隆代码并安装（2分钟）

在电脑终端（Windows用CMD/PowerShell，macOS用Terminal）中执行：

# 克隆官方仓库（含所有预设配置）
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖（自动处理Python包）
pip install -r requirements.txt
pip install -e .

执行完无报错，控制端就绪。

4.2 一句话启动AI代理（核心命令，记牢）

在 Open-AutoGLM 文件夹内，执行这一行命令（只需改3个地方，其余复制粘贴）：

python main.py \
  --device-id FA6AJ0308723 \
  --base-url http://123.45.67.89:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书，搜‘北京烤鸭’，点第一个笔记，保存图片到相册"

替换说明（务必修改）：

--device-id：换成你手机真实的ID（adb devices 输出的第一列）
--base-url：http:// 后面填你云服务器的公网IP（控制台里找），: 后面填你之前记下的外网端口（如8800）
最后引号内：写你想让AI做的事，用中文，越像日常说话越好

回车后，你会看到：

终端滚动日志（显示“正在截图”“正在分析界面”“生成动作：Click(320,180)”）
手机屏幕实时响应（自动打开小红书→出现搜索框→输入文字→点击搜索→进入笔记→长按保存）

整个过程无需你干预，就像看着一个熟练同事帮你操作。

5. 实战案例：手把手跑通第一个任务

我们用一个最典型、最容易验证的任务来收尾：让AI帮你关注抖音博主。这是检验“看-想-做”全链路是否通畅的黄金测试。

5.1 准备工作检查清单

项目	状态	检查方式
云服务器vLLM服务	运行中	`sudo docker ps \| grep autoglm` 应有输出
手机已连电脑	显示device	`adb devices` 输出含ID
抖音APP已安装		手机桌面能找到抖音图标
手机解锁且在桌面		AI无法操作锁屏界面

5.2 执行指令（复制即用）

python main.py \
  --device-id FA6AJ0308723 \
  --base-url http://123.45.67.89:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音APP，搜索用户‘dycwo11nt61d’，进入他的主页，点击关注按钮"

5.3 你将亲眼看到的AI工作流

截屏：AI自动截取当前手机桌面图
识别：发现“抖音”图标，定位其坐标
点击：模拟手指点击抖音图标 → 启动APP
再截屏：APP加载后，识别顶部搜索框
输入：调用ADB键盘，逐字输入 dycwo11nt61d
搜索：点击搜索按钮 → 进入结果页
定位：识别用户头像、昵称、关注按钮
执行：点击“关注” → 弹出确认框 → AI停住，等你手动点“确定”（安全机制）

成功标志：手机上出现“已关注”提示，终端日志末尾显示 Task completed successfully。

6. 常见问题速查：90%的问题，三句话解决

新手最常卡在这几个点，我们按优先级排序给出“急救方案”：

6.1 手机连不上？先看这三点

现象：adb devices 显示 ???????? no permissions
解法：拔掉USB线 → 关机重启手机 → 重新连接 → 弹窗点“允许”
现象：adb devices 无输出，或显示 offline
解法：换一根原装USB线；关闭手机“USB配置”里的“仅充电”模式，改为“文件传输”
现象：WiFi连接失败（adb connect 192.168.x.x:5555 返回 failed to connect）
解法：放弃WiFi，直接用USB线——对新手100%可靠

6.2 AI不动？检查服务连通性

现象：终端卡在 Waiting for model response... 超过2分钟
解法：
1. 在云服务器上执行 curl http://localhost:8000/v1/models，应返回JSON（证明vLLM活）
2. 在本地电脑执行 curl http://123.45.67.89:8800/v1/models（替换为你IP），若超时 → 检查云服务器防火墙是否放行8800端口

6.3 操作错乱？调整AI“注意力”

现象：AI点错了位置，或输入了错误文字
解法：在指令末尾加一句约束，例如：
"打开小红书，搜‘北京烤鸭’...（补充）请确保只操作小红书APP，不切换到其他应用"
模型对明确边界指令响应更准。

7. 总结：你已经拥有了一个会动手的AI同事

回顾这45分钟，你完成了什么？
租了一台带显卡的云服务器，装好了AI大脑（vLLM）
给手机开了“被操控”权限，连上了本地电脑
下载了开源框架，用一句话指令启动了全自动操作
亲眼看着AI打开APP、搜索、点击、输入、完成任务

你不需要懂ADB原理，不需要调vLLM参数，不需要写一行自动化脚本——所有技术细节都被封装成“填空题”和“选择题”。这就是Open-AutoGLM的设计哲学：把AI能力，变成人人可用的生产力工具。

下一步，你可以：

尝试更复杂的指令：“对比京东和淘宝上iPhone15的价格，截图发我微信”
把常用任务做成快捷指令，一键执行
接入微信机器人，语音说“帮我订外卖”，AI自动操作

技术永远不该是门槛，而是杠杆。你现在握住的，就是那根撬动效率的杠杆。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

QClaw体验：微信里的本地AI助手，让智能触手可及

龙虾开发者社区

WorkBuddy使用心得：腾讯版“免部署小龙虾“的办公新体验

龙虾开发者社区

VibeVoice Pro流式TTS效果展示：300ms低延迟真实音频生成作品集

本文介绍了如何在星图GPU平台自动化部署VibeVoice Pro：零延迟流式音频引擎镜像，实现300ms低延迟的实时语音生成。该技术特别适用于智能助手对话场景，能够提供自然流畅的语音交互体验，显著提升用户满意度。

龙虾开发者社区

所有评论(0)

查看更多评论

ELSON麦香包

@weixin_42372837

已为社区贡献28条内容