Open-AutoGLM保姆级教学:连ADB都不会也能学会

你有没有想过,手机能自己“看懂”屏幕、听懂你说话,然后像真人一样点开APP、输入文字、滑动页面、完成任务?不是科幻电影,是今天就能上手的现实——Open-AutoGLM,一个真正让AI在手机上“动手做事”的智能体框架。

更关键的是:它不要求你会写代码,不强制你背命令,甚至不需要你搞懂什么是ADB、什么是vLLM、什么是端口映射。这篇教程专为“零基础但想立刻用起来”的人设计。哪怕你上次接触命令行还是在大学计算机课上按错Ctrl+C,只要愿意花45分钟,就能让AI替你刷抖音、搜小红书、比价下单、关注博主、发朋友圈……全程用大白话指挥,它来执行。

这不是概念演示,而是可复现、可落地、已开源的真实系统。下面,我们就从“完全没碰过ADB”开始,一步步带你搭起属于自己的手机AI助理。

1. 先搞明白:它到底能帮你做什么?

别急着装软件,先看清价值——这决定了你愿不愿意往下走。

Open-AutoGLM(准确说是其核心框架 AutoGLM-Phone)不是一个聊天机器人,而是一个会看、会想、会点、会输、会判断的手机操作员。它的能力链条非常清晰:

  • :实时截取手机屏幕,用视觉语言模型理解当前界面(比如识别出“小红书首页”“搜索框”“点赞按钮”“商品价格标签”)
  • :接收你用中文说的自然指令,比如“帮我把这张截图里的地址发到微信给张三”
  • :自动拆解任务逻辑(先打开微信→找到张三→点击输入框→粘贴地址→发送)
  • :通过ADB向手机发送精准操作指令(点击坐标、滑动轨迹、输入文字、返回上一页)
  • :遇到登录页、验证码、弹窗等敏感操作时主动暂停,等你人工确认后再继续

举几个真实能跑通的例子:

  • “打开美团,搜‘附近2公里内评分4.8以上的川菜馆’,选第一家,复制电话号码发我微信”
  • “进淘宝,搜‘iPhone15保护壳磨砂黑’,按销量排序,把前3个商品标题和价格截图发我”
  • “打开抖音,搜用户‘dycwo11nt61d’,点进主页,点关注按钮”

所有这些,你只需要在命令行里敲一句中文,回车,然后看着手机自己动起来。没有脚本、不写XPath、不录UI自动化流程——纯靠语言驱动。

1.1 它为什么能做到?三个关键模块缺一不可

模块 作用 小白友好解释
视觉语言模型(VLM) 理解屏幕截图内容 就像给AI配了一双眼睛+一个大脑,它能认出图标、文字、按钮位置,知道“放大镜图标=搜索”,“红色购物车=下单入口”
任务规划器(Planner) 把你的指令拆成可执行步骤 你说“订外卖”,它自动规划:打开APP→点首页搜索→输入菜名→选店铺→加购→结算→填地址→支付
ADB执行引擎 真正操控手机硬件 相当于AI的手指,能模拟点击、滑动、长按、输入文字,所有操作都通过标准安卓调试协议完成

注意:ADB本身只是安卓官方提供的调试工具(类似手机的“维修接口”),我们不用学它全部命令,只需让它连上、被AI调用即可。后面所有ADB操作,都会封装成一行命令或图形化提示,你照着点就行。

2. 服务器端部署:租一台“AI大脑”,5分钟搞定

Open-AutoGLM需要强大算力运行大模型,所以得把“思考部分”放在云端服务器,本地只负责“传指令”和“传画面”。好消息是:现在租服务器比买奶茶还简单。

2.1 选一台带显卡的云服务器(3分钟)

推荐平台:算力云(gpu.ai-galaxy.cn)
理由:价格透明、显卡型号全、国内访问快、新用户送券(注册即领,省下首小时费用)。

操作步骤:

  1. 访问 注册链接(含优惠券) → 填邮箱注册
  2. 登录后进入控制台 → 点“创建实例”
  3. 关键配置选择(直接抄作业):
    • 显卡:选 A100-40GA40(40G显存是稳定运行9B模型的黄金线)
    • 系统镜像:选 Ubuntu 22.04 LTS(最稳,教程全)
    • 带宽:拉满(下载模型动辄10GB+,慢带宽等1小时起步)
    • 计费模式:选“按小时付费”(试完就关,花多少算多少)

小贴士:首次创建时,控制台会显示“外网端口”与“容器内端口”的映射关系(例如:外网8800 → 容器内8000)。这个数字后面要用,截图保存。

2.2 一键安装Docker和vLLM(2分钟)

连接服务器(用系统自带的SSH或Termius等工具),粘贴以下三段命令,每段回车执行,无需理解

# 第一步:安装Docker(容器运行环境)
sudo apt update && sudo apt install -y docker.io
sudo systemctl start docker && sudo systemctl enable docker

# 第二步:配置国内镜像加速(让下载飞起来)
sudo mkdir -p /etc/docker
sudo tee /etc/docker/daemon.json <<-'EOF'
{
    "registry-mirrors": ["https://docker.m.daocloud.io"]
}
EOF
sudo systemctl restart docker

# 第三步:拉取并启动vLLM服务(AI大脑上线)
sudo docker run -d \
  --gpus all \
  -p 8800:8000 \
  --ipc=host \
  -v /root/model:/app/model \
  --name autoglm-vllm \
  vllm/vllm-openai:v0.12.0

执行完第三条命令后,输入 sudo docker ps,看到 autoglm-vllm 在运行状态,说明AI大脑已启动。

2.3 下载模型文件(自动完成,不用操心)

vLLM容器启动后,会自动从魔搭社区(ModelScope)下载 ZhipuAI/AutoGLM-Phone-9B 模型。你只需等待3–8分钟(取决于带宽),期间可以去倒杯水。

注意:如果等10分钟还没好,可能是网络问题。此时手动执行:

sudo docker exec -it autoglm-vllm bash -c "pip install modelscope && modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/app/model'"

3. 本地电脑准备:连手机就像连WiFi一样简单

现在,“大脑”在云端跑起来了,接下来让“手”和“眼”(你的手机)连上去。这里彻底告别复杂ADB配置——我们只做三件事:装一个工具、开一个开关、点一下确认。

3.1 下载并安装ADB工具包(1分钟)

  • Windows用户:去 Android Platform Tools官网 下载zip包 → 解压到 D:\adb(路径越短越好)
  • macOS用户:打开终端,输入
    brew install android-platform-tools
    
  • 验证是否成功:终端输入 adb version,看到版本号(如 Android Debug Bridge version 1.0.41)即成功

关键突破:我们不配置环境变量!后面所有ADB命令,都直接用完整路径调用,避免90%的新手卡点。

3.2 手机设置:三步开启“被AI操控”权限

拿出你的安卓手机(Android 7.0以上,华为/小米/OPPO/vivo均支持),按顺序操作:

  1. 开开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”

  2. 开USB调试
    设置 → 系统 → 开发者选项 → 找到“USB调试” → 右侧滑动开启 → 弹窗点“确定”

  3. 装ADB键盘(解决输入问题)

    • 用手机浏览器访问 ADB Keyboard APK下载页
    • 下载安装(允许“未知来源应用”)
    • 设置 → 语言与输入法 → 虚拟键盘 → 选择“ADB Keyboard”为默认输入法

完成后,手机顶部状态栏会出现“开发者选项已启用”和“USB调试已启用”提示。

3.3 连接手机:USB线一插,自动识别

用原装USB线将手机连电脑 → 手机弹窗点“允许USB调试” → 电脑终端执行:

# Windows用户(假设ADB在D:\adb):
D:\adb\adb devices

# macOS用户:
adb devices

如果看到一串字母数字(如 FA6AJ0308723 device),说明连接成功!这串就是你的设备ID,后面要用。

🔁 如果显示 ???????? no permissions:拔掉USB线,重启手机再重连一次,90%能解决。

4. 控制端部署:三行命令,让AI开始干活

现在,“大脑”在云上,“手眼”在手机上,只差一个“翻译官”把你的中文指令传过去。这就是Open-AutoGLM控制端。

4.1 克隆代码并安装(2分钟)

在电脑终端(Windows用CMD/PowerShell,macOS用Terminal)中执行:

# 克隆官方仓库(含所有预设配置)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖(自动处理Python包)
pip install -r requirements.txt
pip install -e .

执行完无报错,控制端就绪。

4.2 一句话启动AI代理(核心命令,记牢)

Open-AutoGLM 文件夹内,执行这一行命令(只需改3个地方,其余复制粘贴):

python main.py \
  --device-id FA6AJ0308723 \
  --base-url http://123.45.67.89:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书,搜‘北京烤鸭’,点第一个笔记,保存图片到相册"

替换说明(务必修改):

  • --device-id:换成你手机真实的ID(adb devices 输出的第一列)
  • --base-urlhttp:// 后面填你云服务器的公网IP(控制台里找),: 后面填你之前记下的外网端口(如8800)
  • 最后引号内:写你想让AI做的事,用中文,越像日常说话越好

回车后,你会看到:

  • 终端滚动日志(显示“正在截图”“正在分析界面”“生成动作:Click(320,180)”)
  • 手机屏幕实时响应(自动打开小红书→出现搜索框→输入文字→点击搜索→进入笔记→长按保存)

整个过程无需你干预,就像看着一个熟练同事帮你操作。

5. 实战案例:手把手跑通第一个任务

我们用一个最典型、最容易验证的任务来收尾:让AI帮你关注抖音博主。这是检验“看-想-做”全链路是否通畅的黄金测试。

5.1 准备工作检查清单

项目 状态 检查方式
云服务器vLLM服务 运行中 sudo docker ps | grep autoglm 应有输出
手机已连电脑 显示device adb devices 输出含ID
抖音APP已安装 手机桌面能找到抖音图标
手机解锁且在桌面 AI无法操作锁屏界面

5.2 执行指令(复制即用)

python main.py \
  --device-id FA6AJ0308723 \
  --base-url http://123.45.67.89:8800/v1 \
  --model "autoglm-phone-9b" \
  "打开抖音APP,搜索用户‘dycwo11nt61d’,进入他的主页,点击关注按钮"

5.3 你将亲眼看到的AI工作流

  1. 截屏:AI自动截取当前手机桌面图
  2. 识别:发现“抖音”图标,定位其坐标
  3. 点击:模拟手指点击抖音图标 → 启动APP
  4. 再截屏:APP加载后,识别顶部搜索框
  5. 输入:调用ADB键盘,逐字输入 dycwo11nt61d
  6. 搜索:点击搜索按钮 → 进入结果页
  7. 定位:识别用户头像、昵称、关注按钮
  8. 执行:点击“关注” → 弹出确认框 → AI停住,等你手动点“确定”(安全机制)

成功标志:手机上出现“已关注”提示,终端日志末尾显示 Task completed successfully

6. 常见问题速查:90%的问题,三句话解决

新手最常卡在这几个点,我们按优先级排序给出“急救方案”:

6.1 手机连不上?先看这三点

  • 现象adb devices 显示 ???????? no permissions
    解法:拔掉USB线 → 关机重启手机 → 重新连接 → 弹窗点“允许”

  • 现象adb devices 无输出,或显示 offline
    解法:换一根原装USB线;关闭手机“USB配置”里的“仅充电”模式,改为“文件传输”

  • 现象:WiFi连接失败(adb connect 192.168.x.x:5555 返回 failed to connect
    解法:放弃WiFi,直接用USB线——对新手100%可靠

6.2 AI不动?检查服务连通性

  • 现象:终端卡在 Waiting for model response... 超过2分钟
    解法
    1. 在云服务器上执行 curl http://localhost:8000/v1/models,应返回JSON(证明vLLM活)
    2. 在本地电脑执行 curl http://123.45.67.89:8800/v1/models(替换为你IP),若超时 → 检查云服务器防火墙是否放行8800端口

6.3 操作错乱?调整AI“注意力”

  • 现象:AI点错了位置,或输入了错误文字
    解法:在指令末尾加一句约束,例如:
    "打开小红书,搜‘北京烤鸭’...(补充)请确保只操作小红书APP,不切换到其他应用"
    模型对明确边界指令响应更准。

7. 总结:你已经拥有了一个会动手的AI同事

回顾这45分钟,你完成了什么?
租了一台带显卡的云服务器,装好了AI大脑(vLLM)
给手机开了“被操控”权限,连上了本地电脑
下载了开源框架,用一句话指令启动了全自动操作
亲眼看着AI打开APP、搜索、点击、输入、完成任务

你不需要懂ADB原理,不需要调vLLM参数,不需要写一行自动化脚本——所有技术细节都被封装成“填空题”和“选择题”。这就是Open-AutoGLM的设计哲学:把AI能力,变成人人可用的生产力工具

下一步,你可以:

  • 尝试更复杂的指令:“对比京东和淘宝上iPhone15的价格,截图发我微信”
  • 把常用任务做成快捷指令,一键执行
  • 接入微信机器人,语音说“帮我订外卖”,AI自动操作

技术永远不该是门槛,而是杠杆。你现在握住的,就是那根撬动效率的杠杆。

---

> **获取更多AI镜像**
>
> 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐