Open-AutoGLM实战：一句话让AI帮你刷小红书

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的安卓手机自动化操作。用户仅需一句话指令（如“打开小红书搜咖啡馆”），即可完成App启动、搜索框点击、中文输入与结果浏览，典型应用于社交平台内容检索与信息整理。

闫泽华

299人浏览 · 2026-01-25 02:28:03

闫泽华 · 2026-01-25 02:28:03 发布

Open-AutoGLM实战：一句话让AI帮你刷小红书

你有没有过这样的时刻：想在小红书搜“上海周末咖啡馆推荐”，但手正忙着切菜、哄娃，或者干脆懒得点开APP？又或者，你刚收藏了10篇穿搭笔记，却没时间逐条整理——这时候，如果手机能听懂你一句话就自动完成操作，是不是像多了个随叫随到的数字助理？

Open-AutoGLM 就是这样一个真实可用的工具。它不是概念演示，也不是云端黑盒，而是一个真正跑在你本地电脑上、通过 ADB 控制你真机的 AI 手机智能体。你只需说一句“打开小红书搜美食”，它就能看懂当前屏幕、理解你的意图、规划点击路径、输入关键词、滑动浏览结果——整个过程无需你碰一下手机。

这不是科幻，是今天就能搭起来的现实。本文不讲大道理，不堆术语，只带你从零开始，用最直白的方式完成部署、连上手机、跑通第一条指令，并真正用它刷一次小红书。全程小白友好，哪怕你上次写代码还是在大学实验课，也能照着做成功。

1. 它到底是什么：一个能“看”会“想”还“动手”的AI

1.1 不是普通聊天机器人，而是手机上的“眼睛+大脑+手指”

很多AI项目只做文本生成，而 Open-AutoGLM 的特别之处在于它的三层能力闭环：

眼睛：每秒自动截取手机屏幕，用视觉语言模型（VLM）识别界面上的文字、图标、按钮位置和布局关系。它不是靠猜，而是真的“看见”了“搜索框”在右上角、“小红书”App 图标在第一屏第三行。
大脑：把你的自然语言指令（比如“帮我找最近3天发过露营笔记的博主”）和当前屏幕画面一起输入模型，让它推理出下一步该点哪里、输什么、滑多远。这个过程叫“多步任务规划”，不是简单映射，而是带上下文的思考。
手指：通过 ADB（Android Debug Bridge）向手机发送精准指令——模拟点击坐标、长按、滑动、输入中文、返回上一页。所有动作都像真人操作一样可追溯、可暂停、可接管。

这三者合在一起，才构成了一个能真正“替你用手机”的智能体。

1.2 和其他AI手机方案的关键区别

对比项	Open-AutoGLM（本方案）	云手机+网页自动化	纯语音助手（如小爱同学）
控制方式	本地电脑控制真机，全程离线处理屏幕图像	远程虚拟机运行，依赖网络和服务器	仅语音唤醒+调用系统API，无法操作第三方App
隐私性	所有截图、推理、操作都在你本地完成，不上传任何画面或指令	屏幕画面、操作日志均经由云端，存在数据外泄风险	指令可能上传至厂商服务器
灵活性	支持任意安卓App，包括未开放API的小红书、抖音、闲鱼等	受限于云手机预装环境和权限，难适配新版本App	仅支持系统级功能（打电话、设闹钟），无法进入小红书内部操作
上手门槛	需配置ADB和Python，但教程已拆解为傻瓜步骤	无需配置，但需付费订阅，且响应延迟明显	零配置，但功能极其有限

一句话总结：Open-AutoGLM 是目前少有的、能让普通人真正拥有“可定制、可掌控、可审计”的AI手机助理的开源方案。

2. 准备工作：三样东西，30分钟搞定

别被“AI”“多模态”吓住——实际要准备的只有三类东西：一台能联网的电脑、一部安卓手机、和一点耐心。我们跳过所有冗余环节，直奔核心。

2.1 你的设备清单（真实可行版）

类别	最低要求	为什么重要	小贴士
电脑	Windows 10 / macOS Monterey，8GB内存，50GB空闲空间	模型文件约18GB，推理需要内存缓存截图和中间状态	Mac M1/M2芯片用户注意：vLLM暂不原生支持Apple Silicon，建议用Rosetta模式运行或改用CPU推理（稍慢但可用）
手机	Android 7.0+，已开启USB调试，电量>30%	旧机型也能用，关键是开启开发者选项	如果找不到“关于手机”，试试在“设置”里搜“版本号”
连接方式	USB数据线（首选）或同一WiFi下的稳定网络	USB最稳，WiFi适合不想插线的场景	WiFi连接前务必先用USB连一次，执行`adb tcpip 5555`才能开启无线调试

不需要显卡，不需要服务器，不需要注册账号。所有代码和模型都来自公开仓库，国内用户还能用ModelScope镜像加速下载。

2.2 四步安装：Python、ADB、开发者模式、ADB Keyboard

我们把安装压缩成四个明确动作，每个动作都有验证方式，失败立刻可知。

第一步：装Python（3分钟）

访问 python.org/downloads，下载 Python 3.10 或 3.11（不要装3.12，部分依赖尚未兼容）
安装时务必勾选 “Add Python to PATH”（Windows）或按Mac提示完成安装
验证：打开命令行（Windows按 Win+R 输入 cmd，Mac打开终端），输入：
```
python --version
```
显示 Python 3.10.x 即成功。

第二步：装ADB（5分钟）

去 developer.android.com/platform-tools 下载对应系统的 platform-tools
解压到一个简单路径，比如 C:\adb（Windows）或 ~/adb（Mac）
配置环境变量（关键！）：
- Windows：右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入 C:\adb
- Mac：终端执行 echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
验证：
```
adb version
```
显示 Android Debug Bridge version 1.0.41 类似字样即成功。

第三步：开手机开发者模式（2分钟）

设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
返回设置 → 系统 → 开发者选项 → 打开“USB调试”
此时手机会弹窗问“允许USB调试吗？”——勾选“始终允许”，再点“确定”

第四步：装ADB Keyboard（3分钟）

这是让AI能输入中文的关键。没有它，AI只能点、不能打字。

下载 ADBKeyboard.apk（GitHub搜索 adb-keyboard 或直接用这个链接）
电脑命令行进入APK所在目录，执行：
```
adb install ADBKeyboard.apk
```
手机设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用“ADB Keyboard”
最后一步：长按微信/短信输入框 → 选择输入法 → 切换为“ADB Keyboard”

全部完成后，在命令行输入 adb devices，应看到类似：

List of devices attached
ZY322FDQ67    device

出现 device 字样，说明手机已成功接入。

3. 部署核心：三行命令，启动你的AI助理

现在，你的电脑和手机已连通，接下来是让AI“上岗”的三步。

3.1 下载并安装Open-AutoGLM项目

打开命令行，依次执行（复制粘贴即可）：

# 克隆项目（约2MB，秒下）
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖（会自动下载requests、Pillow、adbutils等）
pip install -r requirements.txt
pip install -e .

验证：执行 python -c "from phone_agent import PhoneAgent; print('OK')"，无报错即成功。

3.2 下载模型（国内用户请用此法提速）

模型文件约18GB，国际源慢，强烈推荐用ModelScope国内镜像：

# 创建模型存放目录
mkdir models

# 使用ModelScope镜像（国内用户，5–15分钟）
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git models/AutoGLM-Phone-9B

注意：不要用 git lfs 下载Hugging Face源，国内常中断。ModelScope镜像已预打包，直接克隆即得完整模型。

3.3 启动模型服务（一行命令）

我们用轻量级方式启动，不涉及复杂Docker或GPU参数：

# Linux/macOS用户
python3 -m vllm.entrypoints.openai.api_server \
  --model ./models/AutoGLM-Phone-9B \
  --served-model-name autoglm-phone-9b \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string

:: Windows用户（保存为start_model.bat双击运行）
python -m vllm.entrypoints.openai.api_server --model ./models/AutoGLM-Phone-9B --served-model-name autoglm-phone-9b --port 8000 --max-model-len 25480

等待约1–2分钟，看到终端输出：

INFO:     Uvicorn running on http://0.0.0.0:8000

表示模型服务已就绪，正在本地 http://localhost:8000 提供API。

4. 第一次实战：让AI打开小红书，搜“咖啡馆”

现在，一切就绪。我们来执行第一条真正有用的指令——不是“打开设置”，而是“刷小红书”。

4.1 命令行一键运行（推荐新手）

确保你的手机已通过USB连接且显示为 device，在 Open-AutoGLM 目录下执行：

python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书，搜索上海静安区的精品咖啡馆"

你会看到类似这样的实时输出：

📸 正在截取屏幕...
🧠 正在分析界面：检测到桌面图标，小红书图标位于第2行第1列
 执行动作: {"action": "Click", "x": 210, "y": 850}
📸 正在截取屏幕...
🧠 正在分析界面：小红书首页加载中，顶部有搜索框
 执行动作: {"action": "Click", "x": 540, "y": 120}
 执行动作: {"action": "Type", "text": "上海静安区的精品咖啡馆"}
 执行动作: {"action": "PressEnter"}
 任务完成：已展示搜索结果，共找到24条笔记

几秒钟后，你的手机屏幕上就会真实出现小红书的搜索结果页——AI不仅点了App，还精准点击了搜索框、输入了中文、按了回车。

4.2 为什么它能准确输入中文？揭秘ADB Keyboard的作用

普通ADB input text 命令不支持中文，但 ADB Keyboard 是一个特殊输入法，它把AI生成的文本转为手机可识别的按键序列（如“上”= u，“海”= h）。Open-AutoGLM 在调用 Type 动作时，会自动切换输入法为 ADB Keyboard，输入完毕再切回原输入法——整个过程对用户完全透明。

你可以自己验证：在执行上述命令前，手动把手机输入法切为“百度输入法”，命令运行后，你会发现输入法自动变成了“ADB Keyboard”，输入完又切回去了。

4.3 更实用的小红书指令模板（直接复制使用）

别再凭空想指令，这里给你整理好高频场景的“人话模板”，替换关键词就能用：

打开小红书，搜索[地点][品类]，按点赞数排序
→ 例：“打开小红书，搜索杭州西湖边的茶馆，按点赞数排序”
打开小红书，进入用户[用户名]的主页，保存最新3篇图文笔记
→ 例：“打开小红书，进入用户@咖啡研究所的主页，保存最新3篇图文笔记”
打开小红书，搜索[关键词]，筛选发布时间为最近7天的笔记
→ 例：“打开小红书，搜索露营装备，筛选发布时间为最近7天的笔记”
打开小红书，找到标题含[关键词]的笔记，点赞并收藏
→ 例：“打开小红书，找到标题含‘免煮咖啡’的笔记，点赞并收藏”

这些指令之所以有效，是因为 AutoGLM-Phone 模型在训练时就见过大量小红书UI截图和对应操作描述，它对“搜索框”“点赞心形图标”“用户头像位置”有强空间感知能力。

5. 进阶技巧：让AI更懂你、更安全、更省心

部署成功只是开始。下面这些技巧，能让你从小白变成高效使用者。

5.1 敏感操作必须人工确认（防误触支付/删号）

AI再聪明，也不能替你做决定。Open-AutoGLM 内置了安全闸门：当检测到“支付”“删除”“注销”“授权通讯录”等高危动作时，会自动暂停并弹出确认提示。

例如，你输入：

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书，给博主@旅行家小满打赏10元"

AI执行到支付页时会停住，终端输出：

  安全拦截：检测到支付动作（金额10元），需人工确认
是否继续？(y/n):

你敲 n 就终止，敲 y 才继续。这个机制默认开启，无需额外配置。

5.2 WiFi无线控制：摆脱数据线束缚

如果你的手机和电脑在同一WiFi下，可以彻底摆脱USB线：

先用USB连一次，执行：
```
adb tcpip 5555
```
拔掉USB线，查看手机WiFi IP（设置→WiFi→点击当前网络→IP地址），如 192.168.1.105

电脑执行：

adb connect 192.168.1.105:5555
adb devices  # 应显示 device

后续所有命令加上 --device-id 192.168.1.105:5555

从此，你躺在沙发上，手机放在茶几上，AI照样能帮你刷小红书。

5.3 自定义常用指令，做成快捷命令

每次输一长串太麻烦？把它变成一个.bat或.sh脚本：

# save_as_coffee.sh（Mac/Linux）
#!/bin/bash
python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书，搜索上海静安区的精品咖啡馆，保存前5条笔记封面"

赋予执行权限后，双击或运行 ./save_as_coffee.sh 即可。

6. 常见问题：90%的失败，都出在这三个地方

根据社区高频反馈，绝大多数问题集中在以下三点。对照自查，5分钟内解决。

现象	最可能原因	一招解决
`adb devices` 显示 `unauthorized` 或空白	手机未授权USB调试	拔掉数据线重连，手机弹窗点“允许”，勾选“始终允许”
模型启动报错 `OSError: libcudnn.so not found`	未安装CUDA或版本不匹配	改用CPU模式：在启动命令末尾加 `--device cpu`
AI点了错误位置，或一直循环点击	手机屏幕分辨率缩放比例非100%	设置→显示→字体与样式→显示大小→调为“默认”或“100%”
输入中文时乱码或无反应	ADB Keyboard未启用或未设为默认	手机设置→语言和输入法→确保“ADB Keyboard”已启用且为默认输入法