Open-AutoGLM实战:一句话让AI帮你刷小红书

你有没有过这样的时刻:想在小红书搜“上海周末咖啡馆推荐”,但手正忙着切菜、哄娃,或者干脆懒得点开APP?又或者,你刚收藏了10篇穿搭笔记,却没时间逐条整理——这时候,如果手机能听懂你一句话就自动完成操作,是不是像多了个随叫随到的数字助理?

Open-AutoGLM 就是这样一个真实可用的工具。它不是概念演示,也不是云端黑盒,而是一个真正跑在你本地电脑上、通过 ADB 控制你真机的 AI 手机智能体。你只需说一句“打开小红书搜美食”,它就能看懂当前屏幕、理解你的意图、规划点击路径、输入关键词、滑动浏览结果——整个过程无需你碰一下手机。

这不是科幻,是今天就能搭起来的现实。本文不讲大道理,不堆术语,只带你从零开始,用最直白的方式完成部署、连上手机、跑通第一条指令,并真正用它刷一次小红书。全程小白友好,哪怕你上次写代码还是在大学实验课,也能照着做成功。


1. 它到底是什么:一个能“看”会“想”还“动手”的AI

1.1 不是普通聊天机器人,而是手机上的“眼睛+大脑+手指”

很多AI项目只做文本生成,而 Open-AutoGLM 的特别之处在于它的三层能力闭环:

  • 眼睛:每秒自动截取手机屏幕,用视觉语言模型(VLM)识别界面上的文字、图标、按钮位置和布局关系。它不是靠猜,而是真的“看见”了“搜索框”在右上角、“小红书”App 图标在第一屏第三行。

  • 大脑:把你的自然语言指令(比如“帮我找最近3天发过露营笔记的博主”)和当前屏幕画面一起输入模型,让它推理出下一步该点哪里、输什么、滑多远。这个过程叫“多步任务规划”,不是简单映射,而是带上下文的思考。

  • 手指:通过 ADB(Android Debug Bridge)向手机发送精准指令——模拟点击坐标、长按、滑动、输入中文、返回上一页。所有动作都像真人操作一样可追溯、可暂停、可接管。

这三者合在一起,才构成了一个能真正“替你用手机”的智能体。

1.2 和其他AI手机方案的关键区别

对比项 Open-AutoGLM(本方案) 云手机+网页自动化 纯语音助手(如小爱同学)
控制方式 本地电脑控制真机,全程离线处理屏幕图像 远程虚拟机运行,依赖网络和服务器 仅语音唤醒+调用系统API,无法操作第三方App
隐私性 所有截图、推理、操作都在你本地完成,不上传任何画面或指令 屏幕画面、操作日志均经由云端,存在数据外泄风险 指令可能上传至厂商服务器
灵活性 支持任意安卓App,包括未开放API的小红书、抖音、闲鱼等 受限于云手机预装环境和权限,难适配新版本App 仅支持系统级功能(打电话、设闹钟),无法进入小红书内部操作
上手门槛 需配置ADB和Python,但教程已拆解为傻瓜步骤 无需配置,但需付费订阅,且响应延迟明显 零配置,但功能极其有限

一句话总结:Open-AutoGLM 是目前少有的、能让普通人真正拥有“可定制、可掌控、可审计”的AI手机助理的开源方案。


2. 准备工作:三样东西,30分钟搞定

别被“AI”“多模态”吓住——实际要准备的只有三类东西:一台能联网的电脑、一部安卓手机、和一点耐心。我们跳过所有冗余环节,直奔核心。

2.1 你的设备清单(真实可行版)

类别 最低要求 为什么重要 小贴士
电脑 Windows 10 / macOS Monterey,8GB内存,50GB空闲空间 模型文件约18GB,推理需要内存缓存截图和中间状态 Mac M1/M2芯片用户注意:vLLM暂不原生支持Apple Silicon,建议用Rosetta模式运行或改用CPU推理(稍慢但可用)
手机 Android 7.0+,已开启USB调试,电量>30% 旧机型也能用,关键是开启开发者选项 如果找不到“关于手机”,试试在“设置”里搜“版本号”
连接方式 USB数据线(首选)或同一WiFi下的稳定网络 USB最稳,WiFi适合不想插线的场景 WiFi连接前务必先用USB连一次,执行adb tcpip 5555才能开启无线调试

不需要显卡,不需要服务器,不需要注册账号。所有代码和模型都来自公开仓库,国内用户还能用ModelScope镜像加速下载。

2.2 四步安装:Python、ADB、开发者模式、ADB Keyboard

我们把安装压缩成四个明确动作,每个动作都有验证方式,失败立刻可知。

第一步:装Python(3分钟)
  • 访问 python.org/downloads,下载 Python 3.10 或 3.11(不要装3.12,部分依赖尚未兼容)
  • 安装时务必勾选 “Add Python to PATH”(Windows)或按Mac提示完成安装
  • 验证:打开命令行(Windows按 Win+R 输入 cmd,Mac打开终端),输入:
    python --version
    
    显示 Python 3.10.x 即成功。
第二步:装ADB(5分钟)
  • developer.android.com/platform-tools 下载对应系统的 platform-tools
  • 解压到一个简单路径,比如 C:\adb(Windows)或 ~/adb(Mac)
  • 配置环境变量(关键!)
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入 C:\adb
    • Mac:终端执行 echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
  • 验证:
    adb version
    
    显示 Android Debug Bridge version 1.0.41 类似字样即成功。
第三步:开手机开发者模式(2分钟)
  • 设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
  • 返回设置 → 系统 → 开发者选项 → 打开“USB调试”
  • 此时手机会弹窗问“允许USB调试吗?”——勾选“始终允许”,再点“确定”
第四步:装ADB Keyboard(3分钟)

这是让AI能输入中文的关键。没有它,AI只能点、不能打字。

  • 下载 ADBKeyboard.apk(GitHub搜索 adb-keyboard 或直接用 这个链接
  • 电脑命令行进入APK所在目录,执行:
    adb install ADBKeyboard.apk
    
  • 手机设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用“ADB Keyboard”
  • 最后一步:长按微信/短信输入框 → 选择输入法 → 切换为“ADB Keyboard”

全部完成后,在命令行输入 adb devices,应看到类似:

List of devices attached
ZY322FDQ67    device

出现 device 字样,说明手机已成功接入。


3. 部署核心:三行命令,启动你的AI助理

现在,你的电脑和手机已连通,接下来是让AI“上岗”的三步。

3.1 下载并安装Open-AutoGLM项目

打开命令行,依次执行(复制粘贴即可):

# 克隆项目(约2MB,秒下)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 安装依赖(会自动下载requests、Pillow、adbutils等)
pip install -r requirements.txt
pip install -e .

验证:执行 python -c "from phone_agent import PhoneAgent; print('OK')",无报错即成功。

3.2 下载模型(国内用户请用此法提速)

模型文件约18GB,国际源慢,强烈推荐用ModelScope国内镜像

# 创建模型存放目录
mkdir models

# 使用ModelScope镜像(国内用户,5–15分钟)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git models/AutoGLM-Phone-9B

注意:不要用 git lfs 下载Hugging Face源,国内常中断。ModelScope镜像已预打包,直接克隆即得完整模型。

3.3 启动模型服务(一行命令)

我们用轻量级方式启动,不涉及复杂Docker或GPU参数:

# Linux/macOS用户
python3 -m vllm.entrypoints.openai.api_server \
  --model ./models/AutoGLM-Phone-9B \
  --served-model-name autoglm-phone-9b \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string
:: Windows用户(保存为start_model.bat双击运行)
python -m vllm.entrypoints.openai.api_server --model ./models/AutoGLM-Phone-9B --served-model-name autoglm-phone-9b --port 8000 --max-model-len 25480

等待约1–2分钟,看到终端输出:

INFO:     Uvicorn running on http://0.0.0.0:8000

表示模型服务已就绪,正在本地 http://localhost:8000 提供API。


4. 第一次实战:让AI打开小红书,搜“咖啡馆”

现在,一切就绪。我们来执行第一条真正有用的指令——不是“打开设置”,而是“刷小红书”。

4.1 命令行一键运行(推荐新手)

确保你的手机已通过USB连接且显示为 device,在 Open-AutoGLM 目录下执行:

python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书,搜索上海静安区的精品咖啡馆"

你会看到类似这样的实时输出:

📸 正在截取屏幕...
🧠 正在分析界面:检测到桌面图标,小红书图标位于第2行第1列
 执行动作: {"action": "Click", "x": 210, "y": 850}
📸 正在截取屏幕...
🧠 正在分析界面:小红书首页加载中,顶部有搜索框
 执行动作: {"action": "Click", "x": 540, "y": 120}
 执行动作: {"action": "Type", "text": "上海静安区的精品咖啡馆"}
 执行动作: {"action": "PressEnter"}
 任务完成:已展示搜索结果,共找到24条笔记

几秒钟后,你的手机屏幕上就会真实出现小红书的搜索结果页——AI不仅点了App,还精准点击了搜索框、输入了中文、按了回车。

4.2 为什么它能准确输入中文?揭秘ADB Keyboard的作用

普通ADB input text 命令不支持中文,但 ADB Keyboard 是一个特殊输入法,它把AI生成的文本转为手机可识别的按键序列(如“上”= u,“海”= h)。Open-AutoGLM 在调用 Type 动作时,会自动切换输入法为 ADB Keyboard,输入完毕再切回原输入法——整个过程对用户完全透明。

你可以自己验证:在执行上述命令前,手动把手机输入法切为“百度输入法”,命令运行后,你会发现输入法自动变成了“ADB Keyboard”,输入完又切回去了。

4.3 更实用的小红书指令模板(直接复制使用)

别再凭空想指令,这里给你整理好高频场景的“人话模板”,替换关键词就能用:

  • 打开小红书,搜索[地点][品类],按点赞数排序
    → 例:“打开小红书,搜索杭州西湖边的茶馆,按点赞数排序”

  • 打开小红书,进入用户[用户名]的主页,保存最新3篇图文笔记
    → 例:“打开小红书,进入用户@咖啡研究所的主页,保存最新3篇图文笔记”

  • 打开小红书,搜索[关键词],筛选发布时间为最近7天的笔记
    → 例:“打开小红书,搜索露营装备,筛选发布时间为最近7天的笔记”

  • 打开小红书,找到标题含[关键词]的笔记,点赞并收藏
    → 例:“打开小红书,找到标题含‘免煮咖啡’的笔记,点赞并收藏”

这些指令之所以有效,是因为 AutoGLM-Phone 模型在训练时就见过大量小红书UI截图和对应操作描述,它对“搜索框”“点赞心形图标”“用户头像位置”有强空间感知能力。


5. 进阶技巧:让AI更懂你、更安全、更省心

部署成功只是开始。下面这些技巧,能让你从小白变成高效使用者。

5.1 敏感操作必须人工确认(防误触支付/删号)

AI再聪明,也不能替你做决定。Open-AutoGLM 内置了安全闸门:当检测到“支付”“删除”“注销”“授权通讯录”等高危动作时,会自动暂停并弹出确认提示。

例如,你输入:

python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书,给博主@旅行家小满打赏10元"

AI执行到支付页时会停住,终端输出:

  安全拦截:检测到支付动作(金额10元),需人工确认
是否继续?(y/n):

你敲 n 就终止,敲 y 才继续。这个机制默认开启,无需额外配置。

5.2 WiFi无线控制:摆脱数据线束缚

如果你的手机和电脑在同一WiFi下,可以彻底摆脱USB线:

  1. 先用USB连一次,执行:
    adb tcpip 5555
    
  2. 拔掉USB线,查看手机WiFi IP(设置→WiFi→点击当前网络→IP地址),如 192.168.1.105
  3. 电脑执行:
    adb connect 192.168.1.105:5555
    adb devices  # 应显示 device
    
  4. 后续所有命令加上 --device-id 192.168.1.105:5555

从此,你躺在沙发上,手机放在茶几上,AI照样能帮你刷小红书。

5.3 自定义常用指令,做成快捷命令

每次输一长串太麻烦?把它变成一个.bat或.sh脚本:

# save_as_coffee.sh(Mac/Linux)
#!/bin/bash
python main.py \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开小红书,搜索上海静安区的精品咖啡馆,保存前5条笔记封面"

赋予执行权限后,双击或运行 ./save_as_coffee.sh 即可。


6. 常见问题:90%的失败,都出在这三个地方

根据社区高频反馈,绝大多数问题集中在以下三点。对照自查,5分钟内解决。

现象 最可能原因 一招解决
adb devices 显示 unauthorized 或空白 手机未授权USB调试 拔掉数据线重连,手机弹窗点“允许”,勾选“始终允许”
模型启动报错 OSError: libcudnn.so not found 未安装CUDA或版本不匹配 改用CPU模式:在启动命令末尾加 --device cpu
AI点了错误位置,或一直循环点击 手机屏幕分辨率缩放比例非100% 设置→显示→字体与样式→显示大小→调为“默认”或“100%”
输入中文时乱码或无反应 ADB Keyboard未启用或未设为默认 手机设置→语言和输入法→确保“ADB Keyboard”已启用且为默认输入法

如果以上都不行,去 GitHub Issues 搜关键词,99%的问题已有解决方案。


7. 总结:你刚刚掌握了一项未来技能

回顾这一路,你其实只做了几件事:装了两个工具(Python、ADB),开了一个开关(开发者模式),跑了三行命令,然后说了一句话——结果,你的手机真的听懂了、看懂了、动手了。

这不是玩具,而是生产力拐点。当你能把“搜咖啡馆”“整理收藏夹”“监控竞品动态”这些重复操作交给AI,每天节省的15分钟,一年就是91小时。而这91小时,足够你学一门新语言、读20本书、或者陪孩子多玩几次积木。

Open-AutoGLM 的价值,不在于它多炫酷,而在于它足够简单、足够透明、足够属于你。没有黑箱API,没有订阅费,没有数据上传——你掌控全部流程,也拥有全部成果。

下一步,试试这些:

  • 用它自动帮你收集小红书上的装修灵感图,存到本地文件夹
  • 让它每天早上8点打开小红书,抓取“今日热榜”前10名标题,发到你的微信
  • 把它和你的NAS结合,实现“手机截图→AI识别→自动归档”

技术从不遥远,它就在你敲下回车的那一刻,开始为你服务。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐