Open-AutoGLM实战:一句话让AI帮你刷小红书
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的安卓手机自动化操作。用户仅需一句话指令(如“打开小红书搜咖啡馆”),即可完成App启动、搜索框点击、中文输入与结果浏览,典型应用于社交平台内容检索与信息整理。
Open-AutoGLM实战:一句话让AI帮你刷小红书
你有没有过这样的时刻:想在小红书搜“上海周末咖啡馆推荐”,但手正忙着切菜、哄娃,或者干脆懒得点开APP?又或者,你刚收藏了10篇穿搭笔记,却没时间逐条整理——这时候,如果手机能听懂你一句话就自动完成操作,是不是像多了个随叫随到的数字助理?
Open-AutoGLM 就是这样一个真实可用的工具。它不是概念演示,也不是云端黑盒,而是一个真正跑在你本地电脑上、通过 ADB 控制你真机的 AI 手机智能体。你只需说一句“打开小红书搜美食”,它就能看懂当前屏幕、理解你的意图、规划点击路径、输入关键词、滑动浏览结果——整个过程无需你碰一下手机。
这不是科幻,是今天就能搭起来的现实。本文不讲大道理,不堆术语,只带你从零开始,用最直白的方式完成部署、连上手机、跑通第一条指令,并真正用它刷一次小红书。全程小白友好,哪怕你上次写代码还是在大学实验课,也能照着做成功。
1. 它到底是什么:一个能“看”会“想”还“动手”的AI
1.1 不是普通聊天机器人,而是手机上的“眼睛+大脑+手指”
很多AI项目只做文本生成,而 Open-AutoGLM 的特别之处在于它的三层能力闭环:
-
眼睛:每秒自动截取手机屏幕,用视觉语言模型(VLM)识别界面上的文字、图标、按钮位置和布局关系。它不是靠猜,而是真的“看见”了“搜索框”在右上角、“小红书”App 图标在第一屏第三行。
-
大脑:把你的自然语言指令(比如“帮我找最近3天发过露营笔记的博主”)和当前屏幕画面一起输入模型,让它推理出下一步该点哪里、输什么、滑多远。这个过程叫“多步任务规划”,不是简单映射,而是带上下文的思考。
-
手指:通过 ADB(Android Debug Bridge)向手机发送精准指令——模拟点击坐标、长按、滑动、输入中文、返回上一页。所有动作都像真人操作一样可追溯、可暂停、可接管。
这三者合在一起,才构成了一个能真正“替你用手机”的智能体。
1.2 和其他AI手机方案的关键区别
| 对比项 | Open-AutoGLM(本方案) | 云手机+网页自动化 | 纯语音助手(如小爱同学) |
|---|---|---|---|
| 控制方式 | 本地电脑控制真机,全程离线处理屏幕图像 | 远程虚拟机运行,依赖网络和服务器 | 仅语音唤醒+调用系统API,无法操作第三方App |
| 隐私性 | 所有截图、推理、操作都在你本地完成,不上传任何画面或指令 | 屏幕画面、操作日志均经由云端,存在数据外泄风险 | 指令可能上传至厂商服务器 |
| 灵活性 | 支持任意安卓App,包括未开放API的小红书、抖音、闲鱼等 | 受限于云手机预装环境和权限,难适配新版本App | 仅支持系统级功能(打电话、设闹钟),无法进入小红书内部操作 |
| 上手门槛 | 需配置ADB和Python,但教程已拆解为傻瓜步骤 | 无需配置,但需付费订阅,且响应延迟明显 | 零配置,但功能极其有限 |
一句话总结:Open-AutoGLM 是目前少有的、能让普通人真正拥有“可定制、可掌控、可审计”的AI手机助理的开源方案。
2. 准备工作:三样东西,30分钟搞定
别被“AI”“多模态”吓住——实际要准备的只有三类东西:一台能联网的电脑、一部安卓手机、和一点耐心。我们跳过所有冗余环节,直奔核心。
2.1 你的设备清单(真实可行版)
| 类别 | 最低要求 | 为什么重要 | 小贴士 |
|---|---|---|---|
| 电脑 | Windows 10 / macOS Monterey,8GB内存,50GB空闲空间 | 模型文件约18GB,推理需要内存缓存截图和中间状态 | Mac M1/M2芯片用户注意:vLLM暂不原生支持Apple Silicon,建议用Rosetta模式运行或改用CPU推理(稍慢但可用) |
| 手机 | Android 7.0+,已开启USB调试,电量>30% | 旧机型也能用,关键是开启开发者选项 | 如果找不到“关于手机”,试试在“设置”里搜“版本号” |
| 连接方式 | USB数据线(首选)或同一WiFi下的稳定网络 | USB最稳,WiFi适合不想插线的场景 | WiFi连接前务必先用USB连一次,执行adb tcpip 5555才能开启无线调试 |
不需要显卡,不需要服务器,不需要注册账号。所有代码和模型都来自公开仓库,国内用户还能用ModelScope镜像加速下载。
2.2 四步安装:Python、ADB、开发者模式、ADB Keyboard
我们把安装压缩成四个明确动作,每个动作都有验证方式,失败立刻可知。
第一步:装Python(3分钟)
- 访问 python.org/downloads,下载 Python 3.10 或 3.11(不要装3.12,部分依赖尚未兼容)
- 安装时务必勾选 “Add Python to PATH”(Windows)或按Mac提示完成安装
- 验证:打开命令行(Windows按
Win+R输入cmd,Mac打开终端),输入:
显示python --versionPython 3.10.x即成功。
第二步:装ADB(5分钟)
- 去 developer.android.com/platform-tools 下载对应系统的
platform-tools - 解压到一个简单路径,比如
C:\adb(Windows)或~/adb(Mac) - 配置环境变量(关键!):
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入
C:\adb - Mac:终端执行
echo 'export PATH=$PATH:~/adb' >> ~/.zshrc && source ~/.zshrc
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→填入
- 验证:
显示adb versionAndroid Debug Bridge version 1.0.41类似字样即成功。
第三步:开手机开发者模式(2分钟)
- 设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”
- 返回设置 → 系统 → 开发者选项 → 打开“USB调试”
- 此时手机会弹窗问“允许USB调试吗?”——勾选“始终允许”,再点“确定”
第四步:装ADB Keyboard(3分钟)
这是让AI能输入中文的关键。没有它,AI只能点、不能打字。
- 下载
ADBKeyboard.apk(GitHub搜索adb-keyboard或直接用 这个链接) - 电脑命令行进入APK所在目录,执行:
adb install ADBKeyboard.apk - 手机设置 → 系统 → 语言和输入法 → 虚拟键盘 → 启用“ADB Keyboard”
- 最后一步:长按微信/短信输入框 → 选择输入法 → 切换为“ADB Keyboard”
全部完成后,在命令行输入 adb devices,应看到类似:
List of devices attached
ZY322FDQ67 device
出现 device 字样,说明手机已成功接入。
3. 部署核心:三行命令,启动你的AI助理
现在,你的电脑和手机已连通,接下来是让AI“上岗”的三步。
3.1 下载并安装Open-AutoGLM项目
打开命令行,依次执行(复制粘贴即可):
# 克隆项目(约2MB,秒下)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 安装依赖(会自动下载requests、Pillow、adbutils等)
pip install -r requirements.txt
pip install -e .
验证:执行 python -c "from phone_agent import PhoneAgent; print('OK')",无报错即成功。
3.2 下载模型(国内用户请用此法提速)
模型文件约18GB,国际源慢,强烈推荐用ModelScope国内镜像:
# 创建模型存放目录
mkdir models
# 使用ModelScope镜像(国内用户,5–15分钟)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git models/AutoGLM-Phone-9B
注意:不要用
git lfs下载Hugging Face源,国内常中断。ModelScope镜像已预打包,直接克隆即得完整模型。
3.3 启动模型服务(一行命令)
我们用轻量级方式启动,不涉及复杂Docker或GPU参数:
# Linux/macOS用户
python3 -m vllm.entrypoints.openai.api_server \
--model ./models/AutoGLM-Phone-9B \
--served-model-name autoglm-phone-9b \
--port 8000 \
--max-model-len 25480 \
--chat-template-content-format string
:: Windows用户(保存为start_model.bat双击运行)
python -m vllm.entrypoints.openai.api_server --model ./models/AutoGLM-Phone-9B --served-model-name autoglm-phone-9b --port 8000 --max-model-len 25480
等待约1–2分钟,看到终端输出:
INFO: Uvicorn running on http://0.0.0.0:8000
表示模型服务已就绪,正在本地 http://localhost:8000 提供API。
4. 第一次实战:让AI打开小红书,搜“咖啡馆”
现在,一切就绪。我们来执行第一条真正有用的指令——不是“打开设置”,而是“刷小红书”。
4.1 命令行一键运行(推荐新手)
确保你的手机已通过USB连接且显示为 device,在 Open-AutoGLM 目录下执行:
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开小红书,搜索上海静安区的精品咖啡馆"
你会看到类似这样的实时输出:
📸 正在截取屏幕...
🧠 正在分析界面:检测到桌面图标,小红书图标位于第2行第1列
执行动作: {"action": "Click", "x": 210, "y": 850}
📸 正在截取屏幕...
🧠 正在分析界面:小红书首页加载中,顶部有搜索框
执行动作: {"action": "Click", "x": 540, "y": 120}
执行动作: {"action": "Type", "text": "上海静安区的精品咖啡馆"}
执行动作: {"action": "PressEnter"}
任务完成:已展示搜索结果,共找到24条笔记
几秒钟后,你的手机屏幕上就会真实出现小红书的搜索结果页——AI不仅点了App,还精准点击了搜索框、输入了中文、按了回车。
4.2 为什么它能准确输入中文?揭秘ADB Keyboard的作用
普通ADB input text 命令不支持中文,但 ADB Keyboard 是一个特殊输入法,它把AI生成的文本转为手机可识别的按键序列(如“上”= u,“海”= h)。Open-AutoGLM 在调用 Type 动作时,会自动切换输入法为 ADB Keyboard,输入完毕再切回原输入法——整个过程对用户完全透明。
你可以自己验证:在执行上述命令前,手动把手机输入法切为“百度输入法”,命令运行后,你会发现输入法自动变成了“ADB Keyboard”,输入完又切回去了。
4.3 更实用的小红书指令模板(直接复制使用)
别再凭空想指令,这里给你整理好高频场景的“人话模板”,替换关键词就能用:
-
打开小红书,搜索[地点][品类],按点赞数排序
→ 例:“打开小红书,搜索杭州西湖边的茶馆,按点赞数排序” -
打开小红书,进入用户[用户名]的主页,保存最新3篇图文笔记
→ 例:“打开小红书,进入用户@咖啡研究所的主页,保存最新3篇图文笔记” -
打开小红书,搜索[关键词],筛选发布时间为最近7天的笔记
→ 例:“打开小红书,搜索露营装备,筛选发布时间为最近7天的笔记” -
打开小红书,找到标题含[关键词]的笔记,点赞并收藏
→ 例:“打开小红书,找到标题含‘免煮咖啡’的笔记,点赞并收藏”
这些指令之所以有效,是因为 AutoGLM-Phone 模型在训练时就见过大量小红书UI截图和对应操作描述,它对“搜索框”“点赞心形图标”“用户头像位置”有强空间感知能力。
5. 进阶技巧:让AI更懂你、更安全、更省心
部署成功只是开始。下面这些技巧,能让你从小白变成高效使用者。
5.1 敏感操作必须人工确认(防误触支付/删号)
AI再聪明,也不能替你做决定。Open-AutoGLM 内置了安全闸门:当检测到“支付”“删除”“注销”“授权通讯录”等高危动作时,会自动暂停并弹出确认提示。
例如,你输入:
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开小红书,给博主@旅行家小满打赏10元"
AI执行到支付页时会停住,终端输出:
安全拦截:检测到支付动作(金额10元),需人工确认
是否继续?(y/n):
你敲 n 就终止,敲 y 才继续。这个机制默认开启,无需额外配置。
5.2 WiFi无线控制:摆脱数据线束缚
如果你的手机和电脑在同一WiFi下,可以彻底摆脱USB线:
- 先用USB连一次,执行:
adb tcpip 5555 - 拔掉USB线,查看手机WiFi IP(设置→WiFi→点击当前网络→IP地址),如
192.168.1.105 - 电脑执行:
adb connect 192.168.1.105:5555 adb devices # 应显示 device - 后续所有命令加上
--device-id 192.168.1.105:5555
从此,你躺在沙发上,手机放在茶几上,AI照样能帮你刷小红书。
5.3 自定义常用指令,做成快捷命令
每次输一长串太麻烦?把它变成一个.bat或.sh脚本:
# save_as_coffee.sh(Mac/Linux)
#!/bin/bash
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开小红书,搜索上海静安区的精品咖啡馆,保存前5条笔记封面"
赋予执行权限后,双击或运行 ./save_as_coffee.sh 即可。
6. 常见问题:90%的失败,都出在这三个地方
根据社区高频反馈,绝大多数问题集中在以下三点。对照自查,5分钟内解决。
| 现象 | 最可能原因 | 一招解决 |
|---|---|---|
adb devices 显示 unauthorized 或空白 |
手机未授权USB调试 | 拔掉数据线重连,手机弹窗点“允许”,勾选“始终允许” |
模型启动报错 OSError: libcudnn.so not found |
未安装CUDA或版本不匹配 | 改用CPU模式:在启动命令末尾加 --device cpu |
| AI点了错误位置,或一直循环点击 | 手机屏幕分辨率缩放比例非100% | 设置→显示→字体与样式→显示大小→调为“默认”或“100%” |
| 输入中文时乱码或无反应 | ADB Keyboard未启用或未设为默认 | 手机设置→语言和输入法→确保“ADB Keyboard”已启用且为默认输入法 |
如果以上都不行,去 GitHub Issues 搜关键词,99%的问题已有解决方案。
7. 总结:你刚刚掌握了一项未来技能
回顾这一路,你其实只做了几件事:装了两个工具(Python、ADB),开了一个开关(开发者模式),跑了三行命令,然后说了一句话——结果,你的手机真的听懂了、看懂了、动手了。
这不是玩具,而是生产力拐点。当你能把“搜咖啡馆”“整理收藏夹”“监控竞品动态”这些重复操作交给AI,每天节省的15分钟,一年就是91小时。而这91小时,足够你学一门新语言、读20本书、或者陪孩子多玩几次积木。
Open-AutoGLM 的价值,不在于它多炫酷,而在于它足够简单、足够透明、足够属于你。没有黑箱API,没有订阅费,没有数据上传——你掌控全部流程,也拥有全部成果。
下一步,试试这些:
- 用它自动帮你收集小红书上的装修灵感图,存到本地文件夹
- 让它每天早上8点打开小红书,抓取“今日热榜”前10名标题,发到你的微信
- 把它和你的NAS结合,实现“手机截图→AI识别→自动归档”
技术从不遥远,它就在你敲下回车的那一刻,开始为你服务。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)