手机AI新玩法!Open-AutoGLM让生活更高效
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现安卓手机界面理解与自动操作。用户可快速启用本地化AI代理,典型应用于外卖下单、社交点赞、跨App信息转发等真实生活场景,全程离线运行,兼顾效率与隐私。
手机AI新玩法!Open-AutoGLM让生活更高效
你有没有想过,手机也能拥有自己的“大脑”?不是那种只能听指令的语音助手,而是真正能看懂屏幕、理解界面、思考步骤、自动点击滑动的智能体——就像给手机装上一双眼睛和一双手。今天要聊的 Open-AutoGLM,正是这样一套开源框架:它不依赖云端API,不调用第三方服务,所有操作都在本地完成;你只需说一句“打开小红书搜美食”,它就能自己截图、识别图标、点开App、输入文字、点击搜索,全程无需你动手。
这不是概念演示,也不是实验室玩具。它是智谱AI开源的 Phone Agent 实现方案,基于 AutoGLM-Phone-9B 多模态模型,专为安卓手机设计,支持真实设备与模拟器,已在美团、微信、抖音、淘宝等50+主流应用中稳定运行。更重要的是,它对新手友好——哪怕你没写过一行Python,只要按步骤连上数据线、点几下设置,15分钟内就能让AI替你刷完朋友圈、订好外卖、甚至帮你关注一个抖音博主。
这篇文章不讲抽象架构,不堆技术参数,只聚焦一件事:怎么让你的手机真正“活”起来。我们会从零开始,带你完成全部部署,跑通第一个任务,并展示它在真实生活中的实用价值。没有术语轰炸,只有清晰路径;没有理论空谈,只有可执行的命令和看得见的效果。
1. 它到底能做什么?先看几个真实场景
别急着装环境,我们先看看 Open-AutoGLM 在真实生活中能帮你解决哪些“烦人小事”。
1.1 场景一:点外卖不用手忙脚乱
你说:“帮我订一份评分4.8以上的川菜,送到公司,备注不要香菜。”
AI会自动:
打开美团 → 切换到“附近”页 → 搜索“川菜” → 筛选评分≥4.8 → 点击第一家 → 加入购物车 → 填写公司地址 → 输入备注 → 进入支付页(停住,等你确认)
整个过程平均耗时约42秒,中间所有界面跳转、按钮定位、文字输入均由AI自主完成。
1.2 场景二:社交操作一键批量处理
你说:“打开微信,给张三、李四、王五的朋友圈最新一条动态点赞。”
AI会:
启动微信 → 进入通讯录 → 分别找到三人 → 进入各自朋友圈 → 定位最新一条 → 点击爱心图标 → 自动切换下一个
这比你手动点三次快得多,也比复制粘贴消息更自然。
1.3 场景三:跨App信息联动
你说:“把刚才小红书收藏的那篇‘北京咖啡馆推荐’,发到微信给同事小陈。”
AI会:
切换到小红书 → 进入“收藏”页 → 找到标题含“北京咖啡馆”的笔记 → 长按分享 → 选择微信 → 搜索“小陈” → 发送
它能记住上下文、跨应用抓取内容、理解语义关联——这才是真正意义上的“智能助理”,而不是“高级快捷指令”。
这些不是预设脚本,也不是固定流程。背后是视觉语言模型实时理解当前屏幕、结合大模型推理生成动作序列、再通过ADB精准执行。换句话说:它不是在“回放录像”,而是在“现场决策”。
2. 准备工作:三样东西,缺一不可
部署 Open-AutoGLM 不需要服务器、不依赖GPU云平台,但有三样基础条件必须满足。我们用最直白的方式说明,不绕弯子。
2.1 你的电脑:只是个“遥控器”,不跑大模型
- 系统:Windows 10/11 或 macOS Monterey 及以上(Linux也可,但本文以Win/Mac为主)
- Python:3.10 或更高版本(别装3.12,部分依赖暂不兼容)
- 硬盘空间:至少留出25GB空闲(模型文件18GB + 项目代码 + 缓存)
小贴士:如果你只是想试试效果,不需要训练或微调,显卡不是必需项。CPU模式虽慢一点(单任务约多花3–5秒),但完全可用。NVIDIA显卡用户建议搭配vLLM使用,速度提升明显。
2.2 你的手机:安卓7.0+,真机优先
- 系统版本:Android 7.0(Nougat)及以上(iOS不支持,这是安卓专属框架)
- 物理要求:能正常连接电脑的数据线(非仅充电线)、屏幕分辨率≥720p(太低可能影响识别)
- 关键设置:必须开启“开发者选项”和“USB调试”(后面会一步步教你怎么开)
注意:模拟器(如BlueStacks、MuMu)也可用,但首次建议用真机。因为真实触控反馈、APP渲染细节、权限弹窗逻辑更贴近日常使用,调试成功率更高。
2.3 ADB工具:手机和电脑之间的“翻译官”
ADB(Android Debug Bridge)是谷歌官方提供的调试桥接工具,Open-AutoGLM 所有点击、滑动、截图、输入都靠它完成。它不是某个软件,而是一组命令行程序。
你不需要懂原理,只需两步:
- 下载:去 Android SDK Platform-Tools 页面 下载对应系统的压缩包
- 配置:把解压后的
platform-tools文件夹路径加进系统环境变量(Win/Mac都有详细指引,5分钟搞定)
验证是否成功?打开命令行,输入:
adb version
如果显示类似 Android Debug Bridge version 1.0.41,就说明装好了。
3. 手机端设置:三步开启“被控制权”
很多新手卡在这一步。其实很简单,就是告诉手机:“允许这台电脑远程操作我”。全程在手机设置里点几下,无须ROOT、无须安装额外管理软件。
3.1 开启开发者模式(一次设置,永久有效)
- 打开手机「设置」→「关于手机」→ 找到「版本号」或「软件信息」
- 连续点击「版本号」7次(数着点,别快别慢)
- 看到提示“您已处于开发者模式”即可
成功标志:返回上一级,能看到新出现的「开发者选项」
3.2 开启USB调试(每次连接都需要)
- 进入「开发者选项」→ 找到「USB调试」→ 右侧开关打开
- 如果弹出“允许USB调试吗?”对话框,勾选“一律允许”,再点“确定”
常见问题:插上数据线后没反应?检查手机通知栏是否有“USB用于…”提示,点开选“文件传输”或“MTP”模式(不是“仅充电”)
3.3 安装ADB Keyboard(中文输入的关键)
默认安卓输入法无法被ADB直接调用,所以必须装一个专用输入法:ADB Keyboard。
安装方式(任选其一):
-
方法A(推荐):用命令行一键安装
adb install ADBKeyboard.apk(APK文件可从 GitHub Release页 下载)
-
方法B(手动):下载APK → 用手机浏览器打开安装 → 安装完成后,进入「设置」→「系统」→「语言和输入法」→「虚拟键盘」→ 启用「ADB Keyboard」
验证是否生效:在任意输入框长按,选择“输入法” → 应能看到“ADB Keyboard”选项。之后AI就能为你输入中文了。
4. 部署流程:从克隆代码到第一次运行
现在进入正题。整个过程分四步:下载代码 → 安装依赖 → 启动模型 → 运行代理。每一步我们都给出完整命令和预期输出,照着敲就行。
4.1 克隆项目并安装Python依赖
打开终端(Mac/Linux)或命令提示符(Windows),依次执行:
# 1. 克隆Open-AutoGLM项目(约2MB)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 2. 创建虚拟环境(推荐,避免污染全局Python)
python -m venv venv
source venv/bin/activate # Mac/Linux
# venv\Scripts\activate # Windows
# 3. 安装项目依赖(含ADB通信、图像处理等核心库)
pip install -r requirements.txt
pip install -e .
预期输出:最后几行应显示
Successfully installed ...,无红色报错即成功。
4.2 下载并启动AI模型(核心大脑)
Open-AutoGLM 本身不包含模型,需单独下载 AutoGLM-Phone-9B(约18GB)。国内用户强烈推荐用ModelScope镜像加速:
# 下载模型(国内用户用此命令,快10倍)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
# 启动vLLM服务(监听本地8000端口)
python -m vllm.entrypoints.openai.api_server \
--model ./AutoGLM-Phone-9B \
--served-model-name autoglm-phone-9b \
--port 8000 \
--max-model-len 25480 \
--chat-template-content-format string
预期输出:看到
Uvicorn running on http://0.0.0.0:8000即表示模型服务已就绪。保持这个窗口开着,不要关闭。
4.3 连接手机并运行第一个任务
确保手机已通过USB连接电脑,且 adb devices 能识别:
adb devices
# 正常输出示例:
# List of devices attached
# 1234567890abcdef device
然后,在 Open-AutoGLM 目录下运行:
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开设置"
预期效果:
- 手机屏幕自动亮起 → 进入桌面 → 找到“设置”图标 → 点击打开
- 终端输出类似:
💭 思考过程: 当前在桌面,检测到“设置”图标,准备点击 执行动作: {"action": "Click", "x": 520, "y": 1830} 动作完成:已打开设置应用
恭喜!你完成了AI手机的第一步。整个过程无需任何截图、坐标标注或规则编写——全靠模型自己“看”和“想”。
5. 实用技巧:让AI更懂你、更可靠
刚跑通只是开始。下面这些技巧,能让你从“能用”走向“好用”,大幅提升成功率和体验感。
5.1 指令怎么写才更准?三个原则
Open-AutoGLM 不是关键词匹配,而是语义理解。但清晰的表达能让它少走弯路:
-
原则1:用完整动词短语,不说半句
❌ “小红书 美食”
“打开小红书,搜索‘北京美食攻略’” -
原则2:涉及APP名时,用大众常用称呼
❌ “打开‘美团外卖’”(它可能识别为“美团”)
“打开美团,搜索附近火锅店” -
原则3:复杂任务拆成单步,或加明确约束
❌ “帮我买耳机”(太模糊)
“打开京东,搜索‘蓝牙耳机’,按销量排序,点击第一个商品”
5.2 WiFi无线控制:摆脱数据线束缚
不想一直插着线?Open-AutoGLM 支持WiFi远程控制,设置一次,长期受益:
# 1. 先用USB连上,开启TCP/IP模式
adb tcpip 5555
# 2. 断开USB,用WiFi连接(手机和电脑在同一局域网)
adb connect 192.168.1.100:5555 # 替换为手机实际IP
# 3. 验证连接
adb devices # 应显示 IP:5555 device
后续所有命令只需把
--device-id换成IP地址即可,例如:python main.py --device-id 192.168.1.100:5555 --base-url ... "打开微信"
5.3 敏感操作人工接管:安全第一
涉及支付、删除、授权等高风险动作时,AI会主动暂停,等你确认:
python main.py \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开美团订一份外卖"
当走到支付页时,终端会输出:
需要确认:即将支付28.5元,是否继续?(y/n):
你敲 y 才继续,敲 n 就终止。这个机制默认开启,无需额外配置。
6. 真实能力边界:它强在哪?弱在哪?
技术文章最怕“王婆卖瓜”。我们坦诚告诉你 Open-AutoGLM 的真实表现,帮你判断是否值得投入时间。
6.1 它特别擅长的三类任务
| 类型 | 举例 | 成功率 | 说明 |
|---|---|---|---|
| 界面导航类 | “打开设置→进入WLAN→开启热点” | ≥95% | 图标识别+层级跳转非常稳定,尤其对系统级App |
| 结构化搜索类 | “在淘宝搜‘降噪耳机’,按销量排序” | ≥90% | 对搜索框、排序按钮、列表项识别准确 |
| 跨App信息流转 | “把知乎收藏的‘Python入门’链接,发到微信给导师” | ≥85% | 能理解“收藏”“链接”“发给”等语义,但需目标APP已登录 |
6.2 当前仍需注意的局限
- 验证码/图形密码:遇到短信验证码、手势密码、人脸识别,AI会停住并提示“需人工接管”,这是设计使然,非缺陷
- 极简UI或自定义皮肤:某些国产定制ROM(如MIUI深色模式、华为鸿蒙纯黑主题)可能影响图标识别,建议用标准安卓主题测试
- 长文本输入:一次性输入超50字中文可能偶发错字,建议拆成两步:“输入收货人”→“输入电话号码”
实测建议:首次使用,从“打开XX App”“搜索XXX”这类简单指令开始,逐步增加复杂度。你会发现,它的学习曲线很平缓——越用越准。
7. 进阶玩法:不只是“听话”,还能“定制”
当你熟悉基础操作后,可以尝试这些让AI更贴合你习惯的玩法。
7.1 自定义系统提示词(改“性格”)
编辑 phone_agent/config/prompts.py 文件,修改 SYSTEM_PROMPT 字段。比如你想让它更“谨慎”,可以加:
SYSTEM_PROMPT = """
你是一个细致、保守的手机助手。执行任何操作前,请确认:
1. 当前界面是否加载完成(检查关键文字/图标是否可见)
2. 操作是否会退出当前APP(如返回键)
3. 涉及输入时,先确认光标是否在正确位置
"""
保存后重启 main.py,它就会按新规则行动。
7.2 批量任务脚本(解放双手)
用Python API写个循环,自动处理重复劳动:
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
agent = PhoneAgent(ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b"))
tasks = [
"打开微博,关注@科技每日推送",
"打开豆瓣,标记《奥本海默》为想看",
"打开网易云,播放每日推荐歌单"
]
for task in tasks:
print(f"\n 执行:{task}")
result = agent.run(task)
print(f" 结果:{result}")
time.sleep(3) # 每次间隔3秒,避免操作过快
7.3 与其他工具链式调用(构建工作流)
比如先用ChatGPT润色文案,再让Open-AutoGLM发到小红书:
import openai
from phone_agent import PhoneAgent
# 1. 调用ChatGPT生成文案
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": "写一段小红书风格的咖啡探店文案,200字以内"}]
)
caption = response.choices[0].message.content
# 2. 让AI发到小红书
agent = PhoneAgent(ModelConfig(base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b"))
agent.run(f"打开小红书,发布图文,标题:周末咖啡地图,正文:{caption}")
8. 总结:你的手机,从此多了一个“数字分身”
回顾一下,今天我们做了什么:
用不到20分钟,让一台普通安卓手机拥有了“视觉+思考+执行”三位一体的AI能力;
不依赖任何云服务,所有数据留在本地,隐私可控;
从“打开设置”到“跨App发消息”,验证了它在真实生活场景中的实用性;
掌握了WiFi控制、敏感确认、指令优化等关键技巧,不再是“玩具级”体验;
还解锁了自定义提示词、批量脚本、外部工具集成等进阶能力。
Open-AutoGLM 的意义,不在于它多“酷”,而在于它多“实”。它不追求取代人类,而是把那些机械、重复、费时的手机操作交出去,让你专注真正重要的事——比如认真看一条朋友发来的消息,而不是忙着点开、复制、粘贴、发送。
技术终将回归人的需求。而此刻,你的手机,已经准备好成为那个更安静、更可靠、更懂你的伙伴。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)