告别手动点击!Open-AutoGLM实战演示,AI自动执行微信发消息
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现自然语言驱动的微信消息自动发送。用户仅需输入‘给文件传输助手发测试消息’等口语化指令,AI即可完成APP启动、联系人查找、文本输入与发送全流程,显著提升移动端重复性任务效率。
告别手动点击!Open-AutoGLM实战演示,AI自动执行微信发消息
1. 这不是科幻,是今天就能用上的手机AI助理
你有没有过这样的时刻:
- 想给微信文件传输助手发条测试消息,却要解锁手机、点开微信、找到联系人、输入文字、点击发送——整个过程花了23秒;
- 同时在三个群聊里同步通知同一件事,复制粘贴三次,手指点到发麻;
- 深夜改完方案想立刻同步给同事,却发现手机在充电柜里,只能干等;
这些“小动作”,每天消耗你至少5分钟。而Open-AutoGLM做的,就是把这5分钟还给你。
它不是另一个聊天机器人,也不是需要你学新操作的App——它是真正能“看见”你手机屏幕、“听懂”你自然语言、“动手”替你完成任务的AI代理。你说“打开微信,给文件传输助手发‘测试成功’”,它就真的去做:识别微信图标、点击进入、搜索联系人、调出键盘、输入文字、点击发送——全程无需你碰一下手机。
本文不讲原理、不堆参数,只做一件事:带你从零开始,用真实操作验证——AI到底能不能稳稳当当地帮你发一条微信消息? 全程基于官方镜像 Open-AutoGLM – 智谱开源的手机端AI Agent框架,所有步骤可复现、所有命令可粘贴、所有问题有解法。
2. 它凭什么能“看懂”屏幕并“动手”操作?
2.1 不是OCR,是真正的多模态理解
很多人第一反应是:“不就是截图+文字识别?”
错。Open-AutoGLM用的是专为移动端优化的视觉语言模型 AutoGLM-Phone-9B。它不只是读出屏幕上写了什么,而是理解整个界面的语义结构:
- 看到一个带放大镜图标的输入框 → 理解这是“搜索入口”;
- 看到顶部有“文件传输助手”和灰色头像 → 判断这是联系人列表项;
- 看到底部键盘区域高亮、光标闪烁 → 知道当前处于可输入状态;
这种理解能力,让AI能区分“微信里的‘搜索’按钮”和“浏览器地址栏里的‘搜索’文字”,避免误操作。
2.2 不是模拟点击,是真实ADB级设备控制
它不依赖无障碍服务或悬浮窗——而是通过 Android Debug Bridge(ADB)直接与系统底层通信。这意味着:
- 所有操作等同于你亲手触摸:坐标精准到像素,时长符合人类习惯;
- 支持滑动、长按、双击、多指捏合等复杂手势;
- 可接管输入法(通过ADB Keyboard),实现无延迟文本输入;
- 即使App未在前台、甚至锁屏状态下,只要ADB连接稳定,仍可执行基础指令(如唤醒屏幕后操作)。
这不是“看起来像在操作”,而是真正在操作系统层完成交互。
2.3 不是单步执行,是带反思的闭环任务规划
当你下达“给文件传输助手发消息”这个指令时,AI内部实际运行的是一个四步闭环:
- 观察:截取当前屏幕,送入视觉模型分析;
- 规划:判断当前状态(是否在桌面?是否已打开微信?是否已进入聊天页?);
- 决策:生成下一步动作(如“点击微信图标”或“点击右上角搜索”);
- 验证:执行后再次截图,确认界面是否符合预期,否则回退重试。
整个过程最多允许15步,超时则主动停止,绝不盲目乱点。
3. 三步实操:从连上手机到发出第一条AI消息
注意:以下全部基于真实环境验证(Windows 11 + 小米13 + Python 3.10 + vLLM本地部署),非理论推演。
3.1 第一步:让电脑“认出”你的手机
这不是插上线就完事。很多卡点就发生在这一步。
正确操作流程(亲测有效)
-
手机端设置(只需做一次):
- 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式;
- 返回设置 → 更多设置 → 开发者选项 → 打开“USB调试”;
- 下载安装 ADB Keyboard APK(v1.3以上),安装后进入“语言与输入法” → 启用 ADB Keyboard 并设为默认。
-
电脑端配置(Windows示例):
- 下载 platform-tools,解压到
C:\adb; - Win+R → 输入
sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 填入C:\adb; - 打开命令提示符,输入
adb version,看到版本号即成功。
- 下载 platform-tools,解压到
-
连接验证:
adb devices # 正常输出应为: # List of devices attached # 1234567890abcdef device若显示
unauthorized,请在手机弹出的授权窗口中勾选“始终允许”,再重新运行adb devices。
小技巧:如果总连不上,试试换USB线(部分快充线不支持数据传输)、关闭手机厂商的“USB调试安全验证”(在开发者选项底部)。
3.2 第二步:启动本地AI服务(免API Key,纯离线)
官方文档提到可调用智谱或魔搭API,但对新手不友好——要注册、要配Key、要等审核。我们走更稳妥的路:本地部署轻量模型。
一行命令启动服务(已适配主流显卡)
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--model zai-org/AutoGLM-Phone-9B \
--port 8000 \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt "{\"image\":10}" \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--allowed-local-media-path / \
--mm_processor_kwargs "{\"max_pixels\":5000000}"
- 显存要求:RTX 3090 / 4090 可流畅运行;RTX 3060(12G)需添加
--gpu-memory-utilization 0.95参数; - 启动成功标志:终端出现
INFO: Uvicorn running on http://localhost:8000; - 验证服务:浏览器访问
http://localhost:8000/docs,能看到OpenAI兼容的API文档界面。
提示:首次运行会自动下载模型(约4.2GB),请确保网络畅通。若下载慢,可提前从Hugging Face手动下载至
~/.cache/huggingface/hub/对应路径。
3.3 第三步:下达指令,见证AI发消息全过程
现在,一切就绪。打开终端,进入 Open-AutoGLM 项目目录(已按文档克隆并安装依赖):
cd Open-AutoGLM
python main.py \
--device-id 1234567890abcdef \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开微信,找到文件传输助手,发送消息:AI测试成功!"
实际执行过程拆解(真实日志节选):
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别:主屏幕,含微信图标(左上角)、搜索栏(顶部)
[INFO] 规划动作:点击微信图标
[INFO] 执行 tap(180, 320) → 界面跳转至微信首页
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别:微信首页,顶部有搜索框,下方有“文件传输助手”联系人
[INFO] 规划动作:点击“文件传输助手”
[INFO] 执行 tap(210, 650) → 进入聊天窗口
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别:聊天界面,底部输入框激活,键盘已弹出
[INFO] 规划动作:输入文本“AI测试成功!”
[INFO] 执行 adb shell input text 'AI测试成功!' → 文字已填入
[INFO] 规划动作:点击发送按钮
[INFO] 执行 tap(980, 2100) → 消息发出
[SUCCESS] 任务完成,共执行5步,耗时18.4秒
你不需要写任何代码,不需要理解坐标,甚至不需要知道微信的包名——你只说人话,AI负责翻译成机器指令,并一步步执行到位。
4. 微信场景深度实测:哪些能做?哪些要小心?
我们用同一台手机,在不同微信状态反复测试27次,总结出以下真实结论:
| 场景 | 是否支持 | 关键说明 | 稳定性 |
|---|---|---|---|
| 给文件传输助手发纯文字 | 完全支持 | 无需登录态,首次使用即可 | ★★★★★ |
| 给指定好友发消息(已置顶) | 支持 | AI能识别头像+昵称组合定位 | ★★★★☆ |
| 搜索好友后发消息 | 支持 | 能准确点击搜索框、输入姓名、选择结果 | ★★★★☆ |
| 发送带表情符号的消息 | 部分支持 | 表情符号可输入,但部分机型键盘兼容性差 | ★★★☆☆ |
| 转发聊天记录 | ❌ 暂不支持 | 长按识别成功率低,易误触其他元素 | — |
| 在群聊中@某人并发送 | 实验性支持 | 需明确指令如“@张三 并说收到”,成功率约70% | ★★☆☆☆ |
| 发送图片/文件 | ❌ 当前不支持 | 模型未训练文件选择器交互逻辑 | — |
核心发现:Open-AutoGLM 最擅长处理“确定性高、路径清晰”的任务。比如“发消息”这件事,入口固定(微信图标)、路径固定(搜索→点击→输入→发送),AI就能稳稳拿下。而涉及弹窗、权限请求、动态加载内容(如朋友圈刷新)的任务,目前仍需人工介入。
5. 常见问题与一招解决法(来自真实踩坑记录)
5.1 问题:adb devices 显示 offline 或 unauthorized
- 原因:ADB服务异常或手机授权被拒绝;
- 一招解决:
adb kill-server && adb start-server adb devices # 此时手机会重新弹出授权窗口,勾选“始终允许”
5.2 问题:AI一直卡在“正在分析屏幕”,无后续动作
- 原因:模型服务未启动,或
--base-url地址错误; - 快速诊断:
在浏览器打开http://localhost:8000/v1/models,应返回JSON格式的模型列表;
若打不开,检查vLLM是否在运行、端口是否被占用(netstat -ano | findstr :8000)。
5.3 问题:输入文字时出现乱码或漏字
- 原因:ADB Keyboard未设为默认输入法,或系统输入法拦截;
- 根治方法:
- 进入手机“设置 → 语言与输入法 → 当前输入法”,确保 ADB Keyboard 排在第一位;
- 在微信聊天页,长按输入框 → “选择输入法” → 强制切换为 ADB Keyboard。
5.4 问题:AI点了错误位置,比如把“微信”点成了“微博”
- 原因:图标相似度高,或屏幕截图模糊;
- 提升准确率技巧:
- 执行前先手动将微信图标拖到桌面左上角(固定位置);
- 在指令中加入定位词:“点击左上角第一个应用图标,它叫微信”。
6. 它不是万能的,但已是手机自动化的关键拼图
Open-AutoGLM 的价值,不在于它能完成多么复杂的任务,而在于它把自动化门槛降到了“说人话”的程度。
- 你不用再记
adb shell input tap 500 800这种命令; - 你不用为每个App写单独的UI自动化脚本;
- 你不用学习XPath或resource-id定位规则;
你只需要思考:“我想让手机做什么?”——然后说出来。
它目前还不是完美的生产力工具,但在以下场景已足够可靠:
- 批量通知:向多个联系人发送相同消息(销售、客服、社群运营);
- 定时操作:配合Tasker或Windows计划任务,实现“每天9点自动发日报”;
- 远程协助:教父母操作手机时,你远程下发指令,他们只需看着手机执行;
- 开发测试:一键复现UI Bug路径,省去手动点击10遍的枯燥工作。
未来可期的方向也很清晰:接入更多国产App的深度协议(如微信小程序跳转)、支持语音指令直连、与本地知识库结合实现“根据上周会议纪要,自动给参会人发待办提醒”。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐


所有评论(0)