告别手动点击！Open-AutoGLM实战演示，AI自动执行微信发消息

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现自然语言驱动的微信消息自动发送。用户仅需输入‘给文件传输助手发测试消息’等口语化指令，AI即可完成APP启动、联系人查找、文本输入与发送全流程，显著提升移动端重复性任务效率。

懒癌弓箭手起源

347人浏览 · 2026-01-26 01:39:28

懒癌弓箭手起源 · 2026-01-26 01:39:28 发布

告别手动点击！Open-AutoGLM实战演示，AI自动执行微信发消息

1. 这不是科幻，是今天就能用上的手机AI助理

你有没有过这样的时刻：

想给微信文件传输助手发条测试消息，却要解锁手机、点开微信、找到联系人、输入文字、点击发送——整个过程花了23秒；
同时在三个群聊里同步通知同一件事，复制粘贴三次，手指点到发麻；
深夜改完方案想立刻同步给同事，却发现手机在充电柜里，只能干等；

这些“小动作”，每天消耗你至少5分钟。而Open-AutoGLM做的，就是把这5分钟还给你。

它不是另一个聊天机器人，也不是需要你学新操作的App——它是真正能“看见”你手机屏幕、“听懂”你自然语言、“动手”替你完成任务的AI代理。你说“打开微信，给文件传输助手发‘测试成功’”，它就真的去做：识别微信图标、点击进入、搜索联系人、调出键盘、输入文字、点击发送——全程无需你碰一下手机。

本文不讲原理、不堆参数，只做一件事：带你从零开始，用真实操作验证——AI到底能不能稳稳当当地帮你发一条微信消息？ 全程基于官方镜像 Open-AutoGLM – 智谱开源的手机端AI Agent框架，所有步骤可复现、所有命令可粘贴、所有问题有解法。

2. 它凭什么能“看懂”屏幕并“动手”操作？

2.1 不是OCR，是真正的多模态理解

很多人第一反应是：“不就是截图+文字识别？”
错。Open-AutoGLM用的是专为移动端优化的视觉语言模型 AutoGLM-Phone-9B。它不只是读出屏幕上写了什么，而是理解整个界面的语义结构：

看到一个带放大镜图标的输入框 → 理解这是“搜索入口”；
看到顶部有“文件传输助手”和灰色头像 → 判断这是联系人列表项；
看到底部键盘区域高亮、光标闪烁 → 知道当前处于可输入状态；

这种理解能力，让AI能区分“微信里的‘搜索’按钮”和“浏览器地址栏里的‘搜索’文字”，避免误操作。

2.2 不是模拟点击，是真实ADB级设备控制

它不依赖无障碍服务或悬浮窗——而是通过 Android Debug Bridge（ADB）直接与系统底层通信。这意味着：

所有操作等同于你亲手触摸：坐标精准到像素，时长符合人类习惯；
支持滑动、长按、双击、多指捏合等复杂手势；
可接管输入法（通过ADB Keyboard），实现无延迟文本输入；
即使App未在前台、甚至锁屏状态下，只要ADB连接稳定，仍可执行基础指令（如唤醒屏幕后操作）。

这不是“看起来像在操作”，而是真正在操作系统层完成交互。

2.3 不是单步执行，是带反思的闭环任务规划

当你下达“给文件传输助手发消息”这个指令时，AI内部实际运行的是一个四步闭环：

观察：截取当前屏幕，送入视觉模型分析；
规划：判断当前状态（是否在桌面？是否已打开微信？是否已进入聊天页？）；
决策：生成下一步动作（如“点击微信图标”或“点击右上角搜索”）；
验证：执行后再次截图，确认界面是否符合预期，否则回退重试。

整个过程最多允许15步，超时则主动停止，绝不盲目乱点。

3. 三步实操：从连上手机到发出第一条AI消息

注意：以下全部基于真实环境验证（Windows 11 + 小米13 + Python 3.10 + vLLM本地部署），非理论推演。

3.1 第一步：让电脑“认出”你的手机

这不是插上线就完事。很多卡点就发生在这一步。

正确操作流程（亲测有效）

手机端设置（只需做一次）：
- 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式；
- 返回设置 → 更多设置 → 开发者选项 → 打开“USB调试”；
- 下载安装 ADB Keyboard APK（v1.3以上），安装后进入“语言与输入法” → 启用 ADB Keyboard 并设为默认。
电脑端配置（Windows示例）：
- 下载 platform-tools，解压到 C:\adb；
- Win+R → 输入 sysdm.cpl → 高级 → 环境变量 → 系统变量 → Path → 新建 → 填入 C:\adb；
- 打开命令提示符，输入 adb version，看到版本号即成功。
连接验证：
```
adb devices
# 正常输出应为：
# List of devices attached
# 1234567890abcdef    device
```
若显示 unauthorized，请在手机弹出的授权窗口中勾选“始终允许”，再重新运行 adb devices。

小技巧：如果总连不上，试试换USB线（部分快充线不支持数据传输）、关闭手机厂商的“USB调试安全验证”（在开发者选项底部）。

3.2 第二步：启动本地AI服务（免API Key，纯离线）

官方文档提到可调用智谱或魔搭API，但对新手不友好——要注册、要配Key、要等审核。我们走更稳妥的路：本地部署轻量模型。

一行命令启动服务（已适配主流显卡）

python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt "{\"image\":10}" \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --allowed-local-media-path / \
  --mm_processor_kwargs "{\"max_pixels\":5000000}"

显存要求：RTX 3090 / 4090 可流畅运行；RTX 3060（12G）需添加 --gpu-memory-utilization 0.95 参数；
启动成功标志：终端出现 INFO: Uvicorn running on http://localhost:8000；
验证服务：浏览器访问 http://localhost:8000/docs，能看到OpenAI兼容的API文档界面。

提示：首次运行会自动下载模型（约4.2GB），请确保网络畅通。若下载慢，可提前从Hugging Face手动下载至 ~/.cache/huggingface/hub/ 对应路径。

3.3 第三步：下达指令，见证AI发消息全过程

现在，一切就绪。打开终端，进入 Open-AutoGLM 项目目录（已按文档克隆并安装依赖）：

cd Open-AutoGLM
python main.py \
  --device-id 1234567890abcdef \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开微信，找到文件传输助手，发送消息：AI测试成功！"

实际执行过程拆解（真实日志节选）：

[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别：主屏幕，含微信图标（左上角）、搜索栏（顶部）
[INFO] 规划动作：点击微信图标
[INFO] 执行 tap(180, 320) → 界面跳转至微信首页
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别：微信首页，顶部有搜索框，下方有“文件传输助手”联系人
[INFO] 规划动作：点击“文件传输助手”
[INFO] 执行 tap(210, 650) → 进入聊天窗口
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别：聊天界面，底部输入框激活，键盘已弹出
[INFO] 规划动作：输入文本“AI测试成功！”
[INFO] 执行 adb shell input text 'AI测试成功！' → 文字已填入
[INFO] 规划动作：点击发送按钮
[INFO] 执行 tap(980, 2100) → 消息发出
[SUCCESS] 任务完成，共执行5步，耗时18.4秒

你不需要写任何代码，不需要理解坐标，甚至不需要知道微信的包名——你只说人话，AI负责翻译成机器指令，并一步步执行到位。

4. 微信场景深度实测：哪些能做？哪些要小心？

我们用同一台手机，在不同微信状态反复测试27次，总结出以下真实结论：

场景	是否支持	关键说明	稳定性
给文件传输助手发纯文字	完全支持	无需登录态，首次使用即可	★★★★★
给指定好友发消息（已置顶）	支持	AI能识别头像+昵称组合定位	★★★★☆
搜索好友后发消息	支持	能准确点击搜索框、输入姓名、选择结果	★★★★☆
发送带表情符号的消息	部分支持	表情符号可输入，但部分机型键盘兼容性差	★★★☆☆
转发聊天记录	❌ 暂不支持	长按识别成功率低，易误触其他元素	—
在群聊中@某人并发送	实验性支持	需明确指令如“@张三并说收到”，成功率约70%	★★☆☆☆
发送图片/文件	❌ 当前不支持	模型未训练文件选择器交互逻辑	—

核心发现：Open-AutoGLM 最擅长处理“确定性高、路径清晰”的任务。比如“发消息”这件事，入口固定（微信图标）、路径固定（搜索→点击→输入→发送），AI就能稳稳拿下。而涉及弹窗、权限请求、动态加载内容（如朋友圈刷新）的任务，目前仍需人工介入。

5. 常见问题与一招解决法（来自真实踩坑记录）

5.1 问题：`adb devices` 显示 `offline` 或 `unauthorized`

原因：ADB服务异常或手机授权被拒绝；

一招解决：

adb kill-server && adb start-server
adb devices  # 此时手机会重新弹出授权窗口，勾选“始终允许”

5.2 问题：AI一直卡在“正在分析屏幕”，无后续动作

原因：模型服务未启动，或 --base-url 地址错误；
快速诊断：
在浏览器打开 http://localhost:8000/v1/models，应返回JSON格式的模型列表；
若打不开，检查vLLM是否在运行、端口是否被占用（netstat -ano | findstr :8000）。