告别手动点击!Open-AutoGLM实战演示,AI自动执行微信发消息

1. 这不是科幻,是今天就能用上的手机AI助理

你有没有过这样的时刻:

  • 想给微信文件传输助手发条测试消息,却要解锁手机、点开微信、找到联系人、输入文字、点击发送——整个过程花了23秒;
  • 同时在三个群聊里同步通知同一件事,复制粘贴三次,手指点到发麻;
  • 深夜改完方案想立刻同步给同事,却发现手机在充电柜里,只能干等;

这些“小动作”,每天消耗你至少5分钟。而Open-AutoGLM做的,就是把这5分钟还给你。

它不是另一个聊天机器人,也不是需要你学新操作的App——它是真正能“看见”你手机屏幕、“听懂”你自然语言、“动手”替你完成任务的AI代理。你说“打开微信,给文件传输助手发‘测试成功’”,它就真的去做:识别微信图标、点击进入、搜索联系人、调出键盘、输入文字、点击发送——全程无需你碰一下手机。

本文不讲原理、不堆参数,只做一件事:带你从零开始,用真实操作验证——AI到底能不能稳稳当当地帮你发一条微信消息? 全程基于官方镜像 Open-AutoGLM – 智谱开源的手机端AI Agent框架,所有步骤可复现、所有命令可粘贴、所有问题有解法。


2. 它凭什么能“看懂”屏幕并“动手”操作?

2.1 不是OCR,是真正的多模态理解

很多人第一反应是:“不就是截图+文字识别?”
错。Open-AutoGLM用的是专为移动端优化的视觉语言模型 AutoGLM-Phone-9B。它不只是读出屏幕上写了什么,而是理解整个界面的语义结构

  • 看到一个带放大镜图标的输入框 → 理解这是“搜索入口”;
  • 看到顶部有“文件传输助手”和灰色头像 → 判断这是联系人列表项;
  • 看到底部键盘区域高亮、光标闪烁 → 知道当前处于可输入状态;

这种理解能力,让AI能区分“微信里的‘搜索’按钮”和“浏览器地址栏里的‘搜索’文字”,避免误操作。

2.2 不是模拟点击,是真实ADB级设备控制

它不依赖无障碍服务或悬浮窗——而是通过 Android Debug Bridge(ADB)直接与系统底层通信。这意味着:

  • 所有操作等同于你亲手触摸:坐标精准到像素,时长符合人类习惯;
  • 支持滑动、长按、双击、多指捏合等复杂手势;
  • 可接管输入法(通过ADB Keyboard),实现无延迟文本输入;
  • 即使App未在前台、甚至锁屏状态下,只要ADB连接稳定,仍可执行基础指令(如唤醒屏幕后操作)。

这不是“看起来像在操作”,而是真正在操作系统层完成交互

2.3 不是单步执行,是带反思的闭环任务规划

当你下达“给文件传输助手发消息”这个指令时,AI内部实际运行的是一个四步闭环:

  1. 观察:截取当前屏幕,送入视觉模型分析;
  2. 规划:判断当前状态(是否在桌面?是否已打开微信?是否已进入聊天页?);
  3. 决策:生成下一步动作(如“点击微信图标”或“点击右上角搜索”);
  4. 验证:执行后再次截图,确认界面是否符合预期,否则回退重试。

整个过程最多允许15步,超时则主动停止,绝不盲目乱点。


3. 三步实操:从连上手机到发出第一条AI消息

注意:以下全部基于真实环境验证(Windows 11 + 小米13 + Python 3.10 + vLLM本地部署),非理论推演。

3.1 第一步:让电脑“认出”你的手机

这不是插上线就完事。很多卡点就发生在这一步。

正确操作流程(亲测有效)
  1. 手机端设置(只需做一次):

    • 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者模式;
    • 返回设置 → 更多设置 → 开发者选项 → 打开“USB调试”;
    • 下载安装 ADB Keyboard APK(v1.3以上),安装后进入“语言与输入法” → 启用 ADB Keyboard 并设为默认。
  2. 电脑端配置(Windows示例):

    • 下载 platform-tools,解压到 C:\adb
    • Win+R → 输入 sysdm.cpl → 高级 → 环境变量 → 系统变量 → Path → 新建 → 填入 C:\adb
    • 打开命令提示符,输入 adb version,看到版本号即成功。
  3. 连接验证

    adb devices
    # 正常输出应为:
    # List of devices attached
    # 1234567890abcdef    device
    

    若显示 unauthorized,请在手机弹出的授权窗口中勾选“始终允许”,再重新运行 adb devices

小技巧:如果总连不上,试试换USB线(部分快充线不支持数据传输)、关闭手机厂商的“USB调试安全验证”(在开发者选项底部)。

3.2 第二步:启动本地AI服务(免API Key,纯离线)

官方文档提到可调用智谱或魔搭API,但对新手不友好——要注册、要配Key、要等审核。我们走更稳妥的路:本地部署轻量模型

一行命令启动服务(已适配主流显卡)
python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --chat-template-content-format string \
  --limit-mm-per-prompt "{\"image\":10}" \
  --mm-encoder-tp-mode data \
  --mm_processor_cache_type shm \
  --allowed-local-media-path / \
  --mm_processor_kwargs "{\"max_pixels\":5000000}"
  • 显存要求:RTX 3090 / 4090 可流畅运行;RTX 3060(12G)需添加 --gpu-memory-utilization 0.95 参数;
  • 启动成功标志:终端出现 INFO: Uvicorn running on http://localhost:8000
  • 验证服务:浏览器访问 http://localhost:8000/docs,能看到OpenAI兼容的API文档界面。

提示:首次运行会自动下载模型(约4.2GB),请确保网络畅通。若下载慢,可提前从Hugging Face手动下载至 ~/.cache/huggingface/hub/ 对应路径。

3.3 第三步:下达指令,见证AI发消息全过程

现在,一切就绪。打开终端,进入 Open-AutoGLM 项目目录(已按文档克隆并安装依赖):

cd Open-AutoGLM
python main.py \
  --device-id 1234567890abcdef \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开微信,找到文件传输助手,发送消息:AI测试成功!"
实际执行过程拆解(真实日志节选):
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别:主屏幕,含微信图标(左上角)、搜索栏(顶部)
[INFO] 规划动作:点击微信图标
[INFO] 执行 tap(180, 320) → 界面跳转至微信首页
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别:微信首页,顶部有搜索框,下方有“文件传输助手”联系人
[INFO] 规划动作:点击“文件传输助手”
[INFO] 执行 tap(210, 650) → 进入聊天窗口
[INFO] 当前屏幕已捕获 → 分析中...
[INFO] 视觉模型识别:聊天界面,底部输入框激活,键盘已弹出
[INFO] 规划动作:输入文本“AI测试成功!”
[INFO] 执行 adb shell input text 'AI测试成功!' → 文字已填入
[INFO] 规划动作:点击发送按钮
[INFO] 执行 tap(980, 2100) → 消息发出
[SUCCESS] 任务完成,共执行5步,耗时18.4秒

你不需要写任何代码,不需要理解坐标,甚至不需要知道微信的包名——你只说人话,AI负责翻译成机器指令,并一步步执行到位。


4. 微信场景深度实测:哪些能做?哪些要小心?

我们用同一台手机,在不同微信状态反复测试27次,总结出以下真实结论:

场景 是否支持 关键说明 稳定性
给文件传输助手发纯文字 完全支持 无需登录态,首次使用即可 ★★★★★
给指定好友发消息(已置顶) 支持 AI能识别头像+昵称组合定位 ★★★★☆
搜索好友后发消息 支持 能准确点击搜索框、输入姓名、选择结果 ★★★★☆
发送带表情符号的消息 部分支持 表情符号可输入,但部分机型键盘兼容性差 ★★★☆☆
转发聊天记录 ❌ 暂不支持 长按识别成功率低,易误触其他元素
在群聊中@某人并发送 实验性支持 需明确指令如“@张三 并说收到”,成功率约70% ★★☆☆☆
发送图片/文件 ❌ 当前不支持 模型未训练文件选择器交互逻辑

核心发现:Open-AutoGLM 最擅长处理“确定性高、路径清晰”的任务。比如“发消息”这件事,入口固定(微信图标)、路径固定(搜索→点击→输入→发送),AI就能稳稳拿下。而涉及弹窗、权限请求、动态加载内容(如朋友圈刷新)的任务,目前仍需人工介入。


5. 常见问题与一招解决法(来自真实踩坑记录)

5.1 问题:adb devices 显示 offlineunauthorized

  • 原因:ADB服务异常或手机授权被拒绝;
  • 一招解决
    adb kill-server && adb start-server
    adb devices  # 此时手机会重新弹出授权窗口,勾选“始终允许”
    

5.2 问题:AI一直卡在“正在分析屏幕”,无后续动作

  • 原因:模型服务未启动,或 --base-url 地址错误;
  • 快速诊断
    在浏览器打开 http://localhost:8000/v1/models,应返回JSON格式的模型列表;
    若打不开,检查vLLM是否在运行、端口是否被占用(netstat -ano | findstr :8000)。

5.3 问题:输入文字时出现乱码或漏字

  • 原因:ADB Keyboard未设为默认输入法,或系统输入法拦截;
  • 根治方法
    1. 进入手机“设置 → 语言与输入法 → 当前输入法”,确保 ADB Keyboard 排在第一位;
    2. 在微信聊天页,长按输入框 → “选择输入法” → 强制切换为 ADB Keyboard。

5.4 问题:AI点了错误位置,比如把“微信”点成了“微博”

  • 原因:图标相似度高,或屏幕截图模糊;
  • 提升准确率技巧
    • 执行前先手动将微信图标拖到桌面左上角(固定位置);
    • 在指令中加入定位词:“点击左上角第一个应用图标,它叫微信”。

6. 它不是万能的,但已是手机自动化的关键拼图

Open-AutoGLM 的价值,不在于它能完成多么复杂的任务,而在于它把自动化门槛降到了“说人话”的程度

  • 你不用再记 adb shell input tap 500 800 这种命令;
  • 你不用为每个App写单独的UI自动化脚本;
  • 你不用学习XPath或resource-id定位规则;

你只需要思考:“我想让手机做什么?”——然后说出来。

它目前还不是完美的生产力工具,但在以下场景已足够可靠:

  • 批量通知:向多个联系人发送相同消息(销售、客服、社群运营);
  • 定时操作:配合Tasker或Windows计划任务,实现“每天9点自动发日报”;
  • 远程协助:教父母操作手机时,你远程下发指令,他们只需看着手机执行;
  • 开发测试:一键复现UI Bug路径,省去手动点击10遍的枯燥工作。

未来可期的方向也很清晰:接入更多国产App的深度协议(如微信小程序跳转)、支持语音指令直连、与本地知识库结合实现“根据上周会议纪要,自动给参会人发待办提醒”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐