50个Demo随便试！Open-AutoGLM官方示例太实用

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像，实现手机界面级自动化操作。用户可快速启用真实可运行Demo，典型应用场景包括自动挂号、跨App内容分发及智能表单填写，显著提升移动端任务处理效率。

安检

371人浏览 · 2026-01-23 02:38:13

安检 · 2026-01-23 02:38:13 发布

50个Demo随便试！Open-AutoGLM官方示例太实用

1. 这不是遥控器，是你的手机AI分身

你有没有过这样的时刻：
想给爸妈远程教怎么挂号，结果视频里手忙脚乱点错三次；
做电商运营，每天要手动在抖音、小红书、淘宝之间反复切换发同一条内容；
抢演唱会门票时，手指按到发麻还是卡在“提交订单”那一页……

这些事，现在不用再自己动手了。

Open-AutoGLM 不是又一个“能聊天”的大模型，它是一个真正能替你操作手机的 AI 助理——而且是开源、可本地部署、不传数据、支持真机直连的完整框架。它的核心能力很朴素：你看得见的，它也看得见；你说得出的，它就做得出。

最打动人的不是技术参数，而是它附带的那 50 个 Demo。不是演示视频，不是截图说明，而是真实可运行的 Python 脚本、命令行指令、交互式会话记录。从“打开微信发条消息”到“自动完成医院挂号全流程”，每个 Demo 都对应一个具体、高频、有痛点的真实场景。它们不是摆设，是开箱即用的生产力工具。

这不是概念验证，是已经跑通的日常助手。

下面我们就从这 50 个 Demo 出发，带你真正用起来——不讲原理，不堆术语，只说怎么让 AI 帮你点开那个你总找不到的设置项。

2. 50个Demo，为什么值得你花10分钟看下去

2.1 Demo不是代码，是“任务说明书”

很多人看到“50个Demo”第一反应是：又是一堆 hello world？但 Open-AutoGLM 的 Demo 完全不同。它们不是教你写代码，而是教你怎么下指令。

比如 demo_07_search_and_share.py，名字就告诉你它干啥：搜索+分享。打开文件，里面没有复杂逻辑，只有这一行核心调用：

agent.run("在美团搜‘酸菜鱼’，把第一个商家的电话号码复制到剪贴板")

就这么一句自然语言，背后是：截图识别界面 → 定位搜索框 → 输入文字 → 点击搜索 → 解析列表 → 找到“电话”字段 → 长按复制。全部自动完成。

这 50 个 Demo 的价值在于：

它们覆盖了50种你昨天刚遇到过的手机操作难题；
每个 Demo 都自带真实设备截图和执行日志，你能清楚看到 AI “看到”了什么、“理解”成什么样、“做了”哪几步；
所有 Demo 都预置了容错处理：如果某步失败（比如按钮没加载出来），它会重试或主动暂停，而不是卡死或乱点。

换句话说，这 50 个文件，是你和手机 AI 之间的“中文使用说明书”。

2.2 从“能跑”到“好用”，Demo 就是调试捷径

新手上手最大的坎，从来不是模型多大、显存多少，而是：

我的指令 AI 听懂了吗？
它看到的屏幕和我看到的一样吗？
为什么它点了右上角，而我要的是左下角那个？

Open-AutoGLM 的 Demo 直接绕过这些猜测。它提供了一套标准测试流程：

先运行 demo_01_basic_launch.py（打开任意 App）——验证基础连接和截图能力；
再跑 demo_02_text_input.py（在输入框打字）——确认 ADB Keyboard 和文本输入链路正常；
接着试 demo_03_scroll_and_tap.py（滑动并点击列表项）——检验视觉定位精度；
最后挑战 demo_48_multi_app_switch.py（微信→浏览器→淘宝跨应用跳转）——验证复杂流程编排。

这个顺序不是随意排的，它是开发者踩过所有坑后总结出的最小可行验证路径。你不需要从零写起，只要按序跑通这前 5 个 Demo，就能确认：你的环境没问题，你的手机被正确识别，你的指令能被准确执行。剩下的 45 个，就是你按需取用的“功能模块”。

2.3 Demo 是灵感库，更是定制起点

别只把它当示例看。每一个 .py 文件，都是一个可修改、可组合、可复用的自动化单元。

比如 demo_23_auto_reply_wechat.py 实现了“自动回复微信消息”，你只需改两行：

把 "文件传输助手" 换成你家孩子的班级群名；
把 "收到，马上到" 换成 "作业已检查，错题在第3页"。

它立刻变成你的专属家教提醒助手。

再比如 demo_36_check_health_code.py（每日健康码打卡），结合系统定时任务（Linux cron / Windows 任务计划程序），就能实现真正的“全自动打卡”。你甚至不需要守在手机旁——AI 会在每天早上 8:00 自动唤醒手机、解锁、打开支付宝、找到健康码、截图保存。

这 50 个 Demo 的真正意义，是帮你把“我想让手机自动做XX”这种模糊想法，快速落地为一行可执行的自然语言指令。

3. 三步启动：从零到跑通第一个Demo

3.1 第一步：连上你的手机（比配WiFi还简单）

这不是“开发环境配置”，是“让手机认你这个主人”。

你只需要做三件事：

开开关：手机设置 → 关于手机 → 连续点击“版本号”7次 → 返回上一级，找到“开发者选项” → 开启“USB调试”；
装个输入法：下载 ADBKeyboard.apk（项目 assets/ 目录下就有），安装后在“语言与输入法”里设为默认；
连根线：用原装 USB 线把手机插电脑，Windows/macOS 会自动识别（无需装驱动）。

验证是否成功？打开终端，敲：

adb devices

如果看到一串字母数字（比如 ZY223456789）后面跟着 device，恭喜，手机已认你为主人。

注意：别跳过 ADB Keyboard。这是 AI 在手机上“打字”的唯一方式。没有它，所有需要输入的操作都会失败。

3.2 第二步：启动模型服务（两种选择，任选其一）

你不需要自己训练模型，也不用买 GPU 服务器。Open-AutoGLM 支持两种最省心的启动方式：

方式一：用智谱云端 API（推荐新手）
注册智谱 BigModel 平台，获取免费 API Key。然后直接运行 Demo：

python demo_01_basic_launch.py \
  --api-key your_zhipu_api_key \
  --model autoglm-phone-9b \
  "打开小红书"

全程无需本地部署模型，适合体验核心能力。

方式二：本地启动轻量模型（推荐进阶用户）
如果你有 NVIDIA 显卡（RTX 3060 及以上），用 vLLM 一键启动：

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --gpu-memory-utilization 0.9

启动后，所有 Demo 默认连接 http://localhost:8000/v1，完全离线，隐私无忧。

小技巧：CPU 用户也能跑！项目提供了 autoglm-phone-1.5b 量化版模型，虽速度稍慢，但能在 16GB 内存的笔记本上流畅运行。

3.3 第三步：运行第一个Demo（30秒搞定）

进入项目目录，执行：

python demos/demo_01_basic_launch.py \
  --device-id ZY223456789 \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b

你会看到终端输出类似：

[INFO] 截图已获取（1080x2340）
[INFO] 视觉模型识别到：顶部状态栏、微信图标、小红书图标、抖音图标...
[INFO] 指令解析：'打开小红书' → 需点击小红书图标
[INFO] 执行点击：坐标 (540, 1200)
[SUCCESS] 小红书已启动，当前界面：首页推荐流

没有报错，没有黑屏，没有“正在思考中…”——它真的打开了。

这就是 Open-AutoGLM 的设计哲学：让第一次成功来得足够快，快到你来不及怀疑。

4. 实战拆解：5个高频Demo，照着抄就能用

4.1 Demo 12：自动填表（告别重复输入）

场景：每次登录公司内网、填报健康信息、填写快递单，都要输一遍姓名、手机号、地址……

Demo 文件：demos/demo_12_auto_fill_form.py

核心指令：

agent.run("在浏览器打开公司OA系统，找到‘员工信息登记’页面，把我的姓名填入‘真实姓名’框，手机号填入‘联系电话’框，地址填入‘常住地址’框")

它怎么做：

先用 OCR 识别页面上的文字标签（“真实姓名”、“联系电话”）；
定位到对应输入框的坐标；
调用 ADB Keyboard 逐字输入（支持中文、数字、符号）；
每输完一项，自动点击“下一步”或“保存”按钮。

你能改什么：

把 公司OA系统 换成 https://xxx.com/health-report；
把字段名换成你实际表单里的文字（如“身份证号”、“紧急联系人”）；
加一句 "最后点击‘提交’按钮"，让它自动完成闭环。

4.2 Demo 25：跨App分享（一键同步内容）

场景：拍了张美食照片，想同时发到朋友圈、小红书、微博，每发一次都要重新选图、写文案、点发送……

Demo 文件：demos/demo_25_cross_app_share.py

核心指令：

agent.run("把相册里最新一张照片，分别发到微信朋友圈（配文：今日探店）、小红书（配文：宝藏餐厅！）、微博（配文：好吃到跺脚）")

它怎么做：

先打开相册，识别“最新一张”（按时间戳排序）；
长按图片唤出分享菜单；
依次点击微信、小红书、微博图标；
在每个 App 的发布页，自动粘贴预设文案，并点击“发送”。

关键细节：

它能区分不同 App 的界面结构（微信朋友圈是“发表”按钮，小红书是“发布”按钮，微博是“发送”按钮）；
文案自动适配各平台风格（朋友圈偏口语，小红书带emoji，微博带话题#）。

4.3 Demo 33：智能截屏归档（自动整理重要信息）

场景：看病时医生发的检查报告、快递员发的签收截图、客服发的退款凭证……全堆在微信里，想找时翻半小时。

Demo 文件：demos/demo_33_smart_screenshot_archive.py

核心指令：

agent.run("监控微信聊天窗口，当收到含‘检查报告’、‘签收’、‘退款’字样的图片时，自动保存到手机‘Health’、‘Delivery’、‘Refund’三个文件夹")

它怎么做：

持续截图微信聊天界面；
用多模态模型识别图片中的文字 + 图片类型（报告单/快递单/转账截图）；
根据关键词匹配规则，自动创建对应文件夹；
将原图以时间戳命名，保存至指定路径。

延伸用法：

改成监控钉钉、飞书；
加一句 "同时把图片文字OCR成文本，发到备忘录"，实现图文双备份。

4.4 Demo 41：定时任务管家（手机版Cron）

场景：每天固定时间做一件事：早8点查天气、午12点订外卖、晚10点关灯（通过智能家居App）……

Demo 文件：demos/demo_41_scheduled_tasks.py

核心指令：

agent.run("每天上午8:00，打开墨迹天气，截图当前城市温度，发到‘家庭群’")

它怎么做：

利用系统 AlarmManager 或 Python APScheduler，在指定时间唤醒；
自动解锁手机（需提前设置无密码或指纹）；
执行完整操作链：打开App → 截图 → 识别群聊 → 发送图片；
执行完毕自动息屏，不干扰你正常使用。

安全提示：

所有定时任务默认 require manual confirmation（首次运行弹窗确认）；
敏感操作（如“删除聊天记录”、“转账”）永远不支持定时，必须人工介入。

4.5 Demo 49：老人模式（一句话解决所有操作）

场景：教爸妈用手机，他们记不住步骤，你又不在身边。

Demo 文件：demos/demo_49_elderly_mode.py

核心指令：

agent.run("帮我妈挂明天上午9点协和医院消化内科的号，她身份证号是110101195001011234")

它怎么做：

自动打开医院官方 App（已预置白名单）；
模拟老人操作习惯：放慢点击速度、增大点击区域、高亮关键按钮；
对关键步骤语音播报（需开启手机TTS）：“正在选择科室，请稍候”；
若某步失败（如网络延迟），自动重试3次后语音提示：“阿姨，网络不太好，我再试一次”。

这才是真正的适老化：不是把字体调大，而是让整个操作过程“可理解、可预期、可兜底”。

5. 避坑指南：那些Demo没写，但你一定会遇到的问题

5.1 “AI点错了！”——其实是截图没对齐

现象：Demo 运行时，AI 点了屏幕右上角，但你要的是左下角的按钮。

根本原因：手机开启了“显示大小”或“字体大小”缩放，导致截图分辨率与实际坐标系不一致。

解决方案：

设置 → 显示 → “显示大小”调为“默认”；

或在 config.yaml 中手动校准：

adb:
  screenshot_scale: 1.0  # 根据你的设备调整，1.0=100%，0.8=80%

5.2 “一直卡在‘正在加载’”——ADB权限没给足

现象：AI 能截图，但无法点击、无法输入，日志停在 Waiting for element...。

根本原因：Android 12+ 系统限制了后台 App 的无障碍权限。

解决方案：

设置 → 辅助功能 → 开启 PhoneAgent 的“无障碍服务”；
设置 → 应用 → PhoneAgent → 权限 → 开启“悬浮窗”、“显示在其他应用上层”；

终端执行：

adb shell pm grant com.zaiorg.phoneagent android.permission.SYSTEM_ALERT_WINDOW

5.3 “模型返回乱码”——端口或模型名拼错了

现象：终端报错 Connection refused 或 Model not found。

快速自查清单：

--base-url 是否指向正确的 IP 和端口？本地部署是 http://localhost:8000/v1，不是 8000；
--model 名称是否完全匹配？是 autoglm-phone-9b，不是 autoglm_phone_9b 或 auto-glm-phone；
vLLM 服务是否真的在运行？ps aux | grep vllm 看进程是否存在；
防火墙是否放行了端口？Windows Defender / macOS 防火墙常会拦截。

5.4 “Demo跑不通，但文档说可以”——版本兼容性问题

现象：克隆最新 master 分支，但 Demo 报 ModuleNotFoundError。

真相：Open-AutoGLM 更新极快，部分 Demo 依赖尚未发布的内部模块。

稳态方案：

查看 GitHub Releases 页面，切换到最新稳定 Tag（如 v0.3.2）；

或直接运行：

git checkout tags/v0.3.2 -b stable-0.3.2

所有官方 Demo 都经过该 Tag 版本严格测试，100% 可运行。

6. 总结：50个Demo，是起点，不是终点

这 50 个 Demo 的真正价值，不在于它们能做什么，而在于它们证明了一件事：让 AI 操作手机，这件事已经不再需要“研究”，而是可以直接“使用”。

它没有停留在“能识别图标”的层面，而是深入到“理解业务逻辑”的深度——知道挂号要先选科室再选医生，知道抢购要卡在倒计时最后一秒，知道分享要适配不同平台的文案风格。

你不需要成为 Android 开发者，不需要懂 ADB 命令，甚至不需要会写 Python。你只需要：

有一部安卓手机；
有一台能联网的电脑；
以及，一句你想让手机做的事。

剩下的，交给 Open-AutoGLM。

现在，打开终端，cd 进 demos/ 目录，挑一个最让你心动的 Demo 名字，运行它。30 秒后，你会看到手机屏幕自己亮起，然后，自己点开那个你每天都要点三次的应用。

那一刻，你会明白：这 50 个 Demo，不是代码，是未来生活的第一份菜单。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

QClaw体验：微信里的本地AI助手，让智能触手可及

龙虾开发者社区

VibeVoice Pro流式TTS效果展示：300ms低延迟真实音频生成作品集

本文介绍了如何在星图GPU平台自动化部署VibeVoice Pro：零延迟流式音频引擎镜像，实现300ms低延迟的实时语音生成。该技术特别适用于智能助手对话场景，能够提供自然流畅的语音交互体验，显著提升用户满意度。

龙虾开发者社区

WorkBuddy使用心得：腾讯版“免部署小龙虾“的办公新体验

龙虾开发者社区

所有评论(0)

查看更多评论

安检

@weixin_42433737

已为社区贡献35条内容