50个Demo随便试!Open-AutoGLM官方示例太实用

1. 这不是遥控器,是你的手机AI分身

你有没有过这样的时刻:
想给爸妈远程教怎么挂号,结果视频里手忙脚乱点错三次;
做电商运营,每天要手动在抖音、小红书、淘宝之间反复切换发同一条内容;
抢演唱会门票时,手指按到发麻还是卡在“提交订单”那一页……

这些事,现在不用再自己动手了。

Open-AutoGLM 不是又一个“能聊天”的大模型,它是一个真正能替你操作手机的 AI 助理——而且是开源、可本地部署、不传数据、支持真机直连的完整框架。它的核心能力很朴素:你看得见的,它也看得见;你说得出的,它就做得出。

最打动人的不是技术参数,而是它附带的那 50 个 Demo。不是演示视频,不是截图说明,而是真实可运行的 Python 脚本、命令行指令、交互式会话记录。从“打开微信发条消息”到“自动完成医院挂号全流程”,每个 Demo 都对应一个具体、高频、有痛点的真实场景。它们不是摆设,是开箱即用的生产力工具。

这不是概念验证,是已经跑通的日常助手。

下面我们就从这 50 个 Demo 出发,带你真正用起来——不讲原理,不堆术语,只说怎么让 AI 帮你点开那个你总找不到的设置项。

2. 50个Demo,为什么值得你花10分钟看下去

2.1 Demo不是代码,是“任务说明书”

很多人看到“50个Demo”第一反应是:又是一堆 hello world?但 Open-AutoGLM 的 Demo 完全不同。它们不是教你写代码,而是教你怎么下指令

比如 demo_07_search_and_share.py,名字就告诉你它干啥:搜索+分享。打开文件,里面没有复杂逻辑,只有这一行核心调用:

agent.run("在美团搜‘酸菜鱼’,把第一个商家的电话号码复制到剪贴板")

就这么一句自然语言,背后是:截图识别界面 → 定位搜索框 → 输入文字 → 点击搜索 → 解析列表 → 找到“电话”字段 → 长按复制。全部自动完成。

这 50 个 Demo 的价值在于:

  • 它们覆盖了50种你昨天刚遇到过的手机操作难题
  • 每个 Demo 都自带真实设备截图和执行日志,你能清楚看到 AI “看到”了什么、“理解”成什么样、“做了”哪几步;
  • 所有 Demo 都预置了容错处理:如果某步失败(比如按钮没加载出来),它会重试或主动暂停,而不是卡死或乱点。

换句话说,这 50 个文件,是你和手机 AI 之间的“中文使用说明书”。

2.2 从“能跑”到“好用”,Demo 就是调试捷径

新手上手最大的坎,从来不是模型多大、显存多少,而是:

  • 我的指令 AI 听懂了吗?
  • 它看到的屏幕和我看到的一样吗?
  • 为什么它点了右上角,而我要的是左下角那个?

Open-AutoGLM 的 Demo 直接绕过这些猜测。它提供了一套标准测试流程:

  1. 先运行 demo_01_basic_launch.py(打开任意 App)——验证基础连接和截图能力;
  2. 再跑 demo_02_text_input.py(在输入框打字)——确认 ADB Keyboard 和文本输入链路正常;
  3. 接着试 demo_03_scroll_and_tap.py(滑动并点击列表项)——检验视觉定位精度;
  4. 最后挑战 demo_48_multi_app_switch.py(微信→浏览器→淘宝跨应用跳转)——验证复杂流程编排。

这个顺序不是随意排的,它是开发者踩过所有坑后总结出的最小可行验证路径。你不需要从零写起,只要按序跑通这前 5 个 Demo,就能确认:你的环境没问题,你的手机被正确识别,你的指令能被准确执行。剩下的 45 个,就是你按需取用的“功能模块”。

2.3 Demo 是灵感库,更是定制起点

别只把它当示例看。每一个 .py 文件,都是一个可修改、可组合、可复用的自动化单元。

比如 demo_23_auto_reply_wechat.py 实现了“自动回复微信消息”,你只需改两行:

  • "文件传输助手" 换成你家孩子的班级群名;
  • "收到,马上到" 换成 "作业已检查,错题在第3页"

它立刻变成你的专属家教提醒助手。

再比如 demo_36_check_health_code.py(每日健康码打卡),结合系统定时任务(Linux cron / Windows 任务计划程序),就能实现真正的“全自动打卡”。你甚至不需要守在手机旁——AI 会在每天早上 8:00 自动唤醒手机、解锁、打开支付宝、找到健康码、截图保存。

这 50 个 Demo 的真正意义,是帮你把“我想让手机自动做XX”这种模糊想法,快速落地为一行可执行的自然语言指令。

3. 三步启动:从零到跑通第一个Demo

3.1 第一步:连上你的手机(比配WiFi还简单)

这不是“开发环境配置”,是“让手机认你这个主人”。

你只需要做三件事:

  • 开开关:手机设置 → 关于手机 → 连续点击“版本号”7次 → 返回上一级,找到“开发者选项” → 开启“USB调试”;
  • 装个输入法:下载 ADBKeyboard.apk(项目 assets/ 目录下就有),安装后在“语言与输入法”里设为默认;
  • 连根线:用原装 USB 线把手机插电脑,Windows/macOS 会自动识别(无需装驱动)。

验证是否成功?打开终端,敲:

adb devices

如果看到一串字母数字(比如 ZY223456789)后面跟着 device,恭喜,手机已认你为主人。

注意:别跳过 ADB Keyboard。这是 AI 在手机上“打字”的唯一方式。没有它,所有需要输入的操作都会失败。

3.2 第二步:启动模型服务(两种选择,任选其一)

你不需要自己训练模型,也不用买 GPU 服务器。Open-AutoGLM 支持两种最省心的启动方式:

方式一:用智谱云端 API(推荐新手)
注册智谱 BigModel 平台,获取免费 API Key。然后直接运行 Demo:

python demo_01_basic_launch.py \
  --api-key your_zhipu_api_key \
  --model autoglm-phone-9b \
  "打开小红书"

全程无需本地部署模型,适合体验核心能力。

方式二:本地启动轻量模型(推荐进阶用户)
如果你有 NVIDIA 显卡(RTX 3060 及以上),用 vLLM 一键启动:

pip install vllm
python -m vllm.entrypoints.openai.api_server \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --gpu-memory-utilization 0.9

启动后,所有 Demo 默认连接 http://localhost:8000/v1,完全离线,隐私无忧。

小技巧:CPU 用户也能跑!项目提供了 autoglm-phone-1.5b 量化版模型,虽速度稍慢,但能在 16GB 内存的笔记本上流畅运行。

3.3 第三步:运行第一个Demo(30秒搞定)

进入项目目录,执行:

python demos/demo_01_basic_launch.py \
  --device-id ZY223456789 \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b

你会看到终端输出类似:

[INFO] 截图已获取(1080x2340)
[INFO] 视觉模型识别到:顶部状态栏、微信图标、小红书图标、抖音图标...
[INFO] 指令解析:'打开小红书' → 需点击小红书图标
[INFO] 执行点击:坐标 (540, 1200)
[SUCCESS] 小红书已启动,当前界面:首页推荐流

没有报错,没有黑屏,没有“正在思考中…”——它真的打开了。

这就是 Open-AutoGLM 的设计哲学:让第一次成功来得足够快,快到你来不及怀疑。

4. 实战拆解:5个高频Demo,照着抄就能用

4.1 Demo 12:自动填表(告别重复输入)

场景:每次登录公司内网、填报健康信息、填写快递单,都要输一遍姓名、手机号、地址……

Demo 文件demos/demo_12_auto_fill_form.py

核心指令

agent.run("在浏览器打开公司OA系统,找到‘员工信息登记’页面,把我的姓名填入‘真实姓名’框,手机号填入‘联系电话’框,地址填入‘常住地址’框")

它怎么做

  • 先用 OCR 识别页面上的文字标签(“真实姓名”、“联系电话”);
  • 定位到对应输入框的坐标;
  • 调用 ADB Keyboard 逐字输入(支持中文、数字、符号);
  • 每输完一项,自动点击“下一步”或“保存”按钮。

你能改什么

  • 公司OA系统 换成 https://xxx.com/health-report
  • 把字段名换成你实际表单里的文字(如“身份证号”、“紧急联系人”);
  • 加一句 "最后点击‘提交’按钮",让它自动完成闭环。

4.2 Demo 25:跨App分享(一键同步内容)

场景:拍了张美食照片,想同时发到朋友圈、小红书、微博,每发一次都要重新选图、写文案、点发送……

Demo 文件demos/demo_25_cross_app_share.py

核心指令

agent.run("把相册里最新一张照片,分别发到微信朋友圈(配文:今日探店)、小红书(配文:宝藏餐厅!)、微博(配文:好吃到跺脚)")

它怎么做

  • 先打开相册,识别“最新一张”(按时间戳排序);
  • 长按图片唤出分享菜单;
  • 依次点击微信、小红书、微博图标;
  • 在每个 App 的发布页,自动粘贴预设文案,并点击“发送”。

关键细节

  • 它能区分不同 App 的界面结构(微信朋友圈是“发表”按钮,小红书是“发布”按钮,微博是“发送”按钮);
  • 文案自动适配各平台风格(朋友圈偏口语,小红书带emoji,微博带话题#)。

4.3 Demo 33:智能截屏归档(自动整理重要信息)

场景:看病时医生发的检查报告、快递员发的签收截图、客服发的退款凭证……全堆在微信里,想找时翻半小时。

Demo 文件demos/demo_33_smart_screenshot_archive.py

核心指令

agent.run("监控微信聊天窗口,当收到含‘检查报告’、‘签收’、‘退款’字样的图片时,自动保存到手机‘Health’、‘Delivery’、‘Refund’三个文件夹")

它怎么做

  • 持续截图微信聊天界面;
  • 用多模态模型识别图片中的文字 + 图片类型(报告单/快递单/转账截图);
  • 根据关键词匹配规则,自动创建对应文件夹;
  • 将原图以时间戳命名,保存至指定路径。

延伸用法

  • 改成监控钉钉、飞书;
  • 加一句 "同时把图片文字OCR成文本,发到备忘录",实现图文双备份。

4.4 Demo 41:定时任务管家(手机版Cron)

场景:每天固定时间做一件事:早8点查天气、午12点订外卖、晚10点关灯(通过智能家居App)……

Demo 文件demos/demo_41_scheduled_tasks.py

核心指令

agent.run("每天上午8:00,打开墨迹天气,截图当前城市温度,发到‘家庭群’")

它怎么做

  • 利用系统 AlarmManager 或 Python APScheduler,在指定时间唤醒;
  • 自动解锁手机(需提前设置无密码或指纹);
  • 执行完整操作链:打开App → 截图 → 识别群聊 → 发送图片;
  • 执行完毕自动息屏,不干扰你正常使用。

安全提示

  • 所有定时任务默认 require manual confirmation(首次运行弹窗确认);
  • 敏感操作(如“删除聊天记录”、“转账”)永远不支持定时,必须人工介入。

4.5 Demo 49:老人模式(一句话解决所有操作)

场景:教爸妈用手机,他们记不住步骤,你又不在身边。

Demo 文件demos/demo_49_elderly_mode.py

核心指令

agent.run("帮我妈挂明天上午9点协和医院消化内科的号,她身份证号是110101195001011234")

它怎么做

  • 自动打开医院官方 App(已预置白名单);
  • 模拟老人操作习惯:放慢点击速度、增大点击区域、高亮关键按钮;
  • 对关键步骤语音播报(需开启手机TTS):“正在选择科室,请稍候”;
  • 若某步失败(如网络延迟),自动重试3次后语音提示:“阿姨,网络不太好,我再试一次”。

这才是真正的适老化:不是把字体调大,而是让整个操作过程“可理解、可预期、可兜底”。

5. 避坑指南:那些Demo没写,但你一定会遇到的问题

5.1 “AI点错了!”——其实是截图没对齐

现象:Demo 运行时,AI 点了屏幕右上角,但你要的是左下角的按钮。

根本原因:手机开启了“显示大小”或“字体大小”缩放,导致截图分辨率与实际坐标系不一致。

解决方案

  • 设置 → 显示 → “显示大小”调为“默认”;
  • 或在 config.yaml 中手动校准:
    adb:
      screenshot_scale: 1.0  # 根据你的设备调整,1.0=100%,0.8=80%
    

5.2 “一直卡在‘正在加载’”——ADB权限没给足

现象:AI 能截图,但无法点击、无法输入,日志停在 Waiting for element...

根本原因:Android 12+ 系统限制了后台 App 的无障碍权限。

解决方案

  • 设置 → 辅助功能 → 开启 PhoneAgent 的“无障碍服务”;
  • 设置 → 应用 → PhoneAgent → 权限 → 开启“悬浮窗”、“显示在其他应用上层”;
  • 终端执行:
    adb shell pm grant com.zaiorg.phoneagent android.permission.SYSTEM_ALERT_WINDOW
    

5.3 “模型返回乱码”——端口或模型名拼错了

现象:终端报错 Connection refusedModel not found

快速自查清单

  • --base-url 是否指向正确的 IP 和端口?本地部署是 http://localhost:8000/v1,不是 8000
  • --model 名称是否完全匹配?是 autoglm-phone-9b,不是 autoglm_phone_9bauto-glm-phone
  • vLLM 服务是否真的在运行?ps aux | grep vllm 看进程是否存在;
  • 防火墙是否放行了端口?Windows Defender / macOS 防火墙常会拦截。

5.4 “Demo跑不通,但文档说可以”——版本兼容性问题

现象:克隆最新 master 分支,但 Demo 报 ModuleNotFoundError

真相:Open-AutoGLM 更新极快,部分 Demo 依赖尚未发布的内部模块。

稳态方案

  • 查看 GitHub Releases 页面,切换到最新稳定 Tag(如 v0.3.2);
  • 或直接运行:
    git checkout tags/v0.3.2 -b stable-0.3.2
    
  • 所有官方 Demo 都经过该 Tag 版本严格测试,100% 可运行。

6. 总结:50个Demo,是起点,不是终点

这 50 个 Demo 的真正价值,不在于它们能做什么,而在于它们证明了一件事:让 AI 操作手机,这件事已经不再需要“研究”,而是可以直接“使用”。

它没有停留在“能识别图标”的层面,而是深入到“理解业务逻辑”的深度——知道挂号要先选科室再选医生,知道抢购要卡在倒计时最后一秒,知道分享要适配不同平台的文案风格。

你不需要成为 Android 开发者,不需要懂 ADB 命令,甚至不需要会写 Python。你只需要:

  • 有一部安卓手机;
  • 有一台能联网的电脑;
  • 以及,一句你想让手机做的事。

剩下的,交给 Open-AutoGLM。

现在,打开终端,cd 进 demos/ 目录,挑一个最让你心动的 Demo 名字,运行它。30 秒后,你会看到手机屏幕自己亮起,然后,自己点开那个你每天都要点三次的应用。

那一刻,你会明白:这 50 个 Demo,不是代码,是未来生活的第一份菜单。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐