50个Demo随便试!Open-AutoGLM官方示例太实用
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现手机界面级自动化操作。用户可快速启用真实可运行Demo,典型应用场景包括自动挂号、跨App内容分发及智能表单填写,显著提升移动端任务处理效率。
50个Demo随便试!Open-AutoGLM官方示例太实用
1. 这不是遥控器,是你的手机AI分身
你有没有过这样的时刻:
想给爸妈远程教怎么挂号,结果视频里手忙脚乱点错三次;
做电商运营,每天要手动在抖音、小红书、淘宝之间反复切换发同一条内容;
抢演唱会门票时,手指按到发麻还是卡在“提交订单”那一页……
这些事,现在不用再自己动手了。
Open-AutoGLM 不是又一个“能聊天”的大模型,它是一个真正能替你操作手机的 AI 助理——而且是开源、可本地部署、不传数据、支持真机直连的完整框架。它的核心能力很朴素:你看得见的,它也看得见;你说得出的,它就做得出。
最打动人的不是技术参数,而是它附带的那 50 个 Demo。不是演示视频,不是截图说明,而是真实可运行的 Python 脚本、命令行指令、交互式会话记录。从“打开微信发条消息”到“自动完成医院挂号全流程”,每个 Demo 都对应一个具体、高频、有痛点的真实场景。它们不是摆设,是开箱即用的生产力工具。
这不是概念验证,是已经跑通的日常助手。
下面我们就从这 50 个 Demo 出发,带你真正用起来——不讲原理,不堆术语,只说怎么让 AI 帮你点开那个你总找不到的设置项。
2. 50个Demo,为什么值得你花10分钟看下去
2.1 Demo不是代码,是“任务说明书”
很多人看到“50个Demo”第一反应是:又是一堆 hello world?但 Open-AutoGLM 的 Demo 完全不同。它们不是教你写代码,而是教你怎么下指令。
比如 demo_07_search_and_share.py,名字就告诉你它干啥:搜索+分享。打开文件,里面没有复杂逻辑,只有这一行核心调用:
agent.run("在美团搜‘酸菜鱼’,把第一个商家的电话号码复制到剪贴板")
就这么一句自然语言,背后是:截图识别界面 → 定位搜索框 → 输入文字 → 点击搜索 → 解析列表 → 找到“电话”字段 → 长按复制。全部自动完成。
这 50 个 Demo 的价值在于:
- 它们覆盖了50种你昨天刚遇到过的手机操作难题;
- 每个 Demo 都自带真实设备截图和执行日志,你能清楚看到 AI “看到”了什么、“理解”成什么样、“做了”哪几步;
- 所有 Demo 都预置了容错处理:如果某步失败(比如按钮没加载出来),它会重试或主动暂停,而不是卡死或乱点。
换句话说,这 50 个文件,是你和手机 AI 之间的“中文使用说明书”。
2.2 从“能跑”到“好用”,Demo 就是调试捷径
新手上手最大的坎,从来不是模型多大、显存多少,而是:
- 我的指令 AI 听懂了吗?
- 它看到的屏幕和我看到的一样吗?
- 为什么它点了右上角,而我要的是左下角那个?
Open-AutoGLM 的 Demo 直接绕过这些猜测。它提供了一套标准测试流程:
- 先运行
demo_01_basic_launch.py(打开任意 App)——验证基础连接和截图能力; - 再跑
demo_02_text_input.py(在输入框打字)——确认 ADB Keyboard 和文本输入链路正常; - 接着试
demo_03_scroll_and_tap.py(滑动并点击列表项)——检验视觉定位精度; - 最后挑战
demo_48_multi_app_switch.py(微信→浏览器→淘宝跨应用跳转)——验证复杂流程编排。
这个顺序不是随意排的,它是开发者踩过所有坑后总结出的最小可行验证路径。你不需要从零写起,只要按序跑通这前 5 个 Demo,就能确认:你的环境没问题,你的手机被正确识别,你的指令能被准确执行。剩下的 45 个,就是你按需取用的“功能模块”。
2.3 Demo 是灵感库,更是定制起点
别只把它当示例看。每一个 .py 文件,都是一个可修改、可组合、可复用的自动化单元。
比如 demo_23_auto_reply_wechat.py 实现了“自动回复微信消息”,你只需改两行:
- 把
"文件传输助手"换成你家孩子的班级群名; - 把
"收到,马上到"换成"作业已检查,错题在第3页"。
它立刻变成你的专属家教提醒助手。
再比如 demo_36_check_health_code.py(每日健康码打卡),结合系统定时任务(Linux cron / Windows 任务计划程序),就能实现真正的“全自动打卡”。你甚至不需要守在手机旁——AI 会在每天早上 8:00 自动唤醒手机、解锁、打开支付宝、找到健康码、截图保存。
这 50 个 Demo 的真正意义,是帮你把“我想让手机自动做XX”这种模糊想法,快速落地为一行可执行的自然语言指令。
3. 三步启动:从零到跑通第一个Demo
3.1 第一步:连上你的手机(比配WiFi还简单)
这不是“开发环境配置”,是“让手机认你这个主人”。
你只需要做三件事:
- 开开关:手机设置 → 关于手机 → 连续点击“版本号”7次 → 返回上一级,找到“开发者选项” → 开启“USB调试”;
- 装个输入法:下载
ADBKeyboard.apk(项目assets/目录下就有),安装后在“语言与输入法”里设为默认; - 连根线:用原装 USB 线把手机插电脑,Windows/macOS 会自动识别(无需装驱动)。
验证是否成功?打开终端,敲:
adb devices
如果看到一串字母数字(比如 ZY223456789)后面跟着 device,恭喜,手机已认你为主人。
注意:别跳过 ADB Keyboard。这是 AI 在手机上“打字”的唯一方式。没有它,所有需要输入的操作都会失败。
3.2 第二步:启动模型服务(两种选择,任选其一)
你不需要自己训练模型,也不用买 GPU 服务器。Open-AutoGLM 支持两种最省心的启动方式:
方式一:用智谱云端 API(推荐新手)
注册智谱 BigModel 平台,获取免费 API Key。然后直接运行 Demo:
python demo_01_basic_launch.py \
--api-key your_zhipu_api_key \
--model autoglm-phone-9b \
"打开小红书"
全程无需本地部署模型,适合体验核心能力。
方式二:本地启动轻量模型(推荐进阶用户)
如果你有 NVIDIA 显卡(RTX 3060 及以上),用 vLLM 一键启动:
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model zai-org/AutoGLM-Phone-9B \
--port 8000 \
--gpu-memory-utilization 0.9
启动后,所有 Demo 默认连接 http://localhost:8000/v1,完全离线,隐私无忧。
小技巧:CPU 用户也能跑!项目提供了
autoglm-phone-1.5b量化版模型,虽速度稍慢,但能在 16GB 内存的笔记本上流畅运行。
3.3 第三步:运行第一个Demo(30秒搞定)
进入项目目录,执行:
python demos/demo_01_basic_launch.py \
--device-id ZY223456789 \
--base-url http://localhost:8000/v1 \
--model autoglm-phone-9b
你会看到终端输出类似:
[INFO] 截图已获取(1080x2340)
[INFO] 视觉模型识别到:顶部状态栏、微信图标、小红书图标、抖音图标...
[INFO] 指令解析:'打开小红书' → 需点击小红书图标
[INFO] 执行点击:坐标 (540, 1200)
[SUCCESS] 小红书已启动,当前界面:首页推荐流
没有报错,没有黑屏,没有“正在思考中…”——它真的打开了。
这就是 Open-AutoGLM 的设计哲学:让第一次成功来得足够快,快到你来不及怀疑。
4. 实战拆解:5个高频Demo,照着抄就能用
4.1 Demo 12:自动填表(告别重复输入)
场景:每次登录公司内网、填报健康信息、填写快递单,都要输一遍姓名、手机号、地址……
Demo 文件:demos/demo_12_auto_fill_form.py
核心指令:
agent.run("在浏览器打开公司OA系统,找到‘员工信息登记’页面,把我的姓名填入‘真实姓名’框,手机号填入‘联系电话’框,地址填入‘常住地址’框")
它怎么做:
- 先用 OCR 识别页面上的文字标签(“真实姓名”、“联系电话”);
- 定位到对应输入框的坐标;
- 调用 ADB Keyboard 逐字输入(支持中文、数字、符号);
- 每输完一项,自动点击“下一步”或“保存”按钮。
你能改什么:
- 把
公司OA系统换成https://xxx.com/health-report; - 把字段名换成你实际表单里的文字(如“身份证号”、“紧急联系人”);
- 加一句
"最后点击‘提交’按钮",让它自动完成闭环。
4.2 Demo 25:跨App分享(一键同步内容)
场景:拍了张美食照片,想同时发到朋友圈、小红书、微博,每发一次都要重新选图、写文案、点发送……
Demo 文件:demos/demo_25_cross_app_share.py
核心指令:
agent.run("把相册里最新一张照片,分别发到微信朋友圈(配文:今日探店)、小红书(配文:宝藏餐厅!)、微博(配文:好吃到跺脚)")
它怎么做:
- 先打开相册,识别“最新一张”(按时间戳排序);
- 长按图片唤出分享菜单;
- 依次点击微信、小红书、微博图标;
- 在每个 App 的发布页,自动粘贴预设文案,并点击“发送”。
关键细节:
- 它能区分不同 App 的界面结构(微信朋友圈是“发表”按钮,小红书是“发布”按钮,微博是“发送”按钮);
- 文案自动适配各平台风格(朋友圈偏口语,小红书带emoji,微博带话题#)。
4.3 Demo 33:智能截屏归档(自动整理重要信息)
场景:看病时医生发的检查报告、快递员发的签收截图、客服发的退款凭证……全堆在微信里,想找时翻半小时。
Demo 文件:demos/demo_33_smart_screenshot_archive.py
核心指令:
agent.run("监控微信聊天窗口,当收到含‘检查报告’、‘签收’、‘退款’字样的图片时,自动保存到手机‘Health’、‘Delivery’、‘Refund’三个文件夹")
它怎么做:
- 持续截图微信聊天界面;
- 用多模态模型识别图片中的文字 + 图片类型(报告单/快递单/转账截图);
- 根据关键词匹配规则,自动创建对应文件夹;
- 将原图以时间戳命名,保存至指定路径。
延伸用法:
- 改成监控钉钉、飞书;
- 加一句
"同时把图片文字OCR成文本,发到备忘录",实现图文双备份。
4.4 Demo 41:定时任务管家(手机版Cron)
场景:每天固定时间做一件事:早8点查天气、午12点订外卖、晚10点关灯(通过智能家居App)……
Demo 文件:demos/demo_41_scheduled_tasks.py
核心指令:
agent.run("每天上午8:00,打开墨迹天气,截图当前城市温度,发到‘家庭群’")
它怎么做:
- 利用系统 AlarmManager 或 Python APScheduler,在指定时间唤醒;
- 自动解锁手机(需提前设置无密码或指纹);
- 执行完整操作链:打开App → 截图 → 识别群聊 → 发送图片;
- 执行完毕自动息屏,不干扰你正常使用。
安全提示:
- 所有定时任务默认 require manual confirmation(首次运行弹窗确认);
- 敏感操作(如“删除聊天记录”、“转账”)永远不支持定时,必须人工介入。
4.5 Demo 49:老人模式(一句话解决所有操作)
场景:教爸妈用手机,他们记不住步骤,你又不在身边。
Demo 文件:demos/demo_49_elderly_mode.py
核心指令:
agent.run("帮我妈挂明天上午9点协和医院消化内科的号,她身份证号是110101195001011234")
它怎么做:
- 自动打开医院官方 App(已预置白名单);
- 模拟老人操作习惯:放慢点击速度、增大点击区域、高亮关键按钮;
- 对关键步骤语音播报(需开启手机TTS):“正在选择科室,请稍候”;
- 若某步失败(如网络延迟),自动重试3次后语音提示:“阿姨,网络不太好,我再试一次”。
这才是真正的适老化:不是把字体调大,而是让整个操作过程“可理解、可预期、可兜底”。
5. 避坑指南:那些Demo没写,但你一定会遇到的问题
5.1 “AI点错了!”——其实是截图没对齐
现象:Demo 运行时,AI 点了屏幕右上角,但你要的是左下角的按钮。
根本原因:手机开启了“显示大小”或“字体大小”缩放,导致截图分辨率与实际坐标系不一致。
解决方案:
- 设置 → 显示 → “显示大小”调为“默认”;
- 或在
config.yaml中手动校准:adb: screenshot_scale: 1.0 # 根据你的设备调整,1.0=100%,0.8=80%
5.2 “一直卡在‘正在加载’”——ADB权限没给足
现象:AI 能截图,但无法点击、无法输入,日志停在 Waiting for element...。
根本原因:Android 12+ 系统限制了后台 App 的无障碍权限。
解决方案:
- 设置 → 辅助功能 → 开启
PhoneAgent的“无障碍服务”; - 设置 → 应用 → PhoneAgent → 权限 → 开启“悬浮窗”、“显示在其他应用上层”;
- 终端执行:
adb shell pm grant com.zaiorg.phoneagent android.permission.SYSTEM_ALERT_WINDOW
5.3 “模型返回乱码”——端口或模型名拼错了
现象:终端报错 Connection refused 或 Model not found。
快速自查清单:
--base-url是否指向正确的 IP 和端口?本地部署是http://localhost:8000/v1,不是8000;--model名称是否完全匹配?是autoglm-phone-9b,不是autoglm_phone_9b或auto-glm-phone;- vLLM 服务是否真的在运行?
ps aux | grep vllm看进程是否存在; - 防火墙是否放行了端口?Windows Defender / macOS 防火墙常会拦截。
5.4 “Demo跑不通,但文档说可以”——版本兼容性问题
现象:克隆最新 master 分支,但 Demo 报 ModuleNotFoundError。
真相:Open-AutoGLM 更新极快,部分 Demo 依赖尚未发布的内部模块。
稳态方案:
- 查看 GitHub Releases 页面,切换到最新稳定 Tag(如
v0.3.2); - 或直接运行:
git checkout tags/v0.3.2 -b stable-0.3.2 - 所有官方 Demo 都经过该 Tag 版本严格测试,100% 可运行。
6. 总结:50个Demo,是起点,不是终点
这 50 个 Demo 的真正价值,不在于它们能做什么,而在于它们证明了一件事:让 AI 操作手机,这件事已经不再需要“研究”,而是可以直接“使用”。
它没有停留在“能识别图标”的层面,而是深入到“理解业务逻辑”的深度——知道挂号要先选科室再选医生,知道抢购要卡在倒计时最后一秒,知道分享要适配不同平台的文案风格。
你不需要成为 Android 开发者,不需要懂 ADB 命令,甚至不需要会写 Python。你只需要:
- 有一部安卓手机;
- 有一台能联网的电脑;
- 以及,一句你想让手机做的事。
剩下的,交给 Open-AutoGLM。
现在,打开终端,cd 进 demos/ 目录,挑一个最让你心动的 Demo 名字,运行它。30 秒后,你会看到手机屏幕自己亮起,然后,自己点开那个你每天都要点三次的应用。
那一刻,你会明白:这 50 个 Demo,不是代码,是未来生活的第一份菜单。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)