Open-AutoGLM适配哪些App?主流应用全覆盖
本文介绍了基于星图GPU平台自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架的实践方法。该平台支持一键部署镜像,便于快速搭建环境,适用于模型微调与AI应用开发。通过自然语言指令,用户可实现对微信、淘宝、抖音等50+主流App的自动操作,显著提升手机端自动化效率。
Open-AutoGLM适配哪些App?主流应用全覆盖
1. 引言:让AI替你操作手机,真的能行吗?
你有没有想过,有一天只要说一句话,手机就能自动帮你完成一系列操作?比如:“打开小红书搜深圳美食探店”,然后你的手机就自己打开了App、输入关键词、滑动浏览笔记——全程不需要你动手。
这不是科幻,而是Open-AutoGLM正在实现的能力。作为智谱AI开源的手机端AI Agent框架,它基于视觉语言模型(VLM)和ADB技术,能够“看懂”屏幕内容,并通过自然语言指令自动执行点击、滑动、输入等操作。
更关键的是,它已经适配了国内50+款主流App,覆盖社交、电商、娱乐、出行等多个场景,真正做到了“主流应用全覆盖”。
本文将带你深入了解:
- Open-AutoGLM到底能操作哪些App?
- 它是如何理解界面并执行任务的?
- 实际使用中表现如何?有哪些限制?
- 如何快速上手体验这套系统?
无论你是想提升效率的普通用户,还是关注自动化测试的开发者,这篇文章都能给你带来实用价值。
2. 技术原理:它是怎么“看”和“动”的?
在了解支持哪些App之前,先搞清楚Open-AutoGLM是怎么工作的。它的核心机制可以概括为三个步骤:感知 → 理解 → 执行。
2.1 多模态感知:用眼睛“看”屏幕
每次执行任务前,系统会通过ADB截取当前手机屏幕画面,这张图就是AI的“视野”。结合内置的视觉语言模型AutoGLM-Phone-9B,它可以识别界面上的文字、按钮、图标、布局结构等信息。
这就像一个人看着手机屏幕,告诉你“左上角是返回箭头,中间是搜索框,下方有五个标签页”。
2.2 自然语言理解:听懂你的指令
你输入的每一句指令,比如“打开抖音关注某个博主”,都会被模型解析成结构化意图。系统会判断:
- 要启动哪个App?
- 需要进行哪些操作(搜索、点击、输入)?
- 目标元素是什么(用户名、商品名、视频标题)?
这个过程不依赖预设脚本,而是动态推理得出执行路径。
2.3 ADB自动化执行:代替手指操作
一旦规划好动作序列,系统就会通过ADB发送底层命令来控制设备:
input tap x y:模拟点击input swipe x1 y1 x2 y2:模拟滑动input text "xxx":输入文字am start -n package/name:启动App
整个流程完全脱离手动干预,形成一个“语音→视觉→决策→动作”的闭环。
提示:所有敏感操作(如支付、验证码)都设有人工接管机制,确保安全可控。
3. 支持的应用生态:覆盖日常高频场景
目前Open-AutoGLM已适配超过50款国内主流App,基本涵盖了日常生活中的高频使用场景。以下是按类别整理的支持列表及实测表现。
3.1 社交通讯类:微信、QQ、微博全支持
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 微信 | 发消息、查未读、打开联系人、切换聊天 | 消息发送稳定,群聊识别准确 |
| 查看消息、发送文本、打开空间 | 功能完整,偶尔误触广告弹窗 | |
| 微博 | 搜索话题、刷新首页、点赞评论 | 时间线滚动流畅,热搜定位快 |
| 钉钉 | 打卡提醒、查看工作台 | 适合企业用户自动化打卡 |
典型指令示例:
打开微信,给张三发消息:今晚聚餐改到7点
查看微博热搜榜前三条内容
这类App的特点是界面相对固定,控件语义清晰,因此AI识别成功率很高。
3.2 电商购物类:淘宝京东闲鱼都能操作
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 淘宝 | 搜索商品、筛选价格区间、浏览详情页 | 搜索精准,分页滑动顺畅 |
| 京东 | 查看商品评价、加入购物车 | 图文混排识别能力强 |
| 拼多多 | 找百亿补贴商品、领取优惠券 | 广告干扰较多,需增加等待时间 |
| 闲鱼 | 搜索二手物品、查看卖家主页 | OCR识别标题准确率高 |
典型指令示例:
打开淘宝,搜索机械键盘,价格300-600元
在京东找iPhone 15保护壳,显示销量最高的前五款
电商类App页面复杂度高,但得益于强大的图文理解能力,Open-AutoGLM在商品搜索与浏览环节表现出色。
3.3 美食外卖类:美团饿了么一键下单准备中
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 美团 | 搜索餐厅、查看评分、进入团购页 | 地理位置获取稳定 |
| 饿了么 | 筛选配送范围、查找优惠活动 | 可识别满减规则 |
| 肯德基 | 查看菜单、选择套餐 | 品类分类识别准确 |
| 麦当劳 | 下单经典汉堡组合 | 尚未支持支付环节 |
典型指令示例:
打开美团,搜索附近的川菜馆,按评分排序
在饿了么找有“新用户立减”标签的快餐店
需要注意的是,下单支付仍需人工介入,主要是出于安全考虑。
3.4 出行旅游类:订票导航不在话下
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 携程 | 查询航班、酒店价格 | 数据加载后识别准确 |
| 12306 | 查看余票、选择车次 | 验证码需人工处理 |
| 滴滴出行 | 查看打车预估价 | 定位服务响应快 |
| 高铁管家 | 添加行程提醒 | 日历组件识别良好 |
典型指令示例:
打开12306,查询明天北京到上海的高铁班次
用滴滴从公司回家,查看预估费用
这类App通常涉及实时数据更新,建议配合Wait操作避免因加载延迟导致失败。
3.5 视频娱乐类:刷抖音B站也能自动化
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 抖音 | 搜索账号、关注博主、点赞视频 | 推荐流滑动自然 |
| 快手 | 查看直播列表、分享视频 | 视频封面识别准确 |
| bilibili | 搜索UP主、播放指定视频 | 弹幕区域不影响主体识别 |
| 爱奇艺 | 找电视剧、播放最新一集 | 会员跳过片头广告 |
典型指令示例:
打开抖音,搜索抖音号dycwo11nt61d并关注
在B站搜索李永乐老师,播放他讲数学的视频
视频类App交互频繁,但Open-AutoGLM的滑动策略优化得很好,几乎看不出机器操作痕迹。
3.6 音乐音频类:网易云QQ音乐随心听
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 网易云音乐 | 播放歌单、搜索专辑、收藏歌曲 | 歌词界面不影响操作 |
| QQ音乐 | 切换音质、查看排行榜 | 控件命名规范,易识别 |
| 喜马拉雅 | 播放有声书、调整倍速 | 文字转语音识别强 |
| 酷狗音乐 | 搜索歌手、创建播放列表 | 界面风格多变,偶有偏差 |
典型指令示例:
打开网易云音乐,播放我的每日推荐歌单
搜索周杰伦的《七里香》,收藏到“经典老歌”列表
音乐类操作逻辑简单,非常适合做定时任务或语音助手联动。
3.7 生活服务类:地图支付一应俱全
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 高德地图 | 搜索地点、导航回家 | POI识别准确 |
| 百度地图 | 查公交路线、避开拥堵 | 多模式交通识别好 |
| 支付宝 | 查账单、扫码付款(展示码) | 敏感操作需人工确认 |
| 大众点评 | 找附近健身房 | 商家卡片信息提取完整 |
典型指令示例:
打开高德地图,导航去最近的加油站
在大众点评搜索带泳池的酒店
这类App常涉及隐私权限,系统默认会对资金相关操作请求接管。
3.8 内容社区类:小红书知乎轻松玩转
| 应用 | 支持功能 | 实测表现 |
|---|---|---|
| 小红书 | 搜索笔记、点赞收藏、关注作者 | 图文混排理解优秀 |
| 知乎 | 浏览热榜、搜索问题 | 回答长文本处理能力强 |
| 豆瓣 | 查看电影评分、加入小组 | 界面复古,控件识别稳定 |
| 贴吧 | 发帖回帖、查看精华区 | 需注意防封号策略 |
典型指令示例:
打开小红书,搜索“北京周末拍照地”,点赞第一条笔记
在知乎找关于AI发展的热门讨论
内容型App信息密度高,但模型对标题、作者、互动按钮的识别非常到位。
4. 使用方式:三种玩法任你选
Open-AutoGLM提供了灵活的调用方式,满足不同用户需求。
4.1 命令行直接运行(适合新手)
最简单的使用方式,一条命令即可执行任务:
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "your_api_key" \
"打开美团搜索附近的粤菜馆"
支持参数:
--device-id:指定远程设备--lang en:使用英文指令"...":自然语言任务描述
还可以进入交互模式连续下发指令:
python main.py --base-url ... --apikey ...
> 打开小红书
> 搜索“露营装备”
> 点赞第一个笔记
4.2 Python API集成(适合开发者)
如果你希望将AI操作嵌入项目,可用Python SDK:
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
# 配置云端模型
model_config = ModelConfig(
base_url="https://open.bigmodel.cn/api/paas/v4",
model_name="autoglm-phone",
api_key="your_api_key"
)
# 初始化代理
agent = PhoneAgent(model_config=model_config)
# 执行任务
result = agent.run("打开网易云音乐播放日推歌单")
print(f"执行结果:{result}")
适用于自动化测试、批量操作、定时任务等场景。
4.3 本地部署模型(适合进阶用户)
若追求低延迟和数据隐私,可本地部署AutoGLM-Phone-9B模型:
python -m vllm.entrypoints.openai.api_server \
--model zai-org/AutoGLM-Phone-9B \
--port 8000 \
--max-model-len 25480 \
--allowed-local-media-path /
启动后通过http://localhost:8000/v1调用,首次运行会自动下载约18GB模型文件。
硬件要求:RTX 3090及以上显卡(24GB显存),推荐使用Linux环境。
5. 实战技巧:让AI更听话的四个秘诀
经过多次实测,我发现以下几点能显著提升任务成功率。
5.1 指令要具体明确
❌ 模糊指令:“看看有什么好吃的”
✅ 明确指令:“打开美团,搜索距离1公里内的川菜馆,按评分从高到低排序”
越具体的描述,AI越容易准确执行。
5.2 复杂任务拆解为多个步骤
不要试图让AI一步完成太多事。例如:
# 第一步:搜索商品
python main.py "打开淘宝搜无线耳机"
# 第二步:选择并查看详情
python main.py "点击第一个商品,查看用户评价"
分步执行更稳定,也便于中途调整。
5.3 合理设置等待时间
网络慢或页面加载久时,AI可能误判状态。可在指令中隐含等待:
打开京东,稍等两秒,然后向下滑动查看商品详情
或在代码中添加Wait(3)操作。
5.4 敏感操作主动接管
遇到登录、支付、验证码等情况,系统会自动暂停并提示接管。此时应:
- 手动完成验证
- 返回主界面
- 继续让AI执行后续动作
这样既保证安全,又不影响整体流程。
6. 局限性与注意事项
尽管功能强大,Open-AutoGLM仍有以下限制:
6.1 不支持的操作类型
- 人脸识别/指纹解锁:无法绕过生物认证
- 短信验证码输入:虽可截图识别,但涉及隐私建议人工处理
- 金融级支付密码:绝不建议交由AI处理
6.2 特殊App的安全限制
部分银行、证券类App启用防截屏机制,会导致:
- 屏幕截图黑屏
- 操作区域受限
- 自动退出登录
此类场景建议仅用于信息查看,不进行深度操作。
6.3 平台合规风险
自动化操作可能违反某些App的服务条款,尤其是:
- 频繁刷单、抢券
- 批量注册账号
- 模拟虚假流量
建议用途:个人提效、辅助操作、开发测试,避免用于违规行为。
7. 总结:AI操作手机的时代已经到来
Open-AutoGLM不是一个简单的自动化工具,而是一个真正意义上的手机端AI Agent。它打破了传统RPA脚本的局限,通过多模态理解实现“像人一样操作手机”。
其最大亮点在于:
- 广泛兼容:覆盖50+主流App,基本满足日常所需
- 自然交互:用口语化指令即可驱动复杂操作
- 安全可控:敏感环节支持人工接管
- 开放可扩展:支持本地部署、API调用、二次开发
无论是想解放双手的普通用户,还是需要自动化测试的开发者,都可以从中获益。
未来,随着模型能力增强和适配App增多,我们或许真的能看到“AI替你上班”的那一天——至少,先让它帮你刷刷短视频、点个外卖,也不是不行。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)