Open-AutoGLM适配哪些App?主流应用全覆盖

1. 引言:让AI替你操作手机,真的能行吗?

你有没有想过,有一天只要说一句话,手机就能自动帮你完成一系列操作?比如:“打开小红书搜深圳美食探店”,然后你的手机就自己打开了App、输入关键词、滑动浏览笔记——全程不需要你动手。

这不是科幻,而是Open-AutoGLM正在实现的能力。作为智谱AI开源的手机端AI Agent框架,它基于视觉语言模型(VLM)和ADB技术,能够“看懂”屏幕内容,并通过自然语言指令自动执行点击、滑动、输入等操作。

更关键的是,它已经适配了国内50+款主流App,覆盖社交、电商、娱乐、出行等多个场景,真正做到了“主流应用全覆盖”。

本文将带你深入了解:

  • Open-AutoGLM到底能操作哪些App?
  • 它是如何理解界面并执行任务的?
  • 实际使用中表现如何?有哪些限制?
  • 如何快速上手体验这套系统?

无论你是想提升效率的普通用户,还是关注自动化测试的开发者,这篇文章都能给你带来实用价值。


2. 技术原理:它是怎么“看”和“动”的?

在了解支持哪些App之前,先搞清楚Open-AutoGLM是怎么工作的。它的核心机制可以概括为三个步骤:感知 → 理解 → 执行

2.1 多模态感知:用眼睛“看”屏幕

每次执行任务前,系统会通过ADB截取当前手机屏幕画面,这张图就是AI的“视野”。结合内置的视觉语言模型AutoGLM-Phone-9B,它可以识别界面上的文字、按钮、图标、布局结构等信息。

这就像一个人看着手机屏幕,告诉你“左上角是返回箭头,中间是搜索框,下方有五个标签页”。

2.2 自然语言理解:听懂你的指令

你输入的每一句指令,比如“打开抖音关注某个博主”,都会被模型解析成结构化意图。系统会判断:

  • 要启动哪个App?
  • 需要进行哪些操作(搜索、点击、输入)?
  • 目标元素是什么(用户名、商品名、视频标题)?

这个过程不依赖预设脚本,而是动态推理得出执行路径。

2.3 ADB自动化执行:代替手指操作

一旦规划好动作序列,系统就会通过ADB发送底层命令来控制设备:

  • input tap x y:模拟点击
  • input swipe x1 y1 x2 y2:模拟滑动
  • input text "xxx":输入文字
  • am start -n package/name:启动App

整个流程完全脱离手动干预,形成一个“语音→视觉→决策→动作”的闭环。

提示:所有敏感操作(如支付、验证码)都设有人工接管机制,确保安全可控。


3. 支持的应用生态:覆盖日常高频场景

目前Open-AutoGLM已适配超过50款国内主流App,基本涵盖了日常生活中的高频使用场景。以下是按类别整理的支持列表及实测表现。

3.1 社交通讯类:微信、QQ、微博全支持

应用 支持功能 实测表现
微信 发消息、查未读、打开联系人、切换聊天 消息发送稳定,群聊识别准确
QQ 查看消息、发送文本、打开空间 功能完整,偶尔误触广告弹窗
微博 搜索话题、刷新首页、点赞评论 时间线滚动流畅,热搜定位快
钉钉 打卡提醒、查看工作台 适合企业用户自动化打卡

典型指令示例

打开微信,给张三发消息:今晚聚餐改到7点
查看微博热搜榜前三条内容

这类App的特点是界面相对固定,控件语义清晰,因此AI识别成功率很高。


3.2 电商购物类:淘宝京东闲鱼都能操作

应用 支持功能 实测表现
淘宝 搜索商品、筛选价格区间、浏览详情页 搜索精准,分页滑动顺畅
京东 查看商品评价、加入购物车 图文混排识别能力强
拼多多 找百亿补贴商品、领取优惠券 广告干扰较多,需增加等待时间
闲鱼 搜索二手物品、查看卖家主页 OCR识别标题准确率高

典型指令示例

打开淘宝,搜索机械键盘,价格300-600元
在京东找iPhone 15保护壳,显示销量最高的前五款

电商类App页面复杂度高,但得益于强大的图文理解能力,Open-AutoGLM在商品搜索与浏览环节表现出色。


3.3 美食外卖类:美团饿了么一键下单准备中

应用 支持功能 实测表现
美团 搜索餐厅、查看评分、进入团购页 地理位置获取稳定
饿了么 筛选配送范围、查找优惠活动 可识别满减规则
肯德基 查看菜单、选择套餐 品类分类识别准确
麦当劳 下单经典汉堡组合 尚未支持支付环节

典型指令示例

打开美团,搜索附近的川菜馆,按评分排序
在饿了么找有“新用户立减”标签的快餐店

需要注意的是,下单支付仍需人工介入,主要是出于安全考虑。


3.4 出行旅游类:订票导航不在话下

应用 支持功能 实测表现
携程 查询航班、酒店价格 数据加载后识别准确
12306 查看余票、选择车次 验证码需人工处理
滴滴出行 查看打车预估价 定位服务响应快
高铁管家 添加行程提醒 日历组件识别良好

典型指令示例

打开12306,查询明天北京到上海的高铁班次
用滴滴从公司回家,查看预估费用

这类App通常涉及实时数据更新,建议配合Wait操作避免因加载延迟导致失败。


3.5 视频娱乐类:刷抖音B站也能自动化

应用 支持功能 实测表现
抖音 搜索账号、关注博主、点赞视频 推荐流滑动自然
快手 查看直播列表、分享视频 视频封面识别准确
bilibili 搜索UP主、播放指定视频 弹幕区域不影响主体识别
爱奇艺 找电视剧、播放最新一集 会员跳过片头广告

典型指令示例

打开抖音,搜索抖音号dycwo11nt61d并关注
在B站搜索李永乐老师,播放他讲数学的视频

视频类App交互频繁,但Open-AutoGLM的滑动策略优化得很好,几乎看不出机器操作痕迹。


3.6 音乐音频类:网易云QQ音乐随心听

应用 支持功能 实测表现
网易云音乐 播放歌单、搜索专辑、收藏歌曲 歌词界面不影响操作
QQ音乐 切换音质、查看排行榜 控件命名规范,易识别
喜马拉雅 播放有声书、调整倍速 文字转语音识别强
酷狗音乐 搜索歌手、创建播放列表 界面风格多变,偶有偏差

典型指令示例

打开网易云音乐,播放我的每日推荐歌单
搜索周杰伦的《七里香》,收藏到“经典老歌”列表

音乐类操作逻辑简单,非常适合做定时任务或语音助手联动。


3.7 生活服务类:地图支付一应俱全

应用 支持功能 实测表现
高德地图 搜索地点、导航回家 POI识别准确
百度地图 查公交路线、避开拥堵 多模式交通识别好
支付宝 查账单、扫码付款(展示码) 敏感操作需人工确认
大众点评 找附近健身房 商家卡片信息提取完整

典型指令示例

打开高德地图,导航去最近的加油站
在大众点评搜索带泳池的酒店

这类App常涉及隐私权限,系统默认会对资金相关操作请求接管。


3.8 内容社区类:小红书知乎轻松玩转

应用 支持功能 实测表现
小红书 搜索笔记、点赞收藏、关注作者 图文混排理解优秀
知乎 浏览热榜、搜索问题 回答长文本处理能力强
豆瓣 查看电影评分、加入小组 界面复古,控件识别稳定
贴吧 发帖回帖、查看精华区 需注意防封号策略

典型指令示例

打开小红书,搜索“北京周末拍照地”,点赞第一条笔记
在知乎找关于AI发展的热门讨论

内容型App信息密度高,但模型对标题、作者、互动按钮的识别非常到位。


4. 使用方式:三种玩法任你选

Open-AutoGLM提供了灵活的调用方式,满足不同用户需求。

4.1 命令行直接运行(适合新手)

最简单的使用方式,一条命令即可执行任务:

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "your_api_key" \
  "打开美团搜索附近的粤菜馆"

支持参数:

  • --device-id:指定远程设备
  • --lang en:使用英文指令
  • "...":自然语言任务描述

还可以进入交互模式连续下发指令:

python main.py --base-url ... --apikey ...
> 打开小红书
> 搜索“露营装备”
> 点赞第一个笔记

4.2 Python API集成(适合开发者)

如果你希望将AI操作嵌入项目,可用Python SDK:

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 配置云端模型
model_config = ModelConfig(
    base_url="https://open.bigmodel.cn/api/paas/v4",
    model_name="autoglm-phone",
    api_key="your_api_key"
)

# 初始化代理
agent = PhoneAgent(model_config=model_config)

# 执行任务
result = agent.run("打开网易云音乐播放日推歌单")
print(f"执行结果:{result}")

适用于自动化测试、批量操作、定时任务等场景。


4.3 本地部署模型(适合进阶用户)

若追求低延迟和数据隐私,可本地部署AutoGLM-Phone-9B模型:

python -m vllm.entrypoints.openai.api_server \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000 \
  --max-model-len 25480 \
  --allowed-local-media-path /

启动后通过http://localhost:8000/v1调用,首次运行会自动下载约18GB模型文件。

硬件要求:RTX 3090及以上显卡(24GB显存),推荐使用Linux环境。


5. 实战技巧:让AI更听话的四个秘诀

经过多次实测,我发现以下几点能显著提升任务成功率。

5.1 指令要具体明确

❌ 模糊指令:“看看有什么好吃的”
✅ 明确指令:“打开美团,搜索距离1公里内的川菜馆,按评分从高到低排序”

越具体的描述,AI越容易准确执行。


5.2 复杂任务拆解为多个步骤

不要试图让AI一步完成太多事。例如:

# 第一步:搜索商品
python main.py "打开淘宝搜无线耳机"

# 第二步:选择并查看详情
python main.py "点击第一个商品,查看用户评价"

分步执行更稳定,也便于中途调整。


5.3 合理设置等待时间

网络慢或页面加载久时,AI可能误判状态。可在指令中隐含等待:

打开京东,稍等两秒,然后向下滑动查看商品详情

或在代码中添加Wait(3)操作。


5.4 敏感操作主动接管

遇到登录、支付、验证码等情况,系统会自动暂停并提示接管。此时应:

  • 手动完成验证
  • 返回主界面
  • 继续让AI执行后续动作

这样既保证安全,又不影响整体流程。


6. 局限性与注意事项

尽管功能强大,Open-AutoGLM仍有以下限制:

6.1 不支持的操作类型

  • 人脸识别/指纹解锁:无法绕过生物认证
  • 短信验证码输入:虽可截图识别,但涉及隐私建议人工处理
  • 金融级支付密码:绝不建议交由AI处理

6.2 特殊App的安全限制

部分银行、证券类App启用防截屏机制,会导致:

  • 屏幕截图黑屏
  • 操作区域受限
  • 自动退出登录

此类场景建议仅用于信息查看,不进行深度操作。

6.3 平台合规风险

自动化操作可能违反某些App的服务条款,尤其是:

  • 频繁刷单、抢券
  • 批量注册账号
  • 模拟虚假流量

建议用途:个人提效、辅助操作、开发测试,避免用于违规行为。


7. 总结:AI操作手机的时代已经到来

Open-AutoGLM不是一个简单的自动化工具,而是一个真正意义上的手机端AI Agent。它打破了传统RPA脚本的局限,通过多模态理解实现“像人一样操作手机”。

其最大亮点在于:

  • 广泛兼容:覆盖50+主流App,基本满足日常所需
  • 自然交互:用口语化指令即可驱动复杂操作
  • 安全可控:敏感环节支持人工接管
  • 开放可扩展:支持本地部署、API调用、二次开发

无论是想解放双手的普通用户,还是需要自动化测试的开发者,都可以从中获益。

未来,随着模型能力增强和适配App增多,我们或许真的能看到“AI替你上班”的那一天——至少,先让它帮你刷刷短视频、点个外卖,也不是不行。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐