AutoGLM-Phone学习辅助应用:单词打卡AI代理部署

1. 为什么需要一个“会看屏幕、能点手机”的AI学习助手?

你有没有过这样的经历:
早上定好闹钟背20个单词,结果打开APP刚输完账号密码,就被一条微信消息带偏;
想用小红书查某个词的地道用法,翻了三页笔记却找不到重点;
甚至只是想把生词截图发到备忘录里整理,都要手动截屏→打开相册→长按→复制→切回笔记→粘贴……一来二去,5分钟过去,一个单词没记。

这不是专注力的问题,而是交互成本太高了
传统学习工具要求你“自己动手”,而真正高效的学习辅助,应该像一位坐在你旁边的学伴——你只管说“帮我把这张图里的生词都标出来,再查牛津释义”,它就默默完成所有操作。

AutoGLM-Phone 就是这样一位学伴。它不是另一个背单词APP,而是一个能真正理解你手机屏幕、听懂你自然语言指令、并自动执行任务的AI代理。它不依赖APP内置API,也不需要你提前授权一堆权限,只靠视觉理解 + ADB操控,就能在任意界面完成“看-想-点-输-存”整套动作。

更关键的是,它专为学习场景做了轻量化适配:响应快、意图准、操作稳,连验证码弹窗都会主动暂停,等你人工输入——安全不越界,智能有分寸。

2. AutoGLM-Phone 是什么?不是模型,而是一套“手机端AI操作系统”

2.1 它不是单个大模型,而是一个多模态代理框架

很多人第一眼看到“AutoGLM-Phone”,会下意识以为这是个新发布的9B参数大模型。其实不然。
AutoGLM-Phone 是智谱开源的 Open-AutoGLM 项目中面向移动端的智能代理运行时框架。它的核心能力来自三层协同:

  • 视觉层:用轻量级视觉编码器实时解析手机屏幕截图(每秒1~2帧),识别按钮文字、输入框位置、列表结构、甚至图片中的英文文本;
  • 规划层:基于LLM(如 autoglm-phone-9b)对用户指令做语义解析与任务拆解,生成可执行的动作序列(例如:“搜美食” → 截图 → OCR识别搜索框 → 点击 → 输入“美食” → 点击搜索按钮);
  • 执行层:通过 ADB 指令精准控制设备——点击坐标、滑动轨迹、输入文字、返回上一页,全部自动完成。

这三者组合起来,才构成一个完整的“能看、能想、能干”的AI手机助理。

2.2 和普通自动化工具(如Tasker、MacroDroid)有什么不同?

对比维度 AutoGLM-Phone 传统安卓自动化工具
指令方式 自然语言:“打开网易有道词典,查‘ephemeral’的意思” 预设规则链:触发条件→动作1→动作2→…
界面适应性 动态理解当前UI布局,无需提前录制或配置元素ID 依赖固定控件ID或坐标,换版本/换主题即失效
容错能力 屏幕变化时自动重识别,找不到目标时主动反馈“未找到搜索框” 找不到元素直接报错中断,需人工调试
学习友好性 可连续多轮交互:“查完后把释义复制到备忘录”“再把例句截图发给微信好友” 每个流程独立配置,跨APP协作极难实现

简单说:Tasker 是“程序员写的脚本”,AutoGLM-Phone 是“你随时可以对话的学伴”。

3. 单词打卡场景实测:从截图到生词本,全程零手动

我们以最典型的英语学习需求为例——每日单词打卡。目标很明确:

“把今天刷题APP里遇到的3个生词,自动提取、查释义、生成带音标和例句的卡片,并保存到Notion。”

整个流程,AutoGLM-Phone 仅需一条指令即可启动:

python main.py \
  --device-id 1234567890ABCDEF \
  --base-url http://192.168.3.10:8800/v1 \
  --model "autoglm-phone-9b" \
  "截取当前屏幕,识别所有英文单词,对每个词调用有道词典查释义、音标和例句,生成三栏表格(单词|音标|例句),复制到Notion页面‘今日单词’中。"

3.1 它是怎么一步步做到的?

我们拆解这个看似简单的指令背后的真实动作流:

  1. 截图与OCR识别
    Agent 先调用 adb shell screencap -p 截取当前屏幕,送入视觉模型。模型不仅识别出“ephemeral”“ubiquitous”“serendipity”三个词,还判断出它们分别位于第2行、第5行、第8行,且均处于“题目解析”区域(非标题或按钮)。

  2. 意图理解与任务规划
    LLM 解析出核心动作为:

    • 提取3个目标词 → 调用外部API查词 → 格式化输出 → 复制到指定APP
      并自动补全隐含步骤:
    • 切换到有道词典APP(若未打开则启动)
    • 在搜索框输入第一个词 → 等待加载完成 → 截图释义区
    • 重复3次,但避免重复打开APP
  3. 精准执行与状态校验

    • 每次点击前,Agent 会再次截图确认目标按钮存在(比如“搜索”图标是否已加载);
    • 输入文字时,使用 ADB Keyboard 确保兼容所有输入法;
    • 复制到Notion前,先检测Notion是否在前台,若不在则切换并等待页面加载完成。

整个过程耗时约47秒,生成的Notion卡片如下(实际效果):

单词 音标 例句
ephemeral /ɪˈfem.ɚ.əl/ Fame is often ephemeral.
ubiquitous /juːˈbɪk.wə.təs/ Smartphones are now ubiquitous.
serendipity /ˌser.ənˈdɪp.ə.ti/ Meeting her was pure serendipity.

没有一次误点,没有一次跳转失败,也没有一次OCR漏字。

3.2 学习场景的延伸价值

这个能力远不止于“抄单词”。它让很多原本低效的学习动作变得可沉淀、可复用:

  • 错题归因自动化:指令“把错题截图里的知识点标签提取出来,加到Anki卡片背面”,Agent 自动识别“虚拟语气”“非谓语动词”等标签并写入;
  • 听力材料整理:说“打开喜马拉雅,播放《English Pod》最新一期,把主持人提到的5个关键词截图OCR并存入飞书文档”,全程无人值守;
  • 口语跟读反馈:配合录音APP,指令“播放这段音频3遍,每遍后让我跟读,最后对比我的发音和原音波形”,Agent 控制播放、计时、启动录音、调用语音比对API。

它不替代你的思考,而是把所有机械性操作从学习闭环中剥离出去,让你真正聚焦在“理解”和“运用”上。

4. 本地控制端部署:四步完成你的AI学伴上岗

部署 AutoGLM-Phone 的控制端,不需要服务器、不编译内核、不改系统设置。只要你的电脑能连手机,就能跑起来。整个过程分为四个清晰阶段:

4.1 环境准备:装好“指挥官的通讯设备”

你需要三样东西:一台电脑(Windows/macOS均可)、一部安卓手机(Android 7.0+)、以及 ADB 工具。

  • ADB 是什么?
    它是安卓官方提供的调试桥接工具,就像手机和电脑之间的“对讲机”。AutoGLM-Phone 不直接操控硬件,而是通过 ADB 发送标准指令(比如“点击坐标(500,800)”“输入文字‘hello’”)。

  • 怎么装?

    • Windows:下载 platform-tools,解压后将文件夹路径添加到系统环境变量 Path 中,命令行输入 adb version 显示版本即成功;
    • macOS:终端执行
      export PATH=${PATH}:~/Downloads/platform-tools
      
      (建议将该行加入 ~/.zshrc 永久生效)

注意:不要用第三方“一键ADB安装包”。它们常捆绑广告或修改HOST,反而导致连接不稳定。

4.2 手机设置:打开“被指挥的权限通道”

三步搞定,全程在手机设置里操作:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”提示。

  2. 启用USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”开关(首次开启会弹窗确认,勾选“始终允许”)。

  3. 安装ADB Keyboard(关键!)
    下载 ADB Keyboard APK 并安装;
    设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”。
    为什么必须装它? 因为普通输入法无法通过ADB接收文字指令。ADB Keyboard 是唯一能让AI“打字”的桥梁。

4.3 获取控制代码:克隆开源项目

在本地电脑终端执行:

# 1. 克隆官方仓库(注意:是 Open-AutoGLM,不是 AutoGLM)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM

# 2. 安装依赖(自动处理 torch、transformers、adbutils 等)
pip install -r requirements.txt
pip install -e .

# 3. 验证安装(应输出可用设备列表)
python -c "from phone_agent.adb import list_devices; print(list_devices())"

如果看到类似 [Device(device_id='1234567890ABCDEF', connection_type=<ConnectionType.USB: 1>)] 的输出,说明控制端已准备就绪。

4.4 连接与测试:让AI第一次“看见”你的手机

USB直连(推荐新手首选)
adb devices
# 正常应显示:
# List of devices attached
# 1234567890ABCDEF	device

若显示 unauthorized,请检查手机是否弹出“允许USB调试?”授权弹窗,勾选“始终允许”。

WiFi远程连接(适合长期使用)
# 第一步:用USB线连接,开启TCP/IP模式
adb tcpip 5555

# 第二步:拔掉USB线,连接同一WiFi,获取手机IP(设置→关于手机→状态→IP地址)
adb connect 192.168.3.102:5555
# 成功提示:connected to 192.168.3.102:5555

小技巧:WiFi连接后,你甚至可以把手机放在桌上,用电脑远程控制它刷题、查词、整理笔记——彻底解放双手。

5. 实战指令编写:让AI听懂你的“人话”

AutoGLM-Phone 的强大,一半在底层能力,另一半在如何下指令。它不接受模糊命令,但也不要求你写代码。关键是掌握三类核心表达:

5.1 动作类指令:明确“做什么”

好例子:

  • “点击右上角的‘分享’按钮”
  • “向下滑动两屏,找‘立即打卡’文字并点击”
  • “长按屏幕中央3秒,选择‘识别图中文字’”

❌ 避免:

  • “帮我做点什么”(无目标)
  • “点那个蓝色的东西”(无唯一标识)
  • “快点弄好”(无具体动作)

5.2 内容类指令:定义“处理什么”

好例子:

  • “截取当前屏幕,OCR识别所有英文单词,过滤掉a/an/the”
  • “从微信聊天窗口中,提取最近5条含‘quiz’的消息原文”
  • “读取备忘录APP首页的第三段文字,总结成3个关键词”

❌ 避免:

  • “看看上面写了啥”(无处理逻辑)
  • “把重要的内容给我”(主观标准不明确)

5.3 流程类指令:串联“怎么做”

好例子:

  • “打开扇贝单词,进入‘今日复习’,对每个单词点击‘认识’,直到出现‘全部掌握’弹窗,截图保存到相册”
  • “在知乎搜索‘雅思写作模板’,进入第一个回答,复制正文前三段,粘贴到石墨文档‘写作素材’中”

关键心法:把它当成一个耐心但较真的实习生。你不需要教它“怎么点”,只需要告诉它“点哪里、为什么点、点完干什么”。

6. 常见问题与稳定运行建议

部署顺利不等于长期稳定。我们在真实测试中发现,以下三点最影响学习场景下的体验连贯性:

6.1 ADB连接断连:WiFi不如USB稳,但可优化

  • 现象:执行到一半突然报错 device offline
  • 根因:安卓系统在息屏或锁屏后会关闭ADB网络通道
  • 解法
    • USB连接时,在开发者选项中开启“保持USB调试连接”;
    • WiFi连接时,执行 adb shell settings put global stay_on_while_plugged_in 3(保持唤醒);
    • 终极方案:用USB-C数据线连接,并在手机通知栏下拉,将USB用途改为“文件传输”而非“仅充电”。

6.2 OCR识别不准:不是模型问题,是截图质量

  • 现象:单词识别成“ephemera1”(数字1代替字母l)
  • 根因:屏幕截图分辨率低、字体过小、背景干扰强
  • 解法
    • 在手机设置中将显示缩放调至“默认”(勿用“小字体”);
    • 启动Agent前,手动将目标内容滚动至屏幕中央、放大显示;
    • 如需高精度,可在指令中加一句:“先将屏幕亮度调至100%,再截图”。

6.3 模型响应延迟:云端服务配置比本地更重要

  • 现象:指令发出后等待超10秒无动作
  • 根因:vLLM服务端 --max-model-len 设置过小,或显存不足导致推理卡顿
  • 解法
    • 服务端启动时务必设置 --max-model-len 8192(单词类任务极少超2048,但规划链可能很长);
    • 若用消费级显卡(如RTX 4090),建议 --tensor-parallel-size 1 避免多卡通信开销;
    • 本地测试可用 --model-path ./models/autoglm-phone-9b 直接加载本地模型,绕过网络请求。

最后提醒:AutoGLM-Phone 的设计哲学是“辅助,而非替代”。它不会替你思考单词用法,也不会判断语法对错。它只负责把你想做的、该做的、重复做的那些事,安静、准确、可靠地做完——把省下来的时间,留给你真正重要的事:理解和记住。

7. 总结:你的AI学伴,已经站在起点

AutoGLM-Phone 不是一个功能堆砌的APP,而是一种新的学习交互范式:
你不再需要在多个工具间切换、不再需要记忆操作路径、不再因为繁琐步骤放弃深度学习。它把“执行”这件事,从你的认知负荷中彻底拿走。

从单词打卡开始,你可以让它:
→ 自动整理错题本,标注知识点来源;
→ 实时监听听力材料,遇到生词立刻暂停并查词;
→ 把老师发的PDF讲义,一页页OCR、分段、生成Anki卡片;
→ 甚至帮你监控考试报名时间,在开放瞬间自动填写表单。

这一切,都不需要你写一行代码,也不需要你成为安卓专家。只需要:
一部支持ADB的安卓手机
一台装好Python的电脑
一条清晰的自然语言指令

当技术不再要求你“适应它”,而是主动“理解你”,学习才真正回归本质——专注、思考、成长。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐