Open-AutoGLM保姆级教程:10分钟让AI帮你操作手机,零基础也能玩转

想象一下这个场景:你正忙着做饭,突然想用手机搜个菜谱。你只需要对着电脑说一句“打开小红书搜红烧肉做法”,你的手机就会自动亮屏、解锁、打开App、输入关键词、展示结果——全程无需你动手。

这不是科幻电影,而是今天就能用上的技术。Open-AutoGLM,一个由智谱AI开源的手机智能体框架,正在让这种“动口不动手”的操作变成现实。

你可能觉得这听起来很复杂,需要懂编程、会配置环境、还得有高性能电脑。别担心,这篇教程就是为你准备的。无论你是完全零基础的小白,还是想快速上手的开发者,我都会用最直白的话,带你在10分钟内完成部署,让AI成为你的手机管家。

1. 它到底是什么?能做什么?

简单来说,Open-AutoGLM是一个“手机遥控器”,但这个遥控器不是用手按的,而是用“说话”来控制的。它的核心是一个能看懂手机屏幕的AI模型(AutoGLM-Phone-9B)和一个执行操作的框架(Phone Agent)。

它的工作原理分三步:

  1. 看屏幕:通过ADB(一个安卓调试工具)实时获取你手机的屏幕截图。
  2. 想事情:AI模型分析截图,理解当前界面有什么(按钮、文字、图标),并结合你的指令(比如“打开微信”),思考下一步该点哪里。
  3. 做动作:通过ADB模拟你的手指,执行点击、滑动、输入等操作。

它能帮你做什么?

  • 日常偷懒:一句“打开网易云音乐播放我的日推”,音乐就响起来了。
  • 信息收集:“打开淘宝,搜索无线耳机,按销量排序,截图前5个商品”。
  • 社交管理:“打开微博,给特别关注的最新动态点个赞”。
  • 自动化测试:如果你是App开发者,可以用它自动测试各种功能流程。

听起来很酷,对吧?接下来,我们从零开始,把它装起来。

2. 准备工作:三样东西备齐就行

在动手之前,你需要准备好三样东西:一台电脑、一部安卓手机、一个能上网的环境。我会把每一步都拆解得清清楚楚。

2.1 第一步:准备你的电脑环境

你的电脑可以是Windows、Mac或者Linux。首先,确保安装了Python。

  1. 检查Python版本:打开电脑的命令行(Windows叫“命令提示符”或“PowerShell”,Mac/Linux叫“终端”)。
  2. 输入 python --versionpython3 --version 并回车。
  3. 如果显示版本是 3.10或更高(比如3.10.12, 3.11.4),那就没问题。如果版本太低或者没安装,去Python官网下载最新版安装即可。

2.2 第二步:安装“遥控器”——ADB工具

ADB(Android Debug Bridge)是让电脑和手机“对话”的桥梁。安装它就像给电脑装个手机驱动程序。

下载ADB:

  1. 访问谷歌官方的平台工具下载页面
  2. 根据你的电脑系统(Windows、Mac、Linux)下载对应的压缩包。
  3. 下载后,把它解压到一个你记得住的文件夹,比如 C:\platform-tools~/Downloads/platform-tools

配置环境变量(让电脑能找到它):

  • Windows用户
    • 右键点击“此电脑” -> “属性” -> “高级系统设置” -> “环境变量”。
    • 在“系统变量”里找到并选中 Path,点击“编辑”。
    • 点击“新建”,把刚才解压的 platform-tools 文件夹的完整路径粘贴进去(例如 C:\platform-tools)。
    • 一路点击“确定”保存。
  • Mac/Linux用户
    • 打开终端,输入以下命令(请把 ~/Downloads/platform-tools 替换成你的实际路径):
      echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc  # 如果你用zsh
      # 或者
      echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.bash_profile # 如果你用bash
      
    • 然后输入 source ~/.zshrc(或 source ~/.bash_profile)让配置生效。

验证安装: 打开命令行,输入 adb version 然后回车。如果出现一串版本信息,恭喜你,ADB安装成功!

2.3 第三步:设置你的安卓手机

你的手机需要是Android 7.0或以上版本。

  1. 开启开发者模式

    • 进入手机“设置” -> “关于手机”。
    • 找到“版本号”,连续快速点击7次,直到出现“您已处于开发者模式”的提示。
  2. 开启USB调试

    • 返回“设置”,现在你应该能看到多了一个“开发者选项”或“开发人员选项”。
    • 点进去,找到“USB调试”并打开它。
    • 非常重要:同时找到“USB调试(安全设置)”或“通过USB验证应用”之类的选项,也把它打开。很多朋友卡在这一步,AI能打开App但点不了屏幕,就是因为这个开关没开。
  3. 安装ADB键盘(为了输入中文)

    • 在电脑浏览器下载 ADB Keyboard的APK文件
    • 用USB线连接手机和电脑,在命令行进入你下载APK的目录,执行:
      adb install ADBKeyboard.apk
      
    • 安装成功后,在手机“设置” -> “系统” -> “语言与输入法” -> “虚拟键盘”或“默认键盘”里,能看到“ADB Keyboard”选项。不需要把它设为默认,系统会在需要时自动调用它。

好了,万事俱备,只欠东风。接下来我们安装核心的Open-AutoGLM。

3. 10分钟快速部署:让AI跑起来

整个过程就像安装一个软件,跟着步骤走就行。

3.1 下载项目代码

在命令行里,执行以下命令,把项目代码“克隆”到你的电脑上:

git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM

如果提示 git 命令找不到,你需要先安装Git

3.2 创建独立的Python环境(推荐)

为了避免和你电脑上其他Python项目冲突,我们创建一个独立的“小房间”来安装这个项目的依赖。

# Windows用户
python -m venv venv
venv\Scripts\activate

# Mac/Linux用户
python3 -m venv venv
source venv/bin/activate

执行成功后,命令行前面会出现 (venv) 字样,表示你已经在这个“小房间”里了。

3.3 安装项目依赖

(venv) 环境下,运行以下命令来安装所有必需的软件包:

pip install -r requirements.txt
pip install -e .

这个过程需要下载一些东西,请保持网络通畅。如果下载慢,可以在命令后面加上 -i https://pypi.tuna.tsinghua.edu.cn/simple 使用国内的镜像源加速。

至此,控制端的代码就部署好了。但AI的大脑——模型,还需要部署。你有两个选择,我强烈建议新手选第一个。

4. 选择你的“AI大脑”:云端还是本地?

Open-AutoGLM需要一个AI模型来理解屏幕和思考。你可以用别人搭好的云端服务(省事),也可以自己在家部署(更自由)。

4.1 方案一:使用云端API(新手首选,最快)

直接用智谱AI等公司提供的在线服务,你只需要一个API密钥。

  1. 获取API密钥
    • 访问智谱AI开放平台,注册账号。
    • 在控制台创建一个API Key。新用户通常有免费额度。
  2. 测试连接
    • 用USB线连接手机和电脑,确保 adb devices 命令能列出你的设备。
    • 在Open-AutoGLM项目目录下,运行:
      python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API密钥" "打开设置"
      
    • 如果看到手机自动打开了“设置”应用,那么恭喜你,成功了!整个过程可能只需几秒钟。

优点:无需强大硬件,5分钟就能用上。 缺点:需要网络,且长期使用有费用(按调用次数计费)。

4.2 方案二:本地部署模型(适合有显卡的玩家)

如果你有一张显存足够大(建议16GB以上,如RTX 3090/4090)的显卡,可以把模型下载到本地运行,响应更快,也没有后续费用。

  1. 使用vLLM部署(推荐)
    • 确保你的显卡驱动和CUDA已正确安装。
    • 在命令行运行以下命令启动模型服务(第一次运行会下载约18GB的模型文件):
      # Linux/Mac
      python3 -m vllm.entrypoints.openai.api_server \
        --served-model-name autoglm-phone-9b \
        --model zai-org/AutoGLM-Phone-9B \
        --port 8000 \
        --max-model-len 25480
      
      # Windows (CMD)
      python -m vllm.entrypoints.openai.api_server ^
        --served-model-name autoglm-phone-9b ^
        --model zai-org/AutoGLM-Phone-9B ^
        --port 8000 ^
        --max-model-len 25480
      
  2. 测试本地服务
    • 服务启动后,在另一个命令行窗口测试:
      python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开设置"
      

优点:响应快,数据隐私好,一次部署长期使用。 缺点:对硬件要求高,部署过程稍复杂。

无论你选择哪种方案,现在你的AI助手应该已经能听懂指令并操作手机了。让我们玩点更实际的。

5. 实战演练:三种方式指挥你的AI

5.1 玩法一:命令行直接下指令(最常用)

就像在跟一个超级助手对话,你说,它做。

执行单个任务:

# 使用云端API
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "你的API密钥" "打开网易云音乐,搜索‘周杰伦’并播放第一首歌"

# 使用本地模型(如果你部署了的话)
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开网易云音乐,搜索‘周杰伦’并播放第一首歌"

进入交互模式(连续对话): 直接运行 python main.py ... 但不加最后的指令,你会进入一个交互式命令行。你可以连续输入指令,AI会依次执行。

> 打开微信
> 找到文件传输助手
> 发送消息:测试AI助手
> 回到手机桌面

5.2 玩法二:写Python脚本(适合开发者)

如果你想把它集成到自己的自动化程序里,或者执行更复杂的逻辑,可以使用Python API。

from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 1. 配置AI模型(这里以云端为例)
config = ModelConfig(
    base_url="https://open.bigmodel.cn/api/paas/v4",
    model_name="autoglm-phone",
    api_key="你的API密钥"
)

# 2. 创建AI助手实例
my_assistant = PhoneAgent(model_config=config)

# 3. 让它执行一系列任务
tasks = [
    "解锁手机屏幕",
    "打开淘宝",
    "在搜索框输入‘夏季短袖’",
    "点击搜索按钮",
    "滑动屏幕浏览前3个商品"
]

for task in tasks:
    print(f"正在执行: {task}")
    result = my_assistant.run(task)
    print(f"结果: {result}\n")

5.3 玩法三:控制远程手机(进阶技巧)

你的手机不一定非得用USB连着电脑。只要手机和电脑在同一个Wi-Fi下,就可以无线控制。

  1. 先用USB线连接一次,开启无线调试
    adb tcpip 5555
    
  2. 拔掉USB线,使用Wi-Fi连接
    adb connect 你的手机IP地址:5555
    # 例如:adb connect 192.168.1.105:5555
    
  3. 在命令中指定设备ID
    python main.py --device-id 192.168.1.105:5555 --base-url ... --model ... "打开相机"
    

6. 避坑指南:我踩过的雷,你别再踩

在实际使用中,你可能会遇到一些小问题。别慌,大部分都有现成的解决办法。

6.1 问题:adb devices 显示 unauthorized 或没设备

  • 原因:手机没有授权电脑的调试请求。
  • 解决:检查手机屏幕,应该会弹出一个“允许USB调试吗?”的对话框,勾选“始终允许”并确定。如果没弹出,重启 adb 服务:adb kill-server 然后 adb start-server

6.2 问题:AI能打开App,但点不了屏幕上的按钮

  • 原因:99%是因为没开启“USB调试(安全设置)”。
  • 解决:进入手机“开发者选项”,仔细找找,把“USB调试(安全设置)”、“通过USB验证应用”、“USB安装”这类选项全部打开。

6.3 问题:AI无法在输入框里输入中文

  • 原因:ADB Keyboard没有正确工作。
  • 解决:确认ADB Keyboard已安装。在手机“设置”->“语言与输入法”->“虚拟键盘”中,确保“ADB Keyboard”是开启状态。不需要把它设为默认输入法。

6.4 问题:运行命令时出现中文乱码(Windows常见)

  • 解决:在运行命令前,先设置一下命令行编码。
    • CMDchcp 65001 然后运行你的命令。
    • PowerShell:在脚本最前面加上 $env:PYTHONIOENCODING="utf-8"

6.5 问题:任务执行到一半卡住了

  • 可能原因:页面加载慢、弹出广告、网络问题。
  • 解决
    1. 在指令中增加等待,比如“打开美团,等待3秒,搜索奶茶店”。
    2. 遇到弹窗,可以手动关闭,然后让AI继续。
    3. 对于复杂任务,拆分成多个简单指令分步执行。

7. 让AI更“聪明”的使用技巧

AI毕竟不是真人,给它清晰的指令,它能完成得更好。

  1. 指令要具体

    • 模糊:“帮我看看微信”。
    • 具体:“打开微信,查看‘文件传输助手’聊天窗口的最新一条消息”。
  2. 复杂任务分步走: 对于“打开淘宝,找个200块左右的蓝牙耳机,看看评价,然后加入购物车”这种多步骤任务,可以分成两三条指令来发,成功率更高。

  3. 利用好“人工接管”功能: 系统很聪明,遇到登录界面、支付密码、验证码等敏感或复杂操作时,它会暂停并提示你手动处理。你处理完后,它可以从断点继续执行。这是保障安全的重要机制。

  4. 了解它的能力边界

    • 擅长:常规的点击、滑动、输入、启动/关闭应用。对主流App(微信、淘宝、抖音等)支持很好。
    • 不擅长/需谨慎:涉及人脸识别、指纹支付、银行转账等极高安全级别的操作。切勿让AI处理此类敏感信息。

8. 总结:你的数字生活新起点

通过这篇教程,你已经成功解锁了一项“超能力”——用自然语言控制手机。从环境配置、模型选择到实战指令和问题排查,我们走完了从零到一的完整路径。

回顾一下核心价值:

  • 极致便捷:动动嘴皮子就能完成手机操作,释放双手。
  • 高度自动化:可集成到脚本中,实现定时、批量任务。
  • 强大可扩展:开发者可以基于此框架,构建更复杂的自动化流程。

最后几点叮嘱:

  • 安全第一:不要在指令中包含密码、支付信息等敏感内容。对于敏感操作,务必使用“人工接管”或亲自处理。
  • 遵守规则:请将这项技术用于提高个人效率等合法合规的用途,尊重各平台的服务条款。
  • 保持探索:Open-AutoGLM仍在快速发展,关注其GitHub仓库,未来会有更多强大的功能。

技术的目的,是让人生活得更轻松。现在,你已经拥有了一个24小时待命、绝对服从、且不知疲倦的手机助手。接下来,用它去创造、去优化、去享受更高效的数字生活吧。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐