零基础也能懂!Open-AutoGLM手机智能体保姆级教程

你有没有想过,让AI替你点开微信、搜索商品、填写表单、甚至帮你抢演唱会门票?不是写代码,不是配脚本,就只是像跟朋友说话一样说一句:“帮我把小红书里那篇咖啡探店笔记发到朋友圈”,事情就办成了。

Open-AutoGLM 就是这样一个“能看会想还会动手”的手机智能体。它不依赖App内嵌SDK,不挑机型,不需越狱,只要一部安卓手机+一台普通电脑,就能让AI真正接管你的手机屏幕——不是模拟点击,而是理解界面、规划步骤、精准执行。

更关键的是:它开源、免费、文档完整,连没写过一行Python的新手,按着步骤走,2小时内就能让它帮你自动刷完一条抖音。

这篇教程,就是为你写的。没有术语轰炸,不讲模型原理,只告诉你每一步该点什么、输什么、等多久、出错了怎么救。从拆开手机包装盒开始,到让AI第一次成功打开应用,全程手把手。

准备好了吗?我们开始。

1. 先搞懂它到底能干什么(别跳过这步)

1.1 它不是“自动化工具”,而是“能看懂屏幕的AI助手”

很多同学一看到“手机自动化”,第一反应是Tasker或Auto.js——写规则、设条件、抓控件ID。但Open-AutoGLM完全不同:

  • 它用眼睛看:每次操作前,自动截一张当前手机屏幕图,交给视觉语言模型分析
  • 它用脑子想:结合你的自然语言指令(比如“找到美团里评分4.8以上的川菜馆”),理解UI结构、识别按钮位置、判断当前页面状态
  • 它用手操作:通过ADB命令,真实点击、滑动、输入文字,就像你亲手在操作

所以它不怕App更新——按钮挪了位置?没关系,它重新看图再找;界面换主题了?没问题,它照样认得清“搜索框”在哪。

1.2 真实能做的5件事(附小白友好说明)

你能说的话 它实际做了什么 新手注意点
“打开淘宝,搜‘无线降噪耳机’,点销量最高的那个” 自动启动淘宝→点搜索框→输入文字→点搜索→分析商品列表→定位“销量”排序按钮→点击→等待刷新→识别第一个商品卡片→点击进入 全程无需你碰手机,但首次使用需提前登录淘宝账号
“把相册里今天拍的3张照片发给微信里的‘家人群’” 打开相册→筛选今日照片→长按选中3张→点分享→在微信联系人里搜索“家人群”→点进去→发送 需确保微信已登录且“家人群”名称准确(支持模糊匹配)
“打开设置,关掉蓝牙和定位服务” 进入系统设置→滑动查找“蓝牙”开关→点击关闭→返回上一级→再找“位置信息”→关闭总开关 系统设置菜单因品牌而异(华为/小米/三星),它能自适应识别
“在Chrome里打开知乎,搜‘如何自学Python’,把前两条回答复制下来” 启动Chrome→输入知乎网址→等待加载→点顶部搜索框→输入关键词→点搜索→滚动页面→识别前两条回答区域→长按选择→复制文本 复制内容会暂存到电脑剪贴板,你可直接粘贴到记事本
“帮我订明天上午10点从北京南到上海虹桥的高铁票” 打开12306 App→点“车票预订”→选择日期为明天→出发地输“北京南”→到达地输“上海虹桥”→点查询→选中首班G字头列车→提交订单→跳转支付页(停在此步,需你手动支付) 涉及支付等敏感操作,它会主动暂停并提示你接管

划重点:它不是万能的,但对重复性高、步骤清晰、界面稳定的任务,成功率超过90%。第一次运行建议选“打开Chrome搜Python”这种简单任务,建立信心。

2. 准备工作:3样东西,10分钟搞定

别被“ADB”“vLLM”吓到。这一步只需要你:

  • 插一根数据线
  • 点几下手机设置
  • 在电脑上敲3条命令

全部操作都在你眼皮底下,错了一键重来。

2.1 你的设备清单(检查一下)

设备 要求 怎么确认?
安卓手机 Android 7.0(2016年发布)及以上 设置 → 关于手机 → 查看“Android版本”
电脑 Windows/macOS/Linux(推荐Win10/11或Mac M1/M2) 任意系统都行,Win用户建议用PowerShell(比CMD更稳)
USB数据线 必须支持数据传输(很多充电线不行!) 连上电脑后,手机通知栏是否弹出“正在传输文件”?没弹=换线

小技巧:如果手机连电脑没反应,试试换个USB口,或重启手机开发者选项(后面教)。

2.2 手机端:3步开启“被控制权限”

这是最关键的一步,但只需点5下:

  1. 打开开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者!”

  2. 开启USB调试
    返回设置主菜单 → 找到“开发者选项” → 开启“USB调试”
    部分手机(如华为、小米)还需额外开启:

    • “USB调试(安全设置)”
    • “MIUI优化” → 关闭(小米)
    • “仅充电模式下允许ADB调试” → 开启(华为)
  3. 安装并启用ADB键盘(解决中文输入问题)

完成后,手机通知栏应显示“USB调试已连接”,且输入法切换时能看到“ADB Keyboard”。

2.3 电脑端:装好ADB,1分钟验证

ADB是连接手机的“翻译官”,必须先装好:

  • Windows用户
    下载地址:https://developer.android.com/tools/releases/platform-tools
    解压到 C:\platform-tools → 右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 系统变量 → Path → 新建 → 粘贴 C:\platform-tools
    打开PowerShell,输入:

    adb version
    

    显示版本号即成功。

  • Mac用户
    打开终端,输入:

    brew install android-platform-tools
    adb version
    
  • Linux用户(Ubuntu)

    sudo apt update && sudo apt install android-tools-adb
    adb version
    

验证连接:手机用数据线连电脑 → PowerShell/终端输入:

adb devices

如果看到一串字母数字(如 ZY223456789 device),说明一切就绪。
如果显示 unauthorized,请回到手机,点“允许USB调试”。

3. 部署控制端:5条命令,零配置完成

Open-AutoGLM的控制程序就在GitHub上,我们把它“搬”到你电脑里。全程不用改任何代码,纯复制粘贴。

3.1 下载代码 + 安装依赖(复制这5行)

打开PowerShell(Win)或终端(Mac/Linux),逐行执行(别合并):

# 1. 创建一个干净的文件夹(避免污染其他项目)
mkdir auto-glm && cd auto-glm

# 2. 从GitHub下载最新代码
git clone https://github.com/zai-org/Open-AutoGLM.git

# 3. 进入项目目录
cd Open-AutoGLM

# 4. 创建Python虚拟环境(隔离依赖,强烈推荐!)
python -m venv venv

# 5. 激活环境并安装所有需要的包
# Windows用户:
venv\Scripts\activate
# Mac/Linux用户:
source venv/bin/activate

# 安装依赖(这步约2分钟,请耐心)
pip install -r requirements.txt
pip install -e .

执行完最后一条命令,光标回到$PS>,没有报错,就成功了。

验证小测试:在激活的环境中输入

python -c "from phone_agent import PhoneAgent; print(' 控制端安装成功')"

输出即通过。

3.2 启动AI大脑:用现成云服务(新手首选)

本地跑大模型?显卡不够、下载慢、还容易崩。新手第一课:先用别人搭好的“AI服务器”

我们推荐两个免部署、免GPU、注册即用的服务:

服务 特点 注册后怎么做
z.ai(推荐) 专为AutoGLM优化,响应快,支持中文指令 注册 → 进入控制台 → 复制API Key → 记下来
ModelScope(魔搭) 阿里开源平台,免费额度充足 搜索“AutoGLM-Phone-9B” → 点“在线体验” → 复制API地址

为什么推荐云服务?

  • 本地跑9B模型至少需要24GB显存(RTX4090级别)
  • 云服务1秒启动,你省下2小时下载+配置时间
  • 教程后续所有命令,都默认用z.ai(最稳)

4. 第一次运行:让AI打开Chrome(30秒见证奇迹)

现在,你离“AI替你操作手机”只剩最后一步。深呼吸,照做:

4.1 获取你的设备ID(1秒钟)

还在PowerShell/终端里,输入:

adb devices

输出类似:

List of devices attached
ZY223456789    device

记住 ZY223456789 这串字符(你的设备ID,每台手机不同)。

4.2 发出第一条指令(复制粘贴,改两处)

在同一个终端窗口,输入(<你的设备ID><你的API Key> 替换成你的真实值):

python main.py \
  --device-id ZY223456789 \
  --base-url https://api.z.ai/api/paas/v4 \
  --model autoglm-phone-9b-multilingual \
  --apikey your_api_key_here \
  "打开Chrome浏览器"

替换说明

  • ZY223456789 → 你上一步看到的设备ID
  • your_api_key_here → 你在z.ai控制台复制的密钥(一长串字母数字,别漏字符)

如果一切顺利,你会看到:

  • 终端快速滚动日志(别怕,这是AI在思考)
  • 手机屏幕自动亮起 → Chrome图标被点击 → 浏览器打开
  • 终端最后输出 Task completed successfully!

恭喜!你刚刚完成了全球首个“用中文指挥AI操作手机”的实验。

4.3 如果卡住了?3个高频问题自查

现象 原因 1分钟解决法
终端报错 Connection refusedtimeout API地址或Key错了 重新去z.ai复制Key,检查地址是否为 https://api.z.ai/api/paas/v4
手机没反应,终端停在 Waiting for screenshot... ADB没连上 重新执行 adb devices,确认设备显示为 device(不是 unauthorized
Chrome打开了,但没执行搜索 指令太简略 改成 "打开Chrome浏览器,并在地址栏输入 https://www.python.org"

成功后,立刻试试进阶指令:

python main.py --device-id ZY223456789 --base-url https://api.z.ai/api/paas/v4 --model autoglm-phone-9b-multilingual --apikey your_key "在Chrome里搜索‘Open-AutoGLM 教程’"

5. 进阶玩法:从“单次任务”到“随叫随到”

学会第一条指令只是开始。下面这些功能,能让它真正成为你的“手机外脑”。

5.1 交互模式:像聊天一样连续下指令

不想每次输一堆参数?开启“对话模式”:

python main.py \
  --device-id ZY223456789 \
  --base-url https://api.z.ai/api/paas/v4 \
  --model autoglm-phone-9b-multilingual \
  --apikey your_key

回车后,你会看到一个 > 提示符。现在,直接输入自然语言:

> 打开微信
> 给张三发消息“周末聚餐地点定啦,在三里屯”
> 打开小红书
> 搜索“露营装备推荐”
> 点赞第一条笔记

每输一条,AI自动执行,完成后继续等你下一条。适合探索性操作。

5.2 WiFi无线控制:摆脱数据线束缚

想让AI在隔壁房间操作你的手机?用WiFi:

  1. 手机和电脑连同一个WiFi
  2. 手机开启“无线调试”(设置 → 开发者选项 → 无线调试 → 开启)
  3. 电脑终端输入:
    adb connect 192.168.1.100:5555
    
    192.168.1.100 是手机IP,可在手机WiFi设置里看到)
  4. 验证:adb devices 应显示 192.168.1.100:5555 device
  5. 后续所有命令,把 --device-id ZY223456789 换成 --device-id 192.168.1.100:5555

从此,你躺在沙发上,用笔记本就能指挥客厅里的手机。

5.3 敏感操作保护:支付/密码场景自动暂停

当AI遇到需要输入密码、确认支付、读取短信验证码时,它会主动停止,并在终端提示:

  检测到敏感操作:即将跳转至支付宝支付页  
   请手动完成支付,完成后按回车继续...

你只需:

  • 拿起手机,完成支付
  • 回到电脑,按一下回车键
  • AI继续执行下一步

安全、可控,绝不会擅自提交你的银行卡。

6. 常见问题速查(遇到就翻,不求甚解)

问题 最可能原因 一句话解决
adb devices 不显示设备 USB调试没开,或数据线不支持传输 重进开发者选项,确认“USB调试”已开;换根线再试
执行时提示 Input method not set ADB Keyboard没设为默认 手机设置 → 语言与输入法 → 把ADB Keyboard设为默认
中文输入变成乱码 Windows系统编码问题 在PowerShell里先输:$env:PYTHONIOENCODING="utf-8",再运行命令
AI点了错误位置,或找不到按钮 屏幕分辨率太高(如2K屏),截图模糊 在手机设置 → 显示 → 缩放与字体 → 调小“显示大小”
想换用自己部署的模型 你有GPU服务器 --base-url 改成 http://你的IP:8000/v1,删掉 --apikey

记住:90%的问题,重启ADB+重连手机就能解决。
命令:adb kill-server && adb start-server && adb devices

7. 你可以这样用它(灵感来自真实用户)

别只停留在“打开App”。看看这些普通人已经实现的场景:

  • 学生党:每天早8点,自动打开教务系统 → 查询课表 → 截图发到班级群
  • 电商运营:批量给10个新品视频加字幕 → 用AI识别画面+语音 → 自动生成SRT文件
  • 银发族:语音说“给我儿子打视频”,AI自动打开微信 → 找到联系人 → 点击视频通话
  • 程序员:测试新App时,让AI自动执行50遍“注册-登录-下单”流程,生成崩溃日志报告

它的能力边界,取决于你敢不敢想。而第一步,永远是——让它成功打开Chrome


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐