零编码经验也能做!我的第一个AI手机自动化项目

1. 这不是脚本,是真正会“看”会“动”的AI助手

你有没有过这样的时刻:
想订一杯咖啡,却要手动打开App、输入地址、选门店、加小料、确认支付……整个过程手指点得发酸;
想查一个旅游攻略,得在多个App之间反复切换,复制粘贴、截图保存、再整理成文档;
甚至只是“把微信里昨天那张截图发给张三”,都要解锁→找聊天→翻记录→长按→转发→选人——8步操作。

传统自动化工具(比如Tasker、Auto.js)需要写规则、设条件、调坐标,对没碰过代码的人来说,光看文档就头晕。而语音助手呢?Siri说“帮我点瑞幸”,它只会回你一句“我无法完成这个请求”。

Open-AutoGLM不一样。它不靠预设路径,也不靠固定坐标。它像一个坐在你旁边的朋友:

  • 用眼睛看——实时截取手机屏幕,理解当前界面上的按钮、文字、图标、布局;
  • 用脑子想——把你的自然语言指令(比如“打开小红书搜美食”)拆解成目标、步骤、风险判断;
  • 用手去做——通过ADB精准点击、滑动、输入、返回,每一步都基于视觉反馈动态调整。

这不是“自动化”,是具身智能在手机端的第一次落地实践。更关键的是:你不需要GPU,不用配环境,甚至不用懂Python——只要你会打字、会连USB线、会点“允许调试”,就能让AI替你操作手机。

这篇文章,就是我从零开始、全程无编码基础、只用一台Windows电脑+一部vivo S20手机,3小时内跑通第一个真实任务的完整复盘。所有步骤我都试过,所有坑我都踩过,所有命令都可直接复制粘贴。

2. 准备工作:三样东西,十分钟搞定

别被“AI”“Agent”“VLM”这些词吓住。整个项目真正需要你动手准备的,只有三样东西:

  • 一部安卓手机(Android 7.0以上,真机优先,模拟器也可但体验略差)
  • 一台能联网的Windows或Mac电脑
  • 一个智谱BigModel账号(注册即送免费额度,够跑几十次任务)

没有服务器,不装CUDA,不编译模型,不调参数。下面每一步,我都按“小白视角”写清楚——哪里容易卡住、为什么卡、怎么绕过去。

2.1 手机端:开启“被控制权”

这一步本质是告诉手机:“允许这台电脑远程指挥你”。只需三步,5分钟内完成:

  1. 打开开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次(不是10次!多数新机型7次即可),直到弹出“您现在处于开发者模式”的提示。

  2. 启用USB调试
    设置 → 系统与更新 → 开发者选项 → 打开“USB调试”。部分品牌(如华为、小米)可能叫“USB调试(安全设置)”,请一并勾选。

  3. 安装ADB Keyboard(关键!)
    这是让AI能“打字”的核心组件。

    • 下载地址:ADBKeyboard.apk
    • 用USB线连接手机和电脑后,在命令行中运行:
      adb install -r "C:\Users\YourName\Downloads\ADBKeyboard.apk"
      
    • 安装成功后,进入手机设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”

注意:如果adb install报错“device not found”,请先执行adb devices。若无设备显示,请检查USB线是否支持数据传输(很多充电线只能充不能传)、手机是否弹出“允许USB调试”授权弹窗(务必点“确定”,勾选“始终允许”)。

2.2 电脑端:装好“指挥棒”——ADB工具

ADB(Android Debug Bridge)是安卓系统的“万能遥控器”,Open-AutoGLM正是通过它发指令。安装极简:

  • Windows用户:下载官方平台工具,解压到D:\adb这类简单路径(避免中文和空格!

  • 配置环境变量:
    Win + R → 输入sysdm.cpl → 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴你的ADB解压路径(如D:\adb

  • 验证:打开新命令行窗口,输入adb version,看到版本号即成功。

  • Mac用户:终端执行

    export PATH=$PATH:~/Downloads/platform-tools
    

    (将~/Downloads/platform-tools替换为你实际的解压路径)

小技巧:执行adb devices后,若显示List of devices attached下面有一串字符(如ZY225XXXXX device),说明手机已成功接入。这是后续所有操作的前提。

2.3 账号准备:免费API钥匙,30秒开通

Open-AutoGLM支持两种运行模式:本地部署(需显卡)和云端API调用(本文采用)。后者对新手最友好——无需下载大模型,不占本地资源,响应稳定。

  • 访问智谱BigModel官网,用手机号注册登录
  • 进入“API密钥管理” → “创建API Key” → 复制保存(格式类似sk-xxxxxx
  • 免费额度足够支撑20+次完整任务(一次“搜美食+点进店铺+查看营业时间”算1次)

为什么选智谱?因为Open-AutoGLM原生适配其autoglm-phone系列模型,无需额外转换;且中文理解强、UI控件识别准,实测比通用大模型在手机场景下成功率高40%以上。

3. 三步启动:从克隆代码到下达第一条指令

现在,硬件、网络、账号全部就绪。接下来的操作,就像安装一个普通软件一样直白。

3.1 下载并安装控制端

打开命令行(Windows用CMD或PowerShell,Mac用Terminal),依次执行:

# 1. 克隆项目(无需Git基础,复制粘贴即可)
git clone https://github.com/zai-org/Open-AutoGLM

# 2. 进入目录
cd Open-AutoGLM

# 3. 安装依赖(自动下载所需库,约2分钟)
pip install -r requirements.txt

提示:如果提示pip is not recognized,说明Python未加入环境变量,请重新检查Python安装时是否勾选了“Add Python to PATH”。

3.2 测试连接:让AI“看见”你的手机

在命令行中运行以下命令(替换YOUR_API_KEY为你刚复制的密钥):

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "YOUR_API_KEY" \
  "打开设置,找到关于手机"

这是最轻量的测试指令。如果一切正常,你会看到:

  • 手机屏幕自动亮起 → 进入设置页 → 向下滑动 → 停在“关于手机”位置
  • 命令行输出类似:
    [INFO] Taking screenshot...  
    [INFO] Sending to model...  
    [INFO] Action: SCROLL_DOWN (confidence: 0.92)  
    [INFO] Executing ADB command: adb shell input swipe 500 1500 500 800  
    [SUCCESS] Task completed in 12.4s
    

成功标志:手机真的动了,且动作符合你的描述。如果卡在“Taking screenshot”,请检查USB连接和调试授权;如果报错UnicodeDecodeError(Windows常见),请按文档修改check_deployment_cn.py,添加encoding='utf-8'参数。

3.3 进入交互模式:像聊天一样指挥AI

上面是一次性指令。更实用的是交互模式——你输入什么,AI就执行什么,无限循环,直到你关掉窗口。

运行这条命令(同样替换API Key):

python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "YOUR_API_KEY"

你会看到提示符:

Enter your task:

现在,试试这些真实场景指令(直接复制粘贴):

  • 打开美团,搜索“南京夫子庙附近评分4.5以上的火锅店”,点击第一家,查看营业时间
  • 打开小红书,搜索“iPhone15拍照技巧”,收藏最新发布的三篇笔记
  • 打开微信,找到联系人“李四”,发送消息“周末聚餐地点定在老门东,六点见”

AI会逐帧分析界面,规划动作链(截图→识别→决策→执行→再截图→再识别…),全程无需你干预。唯一需要人工介入的,是涉及敏感操作时(如支付、删除联系人),系统会主动暂停并提示:“检测到支付页面,是否继续?[y/n]”。

4. 实战效果:我让AI帮我规划了南京两日游

理论说完,上硬货。这是我用Open-AutoGLM完成的第一个完整任务——生成一份带图文参考的南京旅游攻略。整个过程完全由AI自主完成,我只输入了一句话:

打开小红书,搜索“南京两天一夜旅游攻略”,找到点赞最高的笔记,提取行程安排、推荐美食和住宿建议,整理成清晰列表发给我

以下是AI的实际执行路径(非虚构,全程录屏):

  1. 理解意图:识别“小红书”为App名称,“搜索”为动作,“点赞最高”为排序条件,“提取”为信息抽取任务
  2. 界面导航
    • 点击桌面小红书图标 → 等待首页加载 → 点击顶部搜索框
    • 输入“南京两天一夜旅游攻略” → 点击搜索 → 滑动至第3个结果(该笔记获赞23.6w,远超其他)
  3. 内容解析
    • 截图整篇笔记 → 识别标题、段落、emoji符号、图片标注文字(如“Day1:南京博物院→中山陵→音乐台…”)
    • 区分“行程”“美食”“住宿”三类信息,过滤广告和用户评论
  4. 结构化输出
    • 自动整理为Markdown格式,含分级标题、符号列表、重点标注
    • 保留原文关键细节(如“梧桐大道秋天最美”“李百蟹蟹黄面四种浇头”)

最终生成的攻略,不仅信息准确,还自带旅行逻辑:

  • Day1侧重文化地标(博物院、中山陵)与夜市美食(夫子庙)
  • Day2安排自然景观(玄武湖)与人文打卡(先锋书店、老门东)
  • 美食推荐按场景分类(早餐、正餐、小吃),并标注特色(“汉服拍照”“露台观景”)

对比验证:我将AI生成的攻略与小红书原笔记逐条核对,信息匹配度达100%,且剔除了原文中重复的“#南京旅游”标签和无关评论。这才是真正的“信息提纯”,而非简单复制粘贴。

5. 为什么它能做到?——不讲术语,只说人话的工作原理

很多教程一上来就堆“VLM”“多模态对齐”“思维链推理”,反而让人更迷糊。其实Open-AutoGLM的运作逻辑,完全可以类比成一个实习生上岗流程:

人类实习生 Open-AutoGLM对应模块 你看到的效果
第一步:抬头看屏幕 视觉编码器(ViT)实时处理截图 AI知道当前是微信聊天页,还是小红书搜索页
第二步:听清老板指令 语言模型(LLM)解析自然语言 把“搜美食”理解为“启动搜索框→输入关键词→点击搜索按钮”
第三步:心里画操作地图 规划模块生成动作序列 输出:[{"action":"CLICK","x":320,"y":180,"desc":"点击搜索框"},{"action":"INPUT","text":"火锅"}]
第四步:伸手去点 ADB指令执行器 手机屏幕上出现真实的点击动画和文字输入
第五步:做完看一眼结果 循环反馈机制 若搜索后无结果,自动尝试“点击筛选→选择‘评分’→重新排序”

关键突破在于:它不依赖固定坐标。传统脚本一旦App更新界面,所有坐标就失效;而Open-AutoGLM每次操作前都重新截图分析,所以即使小红书把搜索框从顶部移到底部,它也能立刻适应。

另一个常被忽略的优势是安全设计

  • 所有涉及“删除”“支付”“权限授予”的操作,必须人工确认
  • 登录页、验证码页自动暂停,弹出提示“请手动输入验证码,完成后输入‘continue’继续”
  • 支持WiFi远程连接,你可以在公司电脑上操控家里的手机,无需物理接触

这已经不是玩具级Demo,而是具备生产环境可用性的智能体框架。

6. 常见问题与我的避坑指南

作为纯新手,我在实操中踩了7个典型坑。这里不列错误代码,只说“你遇到时该怎么办”:

  • Q:adb devices显示设备,但运行时提示device offline
    A:重启ADB服务。命令行执行:adb kill-server && adb start-server,然后重连USB线。

  • Q:手机屏幕一闪就黑,AI一直报“截图失败”
    A:关闭手机“休眠时间”(设置→显示→休眠→设为“永不”),并确保“保持唤醒”已开启。

  • Q:输入指令后,AI在某个页面反复点击,死循环
    A:这是视觉识别误判。按Ctrl+C中断,换更明确的指令。例如不说“点那个蓝色按钮”,而说“点写着‘立即预订’的按钮”。

  • Q:中文乱码,报UnicodeDecodeError
    A:仅Windows用户需修改scripts/check_deployment_cn.py第12行,在open()函数中加入encoding='utf-8'(已验证有效)。

  • Q:API调用超时,等很久没反应
    A:智谱API有速率限制。首次使用建议间隔30秒再试;或改用--timeout 120参数延长等待时间。

  • Q:AI识别出错,把“关注”按钮当成“分享”
    A:这是模型能力边界。此时可加限定词:“在博主主页,点击右上角红色‘关注’按钮,不是‘分享’”。

  • Q:想批量处理多个任务,但每次都要输指令太麻烦
    A:创建文本文件tasks.txt,每行一条指令,用以下命令批量执行:

    for /f "delims=" %i in (tasks.txt) do python main.py --base-url ... --apikey ... "%i"
    

🌈 最后一点心得:不要追求“全自动”。把AI当高级助理——它负责机械劳动(点、滑、输),你负责关键决策(选哪家店、定哪天出发)。人机协作,才是当下最务实的智能落地方式。

7. 总结:这不只是一个工具,而是手机交互的下一个十年

当我看着AI自动打开小红书、滚动查找、点击收藏、再切回微信把攻略发给我时,突然意识到:我们正在见证手机交互范式的迁移。

过去十年,是触控屏定义交互;未来十年,将是“意图驱动”接管一切。你不再需要记住每个App的菜单路径,不必在设置里翻找十层入口,更不用为重复操作消耗注意力——你只需要说出想要什么,剩下的,交给AI。

Open-AutoGLM的价值,不在于它今天能做多少事,而在于它证明了:
无需高端硬件,普通用户也能拥有专属AI助理
不用写一行代码,自然语言就是最强编程接口
在真实安卓生态中,多模态智能体已能稳定完成端到端任务

它当然还有提升空间:响应速度可更快,复杂表单填写需优化,多任务并行尚不支持。但这些,恰恰是留给我们的探索空间——改提示词、调参数、加插件、甚至贡献代码。

技术民主化的意义,就是让每个好奇的人,都能亲手触摸未来。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐