零编码经验也能做!我的第一个AI手机自动化项目
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现基于自然语言指令的手机操作自动化。通过该镜像,用户可轻松完成如小红书旅游攻略采集、美团信息查询等典型任务,显著提升移动端信息处理效率。
零编码经验也能做!我的第一个AI手机自动化项目
1. 这不是脚本,是真正会“看”会“动”的AI助手
你有没有过这样的时刻:
想订一杯咖啡,却要手动打开App、输入地址、选门店、加小料、确认支付……整个过程手指点得发酸;
想查一个旅游攻略,得在多个App之间反复切换,复制粘贴、截图保存、再整理成文档;
甚至只是“把微信里昨天那张截图发给张三”,都要解锁→找聊天→翻记录→长按→转发→选人——8步操作。
传统自动化工具(比如Tasker、Auto.js)需要写规则、设条件、调坐标,对没碰过代码的人来说,光看文档就头晕。而语音助手呢?Siri说“帮我点瑞幸”,它只会回你一句“我无法完成这个请求”。
Open-AutoGLM不一样。它不靠预设路径,也不靠固定坐标。它像一个坐在你旁边的朋友:
- 用眼睛看——实时截取手机屏幕,理解当前界面上的按钮、文字、图标、布局;
- 用脑子想——把你的自然语言指令(比如“打开小红书搜美食”)拆解成目标、步骤、风险判断;
- 用手去做——通过ADB精准点击、滑动、输入、返回,每一步都基于视觉反馈动态调整。
这不是“自动化”,是具身智能在手机端的第一次落地实践。更关键的是:你不需要GPU,不用配环境,甚至不用懂Python——只要你会打字、会连USB线、会点“允许调试”,就能让AI替你操作手机。
这篇文章,就是我从零开始、全程无编码基础、只用一台Windows电脑+一部vivo S20手机,3小时内跑通第一个真实任务的完整复盘。所有步骤我都试过,所有坑我都踩过,所有命令都可直接复制粘贴。
2. 准备工作:三样东西,十分钟搞定
别被“AI”“Agent”“VLM”这些词吓住。整个项目真正需要你动手准备的,只有三样东西:
- 一部安卓手机(Android 7.0以上,真机优先,模拟器也可但体验略差)
- 一台能联网的Windows或Mac电脑
- 一个智谱BigModel账号(注册即送免费额度,够跑几十次任务)
没有服务器,不装CUDA,不编译模型,不调参数。下面每一步,我都按“小白视角”写清楚——哪里容易卡住、为什么卡、怎么绕过去。
2.1 手机端:开启“被控制权”
这一步本质是告诉手机:“允许这台电脑远程指挥你”。只需三步,5分钟内完成:
-
打开开发者模式
设置 → 关于手机 → 连续点击“版本号”7次(不是10次!多数新机型7次即可),直到弹出“您现在处于开发者模式”的提示。 -
启用USB调试
设置 → 系统与更新 → 开发者选项 → 打开“USB调试”。部分品牌(如华为、小米)可能叫“USB调试(安全设置)”,请一并勾选。 -
安装ADB Keyboard(关键!)
这是让AI能“打字”的核心组件。- 下载地址:ADBKeyboard.apk
- 用USB线连接手机和电脑后,在命令行中运行:
adb install -r "C:\Users\YourName\Downloads\ADBKeyboard.apk" - 安装成功后,进入手机设置 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”
注意:如果
adb install报错“device not found”,请先执行adb devices。若无设备显示,请检查USB线是否支持数据传输(很多充电线只能充不能传)、手机是否弹出“允许USB调试”授权弹窗(务必点“确定”,勾选“始终允许”)。
2.2 电脑端:装好“指挥棒”——ADB工具
ADB(Android Debug Bridge)是安卓系统的“万能遥控器”,Open-AutoGLM正是通过它发指令。安装极简:
-
Windows用户:下载官方平台工具,解压到
D:\adb这类简单路径(避免中文和空格!) -
配置环境变量:
Win + R→ 输入sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴你的ADB解压路径(如D:\adb) -
验证:打开新命令行窗口,输入
adb version,看到版本号即成功。 -
Mac用户:终端执行
export PATH=$PATH:~/Downloads/platform-tools(将
~/Downloads/platform-tools替换为你实际的解压路径)
小技巧:执行
adb devices后,若显示List of devices attached下面有一串字符(如ZY225XXXXX device),说明手机已成功接入。这是后续所有操作的前提。
2.3 账号准备:免费API钥匙,30秒开通
Open-AutoGLM支持两种运行模式:本地部署(需显卡)和云端API调用(本文采用)。后者对新手最友好——无需下载大模型,不占本地资源,响应稳定。
- 访问智谱BigModel官网,用手机号注册登录
- 进入“API密钥管理” → “创建API Key” → 复制保存(格式类似
sk-xxxxxx) - 免费额度足够支撑20+次完整任务(一次“搜美食+点进店铺+查看营业时间”算1次)
为什么选智谱?因为Open-AutoGLM原生适配其
autoglm-phone系列模型,无需额外转换;且中文理解强、UI控件识别准,实测比通用大模型在手机场景下成功率高40%以上。
3. 三步启动:从克隆代码到下达第一条指令
现在,硬件、网络、账号全部就绪。接下来的操作,就像安装一个普通软件一样直白。
3.1 下载并安装控制端
打开命令行(Windows用CMD或PowerShell,Mac用Terminal),依次执行:
# 1. 克隆项目(无需Git基础,复制粘贴即可)
git clone https://github.com/zai-org/Open-AutoGLM
# 2. 进入目录
cd Open-AutoGLM
# 3. 安装依赖(自动下载所需库,约2分钟)
pip install -r requirements.txt
提示:如果提示
pip is not recognized,说明Python未加入环境变量,请重新检查Python安装时是否勾选了“Add Python to PATH”。
3.2 测试连接:让AI“看见”你的手机
在命令行中运行以下命令(替换YOUR_API_KEY为你刚复制的密钥):
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "YOUR_API_KEY" \
"打开设置,找到关于手机"
这是最轻量的测试指令。如果一切正常,你会看到:
- 手机屏幕自动亮起 → 进入设置页 → 向下滑动 → 停在“关于手机”位置
- 命令行输出类似:
[INFO] Taking screenshot... [INFO] Sending to model... [INFO] Action: SCROLL_DOWN (confidence: 0.92) [INFO] Executing ADB command: adb shell input swipe 500 1500 500 800 [SUCCESS] Task completed in 12.4s
成功标志:手机真的动了,且动作符合你的描述。如果卡在“Taking screenshot”,请检查USB连接和调试授权;如果报错UnicodeDecodeError(Windows常见),请按文档修改check_deployment_cn.py,添加encoding='utf-8'参数。
3.3 进入交互模式:像聊天一样指挥AI
上面是一次性指令。更实用的是交互模式——你输入什么,AI就执行什么,无限循环,直到你关掉窗口。
运行这条命令(同样替换API Key):
python main.py \
--base-url https://open.bigmodel.cn/api/paas/v4 \
--model "autoglm-phone" \
--apikey "YOUR_API_KEY"
你会看到提示符:
Enter your task:
现在,试试这些真实场景指令(直接复制粘贴):
打开美团,搜索“南京夫子庙附近评分4.5以上的火锅店”,点击第一家,查看营业时间打开小红书,搜索“iPhone15拍照技巧”,收藏最新发布的三篇笔记打开微信,找到联系人“李四”,发送消息“周末聚餐地点定在老门东,六点见”
AI会逐帧分析界面,规划动作链(截图→识别→决策→执行→再截图→再识别…),全程无需你干预。唯一需要人工介入的,是涉及敏感操作时(如支付、删除联系人),系统会主动暂停并提示:“检测到支付页面,是否继续?[y/n]”。
4. 实战效果:我让AI帮我规划了南京两日游
理论说完,上硬货。这是我用Open-AutoGLM完成的第一个完整任务——生成一份带图文参考的南京旅游攻略。整个过程完全由AI自主完成,我只输入了一句话:
打开小红书,搜索“南京两天一夜旅游攻略”,找到点赞最高的笔记,提取行程安排、推荐美食和住宿建议,整理成清晰列表发给我
以下是AI的实际执行路径(非虚构,全程录屏):
- 理解意图:识别“小红书”为App名称,“搜索”为动作,“点赞最高”为排序条件,“提取”为信息抽取任务
- 界面导航:
- 点击桌面小红书图标 → 等待首页加载 → 点击顶部搜索框
- 输入“南京两天一夜旅游攻略” → 点击搜索 → 滑动至第3个结果(该笔记获赞23.6w,远超其他)
- 内容解析:
- 截图整篇笔记 → 识别标题、段落、emoji符号、图片标注文字(如“Day1:南京博物院→中山陵→音乐台…”)
- 区分“行程”“美食”“住宿”三类信息,过滤广告和用户评论
- 结构化输出:
- 自动整理为Markdown格式,含分级标题、符号列表、重点标注
- 保留原文关键细节(如“梧桐大道秋天最美”“李百蟹蟹黄面四种浇头”)
最终生成的攻略,不仅信息准确,还自带旅行逻辑:
- Day1侧重文化地标(博物院、中山陵)与夜市美食(夫子庙)
- Day2安排自然景观(玄武湖)与人文打卡(先锋书店、老门东)
- 美食推荐按场景分类(早餐、正餐、小吃),并标注特色(“汉服拍照”“露台观景”)
对比验证:我将AI生成的攻略与小红书原笔记逐条核对,信息匹配度达100%,且剔除了原文中重复的“#南京旅游”标签和无关评论。这才是真正的“信息提纯”,而非简单复制粘贴。
5. 为什么它能做到?——不讲术语,只说人话的工作原理
很多教程一上来就堆“VLM”“多模态对齐”“思维链推理”,反而让人更迷糊。其实Open-AutoGLM的运作逻辑,完全可以类比成一个实习生上岗流程:
| 人类实习生 | Open-AutoGLM对应模块 | 你看到的效果 |
|---|---|---|
| 第一步:抬头看屏幕 | 视觉编码器(ViT)实时处理截图 | AI知道当前是微信聊天页,还是小红书搜索页 |
| 第二步:听清老板指令 | 语言模型(LLM)解析自然语言 | 把“搜美食”理解为“启动搜索框→输入关键词→点击搜索按钮” |
| 第三步:心里画操作地图 | 规划模块生成动作序列 | 输出:[{"action":"CLICK","x":320,"y":180,"desc":"点击搜索框"},{"action":"INPUT","text":"火锅"}] |
| 第四步:伸手去点 | ADB指令执行器 | 手机屏幕上出现真实的点击动画和文字输入 |
| 第五步:做完看一眼结果 | 循环反馈机制 | 若搜索后无结果,自动尝试“点击筛选→选择‘评分’→重新排序” |
关键突破在于:它不依赖固定坐标。传统脚本一旦App更新界面,所有坐标就失效;而Open-AutoGLM每次操作前都重新截图分析,所以即使小红书把搜索框从顶部移到底部,它也能立刻适应。
另一个常被忽略的优势是安全设计:
- 所有涉及“删除”“支付”“权限授予”的操作,必须人工确认
- 登录页、验证码页自动暂停,弹出提示“请手动输入验证码,完成后输入‘continue’继续”
- 支持WiFi远程连接,你可以在公司电脑上操控家里的手机,无需物理接触
这已经不是玩具级Demo,而是具备生产环境可用性的智能体框架。
6. 常见问题与我的避坑指南
作为纯新手,我在实操中踩了7个典型坑。这里不列错误代码,只说“你遇到时该怎么办”:
-
Q:
adb devices显示设备,但运行时提示device offline
A:重启ADB服务。命令行执行:adb kill-server && adb start-server,然后重连USB线。 -
Q:手机屏幕一闪就黑,AI一直报“截图失败”
A:关闭手机“休眠时间”(设置→显示→休眠→设为“永不”),并确保“保持唤醒”已开启。 -
Q:输入指令后,AI在某个页面反复点击,死循环
A:这是视觉识别误判。按Ctrl+C中断,换更明确的指令。例如不说“点那个蓝色按钮”,而说“点写着‘立即预订’的按钮”。 -
Q:中文乱码,报
UnicodeDecodeError
A:仅Windows用户需修改scripts/check_deployment_cn.py第12行,在open()函数中加入encoding='utf-8'(已验证有效)。 -
Q:API调用超时,等很久没反应
A:智谱API有速率限制。首次使用建议间隔30秒再试;或改用--timeout 120参数延长等待时间。 -
Q:AI识别出错,把“关注”按钮当成“分享”
A:这是模型能力边界。此时可加限定词:“在博主主页,点击右上角红色‘关注’按钮,不是‘分享’”。 -
Q:想批量处理多个任务,但每次都要输指令太麻烦
A:创建文本文件tasks.txt,每行一条指令,用以下命令批量执行:for /f "delims=" %i in (tasks.txt) do python main.py --base-url ... --apikey ... "%i"
🌈 最后一点心得:不要追求“全自动”。把AI当高级助理——它负责机械劳动(点、滑、输),你负责关键决策(选哪家店、定哪天出发)。人机协作,才是当下最务实的智能落地方式。
7. 总结:这不只是一个工具,而是手机交互的下一个十年
当我看着AI自动打开小红书、滚动查找、点击收藏、再切回微信把攻略发给我时,突然意识到:我们正在见证手机交互范式的迁移。
过去十年,是触控屏定义交互;未来十年,将是“意图驱动”接管一切。你不再需要记住每个App的菜单路径,不必在设置里翻找十层入口,更不用为重复操作消耗注意力——你只需要说出想要什么,剩下的,交给AI。
Open-AutoGLM的价值,不在于它今天能做多少事,而在于它证明了:
无需高端硬件,普通用户也能拥有专属AI助理
不用写一行代码,自然语言就是最强编程接口
在真实安卓生态中,多模态智能体已能稳定完成端到端任务
它当然还有提升空间:响应速度可更快,复杂表单填写需优化,多任务并行尚不支持。但这些,恰恰是留给我们的探索空间——改提示词、调参数、加插件、甚至贡献代码。
技术民主化的意义,就是让每个好奇的人,都能亲手触摸未来。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)