如何让AI替你刷淘宝?Open-AutoGLM实战分享
本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,实现AI自动操作安卓手机完成淘宝搜索、比价与截图等真实购物任务。用户无需编写模型代码,即可通过自然语言指令驱动AI完成端到端电商场景交互,显著提升移动端自动化效率。
如何让AI替你刷淘宝?Open-AutoGLM实战分享
1. 这不是科幻,是今天就能用的手机AI助理
你有没有过这样的时刻:
想抢淘宝限时秒杀,手速跟不上;
想比价三款蓝牙耳机,翻页翻到眼花;
想给爸妈订个外卖,却要教他们点开哪个APP、输入什么地址……
现在,这些事AI能替你做了。
Open-AutoGLM 不是概念演示,也不是云端截图识别的“伪智能”,而是一个真正能看懂手机屏幕、理解界面元素、自主规划操作路径、并通过ADB精准点击滑动输入的本地化AI手机代理框架。它基于智谱开源的 AutoGLM-Phone-9B 多模态模型,专为安卓设备设计,部署后即可用自然语言下达指令——比如这句:“打开淘宝,搜‘降噪真无线耳机’,按销量排序,点开第一个商品,把价格和好评率截图发给我。”
本文不讲大道理,不堆术语,只带你从零开始:
用一台普通电脑+一部安卓手机,30分钟内跑通首个任务
让AI自动完成淘宝搜索、比价、查看详情等真实购物动作
避开90%新手踩坑的ADB配置、输入法、模型加载问题
看懂它怎么“思考”、为什么有时卡住、怎样让它更听话
全程无需写一行模型代码,所有操作都基于命令行和配置文件,小白友好,开发者可深度定制。
2. 准备工作:三件套配齐,少一个都跑不起来
2.1 硬件清单(比买菜还简单)
| 设备 | 最低要求 | 为什么重要 |
|---|---|---|
| 你的电脑 | Windows 10 / macOS Monterey 以上,16GB内存 | 跑vLLM推理服务需要足够内存,显存非必需(CPU也能跑) |
| 安卓手机 | Android 7.0+,已解锁Bootloader非必须 | 必须支持USB调试,建议用主流品牌(华为/小米/OPPO等兼容性更好) |
| 数据线 | 支持数据传输的USB-C或Micro-USB线 | WiFi连接虽可行,但首次调试强烈推荐USB——稳定、免配网、响应快 |
注意:iPhone、鸿蒙系统手机暂不支持。本方案依赖ADB协议,仅适配原生安卓及深度定制安卓系统。
2.2 软件安装:四步到位,拒绝玄学报错
第一步:装Python(3.10+,别用最新版!)
- Windows用户:去 python.org/downloads 下载 Python 3.10.x(不是3.12!vLLM对新版有兼容问题),安装时务必勾选 “Add Python to PATH”
- Mac用户:终端执行
brew install python@3.10 brew unlink python && brew link python@3.10 - 验证:终端输入
python --version,显示Python 3.10.x即成功
第二步:装ADB(不是“下载就完事”,关键在环境变量)
- 去 Android SDK Platform-Tools 下载对应系统压缩包
- 解压到一个无中文、无空格的路径,例如
C:\adb或~/adb - 环境变量是成败关键:
- Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径
- Mac:终端执行
echo 'export PATH=$PATH:/Users/你的用户名/adb' >> ~/.zshrc && source ~/.zshrc
- 验证:新开终端,输入
adb version,看到类似Android Debug Bridge version 1.0.41即成功
第三步:手机开启开发者模式(30秒搞定)
- 打开手机【设置】→【关于手机】→连续点击【版本号】7次
- 返回上一级,出现【开发者选项】→点开→开启【USB调试】
- 连接手机与电脑,手机弹出“允许USB调试吗?”→勾选【始终允许】→点确定
小技巧:如果没弹窗,试试在【开发者选项】里关闭再打开【USB调试】,或换根数据线。
第四步:装ADB Keyboard(中文输入的命门)
没有它,AI只能点、不能输——所有带搜索、登录、下单的任务都会失败。
- 下载
ADBKeyboard.apk(GitHub搜索关键词即可,或从Open-AutoGLM仓库的assets/目录获取) - 电脑终端执行:
adb install ADBKeyboard.apk - 手机进入【设置】→【系统】→【语言与输入法】→【虚拟键盘】→启用【ADB Keyboard】
- 最后一步:长按任意输入框→【输入法】→切换为【ADB Keyboard】
常见失败点:安装后未在输入法列表中启用,或未设为默认。务必手动切一次!
3. 模型部署:本地启动AI大脑,不依赖任何云服务
Open-AutoGLM 的核心能力来自 AutoGLM-Phone-9B 模型,它是一个18GB左右的多模态大模型,能同时“看图”(手机截图)和“读字”(界面文字)。部署分两步:下载模型 + 启动推理服务。
3.1 下载模型(国内用户请走ModelScope镜像)
- 国内推荐(速度快):
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git - 国际用户:
git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B - 下载完成后,你会得到一个
AutoGLM-Phone-9B/文件夹,路径记牢(后续要用)
3.2 安装并启动vLLM服务(一行命令,静默运行)
vLLM 是当前最高效的开源大模型推理引擎,对多模态支持友好。
- 安装:
pip install vllm - 启动服务(Linux/Mac):
python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --limit-mm-per-prompt '{"image":10}' - Windows用户简化版(功能完整):
python -m vllm.entrypoints.openai.api_server --model ./AutoGLM-Phone-9B --served-model-name autoglm-phone-9b --port 8000
成功标志:终端输出 Uvicorn running on http://0.0.0.0:8000,且无红色报错。
❌ 失败常见原因:
- 模型路径错误(检查
./AutoGLM-Phone-9B是否存在) - 端口被占用(改
--port 8001试试) - 内存不足(16GB内存可跑,但若卡顿,加参数
--device cpu强制用CPU)
提示:这个服务只需启动一次,保持后台运行即可。后续所有AI指令都通过它调用。
4. 控制端安装:让AI接管你的手机
模型是大脑,控制端是手脚。Open-AutoGLM 的控制代码轻量、干净,全部开源。
4.1 克隆并安装控制项目
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .
pip install -e .是关键:它把项目注册为可导入的Python包,后续API调用才有效。
4.2 连接手机(USB优先,稳定第一)
- 确保手机已连电脑、USB调试已开、ADB Keyboard已启用
- 终端执行:
adb devices - 正常输出应类似:
那串字母数字就是你的List of devices attached 1234567890abcdef devicedevice-id,记下来。
4.3 运行第一个任务:打开淘宝(5秒见证奇迹)
在 Open-AutoGLM/ 目录下,执行:
python main.py \
--device-id 1234567890abcdef \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开淘宝"
你会看到实时输出:
💭 思考过程:
当前在手机桌面,需要找到并启动淘宝应用。淘宝图标通常为橙色,文字为“淘宝”或“Taobao”。
执行动作: {"action": "Launch", "app": "com.taobao.taobao"}
动作完成:已启动淘宝APP
此时,你的手机屏幕上淘宝APP会自动打开。这就是“观察→思考→执行”的完整闭环。
如果卡住:检查手机是否锁屏(需亮屏)、ADB连接是否断开(重试
adb devices)、模型服务是否在运行(看终端是否有报错)。
5. 实战刷淘宝:从搜索到比价,全流程自动化
现在,我们来一个真实场景:帮朋友找一款百元内、好评率98%以上的降噪耳机,并截图对比图发微信。整个流程AI全自动,你只需下指令。
5.1 一条命令,完成淘宝搜索与排序
python main.py \
--device-id 1234567890abcdef \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"打开淘宝,搜索‘百元降噪耳机’,按销量排序,只看价格100元以内的商品"
AI会自动:
- 点击淘宝图标启动APP
- 定位顶部搜索框(识别“放大镜”图标或“搜索”文字)
- 输入“百元降噪耳机”
- 点击搜索按钮
- 找到“销量”排序按钮并点击
- 滑动页面,筛选价格区间(通过OCR识别价格标签)
效果提示:首次使用可能稍慢(需加载界面、识别文字),第二次会明显加快。
5.2 进入商品详情页,提取关键信息
搜索结果页出来后,我们让AI点开第一个商品:
python main.py \
--device-id 1234567890abcdef \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"点击搜索结果中的第一个商品"
AI会:
- 分析商品卡片布局(通常左图右文)
- 定位“价格”、“好评率”、“月销”等关键字段
- 点击该卡片区域(模拟手指点击)
进入详情页后,你可以追加指令:
python main.py \
--device-id 1234567890abcdef \
--base-url http://localhost:8000/v1 \
--model "autoglm-phone-9b" \
"截图当前页面,保存为taobao_headphone_detail.png"
截图会自动保存在
Open-AutoGLM/目录下,文件名即你指定的名称。
5.3 批量比价:让AI帮你盯三款热门型号
不用手动来回切页面,用Python API写个简短脚本:
# compare_headphones.py
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
model_config = ModelConfig(
base_url="http://localhost:8000/v1",
model_name="autoglm-phone-9b",
)
agent = PhoneAgent(model_config=model_config, device_id="1234567890abcdef")
keywords = ["QCY T13 降噪", "倍思i06 降噪", "绿联T5 降噪"]
results = []
for kw in keywords:
print(f"\n 正在搜索:{kw}")
result = agent.run(f"打开淘宝,搜索'{kw}',按销量排序,截图前三个商品的价格和好评率")
results.append(result)
# 每次间隔3秒,避免操作过快
import time; time.sleep(3)
print("\n 比价完成!截图已保存。")
运行 python compare_headphones.py,AI会自动循环执行三次搜索、截图,全程无需人工干预。
6. 让AI更懂你:三个实用定制技巧
默认配置够用,但想让它更精准、更安全、更符合你的习惯?试试这些。
6.1 敏感操作必须人工确认(防误点支付)
淘宝下单、微信转账这类操作,AI默认会暂停并等你确认。你也可以自定义确认逻辑:
def my_confirm(msg):
print(f"\n🚨 安全提醒:{msg}")
return input("确认执行?(y/n): ").strip().lower() == "y"
agent = PhoneAgent(
model_config=model_config,
device_id="1234567890abcdef",
confirmation_callback=my_confirm
)
# 这条指令会触发确认
agent.run("打开淘宝,购买搜索结果第一个商品")
6.2 自定义提示词,强化电商理解力
编辑 Open-AutoGLM/phone_agent/config/prompts.py,修改 SYSTEM_PROMPT:
SYSTEM_PROMPT = """
你是一个专注电商场景的手机AI助手,特别熟悉淘宝、京东、拼多多的界面逻辑。
当处理购物任务时,请严格遵守:
1. 价格优先看“券后价”,不是“原价”
2. 好评率取“描述相符”和“服务态度”两项平均值
3. 月销量超过1万才视为“高销量”
4. 截图时确保价格、好评率、月销量三个字段都在画面内
"""
改完重启 main.py,AI对电商术语的理解会立刻提升。
6.3 用环境变量简化命令(告别长参数)
在终端设置:
- Windows:
set PHONE_AGENT_BASE_URL=http://localhost:8000/v1 - Mac/Linux:
export PHONE_AGENT_BASE_URL=http://localhost:8000/v1
之后运行命令可大幅简化:
python main.py --device-id 1234567890abcdef "打开淘宝搜索蓝牙耳机"
7. 常见问题直击:90%的问题,这里都有答案
| 问题现象 | 根本原因 | 一招解决 |
|---|---|---|
adb devices 显示 unauthorized |
手机未授权电脑调试 | 断开重连USB,手机弹窗点“允许” |
| AI一直说“正在分析界面”,但无动作 | 手机屏幕熄灭或锁屏 | 保持屏幕常亮,或在开发者选项中开启“不锁定屏幕” |
| 搜索框识别不到,AI乱点其他位置 | ADB Keyboard未启用为默认输入法 | 进入手机【设置】→【语言与输入法】→手动切换一次 |
模型服务启动报 CUDA out of memory |
显存不足(尤其RTX 3060以下) | 启动时加参数 --device cpu,或升级显卡 |
| 中文输入后显示乱码 | ADB Keyboard安装不完整 | 重新下载APK,用 adb install -r ADBKeyboard.apk 覆盖安装 |
终极排查法:先运行
adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png,把手机截图拉到电脑,确认AI看到的画面是否清晰、完整。
8. 安全与边界:AI再强,也要守住底线
- 隐私完全本地化:所有截图、OCR识别、操作指令均在你自己的电脑和手机上完成,不上传任何数据到云端。模型权重、推理过程、ADB指令全部离线运行。
- 敏感操作熔断机制:涉及“支付”“删除”“清空聊天记录”等指令,AI会强制暂停,必须你输入确认才继续。
- 不要交给AI的事:
❌ 输入银行卡密码、短信验证码、微信支付密码
❌ 在银行APP、证券APP等高危场景中执行操作
❌ 让AI处理含个人身份证、户口本的照片
记住:它是你的“数字手”,不是“数字大脑”。最终决策权永远在你手中。
9. 总结:你已经拥有了一个可进化的AI手机助理
回看这一路,你完成了:
1. 环境筑基:Python、ADB、开发者模式、ADB Keyboard 四件套配齐
2. 模型落地:下载 AutoGLM-Phone-9B,用 vLLM 启动本地AI大脑
3. 控制贯通:通过 Open-AutoGLM 控制端,实现“一句话驱动手机”
4. 场景实战:从打开淘宝、搜索商品,到比价截图、批量操作,全流程跑通
5. 定制提效:用确认机制保安全、改提示词强专业、设环境变量省力气
这不是终点,而是起点。接下来,你可以:
🔹 尝试更多APP:微信发消息、抖音关注博主、小红书收藏攻略
🔹 写自动化脚本:每天早上8点自动刷淘宝“淘金币”,周末自动整理微信未读消息
🔹 接入自己的业务:电商运营用它监控竞品价格,客服团队用它快速复现用户问题
AI不会取代你,但会把你从重复劳动中彻底解放出来。当你第一次看着AI替你刷完淘宝、截好图、发完微信,那种“未来已来”的实感,远比任何技术文档都更真切。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐



所有评论(0)