如何让AI替你刷淘宝?Open-AutoGLM实战分享

1. 这不是科幻,是今天就能用的手机AI助理

你有没有过这样的时刻:
想抢淘宝限时秒杀,手速跟不上;
想比价三款蓝牙耳机,翻页翻到眼花;
想给爸妈订个外卖,却要教他们点开哪个APP、输入什么地址……

现在,这些事AI能替你做了。

Open-AutoGLM 不是概念演示,也不是云端截图识别的“伪智能”,而是一个真正能看懂手机屏幕、理解界面元素、自主规划操作路径、并通过ADB精准点击滑动输入的本地化AI手机代理框架。它基于智谱开源的 AutoGLM-Phone-9B 多模态模型,专为安卓设备设计,部署后即可用自然语言下达指令——比如这句:“打开淘宝,搜‘降噪真无线耳机’,按销量排序,点开第一个商品,把价格和好评率截图发给我。”

本文不讲大道理,不堆术语,只带你从零开始:
用一台普通电脑+一部安卓手机,30分钟内跑通首个任务
让AI自动完成淘宝搜索、比价、查看详情等真实购物动作
避开90%新手踩坑的ADB配置、输入法、模型加载问题
看懂它怎么“思考”、为什么有时卡住、怎样让它更听话

全程无需写一行模型代码,所有操作都基于命令行和配置文件,小白友好,开发者可深度定制。

2. 准备工作:三件套配齐,少一个都跑不起来

2.1 硬件清单(比买菜还简单)

设备 最低要求 为什么重要
你的电脑 Windows 10 / macOS Monterey 以上,16GB内存 跑vLLM推理服务需要足够内存,显存非必需(CPU也能跑)
安卓手机 Android 7.0+,已解锁Bootloader非必须 必须支持USB调试,建议用主流品牌(华为/小米/OPPO等兼容性更好)
数据线 支持数据传输的USB-C或Micro-USB线 WiFi连接虽可行,但首次调试强烈推荐USB——稳定、免配网、响应快

注意:iPhone、鸿蒙系统手机暂不支持。本方案依赖ADB协议,仅适配原生安卓及深度定制安卓系统。

2.2 软件安装:四步到位,拒绝玄学报错

第一步:装Python(3.10+,别用最新版!)
  • Windows用户:去 python.org/downloads 下载 Python 3.10.x(不是3.12!vLLM对新版有兼容问题),安装时务必勾选 “Add Python to PATH”
  • Mac用户:终端执行
    brew install python@3.10
    brew unlink python && brew link python@3.10
    
  • 验证:终端输入 python --version,显示 Python 3.10.x 即成功
第二步:装ADB(不是“下载就完事”,关键在环境变量)
  • Android SDK Platform-Tools 下载对应系统压缩包
  • 解压到一个无中文、无空格的路径,例如 C:\adb~/adb
  • 环境变量是成败关键
    • Windows:右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴你的ADB解压路径
    • Mac:终端执行 echo 'export PATH=$PATH:/Users/你的用户名/adb' >> ~/.zshrc && source ~/.zshrc
  • 验证:新开终端,输入 adb version,看到类似 Android Debug Bridge version 1.0.41 即成功
第三步:手机开启开发者模式(30秒搞定)
  1. 打开手机【设置】→【关于手机】→连续点击【版本号】7次
  2. 返回上一级,出现【开发者选项】→点开→开启【USB调试】
  3. 连接手机与电脑,手机弹出“允许USB调试吗?”→勾选【始终允许】→点确定

小技巧:如果没弹窗,试试在【开发者选项】里关闭再打开【USB调试】,或换根数据线。

第四步:装ADB Keyboard(中文输入的命门)

没有它,AI只能点、不能输——所有带搜索、登录、下单的任务都会失败。

  • 下载 ADBKeyboard.apk(GitHub搜索关键词即可,或从Open-AutoGLM仓库的assets/目录获取)
  • 电脑终端执行:
    adb install ADBKeyboard.apk
    
  • 手机进入【设置】→【系统】→【语言与输入法】→【虚拟键盘】→启用【ADB Keyboard】
  • 最后一步:长按任意输入框→【输入法】→切换为【ADB Keyboard】

常见失败点:安装后未在输入法列表中启用,或未设为默认。务必手动切一次!

3. 模型部署:本地启动AI大脑,不依赖任何云服务

Open-AutoGLM 的核心能力来自 AutoGLM-Phone-9B 模型,它是一个18GB左右的多模态大模型,能同时“看图”(手机截图)和“读字”(界面文字)。部署分两步:下载模型 + 启动推理服务。

3.1 下载模型(国内用户请走ModelScope镜像)

  • 国内推荐(速度快)
    git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
    
  • 国际用户
    git lfs install
    git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B
    
  • 下载完成后,你会得到一个 AutoGLM-Phone-9B/ 文件夹,路径记牢(后续要用)

3.2 安装并启动vLLM服务(一行命令,静默运行)

vLLM 是当前最高效的开源大模型推理引擎,对多模态支持友好。

  • 安装:
    pip install vllm
    
  • 启动服务(Linux/Mac):
    python -m vllm.entrypoints.openai.api_server \
      --model ./AutoGLM-Phone-9B \
      --served-model-name autoglm-phone-9b \
      --port 8000 \
      --max-model-len 25480 \
      --mm-encoder-tp-mode data \
      --mm_processor_cache_type shm \
      --limit-mm-per-prompt '{"image":10}'
    
  • Windows用户简化版(功能完整):
    python -m vllm.entrypoints.openai.api_server --model ./AutoGLM-Phone-9B --served-model-name autoglm-phone-9b --port 8000
    

成功标志:终端输出 Uvicorn running on http://0.0.0.0:8000,且无红色报错。
❌ 失败常见原因:

  • 模型路径错误(检查 ./AutoGLM-Phone-9B 是否存在)
  • 端口被占用(改 --port 8001 试试)
  • 内存不足(16GB内存可跑,但若卡顿,加参数 --device cpu 强制用CPU)

提示:这个服务只需启动一次,保持后台运行即可。后续所有AI指令都通过它调用。

4. 控制端安装:让AI接管你的手机

模型是大脑,控制端是手脚。Open-AutoGLM 的控制代码轻量、干净,全部开源。

4.1 克隆并安装控制项目

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
pip install -r requirements.txt
pip install -e .

pip install -e . 是关键:它把项目注册为可导入的Python包,后续API调用才有效。

4.2 连接手机(USB优先,稳定第一)

  • 确保手机已连电脑、USB调试已开、ADB Keyboard已启用
  • 终端执行:
    adb devices
    
  • 正常输出应类似:
    List of devices attached
    1234567890abcdef    device
    
    那串字母数字就是你的 device-id,记下来。

4.3 运行第一个任务:打开淘宝(5秒见证奇迹)

Open-AutoGLM/ 目录下,执行:

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开淘宝"

你会看到实时输出:

💭 思考过程:  
当前在手机桌面,需要找到并启动淘宝应用。淘宝图标通常为橙色,文字为“淘宝”或“Taobao”。

 执行动作: {"action": "Launch", "app": "com.taobao.taobao"}
 动作完成:已启动淘宝APP

此时,你的手机屏幕上淘宝APP会自动打开。这就是“观察→思考→执行”的完整闭环。

如果卡住:检查手机是否锁屏(需亮屏)、ADB连接是否断开(重试 adb devices)、模型服务是否在运行(看终端是否有报错)。

5. 实战刷淘宝:从搜索到比价,全流程自动化

现在,我们来一个真实场景:帮朋友找一款百元内、好评率98%以上的降噪耳机,并截图对比图发微信。整个流程AI全自动,你只需下指令。

5.1 一条命令,完成淘宝搜索与排序

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "打开淘宝,搜索‘百元降噪耳机’,按销量排序,只看价格100元以内的商品"

AI会自动:

  1. 点击淘宝图标启动APP
  2. 定位顶部搜索框(识别“放大镜”图标或“搜索”文字)
  3. 输入“百元降噪耳机”
  4. 点击搜索按钮
  5. 找到“销量”排序按钮并点击
  6. 滑动页面,筛选价格区间(通过OCR识别价格标签)

效果提示:首次使用可能稍慢(需加载界面、识别文字),第二次会明显加快。

5.2 进入商品详情页,提取关键信息

搜索结果页出来后,我们让AI点开第一个商品:

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "点击搜索结果中的第一个商品"

AI会:

  • 分析商品卡片布局(通常左图右文)
  • 定位“价格”、“好评率”、“月销”等关键字段
  • 点击该卡片区域(模拟手指点击)

进入详情页后,你可以追加指令:

python main.py \
  --device-id 1234567890abcdef \
  --base-url http://localhost:8000/v1 \
  --model "autoglm-phone-9b" \
  "截图当前页面,保存为taobao_headphone_detail.png"

截图会自动保存在 Open-AutoGLM/ 目录下,文件名即你指定的名称。

5.3 批量比价:让AI帮你盯三款热门型号

不用手动来回切页面,用Python API写个简短脚本:

# compare_headphones.py
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

model_config = ModelConfig(
    base_url="http://localhost:8000/v1",
    model_name="autoglm-phone-9b",
)

agent = PhoneAgent(model_config=model_config, device_id="1234567890abcdef")

keywords = ["QCY T13 降噪", "倍思i06 降噪", "绿联T5 降噪"]
results = []

for kw in keywords:
    print(f"\n 正在搜索:{kw}")
    result = agent.run(f"打开淘宝,搜索'{kw}',按销量排序,截图前三个商品的价格和好评率")
    results.append(result)
    # 每次间隔3秒,避免操作过快
    import time; time.sleep(3)

print("\n 比价完成!截图已保存。")

运行 python compare_headphones.py,AI会自动循环执行三次搜索、截图,全程无需人工干预。

6. 让AI更懂你:三个实用定制技巧

默认配置够用,但想让它更精准、更安全、更符合你的习惯?试试这些。

6.1 敏感操作必须人工确认(防误点支付)

淘宝下单、微信转账这类操作,AI默认会暂停并等你确认。你也可以自定义确认逻辑:

def my_confirm(msg):
    print(f"\n🚨 安全提醒:{msg}")
    return input("确认执行?(y/n): ").strip().lower() == "y"

agent = PhoneAgent(
    model_config=model_config,
    device_id="1234567890abcdef",
    confirmation_callback=my_confirm
)

# 这条指令会触发确认
agent.run("打开淘宝,购买搜索结果第一个商品")

6.2 自定义提示词,强化电商理解力

编辑 Open-AutoGLM/phone_agent/config/prompts.py,修改 SYSTEM_PROMPT

SYSTEM_PROMPT = """
你是一个专注电商场景的手机AI助手,特别熟悉淘宝、京东、拼多多的界面逻辑。
当处理购物任务时,请严格遵守:
1. 价格优先看“券后价”,不是“原价”
2. 好评率取“描述相符”和“服务态度”两项平均值
3. 月销量超过1万才视为“高销量”
4. 截图时确保价格、好评率、月销量三个字段都在画面内
"""

改完重启 main.py,AI对电商术语的理解会立刻提升。

6.3 用环境变量简化命令(告别长参数)

在终端设置:

  • Windows:set PHONE_AGENT_BASE_URL=http://localhost:8000/v1
  • Mac/Linux:export PHONE_AGENT_BASE_URL=http://localhost:8000/v1

之后运行命令可大幅简化:

python main.py --device-id 1234567890abcdef "打开淘宝搜索蓝牙耳机"

7. 常见问题直击:90%的问题,这里都有答案

问题现象 根本原因 一招解决
adb devices 显示 unauthorized 手机未授权电脑调试 断开重连USB,手机弹窗点“允许”
AI一直说“正在分析界面”,但无动作 手机屏幕熄灭或锁屏 保持屏幕常亮,或在开发者选项中开启“不锁定屏幕”
搜索框识别不到,AI乱点其他位置 ADB Keyboard未启用为默认输入法 进入手机【设置】→【语言与输入法】→手动切换一次
模型服务启动报 CUDA out of memory 显存不足(尤其RTX 3060以下) 启动时加参数 --device cpu,或升级显卡
中文输入后显示乱码 ADB Keyboard安装不完整 重新下载APK,用 adb install -r ADBKeyboard.apk 覆盖安装

终极排查法:先运行 adb shell screencap -p /sdcard/screen.png && adb pull /sdcard/screen.png,把手机截图拉到电脑,确认AI看到的画面是否清晰、完整。

8. 安全与边界:AI再强,也要守住底线

  • 隐私完全本地化:所有截图、OCR识别、操作指令均在你自己的电脑和手机上完成,不上传任何数据到云端。模型权重、推理过程、ADB指令全部离线运行。
  • 敏感操作熔断机制:涉及“支付”“删除”“清空聊天记录”等指令,AI会强制暂停,必须你输入确认才继续。
  • 不要交给AI的事
    ❌ 输入银行卡密码、短信验证码、微信支付密码
    ❌ 在银行APP、证券APP等高危场景中执行操作
    ❌ 让AI处理含个人身份证、户口本的照片

记住:它是你的“数字手”,不是“数字大脑”。最终决策权永远在你手中。

9. 总结:你已经拥有了一个可进化的AI手机助理

回看这一路,你完成了:

1. 环境筑基:Python、ADB、开发者模式、ADB Keyboard 四件套配齐

2. 模型落地:下载 AutoGLM-Phone-9B,用 vLLM 启动本地AI大脑

3. 控制贯通:通过 Open-AutoGLM 控制端,实现“一句话驱动手机”

4. 场景实战:从打开淘宝、搜索商品,到比价截图、批量操作,全流程跑通

5. 定制提效:用确认机制保安全、改提示词强专业、设环境变量省力气

这不是终点,而是起点。接下来,你可以:
🔹 尝试更多APP:微信发消息、抖音关注博主、小红书收藏攻略
🔹 写自动化脚本:每天早上8点自动刷淘宝“淘金币”,周末自动整理微信未读消息
🔹 接入自己的业务:电商运营用它监控竞品价格,客服团队用它快速复现用户问题

AI不会取代你,但会把你从重复劳动中彻底解放出来。当你第一次看着AI替你刷完淘宝、截好图、发完微信,那种“未来已来”的实感,远比任何技术文档都更真切。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐