Bright Data MCP + Dify:一套工作流搞定 Amazon、eBay 与 Walmart 价格监控
上个月我接了一个境外电商客户的需求,要定制一个采集国外主流电商平台的脚本,我觉得这东西也没啥难度,想着一两天搞定。结果我的第一个爬虫跑了48小时,Amazon就把我的IP封掉了。第二个多撑了几天,到第三天就挂了。第三个?连6小时都没到。我整整花了一周时间,搭了一套自认为很聪明的代理轮换系统,结果证明一点用都没有。更别提还要为 eBay 和 Walmart 单独维护两套逻辑,光是处理不同网站的价格、
前言
上个月我接了一个境外电商客户的需求,要定制一个采集国外主流电商平台的脚本,我觉得这东西也没啥难度,想着一两天搞定。结果我的第一个爬虫跑了48小时,Amazon就把我的IP封掉了。第二个多撑了几天,到第三天就挂了。第三个?连6小时都没到。我整整花了一周时间,搭了一套自认为很聪明的代理轮换系统,结果证明一点用都没有。更别提还要为 eBay 和 Walmart 单独维护两套逻辑,光是处理不同网站的价格、评分和销量字段的格式差异,就足以让我放弃整个项目。
直到第八天,我研究发现可以把 Bright Data (用这个链接注册输入折扣码可以有20美金的试用,折扣码是chen30)的 MCP 服务器直接插进 Dify 工作流里——就这一步,彻底改变了我做数据采集的方式。我不再需要关心反爬、代理或渲染问题,只需要专注于业务逻辑本身。下面是我在Dify中搭建工作流的完整流程。
为什么多平台采集这么难
在跨境电商领域,同时监控 Amazon、eBay 和 Walmart 的价格几乎是每个数据工程师的噩梦。每个平台都有其独特的“护城河”:
|
平台 |
主要反爬机制 |
DIY失败率 |
|
Amazon |
动态渲染、验证码、速率限制 |
极高 |
|
eBay |
地区限制、JS渲染 |
高 |
|
Walmart |
地区限制、JS渲染 |
高 |
核心矛盾在于:每增加一个平台,就意味着要多维护一套独立的爬虫系统。这不仅耗费大量工程时间,还带来了极高的失败率和不稳定的产出。当你的竞争对手正在利用实时数据调整策略时,你却还在和验证码搏斗。
架构介绍 — Bright Data MCP + Dify
Bright Data MCP + Dify 是一个用于构建 AI 驱动数据采集工作流的架构,它允许 AI agent 直接访问企业级 Web scraping 基础设施。
我的架构流程如下:
- 用户输入:提供产品URL,可以一次性输入多个URL,以逗号隔开。
- Dify Workflow:作为可视化的工作流引擎,编排整个任务。
- Bright Data MCP Server:接收指令,调用其强大的 Web Scraper API。
- 目标平台:无缝采集 Amazon、eBay、Walmart 等平台的数据。
- 结构化输出:返回干净、统一的 JSON 数据。
这个组合之所以有效,是因为 Dify 提供了无需编码的可视化工作流,而 Bright Data MCP 则在幕后处理了所有复杂的反爬、代理轮换和浏览器指纹问题。两者结合,形成了一条由 AI 驱动的、稳定高效的数据采集流水线。
前置准备
在开始之前,请确保你已准备好以下内容:
- 一个 Bright Data 账号(用这个链接注册输入折扣码可以有20美金的试用,折扣码是chen30)。
- 一个 Dify 账号(可以是云端版或本地部署版)。
- 从 Bright Data 控制台获取的 MCP Server API Token。
- 基本的 Dify Workflow 操作经验(别担心,我会手把手教你)。
实战教程 — 手把手操作
Step 1: 配置 Bright Data MCP Server
登录 Bright Data 控制台,进入 MCP 配置页面。

选择电子商务,点继续配置

复制链接,我打码的部分是token,如果这里没有自动填充,可以去个人账户设置那里复制填充进来。

Step 2: 在 Dify 中添加 Bright Data MCP 工具
进入 Dify 的「工具」页面,选择「添加外部 MCP 工具」,然后粘贴你在上一步获得的链接。

粘贴URL,名称和服务器标识直接用我这个就行,自己取一个也行。然后点击添加

Step 3: 创建多平台采集 Workflow (场景A: Amazon + eBay + Walmart 价格监控)
这是本文的核心用例。我将构建一个工作流,以下是该工作流的详细架构与运行逻辑分析:
1. 核心功能概览
这个应用本质上是一个多平台电商爬虫调度器。它的主要任务是:
- 输入:接收用户输入的一个或多个商品链接(支持用逗号分隔)。
- 处理:自动识别链接属于哪个平台(Amazon、eBay 还是 Walmart)。
- 执行:并行调用对应平台的 Bright Data 工具进行数据抓取。
- 输出:返回各个平台抓取到的原始数据。
2. 工作流详细执行步骤
该流程主要由 1个分类器、3个数据处理器 和 3个数据采集节点 组成。

第一步:用户输入与分类
- 用户输入节点:用户在聊天界面输入 URL(支持中英文逗号分隔)。
- 问题分类器节点:这是一个基于 LLM(此处配置为 GPT-5.4)的节点,它不进行对话,而是充当“路由”角色。它分析输入的链接,将其分为三类:
Amazon、eBay或Walmart。

第二步:数据清洗(代码执行)

代码如下
def main(arg1: str) -> dict:
"""
将用户输入的逗号分隔链接转换为数组格式
"""
# 处理中英文逗号
cleaned_input = arg1.replace(',', ',')
# 分割链接并去除空格
urls = [url.strip() for url in cleaned_input.split(',')]
# 过滤空字符串
urls = [url for url in urls if url]
# ⚠️ 关键:返回的键名必须与输出变量配置的名称完全一致
return {
"result": urls # 必须是 "result",因为输出变量名是 result
}
第三步:并行采集(迭代节点)
这是工作流的核心部分。工作流会为每个分类的链接开启一个迭代(Iteration),这意味着它可以同时处理多个链接,且不同平台的处理是并行的。
|
采集目标 |
对应工具节点 |
工具说明 |
|
Amazon |
|
使用 Bright Data 服务,要求链接包含 |
|
eBay |
|
使用 Bright Data 服务,直接读取 eBay 产品结构化数据。 |
|
Walmart |
|
使用 Bright Data 服务,要求链接包含 |

第四步:结果输出

成本分析
让我算一笔账:
|
方案 |
前期投入 |
月均维护 |
10万条数据成本 |
|
自建爬虫 |
2至 4周工程时间 |
超过20小时每月 |
工程成本难以量化 |
|
Bright Data MCP + Dify |
不到1天配置 |
低于2小时每月 |
按成功采集付费 |
Bright Data 的核心优势在于“只为成功采集的数据付费”。你无需再为被封禁的请求、无效的代理或工程师的加班时间买单。这种模式极大地降低了隐性成本,让数据采集变得可预测、可控制。
总结
为了让大家能立即上手,我准备了完整的工作流,导入就能用。你可以访问我的网盘https://pan.baidu.com/s/1OsEZP6uEQTeIIGr_zi15zw?pwd=b2jy获取所有资源。
使用方法:
- 下载
yml文件。 - 在 Dify 中选择「导入工作流」。
- 将 亮数据MCP中的链接 替换为你自己的。
- 完成!现在你可以输入任何产品链接,开始监控了。
如果你也厌倦了与爬虫的无休止斗争,现在就是改变的时候。如果你想快速验证这个工作流,可以先从 Bright Data MCP 免费版本开始,并下载本文提供的模板,在5分钟内搭建起你自己的多平台数据采集流水线。记住,只为成功采集的数据付费。
FAQ
Q1:Bright Data MCP 是免费的吗?
答案:
是的,Bright Data MCP 是免费的,并为 AI 智能体提供即时网页访问能力以及 60+ 种数据工具。 🚀
Q2:Bright Data 可以抓取 Amazon 吗?
答案:
可以。Bright Data 提供 Web Scraper API和 Browser API,可用于抓取 Amazon 商品资料与电商数据。 📦
Q3:Bright Data 可以与 Dify 搭配使用吗?
答案:
可以。Bright Data MCP 可透过 MCP 协议与 Dify 工作流无缝整合。
Q4:Bright Data 提供哪些代理类型?
答案:
Bright Data 提供多种代理类型,包括:
Residential Proxies(住宅代理)
ISP Proxies(ISP 代理)
Datacenter Proxies(数据中心代理)
Mobile Proxies(行动代理)
更多推荐


所有评论(0)