基于Browser-Use与LLM的智能体测试实践：从E2E自动化到AI驱动测试

端到端（E2E）自动化测试是现代软件开发中验证应用功能与用户体验的关键环节，其核心原理是通过脚本模拟真实用户操作，在浏览器环境中执行预定义流程并验证结果。传统基于Selenium或Playwright的脚本化测试在应对动态Web应用和复杂交互时，常因UI结构变化而变得脆弱且维护成本高昂。智能体测试（Agent Testing）作为一种新兴范式，通过引入大语言模型（LLM）赋予测试程序感知、决策与自

1361976860

315人浏览 · 2026-05-05 11:15:54

1361976860 · 2026-05-05 11:15:54 发布

1. 项目概述：从浏览器自动化到智能体测试的实践探索

最近在折腾一个挺有意思的项目，叫 browser-use/vibetest-use 。乍一看这个标题，可能有点让人摸不着头脑，它不像传统的“XX系统开发”或“XX工具实现”那么直白。但如果你对AI智能体、自动化测试，特别是结合了浏览器操作和智能体行为的测试领域有所关注，这个标题背后其实隐藏着一个非常前沿且实用的工程实践方向。简单来说，它探讨的是如何利用 browser-use 这类浏览器自动化库，来对 vibe （可以理解为一种智能体或特定应用状态）进行测试（ test-use ）。这不仅仅是简单的“打开网页点几下”，而是涉及到模拟复杂用户交互、验证智能体决策逻辑、确保应用在真实浏览器环境下的行为符合预期等一系列深度任务。

这个项目适合谁呢？如果你是前端开发者，正在为复杂的单页应用（SPA）或交互密集型Web应用编写端到端（E2E）测试，并且希望引入更智能的测试策略；或者你是AI应用的后端工程师，需要验证你的智能体API在真实用户场景下的响应是否正确；又或者你是一名测试工程师，厌倦了维护脆弱、冗长的脚本，希望测试用例能更“聪明”一些——那么这个主题将为你打开一扇新的大门。它的核心价值在于，将浏览器自动化这个相对成熟的工具，与智能体驱动的测试逻辑相结合，创造出一种既能模拟人类操作复杂性，又能保持自动化脚本可维护性和可扩展性的新方法。

2. 核心思路与架构设计：为何选择 browser-use 与智能体测试结合

2.1 传统E2E测试的痛点与智能体测试的机遇

在深入技术细节之前，我们得先搞清楚为什么要走这条路。传统的基于Selenium、Playwright或Cypress的E2E测试，其核心模式是“录制-回放”或“脚本编写-断言”。测试工程师需要精确地预知用户每一步操作（点击哪个ID的按钮、在哪个Class的输入框填什么值），然后编写对应的定位器和断言。这种方式在业务逻辑稳定、UI变化不大的情况下是有效的。但随着现代Web应用交互越来越动态（大量异步加载、状态驱动UI、无固定ID的元素），以及AI功能模块的引入（如聊天机器人、推荐引擎、内容生成器），传统脚本变得异常脆弱。一个CSS类名的微调、一个加载状态的延迟，都可能导致整个测试套件“红”掉，维护成本急剧上升。

而“智能体测试”的思路则不同。它不完全依赖于对UI元素结构的精确预知，而是尝试从更高维度描述测试意图。例如，测试意图可能是：“用户想查询北京明天的天气，并添加到行程中”。传统的脚本需要：1) 定位到搜索框，输入“北京天气”；2) 定位到搜索按钮并点击；3) 等待结果加载，定位到显示明天天气的元素并提取文本；4) 定位到“添加”按钮并点击；5) 验证行程列表中出现新项。每一步都绑死在具体的DOM结构上。而智能体驱动的测试，则可以交给一个“测试智能体”去理解这个意图，它可能通过自然语言处理（NLP）理解页面内容，通过计算机视觉（CV）辅助定位元素，或者通过探索式学习来完成任务。 browser-use 在这里的角色，就是为这个智能体提供一个稳定、可靠的、可编程的浏览器环境操作接口。

2.2 browser-use 的核心能力与选型考量

browser-use 并非一个广为人知的官方库，从命名模式看，它很可能是一个基于更底层浏览器自动化库（如Playwright或Puppeteer）的封装或工具集，其设计目标可能是让“使用（use）浏览器”进行自动化操作变得更简单、更符合特定模式（比如与AI智能体结合）。我们需要推断其可能具备的核心能力：

简化的API抽象 ：它可能封装了原生Playwright/Puppeteer中较为冗长的页面导航、元素等待、交互操作（点击、输入、滚动）等方法，提供更简洁的链式调用或声明式接口。
智能等待与稳定性增强 ：针对动态Web应用，内置了更健壮的等待策略，不仅仅是等待元素出现（ waitForSelector ），还可能包括等待网络空闲、等待特定XHR请求完成、等待页面处于“稳定”状态（没有持续的布局抖动）等，这对于测试稳定性至关重要。
与AI/LLM集成的设计 ：这可能才是 browser-use 的杀手锏。它可能提供了将页面内容（如DOM树、截图、可访问性信息）转换成适合大语言模型（LLM）处理的格式（如Markdown、结构化JSON）的功能，或者提供了接收LLM指令（如“点击登录按钮”）并翻译成底层浏览器操作的原语。
动作与观察的循环框架 ：智能体测试的核心是“感知-决策-行动”循环。 browser-use 可能提供了一个框架，让智能体可以持续获取页面状态（观察），根据状态做出决策（如下一步该做什么），然后通过 browser-use 执行动作，再进入下一个观察周期。

为什么选择这样的组合？因为纯粹用Playwright写智能体测试，你需要自己处理大量胶水代码：如何把页面信息喂给LLM？如何解析LLM的回复并转换成可靠的浏览器操作？如何管理对话历史和测试上下文？ browser-use/vibetest-use 这个项目，很可能就是在探索和固化一套解决这些问题的“最佳实践”或“框架雏形”。

2.3 VibeTest-Use 的测试范式定义

“Vibe”在这里可以理解为“氛围”、“状态”或“智能体的心智模型”。 VibeTest-Use 因此可以解读为“对某种状态或智能体进行使用性测试”。具体到测试场景，可能包括：

功能正确性验证 ：智能体是否能完成指定的端到端任务？例如，一个电商导购智能体，能否根据用户模糊的描述（“我想买一款适合夏天徒步的轻便背包”），成功完成搜索、筛选、查看详情、加入购物车的完整流程？
决策逻辑验证 ：智能体在复杂、多分支的流程中，是否做出了符合预期的选择？例如，在一个有多步表单的申请流程中，智能体是否能在输入无效信息时，正确识别错误提示并修正？
健壮性与边界测试 ：当页面出现非预期状态（如弹窗、网络错误、元素加载失败）时，智能体的应对策略是否合理？它是否会卡死，还是会尝试刷新、回退或给出用户提示？
多轮对话一致性测试 ：对于聊天式智能体，在浏览器的多轮交互中，它是否能保持上下文连贯，不出现前后矛盾的回答？

这种测试范式，将验证点从“元素A的文本是否为X”提升到了“智能体在环境Y下是否能达成目标Z”，是一种更高阶的、以目标为导向的测试方法。

3. 环境搭建与核心工具链解析

3.1 基础环境与依赖安装

要复现或借鉴 browser-use/vibetest-use 的思路，首先需要搭建一个可工作的环境。虽然我们无法得知其确切的代码库，但可以根据其技术方向推断出必要的组件。

核心依赖推测：

Node.js/Python 运行时 ：浏览器自动化工具链主要基于这两大生态。Playwright 对两者都有良好支持，Puppeteer 主要面向Node.js。考虑到AI集成生态的丰富性，Python也是一个强力候选。这里我们以Node.js环境为例，因为它与前端技术栈结合更紧密。
浏览器自动化库 ： Playwright 是当前的首选。相比于Puppeteer，Playwright原生支持多浏览器（Chromium, Firefox, WebKit），自动等待机制更智能，录制工具强大，且对动态内容处理更好。安装命令如下：
```
npm init -y
npm install playwright
# 安装浏览器内核
npx playwright install
```
AI/LLM集成层 ：这是智能体的“大脑”。可以选择直接调用OpenAI GPT、Anthropic Claude等云端API，也可以部署本地模型（如通过Ollama运行Llama、Qwen等）。需要相应的SDK。
```
# 例如，使用OpenAI官方Node.js SDK
npm install openai
```
可能的 browser-use 抽象层 ：如果这是一个开源库，我们可以尝试查找 npm install browser-use 或 pip install browser-use 。如果找不到，那么我们的项目核心就是自己实现这一层抽象。这其实更有挑战也更有价值。

项目初始化结构：

vibetest-use-project/
├── package.json
├── src/
│   ├── core/
│   │   ├── browser-client.js  # 封装Playwright，提供browser-use风格API
│   │   ├── llm-client.js      # 封装与LLM的通信
│   │   └── agent.js           # 测试智能体的核心逻辑
│   ├── tests/
│   │   ├── scenarios/         # 测试场景定义
│   │   └── runners/           # 测试运行器
│   └── utils/
│       └── page-processor.js  # 页面内容处理工具
└── config.js                  # 配置文件（API密钥、超时设置等）

3.2 实现 browser-use 核心抽象层

既然 browser-use 可能是关键，我们来尝试设计一个简化版的实现。它的目标是让智能体更容易地“使用”浏览器。

src/core/browser-client.js 核心设计：

const { chromium } = require('playwright');

class BrowserUseClient {
    constructor(options = {}) {
        this.headless = options.headless !== false; // 默认无头模式
        this.slowMo = options.slowMo || 0; // 操作慢放，便于调试
        this.timeout = options.timeout || 30000;
        this.browser = null;
        this.context = null;
        this.page = null;
    }

    async launch() {
        this.browser = await chromium.launch({ headless: this.headless, slowMo: this.slowMo });
        this.context = await this.browser.newContext();
        this.page = await this.context.newPage();
        // 注入一些辅助脚本，例如获取更丰富的页面信息
        await this.page.addInitScript(() => {
            window.__getInteractiveElements = () => {
                // 获取所有可交互元素的基本信息，供智能体决策
                const elements = [];
                ['button', 'a', 'input', 'select', 'textarea', '[role="button"]', '[tabindex]'].forEach(selector => {
                    document.querySelectorAll(selector).forEach(el => {
                        if (el.offsetParent !== null) { // 大致判断可见
                            const rect = el.getBoundingClientRect();
                            elements.push({
                                tag: el.tagName,
                                type: el.type,
                                text: el.innerText?.substring(0, 50) || el.value || el.placeholder || '',
                                id: el.id,
                                classes: el.className,
                                ariaLabel: el.getAttribute('aria-label'),
                                boundingRect: { x: rect.x, y: rect.y, width: rect.width, height: rect.height },
                                center: { x: rect.x + rect.width/2, y: rect.y + rect.height/2 }
                            });
                        }
                    });
                });
                return elements;
            };
        });
    }

    async goto(url) {
        if (!this.page) throw new Error('Browser not launched');
        await this.page.goto(url, { waitUntil: 'networkidle', timeout: this.timeout });
        // 等待页面初步稳定
        await this.page.waitForLoadState('domcontentloaded');
        await this.page.waitForTimeout(500); // 额外缓冲
    }

    async getPageState() {
        // 获取当前页面的综合状态，这是智能体“观察”世界的基础
        const [html, screenshot, interactiveElements] = await Promise.all([
            this.page.content(),
            this.page.screenshot({ type: 'png', encoding: 'base64' }),
            this.page.evaluate(() => window.__getInteractiveElements?.() || [])
        ]);

        // 简化HTML，移除脚本、样式等干扰信息，保留语义结构
        // 这里可以使用cheerio等库进行更复杂的处理，为LLM提供更干净的文本
        const simplifiedHTML = this._simplifyHTML(html);

        return {
            url: this.page.url(),
            title: await this.page.title(),
            simplifiedHTML, // 供LLM阅读的文本
            screenshotBase64: screenshot, // 供多模态LLM或后续分析使用
            interactiveElements, // 供智能体选择操作目标的元数据
            timestamp: Date.now()
        };
    }

    async performAction(action) {
        // 执行智能体发出的动作指令
        // action 可能格式: { type: 'click', selector: '#submit-btn' } 或 { type: 'type', selector: 'input[name="q"]', text: 'hello' }
        switch (action.type) {
            case 'click':
                await this.page.click(action.selector, { timeout: this.timeout });
                break;
            case 'type':
                await this.page.fill(action.selector, action.text, { timeout: this.timeout });
                break;
            case 'navigate':
                await this.goto(action.url);
                break;
            case 'press':
                await this.page.press(action.selector, action.key);
                break;
            case 'scroll':
                await this.page.evaluate(({ x, y }) => window.scrollBy(x, y), action);
                break;
            default:
                throw new Error(`Unsupported action type: ${action.type}`);
        }
        // 执行动作后，等待一小段时间让页面反应
        await this.page.waitForTimeout(1000);
    }

    _simplifyHTML(html) {
        // 一个非常简单的HTML简化示例，实际项目中需要更健壮的处理
        // 可以使用 jsdom 或 cheerio 来解析和提取关键文本
        // 这里仅做演示：移除script/style标签及其内容，提取body内文本
        const bodyMatch = html.match(/<body[^>]*>([\s\S]*)<\/body>/i);
        if (!bodyMatch) return '';
        let bodyContent = bodyMatch[1];
        // 移除脚本和样式
        bodyContent = bodyContent.replace(/<script\b[^<]*(?:(?!<\/script>)<[^<]*)*<\/script>/gi, '');
        bodyContent = bodyContent.replace(/<style\b[^<]*(?:(?!<\/style>)<[^<]*)*<\/style>/gi, '');
        // 将多个空白字符替换为一个空格，并修剪
        return bodyContent.replace(/\s+/g, ' ').trim().substring(0, 5000); // 限制长度
    }

    async close() {
        await this.browser?.close();
    }
}

module.exports = BrowserUseClient;

这个 BrowserUseClient 类提供了几个关键能力：启动浏览器、导航、获取丰富的页面状态（包括简化HTML、截图、可交互元素列表）、执行基础操作。它为智能体屏蔽了Playwright的部分底层细节，提供了更面向任务的数据接口。

3.3 集成LLM：构建智能体的“大脑”

接下来，我们需要让智能体能够理解页面状态并做出决策。这通过一个LLM客户端来实现。

src/core/llm-client.js 设计：

const OpenAI = require('openai');

class LLMClient {
    constructor(apiKey, model = 'gpt-4o-mini') {
        this.client = new OpenAI({ apiKey });
        this.model = model;
        this.systemPrompt = `你是一个网页自动化测试智能体。你的任务是通过分析给定的网页状态信息，决定下一步操作以完成指定的测试任务。
        你将收到以下信息：
        1. 测试任务描述 (Goal)。
        2. 当前页面状态，包括：URL、标题、简化后的HTML文本内容、一张截图（以base64描述，你无法直接看到，但知道其存在）、一个可交互元素列表。
        
        可交互元素列表中的每个元素包含：标签名(tag)、类型(type)、文本(text)、ID(id)、类名(classes)、aria标签(ariaLabel)、以及其在视口中的中心坐标(center)。
        
        你需要根据任务和当前状态，从以下动作中选择一个并严格按照指定JSON格式回复：
        - click: 点击一个元素。你需要从interactiveElements中选择一个最可能推进任务的元素。
        - type: 向输入框输入文本。
        - navigate: 导航到一个新URL。
        - press: 按下某个键（如Enter）。
        - scroll: 滚动页面。
        - done: 表示任务已完成或无法继续。

        你的回复必须是且仅是一个JSON对象，格式如下：
        {
            "reasoning": "简要解释你为什么选择这个动作，基于页面上的什么信息。",
            "action": {
                "type": "click" | "type" | "navigate" | "press" | "scroll" | "done",
                // 根据type不同，需要不同的参数：
                // click: { "selector": "一个有效的CSS选择器，尽可能唯一且稳定，优先使用ID，其次使用结合了文本和属性的选择器" }
                // type: { "selector": "...", "text": "要输入的字符串" }
                // navigate: { "url": "https://..." }
                // press: { "selector": "...", "key": "Enter" }
                // scroll: { "x": 0, "y": 500 }
                // done: {}
            }
        }

        重要原则：
        1. 选择器必须基于提供的interactiveElements信息生成，确保它能唯一定位到目标元素。优先使用 #id，如果没有id，则尝试使用如 \`button:has-text("登录")\` (Playwright扩展选择器) 或结合类名和属性的选择器。
        2. 如果页面状态显示任务已达成（例如，目标文本出现在HTML中），则返回 {"action": {"type": "done"}}。
        3. 如果尝试多次后仍无法推进，也返回done。
        4. 保持动作简单，一次只执行一个操作。`;
    }

    async decideNextAction(goal, pageState) {
        const userPrompt = `测试任务：${goal}
        
当前页面状态：
- URL: ${pageState.url}
- 标题: ${pageState.title}
- 页面内容（简化）: ${pageState.simplifiedHTML}
- 可交互元素列表: ${JSON.stringify(pageState.interactiveElements, null, 2)}`;

        try {
            const response = await this.client.chat.completions.create({
                model: this.model,
                messages: [
                    { role: 'system', content: this.systemPrompt },
                    { role: 'user', content: userPrompt }
                ],
                temperature: 0.1, // 低随机性，保证测试可重复性
                response_format: { type: "json_object" } // 强制JSON输出
            });

            const content = response.choices[0].message.content;
            return JSON.parse(content);
        } catch (error) {
            console.error('LLM决策失败:', error);
            // 返回一个安全动作，比如滚动一下，或者直接结束
            return {
                reasoning: `LLM调用出错: ${error.message}`,
                action: { type: 'done' }
            };
        }
    }
}

module.exports = LLMClient;

这个LLM客户端定义了与AI模型的交互协议。系统提示（ systemPrompt ）至关重要，它规定了智能体的角色、输入信息的结构、可用的动作集以及必须遵守的响应格式。通过强制JSON输出和较低的温度（ temperature ），我们力求测试过程尽可能确定和可重复。

4. 测试智能体核心逻辑与循环实现

有了浏览器客户端和LLM大脑，我们就可以组装出测试智能体本身了。智能体的工作流是一个经典的“感知-决策-行动”循环。

src/core/agent.js 实现：

const BrowserUseClient = require('./browser-client');
const LLMClient = require('./llm-client');

class VibeTestAgent {
    constructor(browserOptions, llmApiKey, llmModel) {
        this.browserClient = new BrowserUseClient(browserOptions);
        this.llmClient = new LLMClient(llmApiKey, llmModel);
        this.maxSteps = 50; // 防止无限循环
        this.currentStep = 0;
        this.actionHistory = [];
        this.stateHistory = [];
    }

    async runTest(goal, startUrl) {
        console.log(`开始测试任务: ${goal}`);
        await this.browserClient.launch();
        try {
            if (startUrl) {
                await this.browserClient.goto(startUrl);
            }

            let isDone = false;
            while (!isDone && this.currentStep < this.maxSteps) {
                this.currentStep++;
                console.log(`\n--- 步骤 ${this.currentStep} ---`);

                // 1. 感知：获取当前页面状态
                const currentState = await this.browserClient.getPageState();
                this.stateHistory.push(currentState);
                console.log(`当前URL: ${currentState.url}`);

                // 2. 决策：询问LLM下一步做什么
                const decision = await this.llmClient.decideNextAction(goal, currentState);
                console.log(`LLM决策: ${decision.reasoning}`);
                console.log(`计划动作: ${JSON.stringify(decision.action)}`);

                this.actionHistory.push(decision);

                // 3. 行动：执行动作或结束
                if (decision.action.type === 'done') {
                    console.log('智能体认为任务已完成或无法继续。');
                    isDone = true;
                    // 这里可以添加最终的状态验证逻辑
                    const finalState = await this.browserClient.getPageState();
                    const success = this._evaluateGoalCompletion(goal, finalState);
                    return { success, steps: this.currentStep, history: this.actionHistory, finalState };
                } else {
                    try {
                        await this.browserClient.performAction(decision.action);
                    } catch (error) {
                        console.error(`执行动作时出错: ${error.message}`);
                        // 记录错误，可以选择重试、调整策略或直接失败
                        this.actionHistory[this.actionHistory.length - 1].error = error.message;
                        // 简单策略：如果动作执行失败（如元素未找到），则让智能体重新观察决策
                        // 这里可以加入更复杂的错误恢复机制
                    }
                }

                // 可选：每一步之后等待更长时间，或添加截图用于调试
                // await this.browserClient.page.screenshot({ path: `step-${this.currentStep}.png` });
            }

            if (this.currentStep >= this.maxSteps) {
                console.warn(`达到最大步骤数 (${this.maxSteps})，任务未完成。`);
                return { success: false, steps: this.currentStep, history: this.actionHistory, finalState: this.stateHistory[this.stateHistory.length - 1] };
            }
        } finally {
            await this.browserClient.close();
        }
    }

    _evaluateGoalCompletion(goal, finalState) {
        // 一个简单的目标完成评估器
        // 在实际项目中，这里应该根据具体的goal进行解析和判断
        // 例如，如果goal是“登录成功”，可以检查页面是否跳转到dashboard，或者是否出现了“欢迎，[用户名]”的文本
        // 这里我们做一个非常基础的文本匹配检查
        const goalLower = goal.toLowerCase();
        const pageContent = (finalState.title + ' ' + finalState.simplifiedHTML).toLowerCase();
        
        // 一些启发式规则（非常简陋，实际需要更复杂的逻辑或另一个LLM调用）
        if (goalLower.includes('登录') && goalLower.includes('成功')) {
            return pageContent.includes('logout') || pageContent.includes('sign out') || pageContent.includes('我的账户');
        }
        if (goalLower.includes('搜索')) {
            // 假设搜索后页面会出现结果
            return pageContent.includes('结果') || pageContent.includes('找到') || finalState.url.includes('search');
        }
        // 默认：如果目标关键词出现在最终页面内容中，则认为部分成功
        const keywords = goalLower.split(' ').filter(w => w.length > 3);
        return keywords.some(kw => pageContent.includes(kw));
    }

    getHistory() {
        return {
            actions: this.actionHistory,
            states: this.stateHistory.map(s => ({ url: s.url, title: s.title }))
        };
    }
}

module.exports = VibeTestAgent;

这个智能体类串联了整个流程。 runTest 方法是核心循环，它持续地观察页面、询问LLM、执行动作，直到LLM返回 done 或达到步数上限。 _evaluateGoalCompletion 是一个简单的目标验证函数，在实际项目中，这部分可能需要更复杂的规则，甚至引入第二个LLM调用来判断任务是否真正完成。

5. 编写与运行测试场景

有了智能体框架，我们就可以定义具体的测试场景了。测试场景本质上就是“目标描述”和“起始URL”。

src/tests/scenarios/login-scenario.js ：

module.exports = {
    name: '用户登录场景',
    description: '测试智能体能否在示例登录页面上完成登录流程',
    startUrl: 'https://example.com/login', // 请替换为实际的测试登录页
    goal: '使用用户名“testuser”和密码“Pass1234”成功登录系统，并到达欢迎页面。',
    // 可以添加额外的验证条件或配置
    validate: async (finalState, browserPage) => {
        // 更强大的自定义验证函数
        const url = finalState.url;
        const content = finalState.simplifiedHTML;
        if (url.includes('dashboard') || url.includes('welcome') || content.includes('欢迎') || content.includes('Dashboard')) {
            return { success: true, message: '成功跳转到登录后页面' };
        }
        return { success: false, message: '未检测到登录成功迹象' };
    }
};

src/tests/runners/basic-runner.js ：

const VibeTestAgent = require('../../core/agent');
require('dotenv').config(); // 从.env文件加载API密钥

async function runScenario(scenario) {
    console.log(`\n========== 运行场景: ${scenario.name} ==========`);
    console.log(`描述: ${scenario.description}`);

    const agent = new VibeTestAgent(
        { headless: false, slowMo: 200 }, // 非无头模式，慢放观察
        process.env.OPENAI_API_KEY,
        'gpt-4o-mini'
    );

    const result = await agent.runTest(scenario.goal, scenario.startUrl);

    console.log(`\n========== 场景结束 ==========`);
    console.log(`结果: ${result.success ? '成功' : '失败'}`);
    console.log(`耗时步骤: ${result.steps}`);
    console.log(`最终URL: ${result.finalState.url}`);

    // 如果有自定义验证函数，则执行
    if (scenario.validate) {
        const customValidation = await scenario.validate(result.finalState, agent.browserClient?.page);
        console.log(`自定义验证: ${customValidation.success ? '通过' : '未通过'} - ${customValidation.message}`);
        result.customValidation = customValidation;
    }

    // 输出动作历史摘要
    console.log('\n动作历史:');
    result.history.forEach((h, i) => {
        console.log(`  [${i+1}] ${h.reasoning?.substring(0, 80)}... -> ${JSON.stringify(h.action)}`);
    });

    return result;
}

// 可以在这里直接运行一个场景，或由外部的测试框架（如Jest）调用
// (async () => {
//     const loginScenario = require('./scenarios/login-scenario');
//     await runScenario(loginScenario);
// })();

module.exports = runScenario;

通过这样的设计，我们就把一个高层次的测试意图（“测试登录功能”）转化成了一个可以由AI智能体自主探索执行的过程。你只需要告诉它“做什么”，而不需要精确地指定“每一步怎么做”。

6. 实战中的挑战、优化与避坑指南

在实际构建和运行 browser-use/vibetest-use 这类项目时，你会遇到许多预料之中和预料之外的挑战。下面是我在类似实践中总结的一些核心问题和解决方案。

6.1 LLM的不可靠性与稳定性提升策略

LLM是智能体的核心，但其输出具有随机性，且对提示词极其敏感。在自动化测试这种要求可重复性的场景中，这是最大的挑战。

问题1：动作选择器生成不稳定 LLM可能为同一个元素生成不同的CSS选择器，有时甚至生成无效或无法定位的选择器。

解决方案：

强化系统提示词 ：在提示词中明确要求优先使用ID，其次使用包含特定文本和元素类型的Playwright扩展选择器（如 button:has-text("登录") ），并强调选择器必须能在当前页面唯一匹配。
后置验证与修正 ：在执行动作前，先用 page.$(selector) 验证选择器是否能匹配到元素。如果匹配不到或匹配到多个，可以：
1. 回退到使用我们提供的 interactiveElements 列表中的坐标信息，通过 page.click({ x, y }) 进行近似点击（不推荐，易受布局变化影响）。
2. 将匹配失败的信息连同页面状态再次发送给LLM，要求它重新生成选择器（实现一个重试循环）。
3. 实现一个“选择器解析器”，将LLM生成的自然语言描述（如“点击那个写着登录的红色按钮”）与我们提取的 interactiveElements 列表进行匹配，找出最符合描述的元素，然后使用其稳定的属性（如 data-testid ）来构造选择器。

问题2：LLM陷入循环或做出荒谬决策 智能体可能反复执行相同无效操作（如不断点击同一个已禁用的按钮），或在明显失败的情况下不返回 done 。

解决方案：

在系统提示中引入历史 ：在每次请求LLM时，不仅发送当前状态，还发送最近几步的 (状态, 动作, 结果) 历史，让LLM知道哪些路走不通。
设置硬性约束 ：如代码中的 maxSteps ，防止无限循环。同时可以监控状态变化，如果连续N步页面URL和主要内容区域哈希值未发生任何变化，则强制中断，判定为“卡住”。
实现子目标分解 ：对于复杂任务，不让LLM直接解决最终目标。而是先用一个“规划器”LLM将大目标分解为一系列清晰的子目标（如：1. 定位用户名输入框；2. 输入用户名；3. 定位密码输入框...），再由“执行器”LLM逐个完成子目标。这能大幅提升复杂任务的完成率。

6.2 页面状态感知的精度与效率平衡

getPageState() 函数如何提供既足够智能体决策、又不会过于庞大导致API调用过载或延迟过高的信息，是关键。

挑战：

HTML内容过于冗长 ：直接传递完整HTML会消耗大量Token，且包含大量无关信息（脚本、样式、导航栏重复内容）。
截图信息利用不足 ：虽然传递了base64截图，但除非使用多模态模型（如GPT-4V），否则文本模型无法理解其内容。
动态内容缺失 ：通过 innerText 提取的文本可能无法捕获JavaScript动态生成的内容。

优化方案：

智能HTML过滤 ：不要简单移除script/style标签。可以使用可访问性树（Accessibility Tree）提取，或者用 cheerio 等库进行基于语义的提取：保留主要布局容器（ main , article , form , #content ）内的文本，移除页眉、页脚、广告等区域。甚至可以训练一个简单的分类模型来识别页面上的主要内容区块。
引入OCR作为备用 ：对于极度动态或基于Canvas的页面，可以对接OCR服务（如Tesseract.js）从截图中提取文字，作为HTML文本的补充。
增量式状态更新 ：不必每次都将整个页面状态发送给LLM。可以只发送自上次动作以来发生变化的部分（DOM差异），或者只发送当前视口内的交互元素列表，减少上下文长度。

6.3 测试结果的可验证性与报告生成

智能体说“任务完成”了，我们如何确信？简单的关键词匹配（如 _evaluateGoalCompletion ）非常不可靠。

解决方案：

定义明确的成功断言 ：在测试场景中，不仅定义 goal （给智能体的指令），还要定义独立的 assertions （给框架的验证逻辑）。例如：
```
assertions: [
    { type: 'url_contains', value: '/dashboard' },
    { type: 'element_text_matches', selector: '.welcome-message', regex: /欢迎.*testuser/i },
    { type: 'cookie_exists', name: 'session_id' }
]
```
测试结束后，框架用传统的、可靠的Playwright API去验证这些断言。
引入“验证者”LLM ：用一个独立的LLM调用来分析最终状态，并回答“给定的任务是否完成？”这个问题。让决策（怎么做）和验证（是否做成）分离，利用LLM的理解能力进行更灵活的断言，同时避免智能体“自己考自己”。
生成丰富的测试报告 ：记录每一步的截图、页面状态摘要、LLM的决策理由和发出的动作。当测试失败时，这份报告对于调试至关重要。可以生成一个HTML报告，以时间线形式展示测试过程，方便回溯问题出在哪一步。

6.4 成本控制与执行速度

频繁调用GPT-4等高级模型成本高昂，且网络请求导致测试速度很慢。

优化策略：

模型选型 ：对于许多Web交互任务， gpt-3.5-turbo 或 gpt-4o-mini 可能已经足够，成本远低于GPT-4。
缓存与记忆 ：对于同一个应用，很多页面结构和交互模式是重复的。可以缓存 (页面特征, 目标) -> 动作 的映射。当再次遇到高度相似的页面和相同目标时，直接使用缓存的动作，无需调用LLM。
本地小模型 ：对于元素选择等特定子任务，可以微调一个小的本地模型（如基于BERT），它专门学习从页面元素列表中选出正确的那一个，这比调用大模型快得多、便宜得多。
并行执行 ：如果测试套件中有多个独立场景，可以在不同的浏览器实例中并行运行多个智能体。

7. 进阶应用场景与未来展望

browser-use/vibetest-use 的模式一旦跑通，其应用范围远不止于简单的登录、搜索测试。

1. 探索性测试（无脚本测试） ：不给智能体具体任务，只给它一个起始URL和探索指令（如“尽可能深入地探索这个电商网站，发现可能的功能或界面问题”）。智能体可以像好奇的用户一样四处点击，记录下它遇到的错误（JS错误、404、表单验证错误）、性能问题（加载极慢的图片）或可访问性问题（低对比度文本）。这能发现那些在预设脚本之外的问题。

2. 跨浏览器/跨设备兼容性测试的语义化验证 ：在不同浏览器或移动设备模拟器上运行同一个智能体测试。传统测试对比像素或DOM结构，而智能体测试可以对比“任务是否完成”以及“完成过程中的体验是否一致”。例如，在Chrome上能顺利完成的结账流程，在Safari上是否因为某个按钮位置不同而导致智能体卡住？

3. 回归测试的智能影响分析 ：当开发提交了新代码，可以针对修改模块相关的核心用户旅程，启动智能体测试。如果智能体无法完成之前能完成的任务，则很可能引入了回归缺陷。这比运行全部E2E测试套件更灵活、更有针对性。

4. 为传统测试脚本生成初始代码 ：让智能体先跑通一个复杂流程，记录下它成功路径上所有动作的精确选择器和操作序列。测试工程师可以审查这个序列，并将其优化、固化成一个传统的、可维护的Playwright脚本。这相当于用AI完成了测试脚本的“初稿”。

这个领域的终极形态，可能是形成一个高度自主的、持续运行的测试智能体。它监控着预发布环境，不断地用随机但合理的用户行为进行探索，一旦发现异常（错误、崩溃、功能失效）就自动创建缺陷报告，甚至能根据错误信息初步判断可能的问题模块。它将改变测试工程师的角色，从脚本的编写和维护者，转变为测试策略的设计者、测试智能体的训练师和异常报告的仲裁者。

构建 browser-use/vibetest-use 这样的项目，最大的收获不是造出一个能替代所有测试的“银弹”，而是深刻地理解到，将AI的模糊推理能力与自动化工具的精确控制能力相结合，可以在软件质量的保障上开辟出一条充满可能性的新路径。这条路目前还布满荆棘——成本、稳定性、可解释性都是巨大的挑战——但每解决一个具体问题，比如让选择器生成更稳定，或者让目标验证更准确，你都朝着未来测试的形态迈进了一步。