摘要:随着大型语言模型(LLM)和AI Agent技术的快速发展,软件测试领域正在经历范式转变。传统自动化测试工具在应对AI Agent的非确定性、复杂多步推理和动态行为空间时面临重大挑战。本文系统综述了当前AI Agent在自动化测试领域的最新进展,涵盖基于LLM的测试生成框架、移动端与嵌入式测试工具、以及2025-2026年间的最新学术研究成果。我们提出了一种新的分类体系,对15余个开源工具和12篇核心学术论文进行了深入分析,并探讨了该领域的未来发展趋势。

关键词:AI Agent,软件测试,自动化测试,LLM测试,Agent评估,模糊测试


一、引言

1.1 研究背景

软件测试是保证软件质量的关键环节,然而传统自动化测试面临诸多局限性。手动测试成本高昂且难以扩展,基于规则的自动化测试又无法应对现代应用的复杂性。近年来,大型语言模型(LLM)的突破为软件测试带来了新的可能性——AI Agent能够理解自然语言描述、进行推理决策、并在真实环境中执行操作。

根据Gartner预测,到2028年将有超过10亿个AI Agent投入使用1。这些Agent被嵌入到VS Code、Microsoft 365 Copilot等产品中,执行日益复杂的任务。然而,随着Agentic系统复杂性的增长,如何确保其行为的正确性、可靠性和安全性成为重大挑战。

1.2 核心挑战

AI Agent测试面临以下核心挑战:

  1. 非确定性行为:LLM的输出具有概率性,相同输入可能产生不同输出,传统确定性测试方法难以适用2
  2. 规范漂移:Agent的行为规范往往只是部分显式指定,既存在于prompt中,也隐含在系统提示里3
  3. 行为空间巨大:Agent可以执行无限多步推理和行动,穷举测试几乎不可能4
  4. 评估复杂性:Agent的正确性往往需要语义判断,而非简单的真值比对5
  5. 安全威胁:Agent可被恶意prompt注入攻击、数据泄漏、权限提升等6

1.3 本文贡献

  1. 系统梳理2024-2026年间AI Agent测试领域的最新开源工具和学术研究。
  2. 提出新的分类体系:AI Agent测试框架、移动端测试工具、学术研究框架。
  3. 对比分析各工具的技术特点、适用场景和局限性。
  4. 总结当前研究热点和未来发展趋势。

二、AI Agent 测试框架

基于AI Agent的测试工具可以分为几类:端到端测试生成、多Agent评估、安全测试、以及特定领域的测试框架。本节详细介绍各类别的代表性工具。

2.1 端到端测试生成框架

2.1.1 TestZeus Hercules

GitHub: test-zeus-ai/testzeus-hercules7

Hercules是世界上首个开源测试Agent,支持UI、API、安全性、可访问性和视觉验证。该框架基于Gherkin语言编写测试规范,通过自然语言描述转变为自动化测试。其核心特点包括:

  • 多Agent架构:基于AutoGen框架,支持多Agent协作
  • Gherkin输入:测试用例以Gherkin格式编写,门槛低
  • Playwright集成:完整的Playwright API访问能力
  • 多租户安全:支持executor、data、API隔离模式
  • LLM灵活性:支持Anthropic、OpenAI、DeepSeek、Ollama等多种模型

Hercules的工作流程是将Gherkin测试步骤转换为可执行的Playwright脚本,然后通过AI Agent自主执行。这种方法降低了测试编写的技术门槛,使非技术人员也能参与测试创建。

2.1.2 Autospec

GitHub: zachblume/autospec8
网站: https://autospecai.com

Autospec是一个开源的AI Agent,专注于Web应用的端到端测试生成。其工作原理是:

  1. 规划阶段:从目标URL爬取最多3个页面,捕获可访问性快照,让模型生成测试计划
  2. 执行阶段:在独立的浏览器上下文中并行运行每个测试规范,使用语义动作决策
  3. 报告阶段:打印通过/失败摘要,并使用现代locator生成可重用的Playwright .spec.js文件

Autospec的核心优势在于:

  • 零配置:只需提供URL即可开始测试
  • 自愈能力:当选择器变化时,能通过截图分析自动修复
  • 智能覆盖:自动发现并填补测试覆盖缺口
  • 多模型支持:集成Anthropic Claude、OpenAI GPT、Google Gemini
2.1.3 AI QA Framework

GitHub: brentkastner/ai-qa-framework9

这是一个自主AI驱动的QA框架,给定URL即可获得全面的测试覆盖。其核心特性包括:

  • 四阶段管道:爬取→规划→执行→报告
  • 自愈测试:当选择器损坏时,AI分析截图并自动修复
  • 全面覆盖:功能测试、视觉回归、安全检查一体化
  • 自然语言提示:通过自然语言引导测试优先级

该框架需要Python 3.12+和Playwright支持chromium,可选择Anthropic API或本地Ollama运行。

2.2 LLM/Agent评估与测试框架

2.2.1 Giskard

GitHub: Giskard-AI/giskard10
Stars: 5,202
许可证: Apache-2.0

Giskard是专注于LLM Agent测试和评估的开源库。v3版本专门为动态、多轮Agent测试设计,架构模块化且轻量级。主要组件包括:

  • giskard-checks:测试与评估——场景API、内置检查、LLM-as-judge
  • giskard-scan(开发中):Agent漏洞扫描——Red Teaming、Prompt注入、数据泄漏检测

Giskard的核心功能:

  • 回归检测:验证系统变更后行为是否正确
  • RAG质量验证:检查答案是否基于检索到的上下文
  • LLM-as-judge评估:使用LLM进行语义评估
  • 对抗性测试:自动生成攻击场景检测漏洞

该框架是当前最成熟的LLM/Agent开源测试库,文档完善且社区活跃。

2.2.2 Vera (Google)

GitHub: google/vera11

Vera是Google推出的可扩展AI功能测试引擎,旨在为AI功能开发带来软件工程规范。其核心特点:

  • 混合评估:确定性静态检查 + LLM-as-Judge语义评估
  • 规范驱动:使用自然语言Rubrics、安全约束和黄金数据集定义成功标准
  • 高性能:基于asyncio和anyio的并行测试执行
  • 插件架构:通过pluggy深度扩展
  • 标准化报告:CSV格式的详细评分报告

Vera需要Python 3.14+,体现了Google对AI测试规范化的探索。

2.2.3 PyAI-Slayer

GitHub: suneel944/PyAI-Slayer12

这是针对AI聊天机器人和LLM应用的综合Python自动化测试框架,核心特性包括:

  • AI响应验证:语义相似性、幻觉检测、一致性检查
  • 多语言支持:英语和阿拉伯语及RTL/LTR布局验证
  • 安全测试:注入攻击、Prompt注入、输入清理检查
  • 实时仪表板:实时指标、A-Tier关键指标、性能分析
  • 浏览器自动化:使用Playwright进行桌面和移动测试

2.3 浏览器/UI自动化框架

2.3.1 ClawBird

GitHub: premsagar4us/clawbird13

ClawBird是专为OpenClaw、LangChain和AI Agent设计的AI原生浏览器自动化引擎。其核心创新:

  • AI原生设计:专为LLM Agent设计,不同于传统自动化工具
  • OpenClaw集成:无缝集成OpenClaw个人AI助手
  • CDP + Playwright组合:同时支持Chrome DevTools协议和Playwright
  • ARIA元素引用:使用ARIA引用(如e12、e34)替代脆弱的XPath
  • LangChain工具:可作为浏览器工具集成到LangChain Agent
特性 传统工具 ClawBird
AI原生支持
OpenClaw集成
CDP + Playwright 二选一 两者结合

2.4 专用测试工具

2.4.1 ToolFuzz

发布者: Creati.ai14

ToolFuzz是专门为AI Agent工具调用逻辑设计的模糊测试框架。其核心功能:

  • 自动生成多样化的模糊测试场景:探测Agent的工具调用逻辑
  • 异常输入注入:测试 malformed inputs
  • 工具调用序列变化:测试不同的调用顺序和参数组合
  • 自定义模糊策略:模块化插件接口
  • 运行时分析:收集执行轨迹

ToolFuzz的应用场景:

  • Agent更新后的回归测试
  • 工具调用的安全性和稳定性评估
  • Agent驱动应用的自动化QA
  • AI Agent工具集成的基准测试

三、移动端与嵌入式测试工具

3.1 跨平台移动测试框架

3.1.1 Appium

GitHub: appium/appium15
许可证: Apache-2.0

Appium是最成熟的开源跨平台移动自动化框架,核心特点:

  • WebDriver协议:使用UiAutomator2(Android)和XCUITest(iOS)
  • 跨平台:支持iOS、Android、原生、混合、移动Web应用
  • 多语言支持:Java、Python、JavaScript、Ruby、C#
  • 真实设备和模拟器:支持真机和模拟器

Appium的优势在于灵活性,但需要较多的设置和维护工作。对于需要完全控制测试栈的工程团队是最佳选择。

3.1.2 Maestro

GitHub: mobile-dev-inc/maestro16
Stars: 13,129
许可证: Apache-2.0
网站: https://maestro.dev

Maestro是目前最活跃的移动端开源E2E测试框架,核心特点:

  • YAML流式语法:人类可读的YAML格式定义交互
  • 跨平台覆盖:Android、iOS、Web应用
  • 内置容错:自动处理动态UI的等待和重试
  • 轻量级:比Appium设置简单
  • 多平台支持:模拟器、模拟器、浏览器
appId: com.android.contacts
---
- launchApp
- tapOn: "Create new contact"
- tapOn: "First Name"
- inputText: "John"
- tapOn: "Save"
- assertVisible: "John"

Maestro的设计吸收了Appium、Espresso、UIAutomator、XCTest、Selenium和Playwright的经验,是移动测试的推荐选择。

3.2 Android专用测试框架

3.2.1 Espresso

Espresso是Google官方的Android UI测试框架,核心特点:

  • 设备上测试:直接在设备或模拟器运行
  • Android Studio集成:深度集成Android开发环境
  • 快速稳定:测试执行速度快,稳定性高
  • 仅Android:不支持iOS

Espresso适用于问题明确是Android UI测试的场景,需要源码访问权限。

3.2.2 Kaspresso

GitHub: KasperskyLab/Kaspresso17

Kaspresso是基于Espresso和UiAutomator的增强Android测试框架:

  • 内置防闪测试保护:解决 flaky tests 的核心痛点
  • Jetpack Compose支持:完整的Compose测试支持
  • 截图测试:原生方式支持暗色模式
  • 声明式语法:Kotlin DSL封装
  • 系统交互能力:与系统应用和界面交互
  • 详细日志:日志、视图层级、截图、视频

Kaspresso的一个显著优势是UiAutomator命令执行速度可提升10倍。

3.2.3 Ultron

GitHub: open-tool/ultron18
Stars: 248

Ultron是最简单的Android和Compose Multiplatform UI测试开发框架:

  • 简化语法:无需学习特殊类或语法
  • 自动稳定机制:内置重试机制处理不稳定操作
  • 加速UI Automator:可显著加速
  • 自定义扩展:可轻松扩展操作和断言
  • Allure报告:开箱即用的Allure报告生成
// Espresso原始语法
onView(withId(R.id.send_button)).check(isDisplayed()).perform(click())

// Ultron简化语法
withId(R.id.send_button).isDisplayed().click()
3.2.4 Trailblaze

GitHub: block/trailblaze19
Stars: 221

Trailblaze是Block(前Square)推出的AI驱动UI测试框架:

  • 自然语言测试:用自然语言编写测试步骤
  • On-Device执行:使用标准Android instrumented测试
  • Maestro命令模型:使用Maestro进行UI交互
  • 可扩展工具:提供自定义TrailblazeTools

Trailblaze体现了移动测试AI化的趋势,使用Mobile-Agent-v3研究的最新特性。

3.3 iOS专用测试框架

3.3.1 XCUITest

XCUITest是Apple官方的iOS UI测试框架:

  • Xcode内置:完全集成Xcode
  • Accessibility API:通过Accessibility API与UI交互
  • 仅iOS:不支持Android
  • 性能优秀:执行速度快

3.4 AI-Native移动测试平台

3.4.1 Drizz

发布者: Drizz20

Drizz是一个AI原生的移动测试自动化平台:

  • Vision AI执行:用Vision AI替代传统定位器
  • 真实设备云端执行:真机云端测试
  • 自然语言创作: Plain-English编写测试
  • 免脚本:无需编写代码

Drizz代表了移动测试AI化的商业化方向。


四、学术研究与论文

2025-2026年间,学术界涌现了大量关于AI Agent测试的研究成果。本节重点介绍核心论文和框架。

4.1 测试生成方向

4.1.1 TestForge (COLM 2025)

论文: TestForge: Feedback-Driven, Agentic Test Suite Generation21
作者: Kush Jain, Claire Le Goues (CMU)
arXiv: 2503.14713

TestForge是一个agentic单元测试框架,专注于成本效益高的真实代码测试生成。其核心创新:

  • 迭代反馈生成:将LLM测试生成重新定义为迭代过程
  • 动态反馈:基于执行结果和覆盖率报告迭代优化
  • pass@1率84.3%:在TestGenEval基准上表现优异
  • 代码覆盖率提升:覆盖率和有效性显著提高
  • 集成OpenHands:集成流行的开源软件工程Agent平台

TestForge的关键洞察是将测试生成看作迭代过程,而非一次性生成框架使用4.3k行Python代码实现,已开源。

4.1.2 PromptPex / Agent-Pex (Microsoft Research)

项目: Microsoft Research Agent-Pex22
论文: Agent-Pex: Automated Evaluation and Testing of AI Agents

Agent-Pex是Microsoft Research推出的AI Agent自动化评估和测试工具:

  • 规范提取:从Agent prompt和trace中提取显式和隐式行为规则
  • 自动化测试生成:基于提取的规范生成对抗性测试
  • 可扩展分析:支持数千条trace的评估
  • 多维度覆盖:参数有效性、输出合规性、计划充分性评估
  • 模型对比:支持不同模型的并排分析

Agent-Pex构建在PromptPex(开源的Prompt自动测试生成工具)基础上,将方法扩展到agentic trace评估。

4.2 安全评估方向

4.2.1 DoomArena (COLM 2025)

论文: DoomArena: A Framework for Testing AI Agents Against Evolving Security Threats[^23]
作者: Leo Boisvert等 (ServiceNow Research, UW, Polytechnique Montréal, Mila)
arXiv: 2504.14064
GitHub: ServiceNow/DoomArena

DoomArena是AI Agent的安全评估框架,基于三个原则设计:

  1. 插件式框架:轻松集成到BrowserGym、τ-bench、OSWorld等真实Agentic框架
  2. 可配置威胁建模:允许详细配置特定Agent组件的安全威胁
  3. 模块化设计:解耦攻击开发与Agent细节

核心贡献:

  • 多环境支持:Web Agent、Tool-calling Agent、计算机使用Agent
  • 插件架构:便于跨环境应用
  • 真实威胁建模:基于部署上下文

DoomArena是唯一具有这三个特性的Agentic安全测试框架。评估发现SOTA Agent存在显著的安全问题。

4.3 多Agent系统测试

4.3.1 FLARE (ArXiv 2026)

论文: FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems23
作者: Mingxuan Huit等 (Xidian University)
arXiv: 2604.05289

FLARE是首个针对LLM多Agent系统(MAS)的测试框架:

  • 四部分规范定义:Agent关系、终止模式、任务执行、工具调用
  • 静态分析提取:从源码提取MAS规范和行为空间
  • 测试预言构建:基于规范构建测试预言
  • 覆盖引导模糊测试:进行覆盖引导的模糊测试
  • 执行日志分析:分析执行日志判断测试通过

评估结果:

  • 96.9% 跨Agent覆盖率
  • 91.1% Agent内覆盖率
  • 超过基线9.5%和1.0%
  • 发现56个MAS独有的未知失败

FLARE是第一个自动化MAS测试解决方案,使用AutoGen作为评估对象。

4.4 GUI测试方向

4.4.1 SpecOps (ArXiv 2026)

论文: SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments24
作者: Syed Yusuf Ahmed等
arXiv: 2603.10268

SpecOps是针对真实GUI环境的全自动AI Agent测试框架:

  • 四阶段专门化架构:测试用例生成、环境设置、测试执行、验证
  • 不同LLM Specialist Agent:每个阶段由专门的LLM Agent处理
  • 多平台支持:CLI工具、Web应用、浏览器扩展
  • 端到端任务连贯性:解决核心挑战
  • 健壮错误处理:自适应错误处理

评估结果:

  • 发现164个真实bug
  • F1分数0.89
  • 成本低于0.73美元
  • 运行时间低于8分钟
4.4.2 GUITester (ArXiv 2026)

论文: GUITester: Enabling GUI Agents for Exploratory Defect Discovery25
作者: Yifei Gao等
arXiv: 2601.04500

GUITester是GUI Agent的探索性缺陷发现框架:

  • 目标导向遮蔽:Agent优先完成任务而非报告异常
  • 执行偏差归因:区分系统缺陷和Agent错误
  • GUITestBench:首个交互式基准(143任务,26缺陷)
  • 计划-执行模块(PEM):通过嵌入测试意图主动探测缺陷
  • 分层反思模块(HRM):通过交互历史解决归因模糊

F1分数48.90% (Pass@3),超过SOTA基线(33.35%)。

4.4.3 WebProber (ArXiv 2025)

论文: AI Agents for Web Testing: A Case Study in the Wild26
作者: Naimeng Ye等 (Columbia University)
arXiv: 2509.05197

WebProber是基于AI Agent的Web测试框架:

  • 视觉语言模型:使用VLM直接与视觉网页交互
  • 三阶段管道:提示生成→浏览→报告
  • 真实案例研究:120个学术个人网站
  • 发现29个可用性问题

WebProber展示了AI Agent在Web测试中的实际应用价值。

4.5 测试预言生成

4.5.1 Nexus (ArXiv 2025)

论文: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis27
作者: Dong Huang等 (NUS)
arXiv: 2510.26423

Nexus是多Agent测试预言合成框架:

  • 四专家Agent面板:每个Agent体现不同的测试哲学
  • 结构化过程: deliberation → validation → self-refinement
  • 执行接地:将抽象推理接地到可执行证据
  • 七年基准评估:在7个不同基准上验证

关键结果:

  • 代码修复从35.23%提升到69.32%
  • 跨模型一致改进
  • 准确性显著增强

五、对比分析与分类体系

5.1 工具分类矩阵

类别 工具 核心功能 适用场景 开源 活跃度
Agent测试生成 TestZeus Hercules Gherkin→E2E测试 Web/API测试
Autospec URL→Playwright Web E2E
AI QA Framework URL→全面测试 Web/安全
LLM评估 Giskard LLM/Agent评估 通用
Vera 混合评估 AI功能
PyAI-Slayer 聊天机器人测试 LLM应用
移动测试 Maestro YAML E2E 移动E2E
Appium WebDriver 跨平台移动
Kaspresso Android增强 Android
Ultron Android简化 Android
学术研究 TestForge 单元测试生成 代码测试
DoomArena 安全测试 Agent安全
FLARE MAS测试 多Agent
SpecOps GUI测试 GUI Agent

5.2 技术特点对比

LLM测试 vs 传统测试
维度 传统测试 AI Agent测试
确定性 确定性输出 概率性输出
评估标准 真值比对 语义判断
测试生成 手动/规则 LLM生成
覆盖范围 显式规范 隐式规范提取
执行环境 模拟/隔离 真实环境
架构模式
┌─────────────────────────────────────────────────────────────┐
│                    AI Agent测试架构                          │
├─────────────────────────────────────────────────────────────┤
│  1. 测试生成层                                                │
│     TestForge │ Autospec │ AI QA Framework                  │
│        ↓                                                    │
│  2. 执行层                                                   │
│     ClawBird │ Playwright │ Selenium │ CDP                  │
│        ↓                                                    │
│  3. 评估层                                                   │
│     Giskard │ Vera │ LLM-as-Judge                           │
│        ↓                                                    │
│  4. 报告层                                                   │
│     Allure │ CSV │ 自定义                                    │
└─────────────────────────────────────────────────────────────┘

5.3 选型指南

选择建议

  1. Web E2E测试:Maestro(移动优先)或Playwright(Web优先)
  2. AI/LLM测试:Giskard(生产)或TestForge(研究)
  3. Android测试:Kaspresso(功能全)或Ultron(简单)
  4. Agent安全测试:DoomArena
  5. 多Agent系统:FLARE
  6. 科学研究:SpecOps + Nexus组合

六、未来发展趋势

6.1 当前研究热点

  1. 混合评估范式:确定性检查 + LLM-as-Judge的结合成为主流11
  2. 自愈测试:AI自动修复测试选择器9
  3. 多Agent协作测试:Nexus的四专家面板模式27
  4. 安全评估: DoomArena代表的威胁建模驱动安全测试[^23]
  5. 覆盖引导模糊测试: FLARE在MAS中的应用23

6.2 未来方向

  1. 规范化基准:建立统一的Agent测试评估基准
  2. 实时监控:Agent运行时的持续测试
  3. 可解释性:测试失败原因的自动分析
  4. 自适应测试:根据环境变化自动调整
  5. 跨平台统一:打破Web/移动/桌面测试的边界

6.3 挑战与机遇

核心挑战

  • Agent行为的非确定性评估
  • 测试预言的自动生成
  • 安全与隐私的平衡

机遇

  • LLM成本的持续下降
  • 开源生态的快速增长
  • 研究与产业的紧密结合

七、结论

本文系统综述了AI Agent自动化测试领域的最新进展。从开源工具角度看,Giskard、Maestro、Playwright等构成了基础工具链,TestZeus Hercules、Autospec等AI原生工具代表了新的测试范式。从学术研究角度,TestForge、DoomArena、FLARE、SpecOps等论文展示了前沿研究方向。

AI Agent测试正处于快速发展期,学术界和产业界共同推动着该领域的进步。我们观察到几个明显趋势:(1)从确定性测试到混合评估,(2)从手动编写到LLM生成,(3)从单一Agent到多Agent协作,(4)从功能测试到安全评估。

随着LLM技术的持续发展和完善,AI Agent测试工具将变得更智能、更高效、更安全,为软件质量保证提供更强有力的支持。


参考文献


附录A:工具功能对比详表

工具 语言 License 依赖LLM 浏览器支持 最后更新
Giskard Python Apache-2.0 可选 - 2026-03
Vera Python Apache-2.0 必需 - 2026-01
TestZeus Python AGPL-3.0 必需 Playwright 2024-11
Autospec TypeScript MIT 必需 Playwright 2024-05
AI QA Python MIT 必需 Playwright 2026-02
ClawBird JavaScript MIT 可选 CDP+Playwright 2026-02
Maestro Kotlin Apache-2.0 可选 自有 2026-03
Kaspresso Kotlin Apache-2.0 可选 Espresso 2025-04
Ultron Kotlin Apache-2.0 可选 UiAutomator 2025-10
Appium 多语言 Apache-2.0 可选 多驱动 持续

  1. Gartner. (2024). Gartner Predicts 2028: AI Agents Everywhere. Retrieved from https://www.gartner.com ↩︎

  2. Google. (2026). Vera – AI Feature Testing Engine. GitHub: https://github.com/google/vera ↩︎

  3. Microsoft Research. (2026). Agent-Pex: Automated Evaluation and Testing of AI Agents. https://www.microsoft.com/en-us/research/project/agent-pex-automated-evaluation-and-testing-of-ai-agents/ ↩︎

  4. Boisvert, L., et al. (2025). DoomArena: A Framework for Testing AI Agents Against Evolving Security Threats. COLM 2025. arXiv:2504.14064 ↩︎

  5. Giskard AI. (2026). Giskard: Open-Source Evaluation & Testing Library for LLM Agents. GitHub: https://github.com/Giskard-AI/giskard ↩︎

  6. Huang, D., et al. (2025). Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis. arXiv:2510.26423 ↩︎

  7. TestZeus AI. (2024). TestZeus Hercules: World’s First Open-Source Testing Agent. GitHub: https://github.com/test-zeus-ai/testzeus-hercules ↩︎

  8. Blennerhassett, Z. (2024). Autospec: Open Source E2E Test Generation for Web Apps. GitHub: https://github.com/zachblume/autospec; Website: https://autospecai.com ↩︎

  9. Kastner, B. (2026). AI QA Framework: Autonomous AI-Driven QA. GitHub: https://github.com/brentkastner/ai-qa-framework ↩︎ ↩︎

  10. Giskard AI. (2022-2026). Giskard Open Source. GitHub: https://github.com/Giskard-AI/giskard (5,202 stars) ↩︎

  11. Google. (2026). Vera. GitHub: https://github.com/google/vera ↩︎ ↩︎

  12. Suneel. (2025). PyAI-Slayer: AI Testing Framework. GitHub: https://github.com/suneel944/PyAI-Slayer ↩︎

  13. Agarwal, P. (2026). ClawBird: AI-Native Browser Automation. GitHub: https://github.com/premsagar4us/clawbird ↩︎

  14. Creati.ai. (2025). ToolFuzz: Fuzz Testing Framework for AI Agent Tools. https://creati.ai/ai-tools/toolfuzz/ ↩︎

  15. Sauce Labs. (2024). Appium: Open Source Automation Test Framework. GitHub: https://github.com/appium/appium ↩︎

  16. Mobile Dev. (2022). Maestro: E2E Automation for Mobile and Web. GitHub: https://github.com/mobile-dev-inc/maestro (13,129 stars); Website: https://maestro.dev ↩︎

  17. Kaspersky Lab. (2019). Kaspresso: Android UI Test Framework. GitHub: https://github.com/KasperskyLab/Kaspresso ↩︎

  18. Open Tool. (2020). Ultron: Easiest Framework for Android & Compose. GitHub: https://github.com/open-tool/ultron ↩︎

  19. Block. (2025). Trailblaze: AI-Driven UI Testing Framework. GitHub: https://github.com/block/trailblaze ↩︎

  20. Drizz. (2026). Best Mobile Test Automation Tools (2026): 11 Tools Compared. https://www.drizz.dev/post/best-mobile-test-automation-tools ↩︎

  21. Jain, K., & Le Goues, C. (2025). TestForge: Feedback-Driven, Agentic Test Suite Generation. COLM 2025. arXiv:2503.14713 ↩︎

  22. Microsoft Research. (2026). Agent-Pex Project. https://www.microsoft.com/en-us/research/project/agent-pex-automated-evaluation-and-testing-of-ai-agents/ ↩︎

  23. Hui, M., et al. (2026). FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems. arXiv:2604.05289 ↩︎ ↩︎

  24. Ahmed, S.Y., et al. (2026). SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments. arXiv:2603.10268 (2026) ↩︎

  25. Gao, Y., et al. (2026). GUITester: Enabling GUI Agents for Exploratory Defect Discovery. arXiv:2601.04500 ↩︎

  26. Ye, N., et al. (2025). AI Agents for Web Testing: A Case Study in the Wild. Columbia University. arXiv:2509.05197 ↩︎

  27. Huang, D., et al. (2025). Nexus. arXiv:2510.26423 ↩︎ ↩︎

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐