AI Agent 自动化测试技术综述

随着大型语言模型（LLM）和AI Agent技术的快速发展，软件测试领域正在经历范式转变。传统自动化测试工具在应对AI Agent的非确定性、复杂多步推理和动态行为空间时面临重大挑战。本文系统综述了当前AI Agent在自动化测试领域的最新进展，涵盖基于LLM的测试生成框架、移动端与嵌入式测试工具、以及2025-2026年间的最新学术研究成果。我们提出了一种新的分类体系，对15余个开源工具和12篇

祁华平

517人浏览 · 2026-04-19 10:48:03

祁华平 · 2026-04-19 10:48:03 发布

索引

摘要：随着大型语言模型（LLM）和AI Agent技术的快速发展，软件测试领域正在经历范式转变。传统自动化测试工具在应对AI Agent的非确定性、复杂多步推理和动态行为空间时面临重大挑战。本文系统综述了当前AI Agent在自动化测试领域的最新进展，涵盖基于LLM的测试生成框架、移动端与嵌入式测试工具、以及2025-2026年间的最新学术研究成果。我们提出了一种新的分类体系，对15余个开源工具和12篇核心学术论文进行了深入分析，并探讨了该领域的未来发展趋势。

关键词：AI Agent，软件测试，自动化测试，LLM测试，Agent评估，模糊测试

一、引言

1.1 研究背景

软件测试是保证软件质量的关键环节，然而传统自动化测试面临诸多局限性。手动测试成本高昂且难以扩展，基于规则的自动化测试又无法应对现代应用的复杂性。近年来，大型语言模型（LLM）的突破为软件测试带来了新的可能性——AI Agent能够理解自然语言描述、进行推理决策、并在真实环境中执行操作。

根据Gartner预测，到2028年将有超过10亿个AI Agent投入使用¹。这些Agent被嵌入到VS Code、Microsoft 365 Copilot等产品中，执行日益复杂的任务。然而，随着Agentic系统复杂性的增长，如何确保其行为的正确性、可靠性和安全性成为重大挑战。

1.2 核心挑战

AI Agent测试面临以下核心挑战：

非确定性行为：LLM的输出具有概率性，相同输入可能产生不同输出，传统确定性测试方法难以适用²。
规范漂移：Agent的行为规范往往只是部分显式指定，既存在于prompt中，也隐含在系统提示里³。
行为空间巨大：Agent可以执行无限多步推理和行动，穷举测试几乎不可能⁴。
评估复杂性：Agent的正确性往往需要语义判断，而非简单的真值比对⁵。
安全威胁：Agent可被恶意prompt注入攻击、数据泄漏、权限提升等⁶。

1.3 本文贡献

系统梳理2024-2026年间AI Agent测试领域的最新开源工具和学术研究。
提出新的分类体系：AI Agent测试框架、移动端测试工具、学术研究框架。
对比分析各工具的技术特点、适用场景和局限性。
总结当前研究热点和未来发展趋势。

二、AI Agent 测试框架

基于AI Agent的测试工具可以分为几类：端到端测试生成、多Agent评估、安全测试、以及特定领域的测试框架。本节详细介绍各类别的代表性工具。

2.1 端到端测试生成框架

2.1.1 TestZeus Hercules

GitHub: test-zeus-ai/testzeus-hercules⁷

Hercules是世界上首个开源测试Agent，支持UI、API、安全性、可访问性和视觉验证。该框架基于Gherkin语言编写测试规范，通过自然语言描述转变为自动化测试。其核心特点包括：

多Agent架构：基于AutoGen框架，支持多Agent协作
Gherkin输入：测试用例以Gherkin格式编写，门槛低
Playwright集成：完整的Playwright API访问能力
多租户安全：支持executor、data、API隔离模式
LLM灵活性：支持Anthropic、OpenAI、DeepSeek、Ollama等多种模型

Hercules的工作流程是将Gherkin测试步骤转换为可执行的Playwright脚本，然后通过AI Agent自主执行。这种方法降低了测试编写的技术门槛，使非技术人员也能参与测试创建。

2.1.2 Autospec

GitHub: zachblume/autospec⁸
网站: https://autospecai.com

Autospec是一个开源的AI Agent，专注于Web应用的端到端测试生成。其工作原理是：

规划阶段：从目标URL爬取最多3个页面，捕获可访问性快照，让模型生成测试计划
执行阶段：在独立的浏览器上下文中并行运行每个测试规范，使用语义动作决策
报告阶段：打印通过/失败摘要，并使用现代locator生成可重用的Playwright .spec.js文件

Autospec的核心优势在于：

零配置：只需提供URL即可开始测试
自愈能力：当选择器变化时，能通过截图分析自动修复
智能覆盖：自动发现并填补测试覆盖缺口
多模型支持：集成Anthropic Claude、OpenAI GPT、Google Gemini

2.1.3 AI QA Framework

GitHub: brentkastner/ai-qa-framework⁹

这是一个自主AI驱动的QA框架，给定URL即可获得全面的测试覆盖。其核心特性包括：

四阶段管道：爬取→规划→执行→报告
自愈测试：当选择器损坏时，AI分析截图并自动修复
全面覆盖：功能测试、视觉回归、安全检查一体化
自然语言提示：通过自然语言引导测试优先级

该框架需要Python 3.12+和Playwright支持chromium，可选择Anthropic API或本地Ollama运行。

2.2 LLM/Agent评估与测试框架

2.2.1 Giskard

GitHub: Giskard-AI/giskard¹⁰
Stars: 5,202
许可证: Apache-2.0

Giskard是专注于LLM Agent测试和评估的开源库。v3版本专门为动态、多轮Agent测试设计，架构模块化且轻量级。主要组件包括：

giskard-checks：测试与评估——场景API、内置检查、LLM-as-judge
giskard-scan（开发中）：Agent漏洞扫描——Red Teaming、Prompt注入、数据泄漏检测

Giskard的核心功能：

回归检测：验证系统变更后行为是否正确
RAG质量验证：检查答案是否基于检索到的上下文
LLM-as-judge评估：使用LLM进行语义评估
对抗性测试：自动生成攻击场景检测漏洞

该框架是当前最成熟的LLM/Agent开源测试库，文档完善且社区活跃。

2.2.2 Vera (Google)

GitHub: google/vera¹¹

Vera是Google推出的可扩展AI功能测试引擎，旨在为AI功能开发带来软件工程规范。其核心特点：

混合评估：确定性静态检查 + LLM-as-Judge语义评估
规范驱动：使用自然语言Rubrics、安全约束和黄金数据集定义成功标准
高性能：基于asyncio和anyio的并行测试执行
插件架构：通过pluggy深度扩展
标准化报告：CSV格式的详细评分报告

Vera需要Python 3.14+，体现了Google对AI测试规范化的探索。

2.2.3 PyAI-Slayer

GitHub: suneel944/PyAI-Slayer¹²

这是针对AI聊天机器人和LLM应用的综合Python自动化测试框架，核心特性包括：

AI响应验证：语义相似性、幻觉检测、一致性检查
多语言支持：英语和阿拉伯语及RTL/LTR布局验证
安全测试：注入攻击、Prompt注入、输入清理检查
实时仪表板：实时指标、A-Tier关键指标、性能分析
浏览器自动化：使用Playwright进行桌面和移动测试

2.3 浏览器/UI自动化框架

2.3.1 ClawBird

GitHub: premsagar4us/clawbird¹³

ClawBird是专为OpenClaw、LangChain和AI Agent设计的AI原生浏览器自动化引擎。其核心创新：

AI原生设计：专为LLM Agent设计，不同于传统自动化工具
OpenClaw集成：无缝集成OpenClaw个人AI助手
CDP + Playwright组合：同时支持Chrome DevTools协议和Playwright
ARIA元素引用：使用ARIA引用（如e12、e34）替代脆弱的XPath
LangChain工具：可作为浏览器工具集成到LangChain Agent

特性	传统工具	ClawBird
AI原生支持	❌	✅
OpenClaw集成	❌	✅
CDP + Playwright	二选一	两者结合

2.4 专用测试工具

2.4.1 ToolFuzz

发布者: Creati.ai¹⁴

ToolFuzz是专门为AI Agent工具调用逻辑设计的模糊测试框架。其核心功能：

自动生成多样化的模糊测试场景：探测Agent的工具调用逻辑
异常输入注入：测试 malformed inputs
工具调用序列变化：测试不同的调用顺序和参数组合
自定义模糊策略：模块化插件接口
运行时分析：收集执行轨迹

ToolFuzz的应用场景：

Agent更新后的回归测试
工具调用的安全性和稳定性评估
Agent驱动应用的自动化QA
AI Agent工具集成的基准测试

三、移动端与嵌入式测试工具

3.1 跨平台移动测试框架

3.1.1 Appium

GitHub: appium/appium¹⁵
许可证: Apache-2.0

Appium是最成熟的开源跨平台移动自动化框架，核心特点：

WebDriver协议：使用UiAutomator2（Android）和XCUITest（iOS）
跨平台：支持iOS、Android、原生、混合、移动Web应用
多语言支持：Java、Python、JavaScript、Ruby、C#
真实设备和模拟器：支持真机和模拟器

Appium的优势在于灵活性，但需要较多的设置和维护工作。对于需要完全控制测试栈的工程团队是最佳选择。

3.1.2 Maestro

GitHub: mobile-dev-inc/maestro¹⁶
Stars: 13,129
许可证: Apache-2.0
网站: https://maestro.dev

Maestro是目前最活跃的移动端开源E2E测试框架，核心特点：

YAML流式语法：人类可读的YAML格式定义交互
跨平台覆盖：Android、iOS、Web应用
内置容错：自动处理动态UI的等待和重试
轻量级：比Appium设置简单
多平台支持：模拟器、模拟器、浏览器

appId: com.android.contacts
---
- launchApp
- tapOn: "Create new contact"
- tapOn: "First Name"
- inputText: "John"
- tapOn: "Save"
- assertVisible: "John"

Maestro的设计吸收了Appium、Espresso、UIAutomator、XCTest、Selenium和Playwright的经验，是移动测试的推荐选择。

3.2 Android专用测试框架

3.2.1 Espresso

Espresso是Google官方的Android UI测试框架，核心特点：

设备上测试：直接在设备或模拟器运行
Android Studio集成：深度集成Android开发环境
快速稳定：测试执行速度快，稳定性高
仅Android：不支持iOS

Espresso适用于问题明确是Android UI测试的场景，需要源码访问权限。

3.2.2 Kaspresso

GitHub: KasperskyLab/Kaspresso¹⁷

Kaspresso是基于Espresso和UiAutomator的增强Android测试框架：

内置防闪测试保护：解决 flaky tests 的核心痛点
Jetpack Compose支持：完整的Compose测试支持
截图测试：原生方式支持暗色模式
声明式语法：Kotlin DSL封装
系统交互能力：与系统应用和界面交互
详细日志：日志、视图层级、截图、视频

Kaspresso的一个显著优势是UiAutomator命令执行速度可提升10倍。

3.2.3 Ultron

GitHub: open-tool/ultron¹⁸
Stars: 248

Ultron是最简单的Android和Compose Multiplatform UI测试开发框架：

简化语法：无需学习特殊类或语法
自动稳定机制：内置重试机制处理不稳定操作
加速UI Automator：可显著加速
自定义扩展：可轻松扩展操作和断言
Allure报告：开箱即用的Allure报告生成

// Espresso原始语法
onView(withId(R.id.send_button)).check(isDisplayed()).perform(click())

// Ultron简化语法
withId(R.id.send_button).isDisplayed().click()

3.2.4 Trailblaze

GitHub: block/trailblaze¹⁹
Stars: 221

Trailblaze是Block（前Square）推出的AI驱动UI测试框架：

自然语言测试：用自然语言编写测试步骤
On-Device执行：使用标准Android instrumented测试
Maestro命令模型：使用Maestro进行UI交互
可扩展工具：提供自定义TrailblazeTools

Trailblaze体现了移动测试AI化的趋势，使用Mobile-Agent-v3研究的最新特性。

3.3 iOS专用测试框架

3.3.1 XCUITest

XCUITest是Apple官方的iOS UI测试框架：

Xcode内置：完全集成Xcode
Accessibility API：通过Accessibility API与UI交互
仅iOS：不支持Android
性能优秀：执行速度快

3.4 AI-Native移动测试平台

3.4.1 Drizz

发布者: Drizz²⁰

Drizz是一个AI原生的移动测试自动化平台：

Vision AI执行：用Vision AI替代传统定位器
真实设备云端执行：真机云端测试
自然语言创作： Plain-English编写测试
免脚本：无需编写代码

Drizz代表了移动测试AI化的商业化方向。

四、学术研究与论文

2025-2026年间，学术界涌现了大量关于AI Agent测试的研究成果。本节重点介绍核心论文和框架。

4.1 测试生成方向

4.1.1 TestForge (COLM 2025)

论文: TestForge: Feedback-Driven, Agentic Test Suite Generation²¹
作者: Kush Jain, Claire Le Goues (CMU)
arXiv: 2503.14713

TestForge是一个agentic单元测试框架，专注于成本效益高的真实代码测试生成。其核心创新：

迭代反馈生成：将LLM测试生成重新定义为迭代过程
动态反馈：基于执行结果和覆盖率报告迭代优化
pass@1率84.3%：在TestGenEval基准上表现优异
代码覆盖率提升：覆盖率和有效性显著提高
集成OpenHands：集成流行的开源软件工程Agent平台

TestForge的关键洞察是将测试生成看作迭代过程，而非一次性生成框架使用4.3k行Python代码实现，已开源。

4.1.2 PromptPex / Agent-Pex (Microsoft Research)

项目: Microsoft Research Agent-Pex²²
论文: Agent-Pex: Automated Evaluation and Testing of AI Agents

Agent-Pex是Microsoft Research推出的AI Agent自动化评估和测试工具：

规范提取：从Agent prompt和trace中提取显式和隐式行为规则
自动化测试生成：基于提取的规范生成对抗性测试
可扩展分析：支持数千条trace的评估
多维度覆盖：参数有效性、输出合规性、计划充分性评估
模型对比：支持不同模型的并排分析

Agent-Pex构建在PromptPex（开源的Prompt自动测试生成工具）基础上，将方法扩展到agentic trace评估。

4.2 安全评估方向

4.2.1 DoomArena (COLM 2025)

论文: DoomArena: A Framework for Testing AI Agents Against Evolving Security Threats[^23]
作者: Leo Boisvert等 (ServiceNow Research, UW, Polytechnique Montréal, Mila)
arXiv: 2504.14064
GitHub: ServiceNow/DoomArena

DoomArena是AI Agent的安全评估框架，基于三个原则设计：

插件式框架：轻松集成到BrowserGym、τ-bench、OSWorld等真实Agentic框架
可配置威胁建模：允许详细配置特定Agent组件的安全威胁
模块化设计：解耦攻击开发与Agent细节

核心贡献：

多环境支持：Web Agent、Tool-calling Agent、计算机使用Agent
插件架构：便于跨环境应用
真实威胁建模：基于部署上下文

DoomArena是唯一具有这三个特性的Agentic安全测试框架。评估发现SOTA Agent存在显著的安全问题。

4.3 多Agent系统测试

4.3.1 FLARE (ArXiv 2026)

论文: FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems²³
作者: Mingxuan Huit等 (Xidian University)
arXiv: 2604.05289

FLARE是首个针对LLM多Agent系统（MAS）的测试框架：

四部分规范定义：Agent关系、终止模式、任务执行、工具调用
静态分析提取：从源码提取MAS规范和行为空间
测试预言构建：基于规范构建测试预言
覆盖引导模糊测试：进行覆盖引导的模糊测试
执行日志分析：分析执行日志判断测试通过

评估结果：

96.9% 跨Agent覆盖率
91.1% Agent内覆盖率
超过基线9.5%和1.0%
发现56个MAS独有的未知失败

FLARE是第一个自动化MAS测试解决方案，使用AutoGen作为评估对象。

4.4 GUI测试方向

4.4.1 SpecOps (ArXiv 2026)

论文: SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments²⁴
作者: Syed Yusuf Ahmed等
arXiv: 2603.10268

SpecOps是针对真实GUI环境的全自动AI Agent测试框架：

四阶段专门化架构：测试用例生成、环境设置、测试执行、验证
不同LLM Specialist Agent：每个阶段由专门的LLM Agent处理
多平台支持：CLI工具、Web应用、浏览器扩展
端到端任务连贯性：解决核心挑战
健壮错误处理：自适应错误处理

评估结果：

发现164个真实bug
F1分数0.89
成本低于0.73美元
运行时间低于8分钟

4.4.2 GUITester (ArXiv 2026)

论文: GUITester: Enabling GUI Agents for Exploratory Defect Discovery²⁵
作者: Yifei Gao等
arXiv: 2601.04500

GUITester是GUI Agent的探索性缺陷发现框架：

目标导向遮蔽：Agent优先完成任务而非报告异常
执行偏差归因：区分系统缺陷和Agent错误
GUITestBench：首个交互式基准（143任务，26缺陷）
计划-执行模块（PEM）：通过嵌入测试意图主动探测缺陷
分层反思模块（HRM）：通过交互历史解决归因模糊

F1分数48.90% (Pass@3)，超过SOTA基线（33.35%）。

4.4.3 WebProber (ArXiv 2025)

论文: AI Agents for Web Testing: A Case Study in the Wild²⁶
作者: Naimeng Ye等 (Columbia University)
arXiv: 2509.05197

WebProber是基于AI Agent的Web测试框架：

视觉语言模型：使用VLM直接与视觉网页交互
三阶段管道：提示生成→浏览→报告
真实案例研究：120个学术个人网站
发现29个可用性问题

WebProber展示了AI Agent在Web测试中的实际应用价值。

4.5 测试预言生成

4.5.1 Nexus (ArXiv 2025)

论文: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis²⁷
作者: Dong Huang等 (NUS)
arXiv: 2510.26423

Nexus是多Agent测试预言合成框架：

四专家Agent面板：每个Agent体现不同的测试哲学
结构化过程： deliberation → validation → self-refinement
执行接地：将抽象推理接地到可执行证据
七年基准评估：在7个不同基准上验证

关键结果：

代码修复从35.23%提升到69.32%
跨模型一致改进
准确性显著增强

五、对比分析与分类体系

5.1 工具分类矩阵

类别	工具	核心功能	适用场景	开源	活跃度
Agent测试生成	TestZeus Hercules	Gherkin→E2E测试	Web/API测试	✅	高
	Autospec	URL→Playwright	Web E2E	✅	中
	AI QA Framework	URL→全面测试	Web/安全	✅	低
LLM评估	Giskard	LLM/Agent评估	通用	✅	高
	Vera	混合评估	AI功能	✅	低
	PyAI-Slayer	聊天机器人测试	LLM应用	✅	低
移动测试	Maestro	YAML E2E	移动E2E	✅	高
	Appium	WebDriver	跨平台移动	✅	高
	Kaspresso	Android增强	Android	✅	中
	Ultron	Android简化	Android	✅	低
学术研究	TestForge	单元测试生成	代码测试	✅	新
	DoomArena	安全测试	Agent安全	✅	新
	FLARE	MAS测试	多Agent	✅	新
	SpecOps	GUI测试	GUI Agent	✅	新

5.2 技术特点对比

LLM测试 vs 传统测试

维度	传统测试	AI Agent测试
确定性	确定性输出	概率性输出
评估标准	真值比对	语义判断
测试生成	手动/规则	LLM生成
覆盖范围	显式规范	隐式规范提取
执行环境	模拟/隔离	真实环境

架构模式

┌─────────────────────────────────────────────────────────────┐
│                    AI Agent测试架构                          │
├─────────────────────────────────────────────────────────────┤
│  1. 测试生成层                                                │
│     TestForge │ Autospec │ AI QA Framework                  │
│        ↓                                                    │
│  2. 执行层                                                   │
│     ClawBird │ Playwright │ Selenium │ CDP                  │
│        ↓                                                    │
│  3. 评估层                                                   │
│     Giskard │ Vera │ LLM-as-Judge                           │
│        ↓                                                    │
│  4. 报告层                                                   │
│     Allure │ CSV │ 自定义                                    │
└─────────────────────────────────────────────────────────────┘

5.3 选型指南

选择建议：

Web E2E测试：Maestro（移动优先）或Playwright（Web优先）
AI/LLM测试：Giskard（生产）或TestForge（研究）
Android测试：Kaspresso（功能全）或Ultron（简单）
Agent安全测试：DoomArena
多Agent系统：FLARE
科学研究：SpecOps + Nexus组合

六、未来发展趋势

6.1 当前研究热点

混合评估范式：确定性检查 + LLM-as-Judge的结合成为主流¹¹
自愈测试：AI自动修复测试选择器⁹
多Agent协作测试：Nexus的四专家面板模式²⁷
安全评估: DoomArena代表的威胁建模驱动安全测试[^23]
覆盖引导模糊测试: FLARE在MAS中的应用²³

6.2 未来方向

规范化基准：建立统一的Agent测试评估基准
实时监控：Agent运行时的持续测试
可解释性：测试失败原因的自动分析
自适应测试：根据环境变化自动调整
跨平台统一：打破Web/移动/桌面测试的边界

6.3 挑战与机遇

核心挑战：

Agent行为的非确定性评估
测试预言的自动生成
安全与隐私的平衡

机遇：

LLM成本的持续下降
开源生态的快速增长
研究与产业的紧密结合

七、结论

本文系统综述了AI Agent自动化测试领域的最新进展。从开源工具角度看，Giskard、Maestro、Playwright等构成了基础工具链，TestZeus Hercules、Autospec等AI原生工具代表了新的测试范式。从学术研究角度，TestForge、DoomArena、FLARE、SpecOps等论文展示了前沿研究方向。

AI Agent测试正处于快速发展期，学术界和产业界共同推动着该领域的进步。我们观察到几个明显趋势：(1)从确定性测试到混合评估，(2)从手动编写到LLM生成，(3)从单一Agent到多Agent协作，(4)从功能测试到安全评估。

随着LLM技术的持续发展和完善，AI Agent测试工具将变得更智能、更高效、更安全，为软件质量保证提供更强有力的支持。

参考文献

附录A：工具功能对比详表

工具	语言	License	依赖LLM	浏览器支持	最后更新
Giskard	Python	Apache-2.0	可选	-	2026-03
Vera	Python	Apache-2.0	必需	-	2026-01
TestZeus	Python	AGPL-3.0	必需	Playwright	2024-11
Autospec	TypeScript	MIT	必需	Playwright	2024-05
AI QA	Python	MIT	必需	Playwright	2026-02
ClawBird	JavaScript	MIT	可选	CDP+Playwright	2026-02
Maestro	Kotlin	Apache-2.0	可选	自有	2026-03
Kaspresso	Kotlin	Apache-2.0	可选	Espresso	2025-04
Ultron	Kotlin	Apache-2.0	可选	UiAutomator	2025-10
Appium	多语言	Apache-2.0	可选	多驱动	持续

Gartner. (2024). Gartner Predicts 2028: AI Agents Everywhere. Retrieved from https://www.gartner.com ↩︎
Google. (2026). Vera – AI Feature Testing Engine. GitHub: https://github.com/google/vera ↩︎
Microsoft Research. (2026). Agent-Pex: Automated Evaluation and Testing of AI Agents. https://www.microsoft.com/en-us/research/project/agent-pex-automated-evaluation-and-testing-of-ai-agents/ ↩︎
Boisvert, L., et al. (2025). DoomArena: A Framework for Testing AI Agents Against Evolving Security Threats. COLM 2025. arXiv:2504.14064 ↩︎
Giskard AI. (2026). Giskard: Open-Source Evaluation & Testing Library for LLM Agents. GitHub: https://github.com/Giskard-AI/giskard ↩︎
Huang, D., et al. (2025). Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis. arXiv:2510.26423 ↩︎
TestZeus AI. (2024). TestZeus Hercules: World’s First Open-Source Testing Agent. GitHub: https://github.com/test-zeus-ai/testzeus-hercules ↩︎
Blennerhassett, Z. (2024). Autospec: Open Source E2E Test Generation for Web Apps. GitHub: https://github.com/zachblume/autospec; Website: https://autospecai.com ↩︎
Kastner, B. (2026). AI QA Framework: Autonomous AI-Driven QA. GitHub: https://github.com/brentkastner/ai-qa-framework ↩︎ ↩︎
Giskard AI. (2022-2026). Giskard Open Source. GitHub: https://github.com/Giskard-AI/giskard (5,202 stars) ↩︎
Google. (2026). Vera. GitHub: https://github.com/google/vera ↩︎ ↩︎
Suneel. (2025). PyAI-Slayer: AI Testing Framework. GitHub: https://github.com/suneel944/PyAI-Slayer ↩︎
Agarwal, P. (2026). ClawBird: AI-Native Browser Automation. GitHub: https://github.com/premsagar4us/clawbird ↩︎
Creati.ai. (2025). ToolFuzz: Fuzz Testing Framework for AI Agent Tools. https://creati.ai/ai-tools/toolfuzz/ ↩︎
Sauce Labs. (2024). Appium: Open Source Automation Test Framework. GitHub: https://github.com/appium/appium ↩︎
Mobile Dev. (2022). Maestro: E2E Automation for Mobile and Web. GitHub: https://github.com/mobile-dev-inc/maestro (13,129 stars); Website: https://maestro.dev ↩︎
Kaspersky Lab. (2019). Kaspresso: Android UI Test Framework. GitHub: https://github.com/KasperskyLab/Kaspresso ↩︎
Open Tool. (2020). Ultron: Easiest Framework for Android & Compose. GitHub: https://github.com/open-tool/ultron ↩︎
Block. (2025). Trailblaze: AI-Driven UI Testing Framework. GitHub: https://github.com/block/trailblaze ↩︎
Drizz. (2026). Best Mobile Test Automation Tools (2026): 11 Tools Compared. https://www.drizz.dev/post/best-mobile-test-automation-tools ↩︎
Jain, K., & Le Goues, C. (2025). TestForge: Feedback-Driven, Agentic Test Suite Generation. COLM 2025. arXiv:2503.14713 ↩︎
Microsoft Research. (2026). Agent-Pex Project. https://www.microsoft.com/en-us/research/project/agent-pex-automated-evaluation-and-testing-of-ai-agents/ ↩︎
Hui, M., et al. (2026). FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems. arXiv:2604.05289 ↩︎ ↩︎
Ahmed, S.Y., et al. (2026). SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments. arXiv:2603.10268 (2026) ↩︎
Gao, Y., et al. (2026). GUITester: Enabling GUI Agents for Exploratory Defect Discovery. arXiv:2601.04500 ↩︎
Ye, N., et al. (2025). AI Agents for Web Testing: A Case Study in the Wild. Columbia University. arXiv:2509.05197 ↩︎
Huang, D., et al. (2025). Nexus. arXiv:2510.26423 ↩︎ ↩︎