AI Agent 自动化测试技术综述
随着大型语言模型(LLM)和AI Agent技术的快速发展,软件测试领域正在经历范式转变。传统自动化测试工具在应对AI Agent的非确定性、复杂多步推理和动态行为空间时面临重大挑战。本文系统综述了当前AI Agent在自动化测试领域的最新进展,涵盖基于LLM的测试生成框架、移动端与嵌入式测试工具、以及2025-2026年间的最新学术研究成果。我们提出了一种新的分类体系,对15余个开源工具和12篇
摘要:随着大型语言模型(LLM)和AI Agent技术的快速发展,软件测试领域正在经历范式转变。传统自动化测试工具在应对AI Agent的非确定性、复杂多步推理和动态行为空间时面临重大挑战。本文系统综述了当前AI Agent在自动化测试领域的最新进展,涵盖基于LLM的测试生成框架、移动端与嵌入式测试工具、以及2025-2026年间的最新学术研究成果。我们提出了一种新的分类体系,对15余个开源工具和12篇核心学术论文进行了深入分析,并探讨了该领域的未来发展趋势。
关键词:AI Agent,软件测试,自动化测试,LLM测试,Agent评估,模糊测试
一、引言
1.1 研究背景
软件测试是保证软件质量的关键环节,然而传统自动化测试面临诸多局限性。手动测试成本高昂且难以扩展,基于规则的自动化测试又无法应对现代应用的复杂性。近年来,大型语言模型(LLM)的突破为软件测试带来了新的可能性——AI Agent能够理解自然语言描述、进行推理决策、并在真实环境中执行操作。
根据Gartner预测,到2028年将有超过10亿个AI Agent投入使用1。这些Agent被嵌入到VS Code、Microsoft 365 Copilot等产品中,执行日益复杂的任务。然而,随着Agentic系统复杂性的增长,如何确保其行为的正确性、可靠性和安全性成为重大挑战。
1.2 核心挑战
AI Agent测试面临以下核心挑战:
- 非确定性行为:LLM的输出具有概率性,相同输入可能产生不同输出,传统确定性测试方法难以适用2。
- 规范漂移:Agent的行为规范往往只是部分显式指定,既存在于prompt中,也隐含在系统提示里3。
- 行为空间巨大:Agent可以执行无限多步推理和行动,穷举测试几乎不可能4。
- 评估复杂性:Agent的正确性往往需要语义判断,而非简单的真值比对5。
- 安全威胁:Agent可被恶意prompt注入攻击、数据泄漏、权限提升等6。
1.3 本文贡献
- 系统梳理2024-2026年间AI Agent测试领域的最新开源工具和学术研究。
- 提出新的分类体系:AI Agent测试框架、移动端测试工具、学术研究框架。
- 对比分析各工具的技术特点、适用场景和局限性。
- 总结当前研究热点和未来发展趋势。
二、AI Agent 测试框架
基于AI Agent的测试工具可以分为几类:端到端测试生成、多Agent评估、安全测试、以及特定领域的测试框架。本节详细介绍各类别的代表性工具。
2.1 端到端测试生成框架
2.1.1 TestZeus Hercules
GitHub: test-zeus-ai/testzeus-hercules7
Hercules是世界上首个开源测试Agent,支持UI、API、安全性、可访问性和视觉验证。该框架基于Gherkin语言编写测试规范,通过自然语言描述转变为自动化测试。其核心特点包括:
- 多Agent架构:基于AutoGen框架,支持多Agent协作
- Gherkin输入:测试用例以Gherkin格式编写,门槛低
- Playwright集成:完整的Playwright API访问能力
- 多租户安全:支持executor、data、API隔离模式
- LLM灵活性:支持Anthropic、OpenAI、DeepSeek、Ollama等多种模型
Hercules的工作流程是将Gherkin测试步骤转换为可执行的Playwright脚本,然后通过AI Agent自主执行。这种方法降低了测试编写的技术门槛,使非技术人员也能参与测试创建。
2.1.2 Autospec
GitHub: zachblume/autospec8
网站: https://autospecai.com
Autospec是一个开源的AI Agent,专注于Web应用的端到端测试生成。其工作原理是:
- 规划阶段:从目标URL爬取最多3个页面,捕获可访问性快照,让模型生成测试计划
- 执行阶段:在独立的浏览器上下文中并行运行每个测试规范,使用语义动作决策
- 报告阶段:打印通过/失败摘要,并使用现代locator生成可重用的Playwright
.spec.js文件
Autospec的核心优势在于:
- 零配置:只需提供URL即可开始测试
- 自愈能力:当选择器变化时,能通过截图分析自动修复
- 智能覆盖:自动发现并填补测试覆盖缺口
- 多模型支持:集成Anthropic Claude、OpenAI GPT、Google Gemini
2.1.3 AI QA Framework
GitHub: brentkastner/ai-qa-framework9
这是一个自主AI驱动的QA框架,给定URL即可获得全面的测试覆盖。其核心特性包括:
- 四阶段管道:爬取→规划→执行→报告
- 自愈测试:当选择器损坏时,AI分析截图并自动修复
- 全面覆盖:功能测试、视觉回归、安全检查一体化
- 自然语言提示:通过自然语言引导测试优先级
该框架需要Python 3.12+和Playwright支持chromium,可选择Anthropic API或本地Ollama运行。
2.2 LLM/Agent评估与测试框架
2.2.1 Giskard
GitHub: Giskard-AI/giskard10
Stars: 5,202
许可证: Apache-2.0
Giskard是专注于LLM Agent测试和评估的开源库。v3版本专门为动态、多轮Agent测试设计,架构模块化且轻量级。主要组件包括:
- giskard-checks:测试与评估——场景API、内置检查、LLM-as-judge
- giskard-scan(开发中):Agent漏洞扫描——Red Teaming、Prompt注入、数据泄漏检测
Giskard的核心功能:
- 回归检测:验证系统变更后行为是否正确
- RAG质量验证:检查答案是否基于检索到的上下文
- LLM-as-judge评估:使用LLM进行语义评估
- 对抗性测试:自动生成攻击场景检测漏洞
该框架是当前最成熟的LLM/Agent开源测试库,文档完善且社区活跃。
2.2.2 Vera (Google)
GitHub: google/vera11
Vera是Google推出的可扩展AI功能测试引擎,旨在为AI功能开发带来软件工程规范。其核心特点:
- 混合评估:确定性静态检查 + LLM-as-Judge语义评估
- 规范驱动:使用自然语言Rubrics、安全约束和黄金数据集定义成功标准
- 高性能:基于asyncio和anyio的并行测试执行
- 插件架构:通过pluggy深度扩展
- 标准化报告:CSV格式的详细评分报告
Vera需要Python 3.14+,体现了Google对AI测试规范化的探索。
2.2.3 PyAI-Slayer
GitHub: suneel944/PyAI-Slayer12
这是针对AI聊天机器人和LLM应用的综合Python自动化测试框架,核心特性包括:
- AI响应验证:语义相似性、幻觉检测、一致性检查
- 多语言支持:英语和阿拉伯语及RTL/LTR布局验证
- 安全测试:注入攻击、Prompt注入、输入清理检查
- 实时仪表板:实时指标、A-Tier关键指标、性能分析
- 浏览器自动化:使用Playwright进行桌面和移动测试
2.3 浏览器/UI自动化框架
2.3.1 ClawBird
GitHub: premsagar4us/clawbird13
ClawBird是专为OpenClaw、LangChain和AI Agent设计的AI原生浏览器自动化引擎。其核心创新:
- AI原生设计:专为LLM Agent设计,不同于传统自动化工具
- OpenClaw集成:无缝集成OpenClaw个人AI助手
- CDP + Playwright组合:同时支持Chrome DevTools协议和Playwright
- ARIA元素引用:使用ARIA引用(如e12、e34)替代脆弱的XPath
- LangChain工具:可作为浏览器工具集成到LangChain Agent
| 特性 | 传统工具 | ClawBird |
|---|---|---|
| AI原生支持 | ❌ | ✅ |
| OpenClaw集成 | ❌ | ✅ |
| CDP + Playwright | 二选一 | 两者结合 |
2.4 专用测试工具
2.4.1 ToolFuzz
发布者: Creati.ai14
ToolFuzz是专门为AI Agent工具调用逻辑设计的模糊测试框架。其核心功能:
- 自动生成多样化的模糊测试场景:探测Agent的工具调用逻辑
- 异常输入注入:测试 malformed inputs
- 工具调用序列变化:测试不同的调用顺序和参数组合
- 自定义模糊策略:模块化插件接口
- 运行时分析:收集执行轨迹
ToolFuzz的应用场景:
- Agent更新后的回归测试
- 工具调用的安全性和稳定性评估
- Agent驱动应用的自动化QA
- AI Agent工具集成的基准测试
三、移动端与嵌入式测试工具
3.1 跨平台移动测试框架
3.1.1 Appium
GitHub: appium/appium15
许可证: Apache-2.0
Appium是最成熟的开源跨平台移动自动化框架,核心特点:
- WebDriver协议:使用UiAutomator2(Android)和XCUITest(iOS)
- 跨平台:支持iOS、Android、原生、混合、移动Web应用
- 多语言支持:Java、Python、JavaScript、Ruby、C#
- 真实设备和模拟器:支持真机和模拟器
Appium的优势在于灵活性,但需要较多的设置和维护工作。对于需要完全控制测试栈的工程团队是最佳选择。
3.1.2 Maestro
GitHub: mobile-dev-inc/maestro16
Stars: 13,129
许可证: Apache-2.0
网站: https://maestro.dev
Maestro是目前最活跃的移动端开源E2E测试框架,核心特点:
- YAML流式语法:人类可读的YAML格式定义交互
- 跨平台覆盖:Android、iOS、Web应用
- 内置容错:自动处理动态UI的等待和重试
- 轻量级:比Appium设置简单
- 多平台支持:模拟器、模拟器、浏览器
appId: com.android.contacts
---
- launchApp
- tapOn: "Create new contact"
- tapOn: "First Name"
- inputText: "John"
- tapOn: "Save"
- assertVisible: "John"
Maestro的设计吸收了Appium、Espresso、UIAutomator、XCTest、Selenium和Playwright的经验,是移动测试的推荐选择。
3.2 Android专用测试框架
3.2.1 Espresso
Espresso是Google官方的Android UI测试框架,核心特点:
- 设备上测试:直接在设备或模拟器运行
- Android Studio集成:深度集成Android开发环境
- 快速稳定:测试执行速度快,稳定性高
- 仅Android:不支持iOS
Espresso适用于问题明确是Android UI测试的场景,需要源码访问权限。
3.2.2 Kaspresso
GitHub: KasperskyLab/Kaspresso17
Kaspresso是基于Espresso和UiAutomator的增强Android测试框架:
- 内置防闪测试保护:解决 flaky tests 的核心痛点
- Jetpack Compose支持:完整的Compose测试支持
- 截图测试:原生方式支持暗色模式
- 声明式语法:Kotlin DSL封装
- 系统交互能力:与系统应用和界面交互
- 详细日志:日志、视图层级、截图、视频
Kaspresso的一个显著优势是UiAutomator命令执行速度可提升10倍。
3.2.3 Ultron
GitHub: open-tool/ultron18
Stars: 248
Ultron是最简单的Android和Compose Multiplatform UI测试开发框架:
- 简化语法:无需学习特殊类或语法
- 自动稳定机制:内置重试机制处理不稳定操作
- 加速UI Automator:可显著加速
- 自定义扩展:可轻松扩展操作和断言
- Allure报告:开箱即用的Allure报告生成
// Espresso原始语法
onView(withId(R.id.send_button)).check(isDisplayed()).perform(click())
// Ultron简化语法
withId(R.id.send_button).isDisplayed().click()
3.2.4 Trailblaze
GitHub: block/trailblaze19
Stars: 221
Trailblaze是Block(前Square)推出的AI驱动UI测试框架:
- 自然语言测试:用自然语言编写测试步骤
- On-Device执行:使用标准Android instrumented测试
- Maestro命令模型:使用Maestro进行UI交互
- 可扩展工具:提供自定义TrailblazeTools
Trailblaze体现了移动测试AI化的趋势,使用Mobile-Agent-v3研究的最新特性。
3.3 iOS专用测试框架
3.3.1 XCUITest
XCUITest是Apple官方的iOS UI测试框架:
- Xcode内置:完全集成Xcode
- Accessibility API:通过Accessibility API与UI交互
- 仅iOS:不支持Android
- 性能优秀:执行速度快
3.4 AI-Native移动测试平台
3.4.1 Drizz
发布者: Drizz20
Drizz是一个AI原生的移动测试自动化平台:
- Vision AI执行:用Vision AI替代传统定位器
- 真实设备云端执行:真机云端测试
- 自然语言创作: Plain-English编写测试
- 免脚本:无需编写代码
Drizz代表了移动测试AI化的商业化方向。
四、学术研究与论文
2025-2026年间,学术界涌现了大量关于AI Agent测试的研究成果。本节重点介绍核心论文和框架。
4.1 测试生成方向
4.1.1 TestForge (COLM 2025)
论文: TestForge: Feedback-Driven, Agentic Test Suite Generation21
作者: Kush Jain, Claire Le Goues (CMU)
arXiv: 2503.14713
TestForge是一个agentic单元测试框架,专注于成本效益高的真实代码测试生成。其核心创新:
- 迭代反馈生成:将LLM测试生成重新定义为迭代过程
- 动态反馈:基于执行结果和覆盖率报告迭代优化
- pass@1率84.3%:在TestGenEval基准上表现优异
- 代码覆盖率提升:覆盖率和有效性显著提高
- 集成OpenHands:集成流行的开源软件工程Agent平台
TestForge的关键洞察是将测试生成看作迭代过程,而非一次性生成框架使用4.3k行Python代码实现,已开源。
4.1.2 PromptPex / Agent-Pex (Microsoft Research)
项目: Microsoft Research Agent-Pex22
论文: Agent-Pex: Automated Evaluation and Testing of AI Agents
Agent-Pex是Microsoft Research推出的AI Agent自动化评估和测试工具:
- 规范提取:从Agent prompt和trace中提取显式和隐式行为规则
- 自动化测试生成:基于提取的规范生成对抗性测试
- 可扩展分析:支持数千条trace的评估
- 多维度覆盖:参数有效性、输出合规性、计划充分性评估
- 模型对比:支持不同模型的并排分析
Agent-Pex构建在PromptPex(开源的Prompt自动测试生成工具)基础上,将方法扩展到agentic trace评估。
4.2 安全评估方向
4.2.1 DoomArena (COLM 2025)
论文: DoomArena: A Framework for Testing AI Agents Against Evolving Security Threats[^23]
作者: Leo Boisvert等 (ServiceNow Research, UW, Polytechnique Montréal, Mila)
arXiv: 2504.14064
GitHub: ServiceNow/DoomArena
DoomArena是AI Agent的安全评估框架,基于三个原则设计:
- 插件式框架:轻松集成到BrowserGym、τ-bench、OSWorld等真实Agentic框架
- 可配置威胁建模:允许详细配置特定Agent组件的安全威胁
- 模块化设计:解耦攻击开发与Agent细节
核心贡献:
- 多环境支持:Web Agent、Tool-calling Agent、计算机使用Agent
- 插件架构:便于跨环境应用
- 真实威胁建模:基于部署上下文
DoomArena是唯一具有这三个特性的Agentic安全测试框架。评估发现SOTA Agent存在显著的安全问题。
4.3 多Agent系统测试
4.3.1 FLARE (ArXiv 2026)
论文: FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems23
作者: Mingxuan Huit等 (Xidian University)
arXiv: 2604.05289
FLARE是首个针对LLM多Agent系统(MAS)的测试框架:
- 四部分规范定义:Agent关系、终止模式、任务执行、工具调用
- 静态分析提取:从源码提取MAS规范和行为空间
- 测试预言构建:基于规范构建测试预言
- 覆盖引导模糊测试:进行覆盖引导的模糊测试
- 执行日志分析:分析执行日志判断测试通过
评估结果:
- 96.9% 跨Agent覆盖率
- 91.1% Agent内覆盖率
- 超过基线9.5%和1.0%
- 发现56个MAS独有的未知失败
FLARE是第一个自动化MAS测试解决方案,使用AutoGen作为评估对象。
4.4 GUI测试方向
4.4.1 SpecOps (ArXiv 2026)
论文: SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments24
作者: Syed Yusuf Ahmed等
arXiv: 2603.10268
SpecOps是针对真实GUI环境的全自动AI Agent测试框架:
- 四阶段专门化架构:测试用例生成、环境设置、测试执行、验证
- 不同LLM Specialist Agent:每个阶段由专门的LLM Agent处理
- 多平台支持:CLI工具、Web应用、浏览器扩展
- 端到端任务连贯性:解决核心挑战
- 健壮错误处理:自适应错误处理
评估结果:
- 发现164个真实bug
- F1分数0.89
- 成本低于0.73美元
- 运行时间低于8分钟
4.4.2 GUITester (ArXiv 2026)
论文: GUITester: Enabling GUI Agents for Exploratory Defect Discovery25
作者: Yifei Gao等
arXiv: 2601.04500
GUITester是GUI Agent的探索性缺陷发现框架:
- 目标导向遮蔽:Agent优先完成任务而非报告异常
- 执行偏差归因:区分系统缺陷和Agent错误
- GUITestBench:首个交互式基准(143任务,26缺陷)
- 计划-执行模块(PEM):通过嵌入测试意图主动探测缺陷
- 分层反思模块(HRM):通过交互历史解决归因模糊
F1分数48.90% (Pass@3),超过SOTA基线(33.35%)。
4.4.3 WebProber (ArXiv 2025)
论文: AI Agents for Web Testing: A Case Study in the Wild26
作者: Naimeng Ye等 (Columbia University)
arXiv: 2509.05197
WebProber是基于AI Agent的Web测试框架:
- 视觉语言模型:使用VLM直接与视觉网页交互
- 三阶段管道:提示生成→浏览→报告
- 真实案例研究:120个学术个人网站
- 发现29个可用性问题
WebProber展示了AI Agent在Web测试中的实际应用价值。
4.5 测试预言生成
4.5.1 Nexus (ArXiv 2025)
论文: Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis27
作者: Dong Huang等 (NUS)
arXiv: 2510.26423
Nexus是多Agent测试预言合成框架:
- 四专家Agent面板:每个Agent体现不同的测试哲学
- 结构化过程: deliberation → validation → self-refinement
- 执行接地:将抽象推理接地到可执行证据
- 七年基准评估:在7个不同基准上验证
关键结果:
- 代码修复从35.23%提升到69.32%
- 跨模型一致改进
- 准确性显著增强
五、对比分析与分类体系
5.1 工具分类矩阵
| 类别 | 工具 | 核心功能 | 适用场景 | 开源 | 活跃度 |
|---|---|---|---|---|---|
| Agent测试生成 | TestZeus Hercules | Gherkin→E2E测试 | Web/API测试 | ✅ | 高 |
| Autospec | URL→Playwright | Web E2E | ✅ | 中 | |
| AI QA Framework | URL→全面测试 | Web/安全 | ✅ | 低 | |
| LLM评估 | Giskard | LLM/Agent评估 | 通用 | ✅ | 高 |
| Vera | 混合评估 | AI功能 | ✅ | 低 | |
| PyAI-Slayer | 聊天机器人测试 | LLM应用 | ✅ | 低 | |
| 移动测试 | Maestro | YAML E2E | 移动E2E | ✅ | 高 |
| Appium | WebDriver | 跨平台移动 | ✅ | 高 | |
| Kaspresso | Android增强 | Android | ✅ | 中 | |
| Ultron | Android简化 | Android | ✅ | 低 | |
| 学术研究 | TestForge | 单元测试生成 | 代码测试 | ✅ | 新 |
| DoomArena | 安全测试 | Agent安全 | ✅ | 新 | |
| FLARE | MAS测试 | 多Agent | ✅ | 新 | |
| SpecOps | GUI测试 | GUI Agent | ✅ | 新 |
5.2 技术特点对比
LLM测试 vs 传统测试
| 维度 | 传统测试 | AI Agent测试 |
|---|---|---|
| 确定性 | 确定性输出 | 概率性输出 |
| 评估标准 | 真值比对 | 语义判断 |
| 测试生成 | 手动/规则 | LLM生成 |
| 覆盖范围 | 显式规范 | 隐式规范提取 |
| 执行环境 | 模拟/隔离 | 真实环境 |
架构模式
┌─────────────────────────────────────────────────────────────┐
│ AI Agent测试架构 │
├─────────────────────────────────────────────────────────────┤
│ 1. 测试生成层 │
│ TestForge │ Autospec │ AI QA Framework │
│ ↓ │
│ 2. 执行层 │
│ ClawBird │ Playwright │ Selenium │ CDP │
│ ↓ │
│ 3. 评估层 │
│ Giskard │ Vera │ LLM-as-Judge │
│ ↓ │
│ 4. 报告层 │
│ Allure │ CSV │ 自定义 │
└─────────────────────────────────────────────────────────────┘
5.3 选型指南
选择建议:
- Web E2E测试:Maestro(移动优先)或Playwright(Web优先)
- AI/LLM测试:Giskard(生产)或TestForge(研究)
- Android测试:Kaspresso(功能全)或Ultron(简单)
- Agent安全测试:DoomArena
- 多Agent系统:FLARE
- 科学研究:SpecOps + Nexus组合
六、未来发展趋势
6.1 当前研究热点
- 混合评估范式:确定性检查 + LLM-as-Judge的结合成为主流11
- 自愈测试:AI自动修复测试选择器9
- 多Agent协作测试:Nexus的四专家面板模式27
- 安全评估: DoomArena代表的威胁建模驱动安全测试[^23]
- 覆盖引导模糊测试: FLARE在MAS中的应用23
6.2 未来方向
- 规范化基准:建立统一的Agent测试评估基准
- 实时监控:Agent运行时的持续测试
- 可解释性:测试失败原因的自动分析
- 自适应测试:根据环境变化自动调整
- 跨平台统一:打破Web/移动/桌面测试的边界
6.3 挑战与机遇
核心挑战:
- Agent行为的非确定性评估
- 测试预言的自动生成
- 安全与隐私的平衡
机遇:
- LLM成本的持续下降
- 开源生态的快速增长
- 研究与产业的紧密结合
七、结论
本文系统综述了AI Agent自动化测试领域的最新进展。从开源工具角度看,Giskard、Maestro、Playwright等构成了基础工具链,TestZeus Hercules、Autospec等AI原生工具代表了新的测试范式。从学术研究角度,TestForge、DoomArena、FLARE、SpecOps等论文展示了前沿研究方向。
AI Agent测试正处于快速发展期,学术界和产业界共同推动着该领域的进步。我们观察到几个明显趋势:(1)从确定性测试到混合评估,(2)从手动编写到LLM生成,(3)从单一Agent到多Agent协作,(4)从功能测试到安全评估。
随着LLM技术的持续发展和完善,AI Agent测试工具将变得更智能、更高效、更安全,为软件质量保证提供更强有力的支持。
参考文献
附录A:工具功能对比详表
| 工具 | 语言 | License | 依赖LLM | 浏览器支持 | 最后更新 |
|---|---|---|---|---|---|
| Giskard | Python | Apache-2.0 | 可选 | - | 2026-03 |
| Vera | Python | Apache-2.0 | 必需 | - | 2026-01 |
| TestZeus | Python | AGPL-3.0 | 必需 | Playwright | 2024-11 |
| Autospec | TypeScript | MIT | 必需 | Playwright | 2024-05 |
| AI QA | Python | MIT | 必需 | Playwright | 2026-02 |
| ClawBird | JavaScript | MIT | 可选 | CDP+Playwright | 2026-02 |
| Maestro | Kotlin | Apache-2.0 | 可选 | 自有 | 2026-03 |
| Kaspresso | Kotlin | Apache-2.0 | 可选 | Espresso | 2025-04 |
| Ultron | Kotlin | Apache-2.0 | 可选 | UiAutomator | 2025-10 |
| Appium | 多语言 | Apache-2.0 | 可选 | 多驱动 | 持续 |
-
Gartner. (2024). Gartner Predicts 2028: AI Agents Everywhere. Retrieved from https://www.gartner.com ↩︎
-
Google. (2026). Vera – AI Feature Testing Engine. GitHub: https://github.com/google/vera ↩︎
-
Microsoft Research. (2026). Agent-Pex: Automated Evaluation and Testing of AI Agents. https://www.microsoft.com/en-us/research/project/agent-pex-automated-evaluation-and-testing-of-ai-agents/ ↩︎
-
Boisvert, L., et al. (2025). DoomArena: A Framework for Testing AI Agents Against Evolving Security Threats. COLM 2025. arXiv:2504.14064 ↩︎
-
Giskard AI. (2026). Giskard: Open-Source Evaluation & Testing Library for LLM Agents. GitHub: https://github.com/Giskard-AI/giskard ↩︎
-
Huang, D., et al. (2025). Nexus: Execution-Grounded Multi-Agent Test Oracle Synthesis. arXiv:2510.26423 ↩︎
-
TestZeus AI. (2024). TestZeus Hercules: World’s First Open-Source Testing Agent. GitHub: https://github.com/test-zeus-ai/testzeus-hercules ↩︎
-
Blennerhassett, Z. (2024). Autospec: Open Source E2E Test Generation for Web Apps. GitHub: https://github.com/zachblume/autospec; Website: https://autospecai.com ↩︎
-
Kastner, B. (2026). AI QA Framework: Autonomous AI-Driven QA. GitHub: https://github.com/brentkastner/ai-qa-framework ↩︎ ↩︎
-
Giskard AI. (2022-2026). Giskard Open Source. GitHub: https://github.com/Giskard-AI/giskard (5,202 stars) ↩︎
-
Google. (2026). Vera. GitHub: https://github.com/google/vera ↩︎ ↩︎
-
Suneel. (2025). PyAI-Slayer: AI Testing Framework. GitHub: https://github.com/suneel944/PyAI-Slayer ↩︎
-
Agarwal, P. (2026). ClawBird: AI-Native Browser Automation. GitHub: https://github.com/premsagar4us/clawbird ↩︎
-
Creati.ai. (2025). ToolFuzz: Fuzz Testing Framework for AI Agent Tools. https://creati.ai/ai-tools/toolfuzz/ ↩︎
-
Sauce Labs. (2024). Appium: Open Source Automation Test Framework. GitHub: https://github.com/appium/appium ↩︎
-
Mobile Dev. (2022). Maestro: E2E Automation for Mobile and Web. GitHub: https://github.com/mobile-dev-inc/maestro (13,129 stars); Website: https://maestro.dev ↩︎
-
Kaspersky Lab. (2019). Kaspresso: Android UI Test Framework. GitHub: https://github.com/KasperskyLab/Kaspresso ↩︎
-
Open Tool. (2020). Ultron: Easiest Framework for Android & Compose. GitHub: https://github.com/open-tool/ultron ↩︎
-
Block. (2025). Trailblaze: AI-Driven UI Testing Framework. GitHub: https://github.com/block/trailblaze ↩︎
-
Drizz. (2026). Best Mobile Test Automation Tools (2026): 11 Tools Compared. https://www.drizz.dev/post/best-mobile-test-automation-tools ↩︎
-
Jain, K., & Le Goues, C. (2025). TestForge: Feedback-Driven, Agentic Test Suite Generation. COLM 2025. arXiv:2503.14713 ↩︎
-
Microsoft Research. (2026). Agent-Pex Project. https://www.microsoft.com/en-us/research/project/agent-pex-automated-evaluation-and-testing-of-ai-agents/ ↩︎
-
Hui, M., et al. (2026). FLARE: Agentic Coverage-Guided Fuzzing for LLM-Based Multi-Agent Systems. arXiv:2604.05289 ↩︎ ↩︎
-
Ahmed, S.Y., et al. (2026). SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments. arXiv:2603.10268 (2026) ↩︎
-
Gao, Y., et al. (2026). GUITester: Enabling GUI Agents for Exploratory Defect Discovery. arXiv:2601.04500 ↩︎
-
Ye, N., et al. (2025). AI Agents for Web Testing: A Case Study in the Wild. Columbia University. arXiv:2509.05197 ↩︎
更多推荐





所有评论(0)