logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI测试智能体7】智能体评分怎么做?别再只用 LLM 当裁判了

文章摘要:本文提出了一种三层评分机制,用于评估Agent输出的质量。第一层是规则评分,基于明确条件判断,覆盖100%用例但只能评估结构化指标;第二层是LLM评分,用于评估模糊质量指标,通过3次评分取中位数减少波动;第三层是人工抽检,处理分歧大的用例。三种方式组合使用:规则打底、LLM补充、人工兜底,确保评分稳定可靠。文章还提供了具体实现代码,包括规则评分细则、LLM评分Prompt模板和人工抽检流

文章图片
#人工智能#python#功能测试 +4
【AI测试智能体8】智能体崩了?别怪模型,先看这 12 种规划失败模式(附评分代码)

文章摘要:本文探讨了智能体任务规划质量的量化评估方法,提出从四个维度进行评分:子任务数量合理性(20分)、依赖关系准确性(30分)、工具选择正确率(25分)和执行完成率(25分)。通过分析50个任务案例发现,规划质量优秀的任务执行完成率达94%,而不合格任务仅52%。研究揭示了12种常见失败模式,包括子任务数量失控、依赖环、工具选择错误等,并提供了对应的检测方法和扣分规则。文章强调合理的任务拆解(

文章图片
#java#python#单元测试 +2
【AI测试智能体6】智能体不能只跑不管:我给 Agent 加了 6 个“检查点“

智能体可测性设计:从黑盒到透明化 智能体常因缺乏日志和状态追踪导致失败难以排查。本文提出四个维度的可测性改造方案: 日志标准化 结构化JSON日志,包含trace_id、阶段标记、执行状态等关键字段,实现机器可读与问题追溯。 状态暴露 通过get_state接口实时获取智能体进度(如已完成/失败子任务、当前阶段),支持断点调试。 确定性控制 固定temperature(≤0.3)、种子和模型版本,

文章图片
#数据库#人工智能#功能测试 +3
【skills】接口自动化,测试同学最常卡住的 6 个坑(以及我们怎么填)

摘要:本文针对接口测试中的常见痛点提出解决方案:1)通过H/E/X/P/S分层用例解决接口测试优先级问题;2)采用spec中间层统一脚本风格,避免AI生成代码混乱;3)使用scenarios[]处理多步流程变量传递;4)自动生成缺陷报告模板;5)统一环境变量管理;6)保持功能用例与自动化编号一致。核心思路是通过规范化的中间层(spec)统一测试流程,减少重复劳动,提升团队协作效率。作者强调该方案不

文章图片
#自动化#人工智能#java +4
【skills】接口自动化,测试同学最常卡住的 6 个坑(以及我们怎么填)

摘要:本文针对接口测试中的常见痛点提出解决方案:1)通过H/E/X/P/S分层用例解决接口测试优先级问题;2)采用spec中间层统一脚本风格,避免AI生成代码混乱;3)使用scenarios[]处理多步流程变量传递;4)自动生成缺陷报告模板;5)统一环境变量管理;6)保持功能用例与自动化编号一致。核心思路是通过规范化的中间层(spec)统一测试流程,减少重复劳动,提升团队协作效率。作者强调该方案不

文章图片
#自动化#人工智能#java +4
【AI测试智能体5】测试环境不隔离,你的 Agent 评测一文不值

测试环境不隔离,评测结果不可比。隔离分三个层次:进程隔离、数据隔离、网络隔离。Mock 是网络隔离的核心。与默认表一致时,search(经营/报告双场景)web_fetch、LLM 调用等最易引入外部不确定性的环节应优先 Mock,覆盖成功、失败、超时三种场景。状态重置是数据隔离的核心。每次测试前重置 8 项内容,memory 里不能残留上一次查询的客户数据,避免用例之间状态互相污染。下一篇讲可测

文章图片
#人工智能#网络#自动化 +4
【Appium 系列】第18节-重试与容错 — 移动端测试的稳定性保障

本文介绍了移动端自动化测试中应对偶发性失败的解决方案。通过分析网络波动、元素加载慢等常见问题,提出了使用重试机制来提高测试稳定性。文章详细讲解了retry_on_failure装饰器和RetryHelper工具类的使用方法,包括参数配置和执行流程。同时指出了重试策略选择的建议,并总结了6个常见问题及解决方案。最后强调重试应作为兜底方案,优先考虑显式等待等其他方法,避免滥用导致测试效率下降。

文章图片
#ui#人工智能#功能测试 +3
【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点

本文介绍了混合应用(Hybrid App)测试中的WebView上下文切换技术。主要内容包括:1. 混合应用特点:原生壳+H5页面混合使用;2. 核心概念:NATIVE_APP和WEBVIEW两种上下文环境;3. 关键方法:switch_to_webview/switch_to_native切换、wait_for_webview等待加载、execute_js_in_webview执行JS操作;4.

文章图片
#自动化#运维#人工智能 +3
【Appium 系列】第14节-断言与验证 — Validator 的设计

本文介绍了一个自动化测试验证框架Validator的核心功能和使用方法。Validator通过规则引擎将验证逻辑抽象化,支持API响应和UI元素的多种验证方式。主要功能包括:1) validate_api_response验证API响应状态码、内容包含和字段级规则;2) validate_ui_element验证UI元素的存在性、文本和属性;3) parse_expected解析灵活格式的预期结果

文章图片
#人工智能#python#单元测试 +3
【AI测试智能体实战 2】别再拿网上题库测 Agent 了:我是怎么建 190 条真实测试集的

本文探讨如何构建真实有效的Agent测试集,避免使用脱离实际的网上题库。作者指出,许多团队因测试集不真实导致上线失败,强调测试集应基于业务场景设计而非简单复制。文章提出三条数据来源路径:真实用户日志(最准)、业务场景还原(推荐)、合成生成(需人工审核)。以AgentBench的190条用例为例,详细说明如何按电商数据分析场景设计测试用例,并强调每条用例必须包含期望输出。最后提出5项质量检查标准:场

文章图片
#服务器#运维#人工智能 +4
    共 74 条
  • 1
  • 2
  • 3
  • 8
  • 请选择