weixin_37899718 个人主页

@weixin_37899718

weixin_37899718

2026-04-09 09:04:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【AI测试智能体7】智能体评分怎么做？别再只用 LLM 当裁判了

文章摘要：本文提出了一种三层评分机制，用于评估Agent输出的质量。第一层是规则评分，基于明确条件判断，覆盖100%用例但只能评估结构化指标；第二层是LLM评分，用于评估模糊质量指标，通过3次评分取中位数减少波动；第三层是人工抽检，处理分歧大的用例。三种方式组合使用：规则打底、LLM补充、人工兜底，确保评分稳定可靠。文章还提供了具体实现代码，包括规则评分细则、LLM评分Prompt模板和人工抽检流

#人工智能 #python #功能测试 +4

【AI测试智能体8】智能体崩了？别怪模型，先看这 12 种规划失败模式（附评分代码）

文章摘要：本文探讨了智能体任务规划质量的量化评估方法，提出从四个维度进行评分：子任务数量合理性（20分）、依赖关系准确性（30分）、工具选择正确率（25分）和执行完成率（25分）。通过分析50个任务案例发现，规划质量优秀的任务执行完成率达94%，而不合格任务仅52%。研究揭示了12种常见失败模式，包括子任务数量失控、依赖环、工具选择错误等，并提供了对应的检测方法和扣分规则。文章强调合理的任务拆解（

#java #python #单元测试 +2

【AI测试智能体6】智能体不能只跑不管：我给 Agent 加了 6 个“检查点“

智能体可测性设计：从黑盒到透明化智能体常因缺乏日志和状态追踪导致失败难以排查。本文提出四个维度的可测性改造方案：日志标准化结构化JSON日志，包含trace_id、阶段标记、执行状态等关键字段，实现机器可读与问题追溯。状态暴露通过get_state接口实时获取智能体进度（如已完成/失败子任务、当前阶段），支持断点调试。确定性控制固定temperature（≤0.3）、种子和模型版本，

#数据库 #人工智能 #功能测试 +3

【skills】接口自动化，测试同学最常卡住的 6 个坑（以及我们怎么填）

摘要：本文针对接口测试中的常见痛点提出解决方案：1)通过H/E/X/P/S分层用例解决接口测试优先级问题；2)采用spec中间层统一脚本风格，避免AI生成代码混乱；3)使用scenarios[]处理多步流程变量传递；4)自动生成缺陷报告模板；5)统一环境变量管理；6)保持功能用例与自动化编号一致。核心思路是通过规范化的中间层(spec)统一测试流程，减少重复劳动，提升团队协作效率。作者强调该方案不

#自动化 #人工智能 #java +4

【skills】接口自动化，测试同学最常卡住的 6 个坑（以及我们怎么填）

#自动化 #人工智能 #java +4

【AI测试智能体5】测试环境不隔离，你的 Agent 评测一文不值

测试环境不隔离，评测结果不可比。隔离分三个层次：进程隔离、数据隔离、网络隔离。Mock 是网络隔离的核心。与默认表一致时，search（经营/报告双场景）web_fetch、LLM 调用等最易引入外部不确定性的环节应优先 Mock，覆盖成功、失败、超时三种场景。状态重置是数据隔离的核心。每次测试前重置 8 项内容，memory 里不能残留上一次查询的客户数据，避免用例之间状态互相污染。下一篇讲可测

#人工智能 #网络 #自动化 +4

【Appium 系列】第18节-重试与容错 — 移动端测试的稳定性保障

本文介绍了移动端自动化测试中应对偶发性失败的解决方案。通过分析网络波动、元素加载慢等常见问题，提出了使用重试机制来提高测试稳定性。文章详细讲解了retry_on_failure装饰器和RetryHelper工具类的使用方法，包括参数配置和执行流程。同时指出了重试策略选择的建议，并总结了6个常见问题及解决方案。最后强调重试应作为兜底方案，优先考虑显式等待等其他方法，避免滥用导致测试效率下降。

#ui #人工智能 #功能测试 +3

【Appium 系列】第16节-WebView-H5上下文切换 — 混合应用的自动化难点

本文介绍了混合应用(Hybrid App)测试中的WebView上下文切换技术。主要内容包括：1. 混合应用特点：原生壳+H5页面混合使用；2. 核心概念：NATIVE_APP和WEBVIEW两种上下文环境；3. 关键方法：switch_to_webview/switch_to_native切换、wait_for_webview等待加载、execute_js_in_webview执行JS操作；4.

#自动化 #运维 #人工智能 +3

【Appium 系列】第14节-断言与验证 — Validator 的设计

本文介绍了一个自动化测试验证框架Validator的核心功能和使用方法。Validator通过规则引擎将验证逻辑抽象化，支持API响应和UI元素的多种验证方式。主要功能包括：1) validate_api_response验证API响应状态码、内容包含和字段级规则；2) validate_ui_element验证UI元素的存在性、文本和属性；3) parse_expected解析灵活格式的预期结果

#人工智能 #python #单元测试 +3

【AI测试智能体实战 2】别再拿网上题库测 Agent 了：我是怎么建 190 条真实测试集的

本文探讨如何构建真实有效的Agent测试集，避免使用脱离实际的网上题库。作者指出，许多团队因测试集不真实导致上线失败，强调测试集应基于业务场景设计而非简单复制。文章提出三条数据来源路径：真实用户日志（最准）、业务场景还原（推荐）、合成生成（需人工审核）。以AgentBench的190条用例为例，详细说明如何按电商数据分析场景设计测试用例，并强调每条用例必须包含期望输出。最后提出5项质量检查标准：场

#服务器 #运维 #人工智能 +4

共 74 条

请选择