logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI测试的质量评估指标

正确性(Correctness)指标计算方式目标值事实准确率正确回答数 / 总问答数(基于权威参考答案)≥95%逻辑自洽率无矛盾回答数 / 多跳推理题总数≥90%代码通过率HumanEval 中 pass@1 得分≥40%(基线)数学解对率GSM8K 正确率≥70%🔧评估工具自动:LLM-as-a-Judge(用 GPT-4 打分)半自动:BERTScore + 人工复核人工:专家标注(高风险场

#测试工具
LangGraph 自动生成测试用例

接口元信息(解析节点输出)api_name: str = Field(description="接口名称")method: str = Field(description="请求方法 GET/POST/PUT/DELETE")url: str = Field(description="接口路径(含基础URL)")params: Optional[Dict] = Field(default={},

#测试用例
大模型赋能软件测试

传统痛点:报告数据堆砌,缺乏洞察。大模型能力自动生成自然语言摘要:“本次回归发现3个P0缺陷,集中在支付模块,建议优先修复”;对比多轮测试趋势,预警质量风险;输出给非技术人员的“业务影响说明”。✅ 工具示例:Allure + LLM 插件、Jenkins AI Reporter、自研 LangChain 报告引擎大模型正在重构软件测试的“生产力内核”——从“人驱动工具”变为“AI理解意图、自主执行

#人工智能
browser-use与Playwright-mcp的区别

工具核心优势主要局限性1. 无代码门槛,非技术人员可直接使用;2. 实时执行,无需学习脚本语法;3. 语义定位元素,对简单页面变化适应性强1. 复杂逻辑(条件、循环)支持弱;2. 无法工程化集成(如CI/CD);3. 问题排查困难,依赖指令描述精度1. 支持复杂流程和跨浏览器测试;2. 生成的脚本可维护、复用、集成到工程化流程;3. 问题排查便捷,可人工优化脚本1. 需技术人员参与(理解代码);2

#人工智能
Agent 测试用例自动生成

Agent保障测试用例质量的核心是“将资深测试工程师的质量判断逻辑转化为可执行的机制”,通过全流程嵌入校验规则、结合技术工具(大模型微调、知识图谱、模拟执行)、依赖闭环反馈,最终实现“生成即可用”的高质量用例。相比人工设计,Agent的优势在于:覆盖更全面(无主观遗漏)、标准更统一(避免个人经验差异)、迭代更高效(基于数据快速优化),可将用例质量问题(如漏测、错误)减少70%以上。

#测试工具
大模型测试脚本

模型的完整性能测试脚本(Python),涵盖:✅ 推理延迟 & 吞吐量✅ Token 生成速度✅ 显存占用监控✅ 多轮对话 & 长文本支持✅ 自动化质量评估(可选)✅ 压力并发测试(使用 Locust)

#人工智能
大模型APP测试方法

大模型APP测试需兼顾和两大维度,采用""的渐进式策略。

#测试工具
Dify工作流与知识库结合

通过将Dify工作流与知识库结合,我们构建了一个将测试从"手工业"升级为"现代工业"的系统。

#测试工具
AI 大模型进行 CodeReview

基于需求中明确的前提,AI大模型需聚焦等核心维度,通过实现精准评审。

#人工智能
    共 75 条
  • 1
  • 2
  • 3
  • 8
  • 请选择