logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI测试智能体3】别再只会点点了!如何测试“不可见“的AI能力?

使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试智能体3】别再只会点点了!如何测试“不可见“的AI能力?

使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试功能6】功能测试的自动化率:哪些该自动、哪些必须人工——AI测试人机协作决策指南

文章摘要:本文探讨了在AI产品测试中过度追求"自动化率"作为唯一KPI的潜在风险。作者指出,单纯追求自动化百分比可能导致团队聚焦于易脚本化的测试项,而忽视用户体验等关键维度。文章提出了分层测试策略:1)硬性标准(如格式校验)应完全自动化;2)半自动化处理可量化但存在灰度的测试项;3)主观判断类测试需保留人工审核。通过实战案例展示了如何平衡自动化与人工测试,强调建立校准机制和探索

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试数据及模型质量2】换一批测试数据,模型得分差20%——AI评测翻车的根子,90%在数据质量

数据质量评估的六个关键维度:准确性(正确性)、完整性(必填字段缺失率)、一致性(数据自洽程度)、时效性(数据新鲜度)、代表性(样本分布匹配度)和合规性(数据合法性)。文章通过金融AI案例说明各维度测量方法及权重,指出代表性最难测量(需KL散度计算),合规性具有一票否决权。提供Python代码实现六维度量化评估,强调应关注最低维度分数而非综合评分。修复优先级建议:合规性>准确性>一致性>代表性>完整

文章图片
#人工智能#pytest#测试用例 +4
【AI测试智能体2】两个智能体总分都是75分,为什么一个能做数据分析,一个只能做客服?

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

文章图片
#人工智能#数据库#开发语言 +4
【AI测试智能体2】两个智能体总分都是75分,为什么一个能做数据分析,一个只能做客服?

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

文章图片
#人工智能#数据库#开发语言 +4
【AI测试智能体】为什么传统测试方法对智能体失效?

文章摘要: 本文探讨了传统软件测试方法在评估AI智能体时面临的挑战。作者指出,传统测试基于三个假设(确定性输出、精确预期、缺陷复现)在智能体场景下全部失效。通过实验数据展示,同一任务在不同temperature参数下会产生不同成功率(67%-100%)和输出一致性(50%-67%)。文章提出12个关键改造方向,包括从断言判断转向统计分布分析、固定LLM变量、建立评分机制等,并给出不同测试阶段的温度

文章图片
#人工智能#开发语言#python +4
【AI测试功能5】AI功能测试的“黄金数据集“构建指南:从0到1搭建质量评估体系

《AI功能测试的黄金数据集构建指南》摘要 本文系统介绍了构建黄金数据集的方法论,重点解决AI测试中质量评估标准缺失的问题。通过实际案例说明,传统测试用例与黄金数据集的核心差异在于前者验证功能正确性,后者定义质量标尺。文章提出五步构建法:用例收集、人工标注、基线测试、自动化集成和定期维护,并推荐150-500条精选用例的合理规模。关键点包括: 黄金数据集应包含多维评判标准(准确性、相关性等)而非单一

文章图片
#服务器#运维#python +4
【免费福利】AI测试:测试技能包进阶:造数、压测、视觉回归、CI 全流程串联

《AI测试用例生成系统的全面解析》 本文深入探讨了AI生成测试用例系统的核心功能与技术实现。系统通过多维度防护机制解决AI生成用例可能遗漏的问题,覆盖数据测试、状态测试、集成测试和非功能测试等场景,将用例覆盖率提升至85-90%。 系统主要优势包括: 30秒快速生成测试脚本,支持11种常见测试场景模板 采用稳定定位策略,减少UI改版导致的脚本失效 集成OpenAPI导入、环境变量管理、Allure

文章图片
#开发语言#人工智能#测试用例 +4
【免费福利】AI测试:别再手写pytest了:Markdown spec → 自动生成,30秒搞定API/UI/CI测试

测试老兵周周分享了一套高效自动化测试方案:通过Markdown文件+AI自动生成测试脚本,实现API、UI测试全流程自动化。该系统包含技能文档、本地脚本生成器和CI流水线三部分,支持5种测试类型,30秒即可生成可运行脚本。提供11个开箱即用的模板,并集成GitHub Actions实现代码提交后自动测试。方案结合AI辅助生成和本地模板展开两种方式,显著提升测试效率。作者还分享了完整的技能包,包含测

文章图片
#人工智能#pytest#ui +4
    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择