
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选

使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选

文章摘要:本文探讨了在AI产品测试中过度追求"自动化率"作为唯一KPI的潜在风险。作者指出,单纯追求自动化百分比可能导致团队聚焦于易脚本化的测试项,而忽视用户体验等关键维度。文章提出了分层测试策略:1)硬性标准(如格式校验)应完全自动化;2)半自动化处理可量化但存在灰度的测试项;3)主观判断类测试需保留人工审核。通过实战案例展示了如何平衡自动化与人工测试,强调建立校准机制和探索

数据质量评估的六个关键维度:准确性(正确性)、完整性(必填字段缺失率)、一致性(数据自洽程度)、时效性(数据新鲜度)、代表性(样本分布匹配度)和合规性(数据合法性)。文章通过金融AI案例说明各维度测量方法及权重,指出代表性最难测量(需KL散度计算),合规性具有一票否决权。提供Python代码实现六维度量化评估,强调应关注最低维度分数而非综合评分。修复优先级建议:合规性>准确性>一致性>代表性>完整

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

文章摘要: 本文探讨了传统软件测试方法在评估AI智能体时面临的挑战。作者指出,传统测试基于三个假设(确定性输出、精确预期、缺陷复现)在智能体场景下全部失效。通过实验数据展示,同一任务在不同temperature参数下会产生不同成功率(67%-100%)和输出一致性(50%-67%)。文章提出12个关键改造方向,包括从断言判断转向统计分布分析、固定LLM变量、建立评分机制等,并给出不同测试阶段的温度

《AI功能测试的黄金数据集构建指南》摘要 本文系统介绍了构建黄金数据集的方法论,重点解决AI测试中质量评估标准缺失的问题。通过实际案例说明,传统测试用例与黄金数据集的核心差异在于前者验证功能正确性,后者定义质量标尺。文章提出五步构建法:用例收集、人工标注、基线测试、自动化集成和定期维护,并推荐150-500条精选用例的合理规模。关键点包括: 黄金数据集应包含多维评判标准(准确性、相关性等)而非单一

《AI测试用例生成系统的全面解析》 本文深入探讨了AI生成测试用例系统的核心功能与技术实现。系统通过多维度防护机制解决AI生成用例可能遗漏的问题,覆盖数据测试、状态测试、集成测试和非功能测试等场景,将用例覆盖率提升至85-90%。 系统主要优势包括: 30秒快速生成测试脚本,支持11种常见测试场景模板 采用稳定定位策略,减少UI改版导致的脚本失效 集成OpenAPI导入、环境变量管理、Allure

测试老兵周周分享了一套高效自动化测试方案:通过Markdown文件+AI自动生成测试脚本,实现API、UI测试全流程自动化。该系统包含技能文档、本地脚本生成器和CI流水线三部分,支持5种测试类型,30秒即可生成可运行脚本。提供11个开箱即用的模板,并集成GitHub Actions实现代码提交后自动测试。方案结合AI辅助生成和本地模板展开两种方式,显著提升测试效率。作者还分享了完整的技能包,包含测








