logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI测试智能体(agent)实战:我花了一个周末搭的智能体,到底能干什么?

本文介绍了一个电商数据分析智能体的功能与应用场景。该智能体能够将自然语言任务拆解为子任务,通过6种工具(数据查询、计算、代码执行等)完成规划-执行-反思的完整链路,最终输出业务报告。作者明确了其适用场景(数据分析、多轮对话等)和局限性(不支持复杂编排、持久化存储等),并强调该项目的核心价值在于:1)作为可测试的智能体样本;2)教学用的最小实现范例(1466行代码);3)可适配不同场景的通用框架。文

文章图片
#数据库#人工智能#python +4
AI测试智能体(agent)实战:规划→执行→反思:14年测试教你从零手写一个能跑的Agent(附源码自取)

本文分享了从零搭建AI Agent的实战经验。作者通过14年测试经验指出:Agent本质是控制流(规划→执行→反思),而非框架,建议先用Python手写理解核心逻辑。文章详解了Agent四步流程:1)任务拆解与兜底处理;2)拓扑排序执行;3)反思检查机制;4)结果汇总。特别强调三个关键点:业务场景只需改背景和工具列表、必须添加JSON解析兜底、反思机制能显著提升输出质量。文中还揭露了eval()安

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试智能体3】别再只会点点了!如何测试“不可见“的AI能力?

使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试智能体3】别再只会点点了!如何测试“不可见“的AI能力?

使用 Pydantic V2 定义三层数据结构。Pydantic 比 dataclass 多了自动类型校验、JSON 序列化、嵌套验证等能力,适合处理 LLM 返回的不稳定 JSON。"""需求拆解与测试矩阵生成将模糊需求拆解为:1. 能力域(capability_domains)2. 能力项(capability_items)3. 能力点(test_points)并生成需求-维度测试矩阵。技术选

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试功能6】功能测试的自动化率:哪些该自动、哪些必须人工——AI测试人机协作决策指南

文章摘要:本文探讨了在AI产品测试中过度追求"自动化率"作为唯一KPI的潜在风险。作者指出,单纯追求自动化百分比可能导致团队聚焦于易脚本化的测试项,而忽视用户体验等关键维度。文章提出了分层测试策略:1)硬性标准(如格式校验)应完全自动化;2)半自动化处理可量化但存在灰度的测试项;3)主观判断类测试需保留人工审核。通过实战案例展示了如何平衡自动化与人工测试,强调建立校准机制和探索

文章图片
#人工智能#开发语言#功能测试 +4
【AI测试数据及模型质量2】换一批测试数据,模型得分差20%——AI评测翻车的根子,90%在数据质量

数据质量评估的六个关键维度:准确性(正确性)、完整性(必填字段缺失率)、一致性(数据自洽程度)、时效性(数据新鲜度)、代表性(样本分布匹配度)和合规性(数据合法性)。文章通过金融AI案例说明各维度测量方法及权重,指出代表性最难测量(需KL散度计算),合规性具有一票否决权。提供Python代码实现六维度量化评估,强调应关注最低维度分数而非综合评分。修复优先级建议:合规性>准确性>一致性>代表性>完整

文章图片
#人工智能#pytest#测试用例 +4
【AI测试智能体2】两个智能体总分都是75分,为什么一个能做数据分析,一个只能做客服?

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

文章图片
#人工智能#数据库#开发语言 +4
【AI测试智能体2】两个智能体总分都是75分,为什么一个能做数据分析,一个只能做客服?

本文提出智能体能力的6维评估模型(任务规划、工具使用、多轮对话、代码能力、知识问答、安全性),强调单一总分无决策价值。不同业务场景需设计差异化权重,如数据分析助手侧重任务规划和代码能力,客服智能体则重视多轮对话和安全性。模型引入短板效应机制(任一维度低于40分总分打八折),防止关键能力缺陷被总分掩盖。通过场景化权重配置和短板检测,可更精准评估智能体与业务需求的匹配度,避免选型失误。

文章图片
#人工智能#数据库#开发语言 +4
【AI测试智能体】为什么传统测试方法对智能体失效?

文章摘要: 本文探讨了传统软件测试方法在评估AI智能体时面临的挑战。作者指出,传统测试基于三个假设(确定性输出、精确预期、缺陷复现)在智能体场景下全部失效。通过实验数据展示,同一任务在不同temperature参数下会产生不同成功率(67%-100%)和输出一致性(50%-67%)。文章提出12个关键改造方向,包括从断言判断转向统计分布分析、固定LLM变量、建立评分机制等,并给出不同测试阶段的温度

文章图片
#人工智能#开发语言#python +4
【AI测试功能5】AI功能测试的“黄金数据集“构建指南:从0到1搭建质量评估体系

《AI功能测试的黄金数据集构建指南》摘要 本文系统介绍了构建黄金数据集的方法论,重点解决AI测试中质量评估标准缺失的问题。通过实际案例说明,传统测试用例与黄金数据集的核心差异在于前者验证功能正确性,后者定义质量标尺。文章提出五步构建法:用例收集、人工标注、基线测试、自动化集成和定期维护,并推荐150-500条精选用例的合理规模。关键点包括: 黄金数据集应包含多维评判标准(准确性、相关性等)而非单一

文章图片
#服务器#运维#python +4
    共 57 条
  • 1
  • 2
  • 3
  • 6
  • 请选择