
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如果你现在正处在“想转 AI 测试,但又不知道从哪里开始”的阶段,我最想说的是:不要先问自己“我还缺多少”,先问自己“我现在能先拿哪个场景练起来”。先测一个场景先写一版样例先定一版标准先出一轮结论再慢慢把能力补齐这条路其实并不神秘。它更像是测试工程师在智能系统时代的一次自然升级。
先不用把概念搞得太学术。先找资料,再让模型回答。用户提问↓系统理解问题↓从知识库中检索相关内容↓把相关内容连同问题一起给大模型↓大模型基于检索结果生成答案↓返回答案和引用来源普通聊天更依赖模型自身知识RAG 更强调“基于外部知识库回答”文档解析切片检索排序生成引用权限一旦链路中某个环节出问题,最终答案就会出问题。很多团队做知识库问答测试时,最容易停留在一个表面问题:它答得像不像对的?它到底是从哪答
A) 版本化的标准测试数据集,模型更新时跑同一组数据对比指标变化B) 训练模型用的数据集C) 一组固定的单元测试D) 没听过。
Claude Cowork 像办公代理,Codex 像研发代理,OpenClaw 像个人助理平台,Hermes 像会成长的 Agent 系统。我现在最想让 AI 替我完成哪类工作?这个问题答对了,工具基本就选对了一半。
能不能生成看起来像不像用例它真的覆盖关键场景了吗?它有没有误导测试设计?它的输出能不能稳定复用?它需要人工改多少?它是提效工具,还是可交付资产?这几个问题,才真正决定这个功能有没有业务价值。
网络是否可达路径是否正确鉴权是否通过是否支持 Anthropic Messages API非流式是否有真实内容流式 SSE 是否正常system prompt 是否兼容模型上下文窗口是否足够当 Claude 卡在时,不要只在前端反复点击Try again。先用脚本把 Gateway 打穿一遍,基本就能判断问题是在前端、网关、模型路由,还是上下文窗口。是 Claude 第三方 Gateway 接入的
安装 Claude 桌面版开启 Developer Mode配置 Third-Party Inference重启后通过 Gateway 直接进入 Cowork / Code把 Claude 桌面端切换到本地第三方推理模式,从而绕过默认账号登录流程。“让 Claude 桌面端变成一个第三方模型客户端。不需要先登录官方账号,配置完成后即可直接进入,对于测试、开发、体验型用户来说非常高效。1. 安装 C
告诉模型“你是谁”。你是一名资深测试工程师。你是一名企业知识库问答助手。角色定义的作用,是帮助模型聚焦输出视角。一个 Prompt 能跑通,不代表它能上线;只有稳定可用,才有业务价值。现在的 Prompt 有测试用例吗?有固定回归集吗?改版之后会回归吗?能区分“能用”和“稳定可用”吗?这些问题,往往决定了 AI 功能是“演示效果不错”,还是“真正可交付”。
最近很多团队都在上线 AI 功能,但测试阶段很快会遇到一个核心问题:AI 每次回答都不完全一样,这东西到底该怎么测?传统测试更关注功能是否按规则执行,AI 测试更关注输出是否可信、稳定、可控,是否真的能支撑业务上线。本文从测试工程师视角,拆解 AI 测试和传统测试的本质差异,梳理 AI 测试的核心质量维度、常见问题类型,以及测试思维该如何切换,适合作为 AI 测试系列的第一篇入门文章。AI功能能回
AI 测试不是简单地测试一个聊天窗口,也不是只看模型能不能回答问题。更准确地说,AI 测试是对 AI 系统的能力、稳定性、准确性、安全性、可控性和业务价值进行验证。传统测试更关注:功能是否可用。AI 测试更关注:AI 的输出是否可信、是否稳定、是否可控、是否能真正解决业务问题。例如,一个“AI 总结文档”功能,看起来只是用户上传文档,AI 输出总结。测试维度需要验证的问题准确性总结内容是否符合原文







