AI测试、大模型测试(四)AI测试分类&AI测试岗位分工
说起AI测试可能过于模糊,下面来看看AI测试的分类。AI Agent是 “以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统。比如,AI生成测试用例、AI执行测试(接口测试、WEB测试、APP测试)、AI执行单元测试、AI执行安全测试、AI项目全流程管控等等。1.1 按测试类型分类: 分为功能测试、性能测试、安全测试、对抗测试、兼容性测试
目录
一、AI测试分类
说起AI测试可能过于模糊,下面来看看AI测试的分类。常见的分类方式包括按测试类型、测试对象、测试目标或AI应用场景划分。
1.1 按测试类型分类: 分为功能测试、性能测试、安全测试、对抗测试、兼容性测试等等等类别
- 功能基本任务测试:检查模型在核心任务上的表现,如文本生成、翻译、问答等,使用标准数据集(如GLUE、SQuAD)验证准确率。
- 性能测试、安全测试、对抗测试、兼容性测试
- 可靠性测试:确保AI系统在各种条件下稳定运行,例如长文本处理或空输入提交时的容错能力。
- 鲁棒性测试:检验模型对噪声、对抗样本或边缘案例的适应性,如多语言混合输入中的术语处理。
- 可解释性测试:评估AI决策过程的透明度,例如通过可视化工具分析模型推理路径
- 零样本/小样本学习测试:测试模型在未训练任务上的表现,如用少量示例让其完成新任务
- 跨领域适应性测试:检查模型在医疗、法律等垂直领域的表现,对比通用领域效果。
- 长文本连贯性测试:测试模型在长对话或文档中的上下文保持能力,如生成连贯的故事或回答依赖历史的问题。
- 多模态支持测试:测试模型处理文本、图像、语音等多模态输入的能力(如适用)。
- 文本对抗样本测试:使用TextFooler等工具生成对抗文本,测试模型鲁棒性,如将“好”替换为“好”+特殊Unicode字符
参考: https://cp.baidu.com/landing/tscp_doc/5afa52664bc3dc2eda499bb5f67c46a9
1.2 按测试对象分类:模型层测试、应用层测试
- 模型层测试:聚焦于算法本身,例如分类模型的精确率、召回率、F1分数或AUC-ROC曲线,用于评估判别任务如目标检测或图像分割的准确性。注: 测试集数据可以测试人员自己收集。或者公司的数据标注人员整理提供、爬虫爬取。
- 应用层测试:关注AI在具体应用中的表现,如自动驾驶中的时间理解能力,涉及动作识别、持续时间分析等任务;如 广告推荐等等。 这需要在真实业务场景中评估AI结果对业务场景的适配程度。
1.3 按AI应用场景分类
- 自动驾驶AI测试:强调时序理解能力,如基于视频片段的动作识别和事件关系分析。 测试需覆盖时间尺度变化、自车视角推断等挑战。
- 自然语言处理测试:侧重于文本生成、多轮对话和事实核查,使用指标如逻辑一致性或主题连贯性。
- 计算机视觉测试:针对图像分类、分割等任务,采用Dice系数或IoU(交并比)等指标衡量分割精度。
- 设计自动化测试框架:利用机器学习自动生成测试用例、优化执行策略,提升覆盖率和效率。
注: 使用AI模型来测试AI模型。
- 基准测试:通过标准化数据集(如TAD基准)全面评估模型性能,涵盖多种任务类型‘
注, 目前最广泛的AI的四种测试类型:
- 机器学习项目的测试
- 推荐系统项目的测试
- 图像识别项目的测试
- 自然语言处理项目的测试
二、AI测试岗位分工
1、AI测试开发岗 :主要利用AI技术为公司赋能,提示测试效率、测试质量。(用AI赋能测试)
要求技能:具备AI测试平台、AI测试工具开发能力
比如,AI生成测试用例、AI执行测试(接口测试、WEB测试、APP测试)、AI执行单元测试、AI执行安全测试、AI项目全流程管控等等
比如,熟悉AI评测平台的架构设计、功能范围
比如:开发了一个AI Agent用于测试领域:
- AI Agent能够根据软件的实时变化,自动生成、优化和执行测试用例,减少了人工干预。
- 当软件功能发生变化时,AI Agent可以自动调整测试用例和测试路径,确保测试覆盖面更加全面。
2、 AI模型测试岗(或叫算法测试):对AI模型进行质量保障,本质上介于算法和测试之间。侧重于AI大模型算法效果类测试。
主要职责:数据质量测试、模型效果评估、模型专项测试等(注:比如在推荐/广告系统中测试)
要求技能:要求会深度学习、会主流Pytroch框架
加分项: 熟悉主流AI框架(TensorFlow, PyTorch)及测试工具链;行业评测标准(如,MMLU,HEIM,TextVQA等),大模型算法评估;
3、AI产品(Agent)测试: 类似传统互联网中的功能开发测试岗。侧重于AI产品应用层测试。
要求技能:开发AI产品测试自校验框架能力。
什么是AI Agent(俗称智能体)
- 百度百科定义:
AI Agent是具备自主决策与工具调用能力的智能代理系统,通过大语言模型理解需求、规划目标并执行任务,其核心特征为主动思考与跨工具操作能力,区别于依赖预设指令的传统人工智能系统。
- 科技定义:
AI Agent是 “以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统。
AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于prompt 实现的,用户prompt 是否清晰明确会影响大模型回答的效果。而AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。
三、AI产品分类
1、人工智能的业务类产品:AI 就是为了某个特定的业务服务的,可以做广告或者内容推荐的模型、人脸识别、语音识别、对话问答机器人等等。 测试人员通常的测试对象就是这个模型,或者是搭载这个模型的上层业务,比较少会涉及到其他的东西,行业中做这种测试的人数占了大多数。
2、人工智能的平台类产品:为了降低 AI 的投入成本和使用成本,通过一个平台产品让用户更简单(比如UI页面)进行数据的ETL, 特征的工程,模型的训练,上线,自学习等等。 人工智能的平台类产品测试是更有难度的,它不是只对着一个模型,而是涉及到了 AI 的整个生命周期。
注: 无论是上述哪类产品的测试, 都需要大数据支持。 某种意义上讲,AI产品测试也是大数据测试。
注: 要构造不同数据量级、 不同分布(倾斜程度)、不同的数据分片和文件数量、不同特征规模等等数据。 这里回到大数据构造场景了, 大数据ETL工具如 spark + clickHouse表(CH表) + hive表+HDFS文件等等
参考
https://baijiahao.baidu.com/s?id=1795304004064709920&wfr=spider&for=pc
https://cloud.tencent.com/developer/article/2404939
https://blog.csdn.net/2401_85373691/article/details/145159648
更多推荐


所有评论(0)