【AI测试】人工智能测试整体介绍——第四部分

主要内容是第一部分：人工智能和测试的介绍第二部分：人工智能系统的特性和验收标准第三部分：机器学习第四部分：机器学习的性能指标和基准第五部分：人工智能系统测试简介第六部分：人工智能系统的黑盒测试第七部分：人工智能系统的白盒测试第八部分：测试人工智能的测试环境第九部分：使用人工智能进行测试四、机器学习的性能指标和基准4.1 机器学习性能指标不同的性能指标用于评估不同的机器学习（...

凌晨点点

2719人浏览 · 2020-04-21 20:04:08

凌晨点点 · 2020-04-21 20:04:08 发布

主要内容是
第一部分：人工智能和测试的介绍
 第二部分：人工智能系统的特性和验收标准
 第三部分：机器学习
 第四部分：机器学习的性能指标和基准
 第五部分：人工智能系统测试简介
 第六部分：人工智能系统的黑盒测试
 第七部分：人工智能系统的白盒测试
 第八部分：测试人工智能的测试环境
 第九部分：使用人工智能进行测试

四、机器学习的性能指标和基准

4.1 机器学习性能指标

不同的性能指标用于评估不同的机器学习（ML）算法。
本文档仅限于涵盖分类问题的性能指标。
这些指标最初是在ML工作流程开始时达成一致，然后通常在ML工作流程中的两个地方进行评估。
为了进行评估，开发人员使用它们来调整模型（例如通过选择参数），直到他们的评估数据集达到可接受的性能水平为止。
度量随后用于测量具有（独立）测试集的最终模型的性能的可接受性。

4.1.1 混淆矩阵（Confusion Matrix）

4.1.2 准确率（Accuracy）

4.1.3 精确率（Precision）

4.1.4 召回率（Recall）

4.1.5 F1-Score

以上各指标以前介绍过。而且csdn有很多文章介绍。这里不再描述。

4.1.6 选择合适的性能指标

根据情况，可以使用不同的性能指标。
这里仅介绍最基本和最常见的内容。
当数据集是对称的（例如，假阴性和假阳性的计数相似）时，精度是合适的。
当您想确定自己的真实肯定（即我们希望很少或没有假阳性）时，精确度最有用。
例如，一架军事无人机袭击恐怖分子目标。
在这种情况下，我们不希望任何无辜的旁观者被错误地识别为恐怖分子。
这意味着我们不希望（或很少要）误报-因此精度应该很高。
当捕捉到真正的积极因素很重要时（即，我们需要确定所有或大多数负面因素），回忆功能最有用。
这方面的一个例子可能是自动驾驶汽车感应前方道路上的人。
如果有行人，我们要确保确定他们的身份，因此我们不需要（或很少）假阴性–因此，当数据分布不均匀时，召回率必须很高F1最有用。
这些性能指标将提供ML模型的平均性能，但是，在大多数情况下，确保模型在预期的最坏情况下的性能也很重要。

4.2 机器学习基准

理想情况下，可以使用专家来评估每个新的ML系统，但这通常太昂贵了。
取而代之的是，提供了“具有代表性的”行业标准基准套件，其中包括多样化的工作负载，可覆盖各种情况（例如，图像分类，对象检测，翻译和推荐）。
这些基准套件可用于衡量硬件（使用定义的模型）和软件（例如，确定最快的模型）的性能。
软件基准套件可以测量训练（例如，框架可以使用定义的训练数据集训练ML模型到指定目标质量度量（例如75％的准确性）的速度）和推断（例如，训练后的ML模型可以执行推断的速度）
。
MLPerf提供了ML基准测试集的示例，它提供了软件框架，硬件加速器和ML云平台的基准，以及DAWNBench（斯坦福大学的基准测试套件）

关于MLPerf，官方说法是“一套用于测量和提高机器学习软硬件性能的国际基准“，“将主要用来测量训练不同深度神经网络所需要的时间，这些神经网络所执行的任务包括物体识别、语言翻译以及经典的下围棋等。基准所统计的相关数据将为AI基础研究和行业应用提供重要参考，例如帮助算法工程师优化模型，协助硬件厂商提高产品性能等，从而促进AI的长期突破和创新。”