主要内容是
第一部分:人工智能和测试的介绍
第二部分:人工智能系统的特性和验收标准
第三部分:机器学习
第四部分:机器学习的性能指标和基准
第五部分:人工智能系统测试简介
第六部分:人工智能系统的黑盒测试
第七部分:人工智能系统的白盒测试
第八部分:测试人工智能的测试环境
第九部分:使用人工智能进行测试

四、机器学习的性能指标和基准

4.1 机器学习性能指标

不同的性能指标用于评估不同的机器学习(ML)算法。
本文档仅限于涵盖分类问题的性能指标。
这些指标最初是在ML工作流程开始时达成一致,然后通常在ML工作流程中的两个地方进行评估。
为了进行评估,开发人员使用它们来调整模型(例如通过选择参数),直到他们的评估数据集达到可接受的性能水平为止。
度量随后用于测量具有(独立)测试集的最终模型的性能的可接受性。

4.1.1 混淆矩阵(Confusion Matrix)
4.1.2 准确率(Accuracy)
4.1.3 精确率(Precision)
4.1.4 召回率(Recall)
4.1.5 F1-Score

以上各指标以前介绍过。而且csdn有很多文章介绍。这里不再描述。

4.1.6 选择合适的性能指标

根据情况,可以使用不同的性能指标。
这里仅介绍最基本和最常见的内容。
当数据集是对称的(例如,假阴性和假阳性的计数相似)时,精度是合适的。
当您想确定自己的真实肯定(即我们希望很少或没有假阳性)时,精确度最有用。
例如,一架军事无人机袭击恐怖分子目标。
在这种情况下,我们不希望任何无辜的旁观者被错误地识别为恐怖分子。
这意味着我们不希望(或很少要)误报-因此精度应该很高。
当捕捉到真正的积极因素很重要时(即,我们需要确定所有或大多数负面因素),回忆功能最有用。
这方面的一个例子可能是自动驾驶汽车感应前方道路上的人。
如果有行人,我们要确保确定他们的身份,因此我们不需要(或很少)假阴性–因此,当数据分布不均匀时,召回率必须很高F1最有用。
这些性能指标将提供ML模型的平均性能,但是,在大多数情况下,确保模型在预期的最坏情况下的性能也很重要。

4.2 机器学习基准

理想情况下,可以使用专家来评估每个新的ML系统,但这通常太昂贵了。
取而代之的是,提供了“具有代表性的”行业标准基准套件,其中包括多样化的工作负载,可覆盖各种情况(例如,图像分类,对象检测,翻译和推荐)。
这些基准套件可用于衡量硬件(使用定义的模型)和软件(例如,确定最快的模型)的性能。
软件基准套件可以测量训练(例如,框架可以使用定义的训练数据集训练ML模型到指定目标质量度量(例如75%的准确性)的速度)和推断(例如,训练后的ML模型可以执行推断的速度)

MLPerf提供了ML基准测试集的示例,它提供了软件框架,硬件加速器和ML云平台的基准,以及DAWNBench(斯坦福大学的基准测试套件)

关于MLPerf,官方说法是“一套用于测量和提高机器学习软硬件性能的国际基准“,“将主要用来测量训练不同深度神经网络所需要的时间,这些神经网络所执行的任务包括物体识别、语言翻译以及经典的下围棋等。基准所统计的相关数据将为AI基础研究和行业应用提供重要参考,例如帮助算法工程师优化模型,协助硬件厂商提高产品性能等,从而促进AI的长期突破和创新。”

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐