摘要
对抗性例子是虚构的例子,与原始图像没有区别,它们误导了神经网络并大大降低了它们的性能。 最近提出的AdvGAN是一种基于GAN的方法,它以输入图像为先验来生成以模型为目标的对手。 在这项工作中,我们通过提出AdvGAN ++(一种能比AdvGAN达到更高的攻击率并同时在MNIST和CIFAR10数据集上产生感知上逼真的图像)的AdvGAN ++,来展示潜在特征如何比输入图像更适合用于生成对手。
1.引言及相关工作
深度神经网络(DNN)现在已成为解决分类,对象识别,分割,强化学习,语音识别等各种任务的常用要素。然而,最近的工作[18、4、15、13、19、6]结果表明,可以使用精心制作的示例(与原始输入没有区别)轻松地欺骗这些DNN。这样的虚构示例被称为对抗性示例,因为它们极大地改变了神经网络的潜在特征,从而误导了神经网络,从而影响了它们的输出。
对抗性攻击大致分为白盒攻击和黑盒攻击。白盒攻击(例如FGSM [2]和DeepFool [12])可以访问完整的目标模型。
与这种黑匣子攻击相反的是,诸如卡利尼和瓦格纳。 [1],攻击者无法访问目标模型的结构或参数,而只能访问为所选输入图像分配的标签。
基于梯度的攻击方法(例如快速梯度符号方法(FGSM))获得最优的max-norm约束摄动
在这里插入图片描述

其中J是成本函数,需要输入示例计算梯度。
诸如Carlini Wagner [1]之类的基于优化的方法可以在遇到一些约束的情况下优化对抗性扰动。该方法以L0,L2,L∞距离度量为攻击目标。该方法中使用的优化目标使其变慢,因为它一次只能关注一个扰动实例。
与此相反,AdvGAN [17]将GAN [3]与基于编码器/解码器的生成器一起使用,以生成在感知上更逼真的对抗性示例,接近原始分布。当提供原始图像实例(x)作为输入时,生成器网络会产生对抗性扰动G(x)。鉴别器试图将对抗图像(x + G(x))与原始实例(x)区分开。
除了标准GAN损失外,它还使用铰链损失来限制最大摄动的幅度,并使用对抗性损失来以对抗性方式指导图像的生成。尽管AdvGAN能够生成现实的例子,但它未能像以前那样利用潜在特征,这些潜在特征最近显示出更容易受到对抗性干扰的影响[14]。
我们在这项工作中的贡献是:
•我们证明,针对非目标攻击,潜在特征比对抗整个输入图像更容易产生对抗性先验,从而利用[14]中的观察结果,同时消除了对生成器遵循基于编码器-解码器的体系结构的需要,因此 减少训练/推理开销。
•由于已经发现GAN在条件设置中可以很好地工作[7,11],因此我们证明了我们可以直接使生成器学习从潜在特征空间到对抗图像的过渡,而不是从整个输入图像中学习。
最后,通过定量和定性评估,我们表明我们的示例在感知上与真实示例非常相似,并且与AdvGAN相比,具有更高的攻击成功率。
2.方法论
2.1。 问题定义
给定模型M准确地将从分布pdata采样的图像x映射到其对应的标签t,我们像以前一样训练生成器G使用其特征图(从特征提取器中提取)生成图像x的对手xadv。 数学上:
在这里插入图片描述
在这里插入图片描述
其中1≤p <∞,> 0,f表示特征提取器,是允许的最大||.p||级扰动。
2.2。 利用潜在特征来产生对手
现在,我们提出攻击AdvGAN ++,该攻击将原始图像的潜在特征图作为对手生成之前的特征。 图1显示了我们提出的网络的体系结构。 它包含目标模型M,aa特征提取器f,生成器网络G和鉴别器网络D。生成器G接收图像x的特征f(x)和噪声向量z(作为级联向量),并生成对应的对手xadv 到x。 鉴别符D将发电机输出的分布与实际分布pdata区分开。 为了欺骗目标模型M,生成器最小化Mt(xadv),它表示属于类别t的对手xadv的softmax概率。 为了限制扰动的大小,我们还最小化了对手xadv和x之间的l2损失。 最终损失函数表示为:
在这里插入图片描述
在这里,α,β是控制每个物镜权重的超参数。 从目标模型M的中间卷积层之一中提取特征f()。通过求解最小-最大博弈arg minG maxD L(G,D),我们可以获得G和D的最优参数。因此,训练过程可确保 我们学习生成接近输入分布的对抗图像,以利用潜在特征对对抗扰动的敏感性。 算法1总结了AdvGAN ++的训练过程。
在这里插入图片描述
在这里插入图片描述

3.实验
在本节中,我们从数量和质量上评估AdvGAN ++的性能。 我们首先描述数据集和模型架构,然后描述实现细节和结果。
数据集和模型架构:我们在MNIST [10]和CIFAR-10 [8]数据集上进行实验,其中我们使用训练集训练AdvGAN ++,并对测试集进行评估。 我们遵循[16]中针对MNIST [10]的Lenet体系结构C作为我们的目标模型。 对于CIFAR-10 [8],我们在Resnet-32 [5]和Wide-Resnet-34-10 [20]上显示了我们的结果。
3.1。 实施细节
我们分别使用基于编码器和解码器的鉴别器D和生成器G的体系结构。 对于特征提取器f,我们使用目标模型M的最后一个卷积层。学习速度为0.01且β1= 0.5和β2= 0.99的Adam优化器用于优化生成器和鉴别器。 我们从正态分布中采样噪声矢量,并使用标签平滑来稳定训练过程。
3.2。结果
无防御的攻击我们比较AdvGAN和AdvGAN ++生成的示例在目标模型上未使用任何防御策略的攻击成功率。表2中的结果表明,AdvGAN ++的训练/推理开销少得多,其性能优于AdvGAN。防御攻击我们进行实验以比较当使用各种防御机制(例如FGSM [2],迭代FGSM [9]和整体对抗训练[16])训练目标模型M时,AdvGAN ++和AdvGAN的攻击成功率。为此,我们首先使用原始模型M作为目标(没有任何防御)来生成对抗示例,然后评估这些对抗示例对同一模型的攻击成功率,现在使用上述防御策略之一对其进行训练。表1显示了在各种防御环境下AdvGAN ++的性能均优于AdvGAN。
在这里插入图片描述

视觉结果图2显示了AdvGAN ++在MNIST [10]和CIFAR-10 [8]数据集上生成的对抗图像。它显示了AdvGAN ++生成感知现实的对抗图像的能力。
向其他模型的可移植性表3显示了由AdvGAN ++生成并在执行相同任务的不同模型M0上评估的对抗示例的攻击成功率。从表中我们可以看到,AdvGAN ++产生的对手可以显着转移到执行相同任务的其他模型上,这些模型也可以用来以黑盒的方式攻击模型。
在这里插入图片描述

4。结论
在我们的工作中,我们研究AdvGAN [17]留下的空白,主要集中在观察[14]上,与输入图像相比,潜在特征更容易受到对抗性噪声的影响。 这不仅减少了训练时间,而且提高了攻击成功率。 潜在特征的这种脆弱性使它们成为生成起点的更好的候选者,并允许我们提出一种可以将潜在特征直接转换为对抗图像的生成器。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐