多空间注意深度伪造监测

来自中国科学技术大学,微软云AI

摘要:Deepfake 伪造人脸在互联网上广泛传播,并引起了严重的社会关注。近年来,如何检测此类伪造内容已成为研究热点,并提出了许多深度伪造检测方法。他们中的大多数将 deepfake 检测建模为一个普通的二元分类问题,即首先使用主干网络提取全局特征,然后将其输入到二元分类器(真/假)中。但由于此任务中真假图像之间的差异通常是细微的和局部的,我们认为这种普通的解决方案不是最佳的。在本文中,我们将 deepfake 检测表述为细粒度分类问题,并提出了一种新的多注意 deepfake 检测网络。具体来说,它由三个关键组件组成:1)多个空间注意力头,使网络关注不同的局部部分; 2) 纹理特征增强块放大浅层特征中的细微伪影; 3)聚合由注意力图引导的低级纹理特征和高级语义特征。此外,为了解决该网络的学习困难,我们进一步引入了新的区域独立性损失和注意力引导数据增强策略。通过对不同数据集的大量实验,我们证明了我们的方法优于普通二元分类器对应物,并实现了最先进的性能。

笔记:大多数deepfake检测方法将问题建模为一个普通的二元分类问题,本文方法将问题表述为细粒度分类问题,并提出了一个多注意网络模型,multi-attentional,主要过程:

1)多空间注意力头,使网络关注不同的局部部分

2)纹理特征增强块放大浅层特征中的细微缩影

3)聚合由注意力图引导的低级纹理特征和高级语义特征

1 引言

受益于生成模型的巨大进步,deepfake 技术最近取得了重大成功,并提出了各种面部伪造方法 [19、41、21、31、32、44、28、38]。由于此类技术可以生成人眼无法区分的高质量假视频,因此很容易被恶意用户滥用,造成严重的社会问题或政治威胁。为了减轻这种风险,已经提出了许多深度伪造检测方法 [27、34、22、33、26、45]。他们中的大多数将 deepfake 检测建模为一个普通的二元分类问题(真/假)。基本上,他们通常首先使用主干网络来提取可疑图像的全局特征,然后将它们输入到二元分类器中以区分真假。

然而,随着赝品变得越来越真实,真假之间的差异将变得更加微妙和局部,从而使得这种基于全局特征的原版解决方案效果不佳。但实际上,这种微妙的局部属性与细粒度分类问题有着相似的精神。例如,在细粒度的鸟类分类任务中,一些物种看起来非常相似,只是通过一些小的局部差异来区分彼此,例如喙的形状和颜色。基于这一观察,我们建议将deepfake检测建模为一种特殊的细粒度分类问题。

受基于零件的模型在细粒度分类领域的成功启发,本文提出了一种用于深度伪造检测的新型多注意网络。首先,为了使网络关注不同的潜在工件区域,我们设计了多注意力头来利用深度语义特征预测多个空间注意力图。其次,为了防止深层的细微差别消失,对浅层获得的纹理特征进行增强,然后将低级纹理特征和高级语义特征聚合作为每个局部部分的表示。最后,每个局部部分的特征表示将由双线性注意池层独立池化,并融合为整个图像的表示。图 1 给出了通过我们的方法获得的判别特征的示例。

然而,训练这样一个多注意力网络并不是一个小问题。这主要是因为,与可以使用视频级标签作为显式指导并以监督方式训练的单注意力网络 [6] 不同,多注意力结构只能以无监督或弱监督的方式进行训练。通过使用一种通用的学习策略,我们发现多注意力头将退化为单注意力对应物,即只有一个注意力区域产生强烈的响应,而所有剩余的注意力区域都被抑制并且无法捕获有用的信息。为了解决这个问题,我们进一步提出了一种新的注意力引导数据增强机制。具体来说,在训练过程中,我们会故意模糊一些高响应注意力区域(软注意力下降),并迫使网络向其他注意力区域学习。同时,我们引入了新的区域独立性损失,以鼓励不同的注意力头关注不同的局部。

为了证明我们的多注意力网络的有效性,我们对不同的现有数据集进行了大量实验,包括 FaceForensics [34]、CelebDF[25] 和 DFDC[9]。它表明我们的方法优于普通二元分类器基线,并达到了最先进的性能。总之,本文的贡献有以下三点:

  • 将deepfake检测重新定义为细粒度分类任务,为该领域带来了新的视角
  • 我们提出了一种新的多注意力网络架构,以从多个人脸注意力区域捕获局部判别特征。为了训练这个网络,还引入了区域独立性损失,并设计了一种注意力引导的数据增强机制,以对抗性学习的方式协助网络训练。
  • 大量实验表明,我们的方法优于普通二元分类基线,并实现了最先进的检测性能。

2 相关工作

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐