论文精读：《ItoV: efficiently adapting deep learning-based image watermarking to video watermarking》

鲁棒水印技术试图在覆盖图像/视频中不可察觉地隐藏信息，使其能够抵抗各种失真。最近，基于深度学习的图像水印方法在鲁棒性和不可见性方面取得了显著进展。然而，由于高复杂性和计算成本，很少有研究专注于使用深度神经网络的视频水印。本文旨在回答这个研究问题：设计良好的基于深度学习的图像水印能否高效地适应到视频水印？我们的答案是肯定的。首先，我们重新审视基于深度学习的水印方法的工作流程，得出一个关键洞察：视频中

小清河505

1220人浏览 · 2025-08-15 16:24:22

小清河505 · 2025-08-15 16:24:22 发布

摘要

首先，我们重新审视基于深度学习的水印方法的工作流程，得出一个关键洞察：视频中的时间信息对于一般计算机视觉任务可能是必要的，但对于特定的视频水印却不是。受这一洞察启发，我们提出了一种名为ItoV的方法，用于高效地将基于深度学习的图像水印适应到视频水印。具体而言，ItoV将视频的时间维度与通道维度合并，使深度神经网络能够将视频作为图像处理。

我们进一步探索了不同卷积块在视频水印中的影响。我们发现空间卷积是视频水印中的主要影响成分，深度可分离卷积在对性能影响微乎其微的情况下显著降低了计算成本。此外，我们提出了一种新的帧损失来约束每个视频片段帧中的水印强度一致，显著提高了不可见性。大量实验表明，与Kinetics-600和Inter4K数据集上的最先进方法相比，适应的视频水印方法具有优越的性能，证明了我们方法ItoV的有效性。

关键词： 图像水印、视频水印、卷积神经网络、鲁棒性、不可见性

1. 引言

随着互联网视频分享服务的快速发展，视频已逐渐成为互联网用户中占主导地位的多媒体内容。每天有许多视频在YouTube和TikTok等平台上发布。与此同时，数字水印被广泛用于保护多媒体内容免受版权侵犯。这种方法在数字内容中隐藏独特的水印信息，包括图像、视频和音频文件。

衡量数字水印性能有三个关键指标：容量、不可见性以及对各种失真的鲁棒性。这些指标彼此处于紧张关系中，意味着提高一个指标的性能将导致其他指标性能的下降。本文的主要目标是开发一种数字视频水印方法，实现更高的鲁棒性和不可见性。

最早的数字水印研究，称为最低有效位（LSB），涉及将秘密消息编码到图像像素的最低有效位上。为了提高性能，传统方法转向关注传输域，如DFT域、DCT域和DWT域。这些方法根据数据分布调整水印嵌入策略。然而，传统水印方法严重依赖浅层手工特征，需要仔细设计，无法充分利用覆盖视频的冗余信息。因此，传统方法难以同时实现对各种失真的鲁棒性。

[图1：我们利用提出的方法ItoV来适应两种最先进的图像水印方法MBRS和CIN到视频水印。这里是测试数据集中视频帧的一些视觉样本。从左到右分别是：覆盖视频帧V_c、水印视频帧V_w以及它们之间的残差信号R = |V_w - V_c|。残差信号被放大五倍以便可视化。]

基于深度学习的图像水印最近取得了显著成功，性能明显优于传统水印方法。然而，由于视频神经网络的复杂性和训练所需的高计算成本，基于深度学习的视频水印技术研究仍然有限。虽然我们可以将视频帧视为图像并直接使用数字图像水印方法在其中嵌入水印，但这种直接方法不允许神经网络基于视频数据的特征学习有用特征，使其难以抵抗针对视频的各种失真。我们也可以在图像水印网络中使用3D卷积代替2D卷积来实现视频水印。然而，这种改变导致计算成本的显著增加。

为了解决这些限制，我们重新审视通过神经网络在图像/视频中嵌入和提取水印的过程。

2. 相关工作

2.1 基于深度学习的水印技术

数字水印是内容版权保护的流行技术。近年来，基于深度学习的方法在不可见性和对各种失真的鲁棒性方面同时表现出色，这得益于深度神经网络强大的特征提取能力。

Zhu等人是第一个提出端到端基于深度学习的水印方法。主要架构遵循编码器-噪声层-解码器结构，类似于自编码器。此外，采用了判别器来减少水印对人类感知的可见性。此外，Ahmadi等人将域变换技术与神经网络结合，并利用强度因子来调整图像中水印的强度。其他一些工作旨在通过关注复杂和现实的失真来扩大应用范围。

为了实现对预期失真的高鲁棒性，最常见和有效的方法是在训练期间在编码器和解码器之间引入攻击模拟层。然而，这种方法不适用于不可微分失真，如JPEG压缩和H.264压缩。Hidden引入了可微分的JPEG-Mask和JPEG-Drop来近似真实JPEG压缩以解决这一限制。然而，该方法仍然缺乏对真实JPEG压缩的鲁棒性。Liu等人开发了两阶段可分离框架来解决不可微分失真问题。Jia等人通过提出新颖的小批量模拟和真实JPEG压缩训练方法，专注于提高对JPEG压缩的鲁棒性。随后，Zhang等人提出采用前向攻击模拟层作为简单有效的方法来提高基于深度学习的水印对不可微分失真的鲁棒性。

基于深度学习的水印也已应用于视频。Weng等人为视频隐写术引入了U-net，并取得了优异的性能。然而，他们没有考虑视频失真。RivaGAN在三种常见视频失真下保持了高不可见性和鲁棒性，但忽略了不可微分的H.264压缩，这是视频中最关键的失真。Luo等人开发了一个模拟H.264压缩的神经网络，以提高DvMark中对真实H.264压缩的鲁棒性。以前的工作已经证明了深度学习在数字水印方面的潜力。

2.2 视频卷积神经网络

虽然3D卷积神经网络（CNN）在视频水印方面已经表现出优于传统方法的性能，但现有的3D网络通常需要大量的计算资源。此外，3D CNN的训练更不稳定，收敛速度较慢。因此，研究人员正在寻求3D CNN的高效替代方案。

Simonyan和Zisserman提出了双流框架，使用两个2D CNN分别学习视频的空间和时间信息。Tran等人通过将3D卷积层分解为因式分解卷积层来提高性能和效率。MobileNet引入了深度可分离卷积来优化移动应用的模型大小和计算成本。Tran等人将深度可分离卷积应用于3D网络，以开发资源高效的模型。这些卷积块已被证明能够有效地泛化到各种任务，如动作检测、时间动作定位和手势检测。然而，没有研究调查不同卷积块对视频水印的影响。

基础知识详解

在深入理解ItoV方法之前，我们需要详细了解相关的基础概念和数学原理。

数字水印系统基础

水印系统架构

数字水印系统通常包含三个核心过程：

嵌入过程（Embedding）： $W = \mathcal{E}(C, M, K)$

其中 W 是水印载体，C 是原始载体，M 是要嵌入的消息，K 是密钥， $\mathcal{E}$ 是嵌入算法。

攻击过程（Attack）： $W' = \mathcal{A}(W)$

其中 W' 是经过攻击的水印载体， $\mathcal{A}$ 表示各种可能的攻击或处理操作。

提取过程（Extraction）： $M' = \mathcal{D}(W', K)$

其中 M' 是提取的消息， $\mathcal{D}$ 是提取算法。

水印性能评估指标

1. 不可见性（Imperceptibility）

峰值信噪比（PSNR）：

$PSNR = 10 \log_{10} \frac{MAX^2}{MSE}$

其中：

$MSE = \frac{1}{N} \sum_{i=1}^{N} (C_i - W_i)^2$

结构相似性指数（SSIM）：

$SSIM(C,W) = \frac{(2\mu_C\mu_W + c_1)(2\sigma_{CW} + c_2)}{(\mu_C^2 + \mu_W^2 + c_1)(\sigma_C^2 + \sigma_W^2 + c_2)}$

2. 鲁棒性（Robustness）

位错误率（BER）：

$BER = \frac{1}{L} \sum_{i=1}^{L} M_i \oplus M'_i$

其中 L 是消息长度， $\oplus$ 是异或操作。

准确率： $Accuracy = 1 - BER$

3. 容量（Capacity）

载荷：

$Payload = \frac{|M|}{|C|}$

其中|M| 是消息比特数，|C| 是载体大小。

卷积神经网络数学基础

标准2D卷积

对于输入特征图 $X \in \mathbb{R}^{C_{in} \times H \times W}$ 和卷积核 $K \in \mathbb{R}^{C_{out} \times C_{in} \times k_h \times k_w}$ ：

$Y_{c,h,w} = \sum_{c'=0}^{C_{in}-1} \sum_{i=0}^{k_h-1} \sum_{j=0}^{k_w-1} X_{c',h+i,w+j} \cdot K_{c,c',i,j}$

计算复杂度： $O(C_{in} \times C_{out} \times k_h \times k_w \times H \times W)$

3D卷积

对于视频输入 $X \in \mathbb{R}^{C_{in} \times T \times H \times W}$ 和3D卷积核 $K \in \mathbb{R}^{C_{out} \times C_{in} \times k_t \times k_h \times k_w}$ ：

$Y_{c,t,h,w} = \sum_{c'=0}^{C_{in}-1} \sum_{i=0}^{k_t-1} \sum_{j=0}^{k_h-1} \sum_{k=0}^{k_w-1} X_{c',t+i,h+j,w+k} \cdot K_{c,c',i,j,k}$

计算复杂度： $O(C_{in} \times C_{out} \times k_t \times k_h \times k_w \times T \times H \times W)$

(2+1)D卷积分解

将3D卷积分解为空间2D卷积和时间1D卷积：

空间卷积：

$Y'{c,t,h,w} = \sum{c'=0}^{C_{in}-1} \sum_{j=0}^{k_h-1} \sum_{k=0}^{k_w-1} X_{c',t,h+j,w+k} \cdot K^{spatial}_{c,c',j,k}$

时间卷积：

$Y_{c,t,h,w} = \sum_{i=0}^{k_t-1} Y'{c,t+i,h,w} \cdot K^{temporal}{c,i}$

计算复杂度： $O(C_{in} \times C_{out} \times (k_h \times k_w + k_t) \times T \times H \times W)$

深度可分离卷积

分解为深度卷积和逐点卷积：

深度卷积（Depthwise Convolution）：

$Y'{c,h,w} = \sum{i=0}^{k_h-1} \sum_{j=0}^{k_w-1} X_{c,h+i,w+j} \cdot K^{dw}_{c,i,j}$

逐点卷积（Pointwise Convolution）：

$Y_{c,h,w} = \sum_{c'=0}^{C_{in}-1} Y'{c',h,w} \cdot K^{pw}{c,c'}$

计算复杂度： $O((C_{in} \times k_h \times k_w + C_{in} \times C_{out}) \times H \times W)$

复杂度减少比例：

$\frac{1}{C_{out}} + \frac{1}{k_h \times k_w}$

视频数据表示与处理

传统视频表示

视频通常表示为4D张量： $V \in \mathbb{R}^{T \times C \times H \times W}$

其中：

T：时间帧数
C：颜色通道数（通常为3，RGB）
H：图像高度
W：图像宽度

ItoV的维度重塑策略

ItoV方法的核心是维度变换：

原始表示： $V \in \mathbb{R}^{T \times 3 \times H \times W}$

重塑后表示： $V' \in \mathbb{R}^{(3T) \times H \times W}$

数学上，这个变换可以表示为： $\text{reshape}(V[t,c,h,w]) \rightarrow V'[3t+c,h,w]$

其中 $t \in [0,T-1]$ ， $c \in [0,2]$ 。

时间信息处理的理论分析

传统视频分析中的时间重要性：

对于动作识别等任务，时间梯度包含关键信息：

$\frac{\partial V}{\partial t} = \lim_{\Delta t \rightarrow 0} \frac{V(t+\Delta t) - V(t)}{\Delta t}$

水印任务中的空间主导性：

水印嵌入主要依赖于像素强度分布 p(I) 而非时间变化： $\mathcal{L}{embed} = \mathbb{E}{p(I)}[|W - C|_2^2]$

这解释了为什么时间信息对水印任务不是必需的。

损失函数设计理论

编码器损失（保真度损失）

均方误差损失：

$\mathcal{L}E = \frac{1}{N} \sum{i=1}^{N} |V_c^{(i)} - V_w^{(i)}|_2^2$

感知损失（可选）：

$\mathcal{L}{perceptual} = \sum{l} \frac{1}{N_l} |\phi_l(V_c) - \phi_l(V_w)|_2^2$

其中 $\phi_l$ 是预训练网络的第 $l$ 层特征。

解码器损失（消息恢复损失）

二进制交叉熵损失：

$\mathcal{L}D = -\frac{1}{L} \sum{i=1}^{L} [M_i \log(M'_i) + (1-M_i) \log(1-M'_i)]$

均方误差损失：

$\mathcal{L}D = \frac{1}{L} \sum{i=1}^{L} (M_i - M'_i)^2$

帧一致性损失（ItoV创新）

L1范数帧损失： $\mathcal{L}F = \frac{1}{T} \sum{t=1}^{T} |F^{(t)}(V_c) - F^{(t)}(V_w)|_1$

方差正则化： $\mathcal{L}_{var} = \text{Var}({|F^{(t)}(V_c) - F^{(t)}(V_w)|1}{t=1}^T)$

其中 $F^{(t)}(\cdot)$ 提取第 t 帧。

这确保了帧间水印强度的一致性，避免了某些帧的过度修改。

3. 提出的方法

本章是论文的核心部分，我们将详细分析ItoV方法的设计理念、技术原理和实现细节。

我们发现在图像或视频中嵌入水印对于神经网络来说是一个相似的任务，因为它们基于像素数据分布将水印嵌入到图像或视频中。我们的关键洞察是，图像和视频对于水印神经网络来说只是具有不同形状的数据，视频中的时间信息对于数字水印并不是必需的。

为了验证我们洞察的有效性，我们提出了ItoV方法，高效地将基于深度学习的图像水印方法适应到视频水印。具体而言，我们的ItoV通过合并时间和通道维度将视频视为图像。与向每个视频帧独立添加水印不同，我们将视频片段作为整体输入神经网络，其结果在对各种视频失真（如H.264压缩、帧平均和屏幕录制）实现了显著的鲁棒性。

此外，我们在网络中纳入了两个时空卷积块，3D和(2+1)D，以探索时间卷积如何影响视频中的数字水印任务。我们的发现表明，空间卷积是视频水印中的主要影响成分。此外，我们观察到时空卷积网络容易导致过度参数化，这增加了昂贵的计算成本和过拟合的风险。因此，我们将深度可分离卷积应用于视频水印网络，以降低方法的计算复杂性。

3.1 核心洞察的深入分析

时间信息重要性的对比分析

在传统视频理解任务中：

考虑动作识别任务，网络需要区分"开门"和"关门"：

空间信息：可以识别出"手"、"门"等对象
时间信息：通过运动方向判断动作类型

数学上，动作特征依赖于时间梯度：

$\mathbf{f}_{action} = \mathcal{F}(\frac{\partial V}{\partial t})$

在水印任务中：

水印嵌入的目标是最小化视觉失真： $\min_W \mathbb{E}[\mathcal{D}(C, W)] \text{ s.t. } \mathcal{R}(M, \mathcal{E}(W)) \geq \tau$

其中：

$\mathcal{D}$ 是失真度量
$\mathcal{R}$ 是可靠性度量
$\tau$ 是可靠性阈值

这个优化问题主要依赖于空间像素分布，而不是时间变化。

ItoV变换的数学原理

维度重塑操作：

给定输入视频 $V \in \mathbb{R}^{T \times 3 \times H \times W}$ ，ItoV执行以下变换：

$\text{ItoV}(V) = \text{reshape}(V, (3T, H, W))$

具体的索引映射为： $V'[3t + c, h, w] = V[t, c, h, w]$

其中 $t \in [0, T-1]$ ， $c \in [0, 2]$ 。

信息保持性证明：

这种变换是可逆的，不丢失任何信息： $V = \text{reshape}(\text{ItoV}(V), (T, 3, H, W))$

计算复杂度分析：

设原始3D卷积的复杂度为： $\mathcal{O}{3D} = C{in} \times C_{out} \times k_t \times k_h \times k_w \times T \times H \times W$

ItoV后2D卷积的复杂度为： $\mathcal{O}{ItoV} = (3T) \times C{out} \times k_h \times k_w \times H \times W$

当 $C_{in} = 3T$ 且 $k_t = 1$ 时，两者相等，但ItoV避免了时间维度的卷积操作。

3.2 网络架构详细设计

[图2：ItoV框架，包含三个主要部分：编码器、攻击模拟层和解码器]

ItoV框架的数字视频水印的主要目标是开发一个端到端可训练架构，对各种失真表现出显著的鲁棒性水平。该框架包含三个主要组件：

3.2.1 编码器设计与实现

编码器目标：编码器的目标是以最小的视觉失真将秘密消息嵌入到覆盖视频中。

架构组成：

覆盖视频处理器（Cover Video Processor）
- 输入：覆盖视频 $V_c \in \mathbb{R}^{T \times 3 \times H \times W}$
- 经过ItoV变换： $V'_c \in \mathbb{R}^{3T \times H \times W}$
- 通过卷积层提取特征： $\mathbf{f}_c = \text{CNN}(V'_c)$
消息处理器（Message Processor）
- 输入：二进制消息 $M \in {0,1}^m$
- 扩展到空间维度： $M' \in \mathbb{R}^{m \times H \times W}$
- 操作： $M'[i,h,w] = M[i], \forall h,w$
特征融合与水印生成
- 特征连接： $\mathbf{f}_{concat} = \text{concat}(\mathbf{f}_c, M')$
- 水印生成： $\mathbf{w} = \text{Generator}(\mathbf{f}_{concat})$
- 最终输出： $V_w = V_c + \mathbf{w}$

损失函数设计：

编码器损失 $\mathcal{L}_E$ 计算为覆盖视频 $V_c$ 和水印视频 $V_w$ 之间的均方误差：

$\mathcal{L}_E = MSE(V_c, V_w) = MSE(V_c, E(\theta_E, V_c, M))$

其中E表示编码器函数， $\theta_E$ 是编码器参数。

3.2.2 帧损失函数（关键创新）

设计动机：为了避免编码器在视频的不同帧上添加的水印强度存在显著差异，我们提出了帧损失。

数学定义：

假设 $F^{(i)}(\cdot)$ 表示视频的第i帧，帧损失 $\mathcal{L}_F$ 定义为：

$\mathcal{L}F = \sum{i=1}^{L} \ell_1(F^{(i)}(V_c), F^{(i)}(V_w))$

其中 $\ell_1$ 表示L1范数函数，用于测量两帧之间的差异。

详细计算过程：

帧提取： $f_c^{(i)} = F^{(i)}(V_c)$ ， $f_w^{(i)} = F^{(i)}(V_w)$
逐帧差异： $d^{(i)} = |f_c^{(i)} - f_w^{(i)}|_1$
总帧损失： $\mathcal{L}F = \sum{i=1}^{L} d^{(i)}$

效果分析：

一致性保证：确保每帧的修改程度相似
视觉质量：避免某些帧出现明显的质量下降
感知优化：人眼对单个低质量帧更敏感

3.2.3 攻击模拟层设计

目的：在训练期间模拟各种可能的攻击和失真，提高水印的鲁棒性。

挑战与解决方案：

可微分攻击：
- 高斯噪声： $V_{noisy} = V_w + \mathcal{N}(0, \sigma^2)$
- 高斯模糊： $V_{blur} = V_w * G_{\sigma}$
- 随机裁剪：随机选择子区域
不可微分攻击：
- H.264压缩
- 帧操作（删除、交换、平均）

前向ASL方法：

对于不可微分失真 $\mathcal{A}$ ：

前向计算： $V_a = \mathcal{A}(V_w)$
伪失真计算： $\Delta = V_a - V_w$
伪攻击： $\tilde{V}_a = V_w + \Delta$ （ $\Delta$ 不参与梯度计算）
反向传播：梯度直接从解码器传到编码器

数学表示：

$\frac{\partial \mathcal{L}}{\partial \theta_E} = \frac{\partial \mathcal{L}}{\partial V_w} \frac{\partial V_w}{\partial \theta_E}$

其中ASL被跳过，实现端到端训练。

3.2.4 解码器架构

目标：从可能被攻击的视频中恢复嵌入的消息。

处理流程：

特征提取：通过下采样提取水印信息 $\mathbf{f}a = \text{CNN}{decoder}(V_a)$
消息恢复：通过全连接层或卷积层恢复消息 $M' = \text{FC}(\text{GlobalPool}(\mathbf{f}_a))$

损失函数：

解码器损失 $\mathcal{L}_D$ 定义为： $\mathcal{L}_D = MSE(M, M') = MSE(M, D(\theta_D, V_a))$

对于二进制消息，也可使用二进制交叉熵： $\mathcal{L}D = -\sum{i=1}^{m} [M_i \log(M'_i) + (1-M_i) \log(1-M'_i)]$

3.2.5 总体优化目标

完整损失函数： $\mathcal{L}_{total} = \lambda_E \mathcal{L}_E + \lambda_D \mathcal{L}_D + \lambda_F \mathcal{L}_F$

其中：

$\lambda_E$ ：控制视觉质量的权重
$\lambda_D$ ：控制消息恢复准确性的权重
$\lambda_F$ ：控制帧间一致性的权重

训练策略：

阶段1：无噪声训练
- 权重设置： $\lambda_E = 1$ ， $\lambda_D = 0.1$ ， $\lambda_F = 0$
- 目标：学习基本的嵌入和提取能力
阶段2：抗攻击训练
- 权重设置： $\lambda_E = 1$ ， $\lambda_D = 0.01$ ， $\lambda_F = 0.05$
- 目标：增强鲁棒性和帧一致性

权重选择的理论依据：

$\lambda_E$ 保持为1作为基准
$\lambda_D$ 在第二阶段降低，因为基本提取能力已建立
$\lambda_F$ 在第二阶段引入，优化视觉质量

3.3 方法优势与创新点总结

计算效率提升：
- 避免3D卷积的立方复杂度
- 利用现有2D网络架构
- 减少参数数量和训练时间
理论创新：
- 证明时间信息对水印任务的非必要性
- 提出维度重塑的新视角
- 建立图像-视频水印的统一框架
技术创新：
- 帧损失函数保证一致性
- 前向ASL处理不可微分攻击
- 端到端训练优化
实用价值：
- 直接利用成熟的图像水印方法
- 良好的泛化能力
- 在多种攻击下的鲁棒性

这种设计不仅解决了视频水印的技术挑战，还为未来的多媒体安全研究提供了新的思路和方法。

4. 视频卷积块分析

在这里，我们讨论CNN中的各种视频卷积块，以探索时间卷积的重要性，并优化视频水印应用的模型大小和计算成本。

[图3：本工作中考虑的视频水印卷积块。(a) 2D卷积；(b) 3D卷积；(c) (2+1)D卷积；(d) 深度可分离2D卷积；(e) 深度可分离3D卷积。]

4.1 2D卷积

视频的2D CNN将L帧视为视频的通道，并合并视频的通道维度和时间维度。因此，网络中的初始卷积层将视频的时间信息压缩到通道特征图中，这阻止了任何后续的时间推理。这种CNN架构如图3(a)所示。

编码器应该通过对覆盖视频的像素分布的透彻理解来处理。如图2所示，覆盖视频 $V_c$ 被输入到覆盖视频处理器中，以提取覆盖视频的特征作为潜在表示。有一个消息处理器，用于在时空维度上扩展一维消息，使其与覆盖视频潜在表示具有相同的形状。之后，两个潜在表示在通道维度上连接并通过水印生成器。该生成器的目的是创建一个考虑覆盖视频像素分布的水印，从而最小化其对视频的影响。编码器的最后一步是通过加法或网络将水印和覆盖视频结合，生成水印视频 $V_w$。因此，理想的编码器能够基于覆盖视频的像素分布将秘密消息嵌入到覆盖视频中。

编码器的损失函数 $\mathcal{L}_E$ 通过 $V_c$ 和 $V_w$ 之间的均方误差计算：

$\mathcal{L}_E = MSE(V_c, V_w) = MSE(V_c, E(\theta_E, V_c, M))$

此外，我们提出帧损失 $\mathcal{L}_F$ 来避免编码器在视频的不同帧上添加的水印强度存在显著差异。假设 $F^{(i)}(\cdot)$ 表示视频的第i帧，帧损失 $\mathcal{L}_F$ 定义如下：

$\mathcal{L}F = \sum{i=1}^{L} \ell_1(F^{(i)}(V_c), F^{(i)}(V_w))$

这里， $\ell_1$ 指的是用于测量两帧之间差异的L1范数函数。

攻击模拟层。向水印视频 $V_w$ 添加失真已被证明是增强水印鲁棒性的最有效方法。为了针对各种失真优化网络参数，通常必须纳入与其他基本模块联合训练的可微分攻击模拟层（ASL）。然而，有一些失真是不可微分的，如H.264压缩。神经网络无法在训练期间从不可微分失真中获得鲁棒性增强。为了克服这种限制，通常的做法是使用可微分近似来替换不可微分失真。此外，Zhang等人提出前向ASL作为不可微分失真的常见解决方案。该方法涉及计算攻击视频和水印视频 $V_a - V_w$ 之间的差异，然后称为伪失真。伪失真被添加到水印视频中以生成伪攻击视频。在反向传播期间，来自解码器的梯度直接反向传播到编码器，而不通过ASL，因为伪失真被设置为不参与梯度传播。在这项工作中，我们利用前向ASL来处理不可微分失真。

解码器。在水印的解码过程中，解码器首先通过对攻击视频 $V_a$ 进行下采样来提取水印信息，然后根据水印信息揭示消息 $M'$ 。解码器的目标是最小化消息的预测误差，因此解码器的损失函数 $\mathcal{L}_D$ 定义为：

$\mathcal{L}_D = MSE(M, M') = MSE(M, D(\theta_D, V_a))$

总的来说，目标损失函数 $\mathcal{L}_{total}$ 定义为：

$\mathcal{L}_{total} = \lambda_E \mathcal{L}_E + \lambda_D \mathcal{L}_D + \lambda_F \mathcal{L}_F$

其中 $\lambda_E$ 、 $\lambda_D$ 和 $\lambda_F$ 是平衡鲁棒性和不可见性的权重。

4.2 3D卷积

3D卷积，也称为时空卷积，是用于处理3D数据的卷积神经网络（CNN）操作类型。卷积核在3D中进行卷积，这意味着它们同时应用于时间和空间维度。这种CNN架构如图3(b)所示。

4.3 (2+1)D卷积

(2+1)D卷积是视频处理中常用的卷积神经网络层类型。该层结合了2D和1D卷积，因此得名(2+1)D。在这种卷积层中，2D卷积核分别应用于每个视频帧的空间维度。然后，1D时间卷积核应用于结果特征图的时间维度。通过使用这种方法，网络可以分别捕获视频内的空间和时间信息。与直接操作时空数据的3D卷积相比，(2+1)D卷积具有更少的参数，计算成本更低。因此，它们通常在资源有限的平台上用于视频分析任务。这种CNN架构如图3(c)所示。

4.4 深度可分离卷积

深度可分离卷积是一种特定的卷积神经网络层，对输入张量中的每个输入通道应用单独的核。深度可分离卷积通常用于轻量级架构中，其中参数数量和计算成本至关重要。

在深度可分离卷积层中，首先对输入通道应用逐点卷积，这保留了所有通道交互。然后，卷积核在深度方向（在通道维度中）分别应用于每个特征图。这意味着输入特征图的每个通道都与单独的核进行卷积。

深度可分离卷积通过将常规卷积分解为两个较小的操作，可以显著减少参数数量和计算成本。这使它们更具内存效率且训练更快。这些类型的卷积如图3(d)和(e)所示。与2D卷积块类似，我们在深度可分离2D卷积中合并视频的通道维度和时间维度。

5. 实验

5.1 实现细节

我们的模型使用PyTorch实现，并在NVIDIA A100显卡上训练，批大小设置为16，使用Adam优化器，学习率为 $10^{-5}$ 和默认超参数。在训练阶段，每个批次从失真集 {Identity, H.264, Frame Average, Frame Drop, Frame Swap, Gaussian Blur, Gaussian Noise, Random Crop, Random Hue} 中随机选择一种失真。在评估阶段，我们使用训练好的模型分别评估每种噪声类型的性能。

在训练阶段，我们首先训练无噪声的模型。此时，我们将损失权重设置为 $\lambda_E = 1$ ， $\lambda_D = 0.1$ 和 $\lambda_F = 0$ 。然后，我们通过加载先前训练的无噪声模型并调整损失权重为 $\lambda_E = 1$ ， $\lambda_D = 0.01$ 和 $\lambda_F = 0.05$ ，继续训练模型以抵抗不同类型的噪声。

5.2 数据集

为了验证适应性视频水印方法的鲁棒性和不可见性，我们利用Kinetics-600数据集和Inter4K数据集进行训练和评估。我们在Kinetics-600训练集中的1000个随机裁剪的视频片段（维度为8×128×128）上训练模型，并在Kinetics-600验证集中的1000个随机选择的视频片段上评估模型。

由于Kinetics-600数据集中视频的分辨率相对较低，我们还使用Inter4K数据集来评估模型的泛化能力。Inter4K数据集包含1000个4K分辨率的高清视频。对于每个输入视频片段，都有一个相应的秘密消息，该消息从二进制分布 $M {0,1}^m$ 中随机采样。

5.3 评估指标

为了客观评估模型的鲁棒性和不可见性，我们应用两个定量指标。为了验证鲁棒性，我们评估原始消息 M 和揭示消息M'之间的准确性。准确性定义如下：

对于水印视频的不可见性，我们利用覆盖视频 $V_c$ 和水印视频 $V_w$ 之间的峰值信噪比（PSNR）进行评估。

$PSNR(V_c, V_w) = 20 \times log_{10}\frac{MAX(V_c, V_w) - 1}{MSE(V_c, V_w)}$

其中 $MAX(\cdot)$ 表示视频的最大像素值， $MSE(\cdot)$ 是均方误差。

5.4 对比方法

我们的主要目标是将基于深度学习的图像水印方法适应到视频水印。因此，我们使用两种最先进的基于深度学习的图像水印方法MBRS和CIN来证明我们ItoV的有效性。请注意，我们在本文中使用ItoV-MBRS和ItoV-CIN来表示相应的适应性视频水印方法。

MBRS网络是一个利用Squeeze-and-Excitation块的自编码器。另一方面，CIN首次在数字水印中使用了可逆神经网络。然后，我们将我们的模型与两种基于深度学习的视频水印方法Hidden和DVMark进行比较，特别是与DVMark这种最先进的方法进行比较，该方法对各种失真具有鲁棒性，如H.264压缩、裁剪和高斯模糊。为了公平比较，我们直接报告了文献中列出的结果。

此外，我们还对不同卷积块对视频水印方法的影响感兴趣。因此，我们比较了具有不同卷积块的ItoV-MBRS网络的性能和计算成本。

5.5 评估

在本节中，我们将我们的方法ItoV与基线方法Hidden和DVMark在鲁棒性和不可见性方面进行比较。水印视频帧的视觉样本如图1所示。很明显，覆盖视频帧 $V_c$ 和水印视频帧 $V_w$ 在视觉上无法区分，这表明我们的两个模型自适应地将消息嵌入到覆盖视频中，同时保持高不可见性。此外，我们可以从残差信号中看到水印的强度根据区域的复杂性而变化。

为了评估鲁棒性，我们测量了每个模型在大量常见失真下的位准确性：H.264压缩（CRF = 22）、帧平均（N = 3）、帧丢弃（p = 0.5）、帧交换（p = 0.5）、高斯模糊（σ = 2.0）、高斯噪声（std = 0.04）、随机裁剪（p = 0.4）、随机色调（p = 1.0）。所有结果都在大小为8×128×128的视频片段上进行评估，消息长度m = 96。

表1：不同水印方法在各种常见失真下的PSNR和位准确性比较。我们利用ItoV将MBRS和CIN适应到视频水印。对于Hidden和DVMark，我们直接使用文献中报告的结果。

方法	PSNR	H.264 (CRF=22)	Frame Average (N=3)	Frame Drop (p=0.5)	Frame Swap (p=0.5)	Gaussian Blur (σ=2.0)	Gaussian Noise (std=0.04)	Random Crop (p=0.4)	Random Hue (p=1.0)
Kinetics-600
Hidden	37.00	79.85	96.91	99.03	99.10	72.70	91.27	95.27	98.98
DVMark	37.00	92.94	98.10	98.99	99.35	98.09	98.56	97.06	99.81
ItoV-CIN	37.13	98.44	99.99	99.76	99.94	99.28	99.99	98.81	99.89
ItoV-MBRS	37.97	99.74	99.99	99.49	99.54	99.99	99.99	99.22	99.99
Inter4K
ItoV-CIN	37.03	97.66	99.99	99.96	99.45	99.42	99.99	99.27	99.78
ItoV-MBRS	37.97	99.67	99.99	99.88	99.51	99.99	99.99	99.74	99.67

如表1所示，适应的方法ItoV-CIN和ItoV-MBRS具有更高的PSNR值，并且它们在各种失真下的位准确性超过了Hidden和DVMark。特别是在H.264压缩下，ItoV-CIN和ItoV-MBRS的位准确性远高于DVMark，尽管使用了不同的H.264压缩训练方法，差异分别为6.8%和5.5%。此外，值得注意的是，ItoV-MBRS在表1中所有失真下的位准确性都超过99%。这使其成为实际实施的强有力竞争者。

泛化能力。仅在Kinetics-600数据集上训练的ItoV-CIN和ItoV-MBRS模型在Inter4K数据集上都产生了优异的结果，如表1所示。这突出了这两个模型的卓越泛化能力，这对实际应用至关重要。

5.6 各种卷积块的比较

为了探索不同卷积块对视频水印的影响，我们修改卷积块并测试它们在视频水印任务中的性能和计算复杂性。在这里，我们以ItoV-MBRS为例。为了公平比较，所有模型都训练了2000个epoch。图4可视化了具有各种卷积块的ItoV-MBRS的结果。对于每种类型的卷积块，我们显示水印视频帧序列和相应的残差信号。我们可以看到具有不同卷积块的网络具有不同的嵌入水印策略。(2+1)D的水印模式似乎独立于覆盖视频。具有3D卷积块的网络在视频的前两帧中嵌入强水印。其余三种卷积块可以将水印信息均匀地嵌入到覆盖视频的所有帧中。

表2：各种卷积块的性能和计算开销比较。我们没有列出帧平均和高斯噪声下的位准确性，因为它们都是99.99%。深度可分离2D卷积块需要的计算资源显著少于其他卷积块，但提供了可比较的性能。

卷积块	PSNR	H.264(CRF=22)	Frame Drop (p=0.5)	Frame Swap (p=0.5)	Random Crop (p=0.4)	Gaussian Blur (σ=2.0)	Random Hue (p=1.0)	参数 (×10^6)	FLOPs (×10^9)
2D	39.9	98.61	99.58	99.98	99.60	99.99	99.82	20.8	15.57
3D	37.1	99.91	98.92	99.98	97.27	99.76	99.86	54.2	234.63
(2+1)D	37.6	99.61	99.97	99.74	95.12	99.81	99.61	26.2	115.47
Depthwise 2D	38.3	99.22	99.61	99.68	99.99	99.99	99.92	5.99	4.55
Depthwise 3D	38.5	99.80	99.98	99.93	99.99	99.91	99.76	6.08	28.82

表2展示了Kinetics-600验证集中1000个视频片段的结果。从这些结果中可以推断出一些见解。首先，2D块和(2+1)D块的随机裁剪下的位准确性之间存在显著差距。这表明在视频水印网络中引入时间卷积将导致性能下降，这可能是由于复杂的卷积块更容易过拟合。此外，我们发现使用深度可分离卷积显著减少了模型中的参数数量和FLOPs，特别是在使用3D卷积时。然而，模型的整体性能受到的影响很小，因为逐点卷积保留了通道交互。这种现象也表明了数字水印网络中常规2D/3D卷积的过度参数化问题。

[图4：来自各种卷积块的覆盖和水印视频帧序列的视觉样本。从上到下：覆盖、2D、3D、(2+1)D、深度可分离2D、深度可分离3D。对于每个卷积块，有两行图像。顶行是水印视频帧，底行是覆盖视频和相应水印视频之间的残差信号，放大五倍。]

5.7 H.264压缩和屏幕录制

屏幕录制是现实世界中视频侵权的普遍形式。随着互联网流媒体的发展，基于软件的屏幕录制由于其简单性和有效性，比基于摄像机的屏幕录制更常见。在互联网视频分享平台中，视频压缩参数通常以比特率而不是CRF表示，以满足流带宽限制。比特率是固定的，因此质量可能会根据视频内容而变化。复杂场景将被更多压缩，导致质量较低。因此，具有固定比特率的H.264压缩算法将根据视频场景调整压缩率（CRF值）。

为了探索水印方法对H.264压缩的稳定性，我们测试了ItoV-CIN和ItoV-MBRS模型在不同CRF值的H.264压缩下的位准确性。请注意，这里我们使用前一节中提到的可以同时抵抗各种失真的模型，而不是仅仅抵抗H.264压缩。如图5所示，ItoV-MBRS对H.264的鲁棒性比ItoV-CIN更好。当CRF值小于20时，ItoV-MBRS模型的位错误率几乎为0。即使在CRF值范围20到25内，ItoV-MBRS模型仍能保持优异的位准确性。CRF值超过25后，ItoV-MBRS模型的准确性开始快速下降。

此外，我们还测试了ItoV-MBRS和ItoV-CIN在现实世界场景下软件屏幕录制中的位准确性。我们首先以1000kbps的比特率直播我们的水印视频，然后使用默认设置的OBS studio进行屏幕录制。在这种情况下，ItoV-MBRS和ItoV-CIN的平均位准确性分别为97.86%和96.92%。结果与我们的预期一致，因为屏幕录制可以被视为H.264算法的解码和重新编码过程。如前所述，我们的网络对这种复合失真提供了有效的防御。

[图5：ItoV-MBRS和ItoV-CIN在Kinetics-600验证集上对具有各种恒定速率因子（CRF）的H.264压缩的位准确性。]

5.8 消融实验

L_F损失的有效性。L_F损失旨在保证视频片段中每帧的水印强度一致，从而不会在任何帧中出现低视觉质量的实例。我们测量了有和没有L_F损失的ItoV-MBRS生成的水印视频中每帧的PSNR值，结果列在表3中。我们可以看到L_F损失显著减少了不同帧之间水印强度的差异。具体来说，标准差从1.344 dB显著减少到0.159 dB。虽然平均PSNR值略有下降，但重要的是要注意人眼对单个低质量帧更敏感。通过实施L_F损失，最低PSNR值从38.43 dB提高到39.63 dB，表明这种损失可以有效增强视频水印的不可见性。

表3：有和没有L_F损失的ItoV-MBRS的PSNR值。两个模型实现了相似的鲁棒性。这里，f1代表视频片段的第一帧，以此类推。