1 引言

由澳门大学研究者联合完成的论文《An End-to-End Model for Logits-Based Large Language Models Watermarking》发表于2025年ICML国际机器学习大会。该研究针对当前大语言模型生成内容在版权溯源与真实性验证方面的难题,提出了一种创新性的端到端logits扰动水印模型。论文首次实现了编码器与解码器的联合优化,显著提升了水印检测的鲁棒性与文本质量之间的平衡。为解决端到端训练中的非可微问题,研究者提出了一种“在线提示”技术,使模型能够通过运行时大模型近似实现可微代理,从而在不依赖外部模型的情况下完成完整训练流程。


2 研究背景

在大语言模型生成内容的真实性与溯源研究中,水印技术被广泛用于区分人类撰写与模型生成的文本。现有工作主要分为两大类:基于logits扰动方法基于采样方法。然而,这些方法在文本修改下的鲁棒性与生成质量保持之间始终难以兼顾。下两个表总结了主要代表性工作及其局限性,基于logits扰动的方法如下表所示:

代表性方法 核心思想 优点 存在问题
KGW 通过哈希上下文将词汇表划分为“红/绿”列表,对logits添加偏置以控制token采样比例 实现了早期可检测的LLM水印机制 对轻微改写极不鲁棒,语义漂移明显
KGW-R 改进哈希方案增强检测稳定性 提高了一定稳健性 仍依赖固定哈希划分,不可学习
Unigram 使用固定红绿分割减少编辑影响 编辑鲁棒性较好 不具备上下文自适应能力
SIR 通过神经网络学习上下文感知的偏置 提升了鲁棒性 编码与检测独立训练,未实现端到端优化
TSW 动态调整水印强度与比例 平衡检测率与质量 优化复杂,难以统一目标
DiPmark 通过分布保持函数增强选中token概率 减少语义偏移 仍难以应对复杂文本修改

基于采样的方法如下表所示:

代表性方法 核心思想 优点 存在问题
EXP 通过伪随机比特流控制token采样概率分布,实现无失真嵌入 检测准确率高、可证明鲁棒性 推理耗时较长,不适合大规模API部署
EXP-Edit 在EXP基础上引入编辑距离匹配,提升抗篡改性 抗编辑鲁棒性强 计算复杂度高,检测速度慢
Unbiased 采用逆采样与排列重加权生成机制,避免语义偏差 保持高语义一致性 需访问模型logits,计算开销大

以往的大模型文本水印方法主要存在四大局限:(1)缺乏端到端联合优化,编码器与解码器分离训练导致鲁棒性与文本质量难以兼顾;(2)存在非可微模块,使梯度无法贯通;(3)对文本改写缺乏鲁棒性,易受同义替换或段落调整影响;(4)跨模型泛化性差,迁移到其他大模型需重新训练。为解决这些问题,该论文提出了端到端logits扰动水印模型,通过编码器与解码器的联合优化实现鲁棒性与语义保持的平衡,利用“在线提示”机制将非可微操作转化为可微代理,并通过“跨模型适配转换器”实现不同大模型间的零样本迁移。该方法首次实现了大模型文本水印的全可微端到端训练,在鲁棒性、语义一致性与跨模型泛化性方面均取得显著提升。


3 论文方法

本文提出的端到端logits扰动水印模型,其核心思想是在语言模型的logits空间中注入可检测的微扰信号,并通过编码器—解码器联合优化实现语义保持与鲁棒检测的统一最优。

3.1 水印嵌入机制

设原始语言模型为 M M M,其在第 t t t个时间步生成的logits表示为 l ( t ) = [ l 1 ( t ) , l 2 ( t ) , … , l ∣ V ∣ ( t ) ] ∈ R ∣ V ∣ l^{(t)} = [l_1^{(t)}, l_2^{(t)}, \ldots, l_{|V|}^{(t)}] \in \mathbb{R}^{|V|} l(t)=[l1(t),l2(t),,lV(t)]RV其中, V V V为词汇表,对应的生成概率为 p M ( x t = v i ∣ x < t ) = exp ⁡ ( l i ( t ) ) ∑ j = 1 ∣ V ∣ exp ⁡ ( l j ( t ) ) p_M(x_t = v_i \mid x_{<t}) = \frac{\exp(l_i^{(t)})}{\sum_{j=1}^{|V|} \exp(l_j^{(t)})} pM(xt=vix<t)=j=1Vexp(lj(t))exp(li(t))为实现水印嵌入,该论文设计了轻量级编码器网络 E θ E_\theta Eθ,根据上下文窗口 C ( t ) = [ x t − w , … , x t − 1 ] C^{(t)} = [x_{t-w}, \ldots, x_{t-1}] C(t)=[xtw,,xt1]生成水印扰动logits为 l W ( t ) = E θ ( C ( t ) , l ( t ) ) l_W^{(t)} = E_\theta(C^{(t)}, l^{(t)}) lW(t)=Eθ(C(t),l(t))最终的扰动logits定义为 l ^ ( t ) = l ( t ) + δ ⋅ l W ( t ) \hat{l}^{(t)} = l^{(t)} + \delta \cdot l_W^{(t)} l^(t)=l(t)+δlW(t)其中, δ \delta δ控制扰动强度。为保持生成稳定性,仅对前 k k k个最大logits的词元施加扰动,计算方式为 l W , top- k ( t ) = tanh ⁡ ( τ t ⋅ f MLP ( S top- k ( t ) ) ) l_{W,\text{top-}k}^{(t)} = \tanh(\tau_t \cdot f_{\text{MLP}}(S_{\text{top-}k}^{(t)})) lW,top-k(t)=tanh(τtfMLP(Stop-k(t)))其中, τ t \tau_t τt为tanh平滑参数, S top- k ( t ) S_{\text{top-}k}^{(t)} Stop-k(t)表示由前 k k k个候选token组成的局部上下文。

3.2 可微采样

由于标准的离散采样操作不可导,无法直接参与反向传播,该论文采用Gumbel-Softmax近似来对采样过程进行可微化建模,从而实现端到端训练。在每个时间步 t t t,对扰动后的logits l ^ ( t ) \hat{l}^{(t)} l^(t)引入Gumbel噪声 g i = − log ⁡ ( − log ⁡ U i ) g_i = -\log(-\log U_i) gi=log(logUi),其中 U i ∼ Uniform ( 0 , 1 ) U_i \sim \text{Uniform}(0,1) UiUniform(0,1),并通过温度参数 τ g \tau_g τg 控制平滑程度,从而得到可微的采样分布: p M ( x t ) = softmax ( l ^ ( t ) + g τ g ) . p_M(x_t) = \text{softmax}\left(\frac{\hat{l}^{(t)} + g}{\tau_g}\right). pM(xt)=softmax(τgl^(t)+g).随后,根据该分布计算词元的连续嵌入表示: x t = p M ( x t ) ⊤ E , x_t = p_M(x_t)^\top E, xt=pM(xt)E,
其中, E E E为词向量嵌入矩阵。通过该近似方式,模型能够在保持采样行为接近真实离散生成的同时,确保梯度可通过采样步骤传递,从而使整个水印生成与检测框架实现真正的端到端可微优化。

3.3 联合优化目标

由于语义损失 L sem L_{\text{sem}} Lsem的计算通常涉及非可微操作,该论文提出在线提示技术,通过在训练过程中动态提示在线大语言模型,自行生成语义嵌入,从而避免依赖外部语义模型。该过程可表示为: e wm = M ( [ X spb , X wm , X spe ] ) , e nwm = M ( [ X spb , X nwm , X spe ] ) , e_{\text{wm}} = M([X_{\text{spb}}, X_{\text{wm}}, X_{\text{spe}}]), \quad e_{\text{nwm}} = M([X_{\text{spb}}, X_{\text{nwm}}, X_{\text{spe}}]), ewm=M([Xspb,Xwm,Xspe]),enwm=M([Xspb,Xnwm,Xspe]),语义保持约束定义为余弦相似度损失: L sem = 1 − ⟨ e wm , e nwm ⟩ ∥ e wm ∥ 2   ∥ e nwm ∥ 2 . L_{\text{sem}} = 1 - \frac{\langle e_{\text{wm}}, e_{\text{nwm}} \rangle}{\|e_{\text{wm}}\|_2 \, \|e_{\text{nwm}}\|_2}. Lsem=1ewm2enwm2ewm,enwm.在检测阶段,解码器 D ϕ D_\phi Dϕ采用LSTM与MLP结构,将文本 X X X(可能经过编辑)映射为水印存在的概率: m ^ = D ϕ ( X ) ∈ [ 0 , 1 ] , \hat{m} = D_\phi(X) \in [0,1], m^=Dϕ(X)[0,1],并使用交叉熵损失进行训练: L dec = − [ m log ⁡ m ^ + ( 1 − m ) log ⁡ ( 1 − m ^ ) ] , L_{\text{dec}} = -[m \log \hat{m} + (1 - m)\log(1 - \hat{m})], Ldec=[mlogm^+(1m)log(1m^)],其中, m ∈ { 0 , 1 } m \in \{0,1\} m{0,1} 表示文本是否含有水印。最终,整个系统通过联合优化实现端到端训练,综合考虑检测准确性与语义一致性,其整体损失函数为: min ⁡ θ , ϕ    L total = λ dec L dec + λ sem L sem , \min_{\theta, \phi} \; L_{\text{total}} = \lambda_{\text{dec}} L_{\text{dec}} + \lambda_{\text{sem}} L_{\text{sem}}, θ,ϕminLtotal=λdecLdec+λsemLsem,其中, λ dec \lambda_{\text{dec}} λdec λ sem \lambda_{\text{sem}} λsem控制检测精度与语义保真度之间的平衡。优化过程采用多梯度下降策略,以获得鲁棒性与语义保持的Pareto最优解。

3.4 跨模型适配

为解决不同大语言模型之间存在的tokenizer差异及嵌入空间不一致问题,该论文提出了跨模型适配转换器模块 C M 1 → M 0 C_{M_1 \to M_0} CM1M0,用于在不同模型之间建立可学习的嵌入映射关系。具体而言,给定源模型 M 1 M_1 M1与目标模型 M 0 M_0 M0的嵌入空间 E M 1 E_{M_1} EM1 E M 0 E_{M_0} EM0,转换器通过双向映射机制将前者转换至后者,从而实现跨模型语义对齐: E M 1 → C M 1 → M 0 E M 0 , X ′ = C M 1 → M 0 ( X ) 。 E_{M_1} \xrightarrow{C_{M_1 \to M_0}} E_{M_0}, \quad X' = C_{M_1 \to M_0}(X)。 EM1CM1M0 EM0,X=CM1M0(X)该模块的引入使得已在特定语言模型(如 OPT-1.3B)上训练完成的水印模型可以直接迁移到其他模型(如 Llama3、Mixtral 等)上进行推理,而无需重新训练或调整参数。跨模型推理的过程可表示为: E M 0 ∗ ( C M 1 → M 0 ( S ) ) , D M 0 ∗ ( C M 1 → M 0 ( X ) ) E^*_{M_0}(C_{M_1 \to M_0}(S)), \quad D^*_{M_0}(C_{M_1 \to M_0}(X)) EM0(CM1M0(S)),DM0(CM1M0(X))通过这一机制,本文实现了在不同模型间的水印嵌入与检测兼容性。实验结果显示,该转换器在处理不同 tokenizer 分词粒度和嵌入维度差异时仍能保持较高的语义一致性,使模型在多架构LLM环境下具备良好的零样本迁移能力,显著提升了方法的实用性与可扩展性。


4 实验结果

4.1水印鲁棒性与文本质量测试

该实验通过在三种主流大模型(OPT-1.3B、Llama2-7B、Qwen2.5-7B)上对比五种水印方法(KGW、Unigram、Unbiased、DiPmark与本文方法),评估在不同文本编辑如同义替换(SS)、复制粘贴(CP)、段落重组(PA),等条件下的检测F1分数与文本困惑度(PPL)。实验目的是验证本文提出的端到端logits扰动模型在不降低文本质量的前提下能否显著提升鲁棒性。结果表明,本文方法在三种模型上的平均F1得分达到 0.975 0.975 0.975,较DiPmark提升 17.3 % 17.3\% 17.3%,在同义改写下最高提升 39 % 39\% 39%,同时PPL与无失真方法持平,证明了联合优化框架在鲁棒性与语义保持之间取得了优越平衡。

4.2 跨模型泛化能力验证

为验证模型的跨语言模型泛化能力,作者在训练阶段仅使用OPT-1.3B进行端到端优化,并在测试阶段直接将已训练模型应用于Mixtral-7B、Llama3-8B和Llama3.2-3B等不同架构的大模型上进行零样本推理,无需额外微调。实验旨在评估所提出的“跨模型适配转换器”在应对不同tokenizer与嵌入空间差异时的迁移性能。结果表明,该方法在三种目标模型上F1分数均超过 0.99 0.99 0.99,鲁棒性稳定,文本困惑度仅略高于非水印文本,表明模型几乎不影响生成质量,能够有效实现跨模型语义映射与水印迁移,展现出良好的通用性与可扩展性。

4.3 水印强度 δ \delta δ与质量平衡分析

该实验系统分析了扰动强度参数 δ \delta δ对水印鲁棒性与文本质量的影响,以PPL衡量生成质量,并在同义改写与复制粘贴两种攻击下评估检测 F 1 F1 F1。实验旨在探索模型在不同扰动强度下的最优平衡点。结果表明,当PPL约为 8 8 8(接近非水印文本的6.8)时,本文方法在两种攻击下的鲁棒性分别提升约 18 % 18\% 18% 20 % 20\% 20%,显著优于Unigram与SIR方法;当 δ \delta δ过大时虽能进一步提高F1,但会引发语义漂移。该实验验证了端到端联合优化框架在调控扰动强度时能有效平衡鲁棒性与生成质量,体现出模型训练的稳定性与可解释性。

Logo

更多推荐