关于差分隐私的一些基本概念的整理

引言在过去的二十年中，公司，组织和政府所收集的数字信息形成了大量的数据集，并且这种数据收集的速度在最近几年中得到了极大的提高。通常，数据收集者负责发布数据用以进行进一步分析。然而，大部分收集的数据集都包含隐私或者敏感的信息。即使数据收集者可以应用几种简单的匿名化技术，敏感的个人信息仍然很有可能被公开。因此，隐私保护已成为迫切需要解决的问题。研究人员提出了各种保护个人隐私的方法,并将这些方法

huanghelouzi

6354人浏览 · 2020-11-22 20:51:17

huanghelouzi · 2020-11-22 20:51:17 发布

引言

在过去的二十年中，随着数据挖掘技术的普遍应用，一些厂商，组织和政府所收集的数字信息形成了大量的数据集，并且这种数据收集的速度在最近几年中得到了极大的提高。通常，数据收集者负责发布数据用以进行进一步分析。然而，大部分收集的数据集都包含隐私或者敏感的信息。即使数据收集者可以应用几种简单的匿名化技术，敏感的个人信息仍然很有可能被公开。因此，隐私保护已成为迫切需要解决的问题。

研究人员提出了各种保护个人隐私的方法,并将这些方法及其隐私标准定义为一个隐私模型。如图1所示，隐私模型位于受信任的数据收集者（Curator）和不受信任的公众用户（User）之间。差分隐私就是这样一种新兴的、有前途的隐私模型。它可以保证对手(敌手)在数据集中对任何个体造成伤害的能力基本上是相同的，与任何个体选择进入或退出数据集无关。与以往的隐私模型相比，差分隐私模型能够成功抵御大多数隐私攻击，并提供了可证明的隐私保障。

差分隐私在数据发布中的应用

差分隐私数据发布的目的是在不披露任何个人记录（或者说具体个人信息）的情况下向公众输出聚合信息。这个问题可以表述为：如果一个数据收集者有一个数据集 $D$ ，并且收到一个查询集合 $F=\{f_1，…，f_m\}$ ，那么他们需要在满足差分隐私约束的前提下回答每个查询 $f_i∈F$ 。

此发布方案涉及交互式和非交互式两个场景（interactive and non-interactive）。在交互式场景中，只有收到了前一个查询 $f_{i-1}$ 的响应后才能申请下一个查询 $f_i$ 。在非交互式场景中，所有查询都一次提供给数据收集者，数据收集者可以在充分了解查询集合 $F$ 的情况下响应请求。

下面给出了交互式和非交互式两个场景之间差异的示例。对数据收集者的查询可能如下所示：
在这里插入图片描述

查询1( $f_1$ ): 40至79岁之间有多少患者患有糖尿病?
查询2( $f_2$ ): 40至59岁之间有多少患者患有糖尿病?

假设每次查询的隐私预算 $ϵ$ 是固定的。在交互式场景中，数据收集者将首先收到查询 $f_1$ ，然后计算40至79岁之间患有糖尿病的患者人数， $f_1$ 的灵敏度为1，并将独立的拉普拉斯噪声 $L a p (1 / ϵ)$ 加上。然后将 $f_2$ 提交给数据收集者时，此时 $f_2$ 的灵敏度将等于2，因为更改表中的任意一个人可能会更改两个查询的结果。添加到查询集的总噪声为 $L a p (1 / ϵ) + L a p (2 / ϵ)$ 。

在非交互式场景中，两个查询都同时提交给数据收集者。两个查询的敏感度均为2，添加到查询集中的总噪声为 $2 * L a p (2 / ϵ)$ ，大于交互式场景的总噪声 $L a p (1 / ϵ) + L a p (2 / ϵ)$ 。查询之间的相关性也会导致更高的敏感性。因此，非交互式场景通常会比交互式场景产生更多的噪音。