本地化差分隐私(Local Differential Privacy)浅析
书接上文,这次来谈谈本地化差分隐私:一、背景传统的差分隐私是将原始数据集中到一个数据中心,然后在此对数据施加差分隐私算法,并对外发布,称之为中心化差分隐私(Centralized Differential Privacy)。因此,中心化差分隐私有一个前提:可信的第三方数据收集者,即保证所收集的数据不会被窃取和泄露。然而,在实际生活中想找到一个真正可信的第三方数据...
书接上文,这次来谈谈本地化差分隐私:
一、背景
传统的差分隐私是将原始数据集中到一个数据中心,然后在此对数据施加差分隐私算法,并对外发布,称之为中心化差分隐私(Centralized Differential Privacy)。因此,中心化差分隐私有一个前提:可信的第三方数据收集者,即保证所收集的数据不会被窃取和泄露。然而,在实际生活中想找到一个真正可信的第三方数据收集平台十分困难,这极大地限制了中心化差分隐私的应用。
鉴此,本地化差分隐私应运而生,基于不可信第三方的前提下,其将数据隐私化的工作转移到每个用户,用户自己来处理和保护个人数据,极大地降低了隐私泄露的可能性。
中心化差分隐私与本地化差分隐私数据处理框架,如下图所示:
中心化差分隐私数据处理框架图 本地化差分隐私数据处理框架图
二、定义
任意本地化差分隐私函数,定义域为,值域为,对任意输入, ,输出 ,都有:
[ = ] [ = ]
注意:a. 本地化差分隐私技术通过控制任意两条记录的输出结果的相似性,从而确保算法满足本地化差分隐私,即输出同为,窃密者无法确认输入为还是;
b. 越小,任意两条记录输出结果相似性越高;反之,亦然。
三、扰动机制
目前,随机响应(randomized response) 技术是本地化差分隐私保护技术的主流扰动机制,如下:
1、扰动性统计
引入一个现实场景:有个用户,假设AIDS患者的真实比例为。我们希望对其比例进行统计,于是发起一个敏感的问题:“你是否为AIDS患者? ”,每个用户对此进行响应,第个用户的答案为是或否,但出于隐私性考虑,用户不会直接响应真实答案.假设其借助于一枚非均匀的硬币来给出答案,其正面向上的概率为,反面向上的概率为 。抛出该硬币,若正面向上,则回答真实答案,反面向上,则回答相反的答案。
首先,进行扰动性统计。利用上述扰动方法对个用户的回答进行统计,可以得到艾滋病患者人数的统计值.假设统计结果中,回答“ 是”的人数为,则回答“ 否”的人数为。 显然,按照上述统计,回答“是”和“否”的用户比例如下:
= +
= p +
2、校正
显然,上述统计比例并非真实比例的无偏估计,因此需要对统计结果进行校正。
因此,构建以下似然函数 :
=
并得到的极大似然估计:
求导过程:a. 对取对数,得:
= +
b. 对上式关于求导,得:
c. 化简上式,可得:
的数学期望证明是真实的无偏估计:
即
由此可以得到校正的统计值,其中表示统计得到的AIDS人数估计值:
综上,根据总人数,回答“是”的人数和扰动概率,即可得到真实患病人数的统计值。为保证其满足-本地化差分隐私,根据定义,隐私预算设定为:
注意:的取值为,即的值可正可负,但恒大于。
四、本地化与中心化差分隐私的异同点
1、组合特性
本地化差分隐私继承中心化差分隐私的串行和并行组合特性。(详见上篇文章)
2、数据处理
中心化差分隐私的数据处理依靠可信第三方;本地化差分隐私的数据处理依靠的是用户本身。
3、噪声机制
中心化差分隐私的噪声机制主要以拉普拉斯机制和指数机制为主;本地化差分隐私的噪声机制主要以随机响应为主。
暂定初稿,以后会慢慢补充
That's all, good luck.
为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。
更多推荐
所有评论(0)