机器学习到隐私保护的探索与科研之路

前言

  • 当下最热的科研领域,人工智能AI当之无愧,而机器学习ML人工智能的基础分支,深度学习DL又是机器学习的重要分支。而这些研究领域都存在各样的隐私保护问题。
  • 隐私保护作为当今又一个重要研究领域,将其与人工智能等这些研究领域相结合将会有远大的前途啊。
  • 而美好愿望的实现,得一步一步走。我们得先走隐私保护与机器学习之间的科研之路,再探索基于隐私保护的深度学习,最后才能走到隐私保护人工智能这伟大一步。
  • 任重而道远,加油,皮卡丘!

本文目的

初识机器学习、隐私保护相关概念。探索之间的联系,为机器学习中的隐私保护这个新的研究方向奠定基础。

机器学习概念

  • 机器学习(Machine Learning.ML):是人工智能的一个分支,是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。让一个计算机程序针对某一个特定任务,从经验中学习,并且学习的越来越好。

  • 深度学习(Deep Learning.DL):是机器学习拉出的分支,是机器学习算法中的一种算法,一种实现机器学习的技术和学习方法。

在这里插入图片描述
人工智能AI、机器学习ML、深度学习DL
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

发展与应用

  • 20世纪50年代,人工智能开始兴起,发展过程如上图所示,跌宕起伏
  • 20世纪80年代,机器学习开始兴起,作为人工智能的一个分支,得到了很广泛的应用。如:淘宝、京东上的商品推送、豆瓣电影的“猜你喜欢”,之类的推荐系统
    以及其他领域:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺骗、语音识别与手写识别、机器人等等。。
  • 2010年,深度学习取得突破性的进展,推动了人工智能的蓬勃发展。
    如:阿尔法狗、人脸识别、图像识别、文字识别、智能监控等等。。

隐私保护——初识

引言-背景
个人信息泄漏非常普遍:个人身份信息、宗教、爱好、兴趣、家庭、工作等等信息

  1. 搜索引擎收集搜索记录,提供个性化搜索服务,也具有操控舆情的嫌疑
  2. 各种APP获取你的通讯录信息、位置信息
  3. 网购信息帮助商业决策,但被不法分子获得则可用于诈骗。

随着大数据、云计算、移动互联网快速发展和广泛应用,隐私保护面临新的挑战

  1. 传统的被动式隐私保护技术,数据生成者并没有主动参与隐私保护,如:机器学习、社交网络等。仅仅依靠数据收集者的隐私保护技术是不完整的。
  2. 存储和计算的外包使得所有权和控制权相互分离,将会使云租户失去对数据的直接控制,导致云租户数据的隐私信息泄露,譬如个人电子医疗信息、金融交易或商业文件等。
  3. 多个数据集之间存在着一定的关联性,大数据的多样性带来的多源数据融合,使得隐私泄露风险大大增加。
  4. 缺乏针对大数据隐私泄露造成的巨大损失而进行的妥善的事后补救措施,导致隐私泄露事件时有发生。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    隐私信息的全生命周期
    在这里插入图片描述
    在这里插入图片描述

(1)隐私信息的产生、收集与感知

  • 数据生成者在将数据上传给数据收集者之前,可以对数据进行一定的匿名处理。
  • 在一些场合,可由多个数据生成者共同保护他们各自的隐私,从而降低隐私保护的代价。
  • 据生成者可运用虚假轨迹,来共同保护各自的隐私。

1)隐私信息产生

• 个体在日常生活、使用互联网服务等会产生图片、位置、兴趣爱好、电话号码等各类文本、图像、语音、视频等隐私信息;
• 可能被会主动或者被动的收集。

2) 隐私感知
• 从包含隐私的信息中构建隐私变量集合,或从变量集合中确定变量的取值或取值范围,产生隐私元数据;
• 对隐私进行标记和编码,确定隐私变量的概率分布,从而对隐私变量中隐私度量的大小进行计算;
• 为实施隐私保护提供支撑。

(2)隐私保护
根据隐私感知得到的数据及其标记,选用相应隐私保护方法,包括密码学方法、信息隐藏方法和数据处理方法。

  1. 密码学方法主要是研究构造适用于隐私保护、与传统数据加解密不同的密钥管理机制、同态密码方案以及混淆方法等;
  2. 信息隐藏/隐写的方法则可以用来保护元数据,将元数据以变化的形态来传输,对应的还原控制参数应该与信息本身分割存储和传输;
  3. 数据处理方法则是去除不同隐私数据间的关联性、添加数据扰动、通过数据匿名化实现隐私保护(如k-匿名,l-多样性,t-邻近性等),防止聚类分析、众包计算、深度学习等大数据分析。

(3)隐私发布、存储与交换
限制发布

  1. 这个环节是隐私信息在公众网络中传播的隐私计算机制。
  2. 隐私发布可以采用基于限制发布的隐私保护技术(见(2)隐私保护),有条件地选择性发布数据,对数据中的某些阐值进行隐藏,或者对数据进行泛化处理等。

匿名处理
考虑在数据集是相互关联的情况下,每个数据收集者选择合适的隐私参数来最大化被匿名处理之后的数据效用。

  1. 静态匿名技术(k-匿名、l- diversity匿名、t-closeness匿名以及以它们的相关变形为代表的匿名策略)
  2. 动态匿名技术(数据重发布匿名技术、m-invariance匿名技术、基于角色构成的匿名等支持数据动态更新匿名保护的策略)
  3. 匿名并行化处理(如利用MapReduce分布式计算模型实现大数据集上可扩展的匿名系统)

隐私信息存储

  1. 该环节主要研究隐私保护之后的数据高效存储,使数据如何分类、组织、快速检索、判断不同方案的隐私保护信息的同源去重、同源同系统/同源不同系统的一致性维护。
  2. 研究内容包括:同质隐私信息去冗技术、支持隐私保护的重复数据删除技术、隐私感知的混合数据分割存取技术、隐私信息完整性校验机制等。
  3. 此外,该环节还应考虑大数据存储的高效加密保护技术,以适应海量用户、高并发、多业务流、海量密钥随机交叉的调度应用。

隐私融合

  1. 不同系统在隐私界定、度量方法、隐私保护需求等方面都存在差异,而且随着时间场景的变更,人们对隐私认知也在不断的变化;此外,隐私信息可能被进行二次转发、局部处理、隐私分割、延伸授权等;
  2. 需要设计一套协议和封装描述方法,可根据不同的隐私属性、场景、隐私信息等级来自适应地选择不同的隐私保护措施,充分发挥现有隐私保护技术(如数据加密、模糊、混淆等)的各自优势。

隐私交换
隐私保护方式包括在不同信息系统的交换边界构造一个安全系统进行隐私保护方案的转换、基于隐私代理的跨网跨系统控制参数或约束条件的交换、隐私泄露的追踪溯源等。

  1. 需要研究新型的代理重加密、防密钥泄漏、跨系统交换的访问控制以及追责等机制。此外,针对具有不同隐私保护能力的信息系统间交互隐私信息的场景,需考虑从低保护级别到高保护级别,是否需要提升隐私保护等级;以及从高到低是否需降低隐私保护等级等。
  2. 常用访问控制技术:基于角色的访问控制,基于属性的访问控制等。

(4)隐私分析

  • 隐私分析是隐私保护的逆过程。从施加隐私保护方案的数据中提取隐私信息取值或确定其取值范围的过程。
  • 隐私分析实际上还受到隐私接收者(或使用者)知识背景、其所处环境和使用设备的影响,需要建立考虑这些因素的隐私分析计算模型。

(5)隐私销毁

在不再需要隐私信息,或隐私信息所有者希望终止隐私信息传播时,需要将隐私数据永远不可逆删除或销毁。为此,欧盟和美国已立法分别赋予用户“被遗忘权”和“橡皮”法律。

  1. 从技术角度而言,实现这一权力需要研究可信删除,或称为确定性删除技术,以确保隐私信息的所有者、管理者和使用者都不可再恢复该信息。同时确保隐私保护的信息不能被隐私分析提取,并建立一套体系或机制,可通知关联系统,一旦数据被销毁,释放相应的存储空间。
  2. 在当前泛在网络空间环境中,隐私信息的销毁难度非常大,极具挑战性。

隐私保护技术体系
在这里插入图片描述
隐私保护技术简介

  1. 数字匿名化技术

在数据发布时根据某些限制不发布数据的某些域值,方法有泛化、隐匿、交换等,其中,泛化和隐匿最为常用。应用:数据脱敏,数据发布。

泛化:用更一般的值或者模糊的值取代原始属性值,但语义上与原始值保持一致
隐匿:用最一般化的值取代原始属性值,可视为是最高级别的泛化。
匿名化模型:k-匿名、l-多样性、 t-Closeness、个性化匿名、动态数据匿名化。

  1. 差分隐私

保证任意一个体在数据集中或者不在数据集中时,对最终发布的查询结果几乎没有影响.具体地说,设有两个几乎完全相同的数据集(两者的区别仅在于一个记录不同),分别对这两个数据集进行查询访问,同一查询在两个数据集上产生同一结果的概率的比值接近于1.在这里插入图片描述在这里插入图片描述越小隐私保护水平越高。

差分隐私保护可以通过在查询函数的返回值中加入适量的干扰噪声来实现,常用的技术为拉普拉斯机制、指数机制。

  1. 多方安全计算

背景:百万富翁问题:两个百万富翁Alice和Bob想知道他们两个谁更富有,但他们都不想让对方知道自己财富的任何信息。在双方都不提供真实财富信息的情况下,如果比较两个人的财富多少,并给出可信证明。
基本思想

  • 解决一组互不信任的参与方之间保护隐私的协同计算问题,SMC要确保输入的独立性、计算的正确性、去中心化等特征,同时不泄露各输入值给参与计算的其他成员。
  • 主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,同时要求每个参与主体除了计算结果外不能得到其他实体任何的输入信息。

应用场景:电子选举、电子投票、电子拍卖、秘密共享、门限签名等。

总结与展望

  • 继物联网、移动互联网、云计算后,大数据人工智能将引起信息产业的又一次颠覆性技术革命。
  • 信息时代隐私威胁严重,当前技术的发展无法满足迫切的隐私保护需求,隐私保护问题需要构建法律、技术等多重手段相结合的保障体系,法律法规对隐私的保护力度会持续加强。
  • 多方安全计算密文安全计算安全存储等能够适应于信息时代数据安全的新型密码技术近期取得了很大的进展,是当前隐私保护安全技术研究的重点和热点。

基于隐私保护的新技术与应用研究探索
• 去中心化认证
• 边缘计算
• 终端安全轻量化防护技术
• 软件定义边界
• 针对网络加密流量的
• 安全检测与防护技术
在这里插入图片描述
参考文献:《隐私保护的兴起与挑战》
下载地址:隐私保护课件
学习网站:机器学习简介
一篇相关的博文:隐私与机器学习

更多推荐