发布
前沿研究丨隐私计算的概念、框架及趋势
来源:(中国工程院院刊) 时间: 2020-12-28 点击:2977 点赞:1

本文选自中国工程院院刊《Engineering》2019年第6期

作者:李凤华,李晖,牛犇,陈金俊

来源:Privacy Computing: Concept, Computing Framework, and Future Development Trends[J].Engineering,2019,5(6):1179-1192.

编者按

随着信息技术的快速发展和个性化服务的不断演进,海量用户个人信息数据的频繁跨境、跨系统、跨生态圈交互已成为常态,加剧了隐私信息在不同信息系统中有意/无意留存,随之而来的隐私信息保护短板效应、隐私侵犯追踪溯源难等问题越来越严重,现有的隐私保护方案已不能提供体系化的保护。

中国工程院院刊《Engineering》刊发《隐私计算——概念、计算框架及其未来发展趋势》,从信息采集、存储、处理、发布(含交换)、销毁等全生命周期的各个环节出发,阐明了现有常见应用场景下隐私保护算法的局限性,提出了隐私计算理论及关键技术体系,其核心内容包括:隐私计算框架、隐私计算形式化定义、隐私计算应遵循的4个原则、算法设计准则、隐私保护效果评估、隐私计算语言等内容。文章以4个应用场景为示例描述了隐私计算的普适性应用,并展望了隐私计算的未来研究方向和待解决问题,期待指引开放环境下用户隐私保护等方面的理论与技术研究。

前沿研究丨隐私计算的概念、框架及趋势

一、引言

信息技术、移动通信技术等的紧密结合与快速发展,以及智能终端软硬件的不断升级与换代,促进了互联网、移动互联网、云计算、大数据、物联网等方面的技术发展,同时催生了以Amazon/淘宝为代表的电商、以Facebook/微信为代表的社交、以Uber/滴滴为代表的出行等各种新型服务模式,大幅度提升了人们的生活品质。

然而,新技术、新服务模式的产生与快速发展促使海量用户个人信息跨系统、跨生态圈甚至跨境交互成为常态,用户个人信息在采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节中不可避免地会在不同信息系统中留存,导致信息的所有权、管理权与使用权分离,严重威胁了用户的知情权、删除权/被遗忘权、延伸授权。另一方面,缺少有效的监测技术支撑,导致隐私侵犯溯源取证困难。

现有隐私保护方案大都聚焦于相对孤立的应用场景和技术点,针对给定的应用场景中存在的具体问题提出解决方案

基于访问控制技术的隐私保护方案适用于单一信息系统,但元数据存储、发布等环节的隐私保护问题并未解决。

基于密码学的隐私保护方案也同样仅适用于单一信息系统,虽然借助可信第三方实施密钥管理可以实现多信息系统之间的隐私信息交换,但交换后的隐私信息的删除权/被遗忘权、延伸授权并未解决。

基于泛化、混淆、匿名等技术的隐私保护方案因对数据进行了模糊处理,经过处理后的数据不能被还原,适用于单次去隐私化、隐私保护力度逐级加大的多次去隐私化等应用场景,但因这类隐私保护方案降低了数据可用性,导致在实际信息系统中,经常采用保护能力较弱的这类隐私保护方案,或者同时保存原始数据。

目前缺乏能够将隐私信息与保护需求一体化的描述方法及计算模型,并缺乏能实现跨系统隐私信息交换、多业务需求隐私信息共享、动态去隐私化等复杂应用场景下的按需隐私保护计算架构

总之,现有隐私保护技术无法满足复杂信息系统的隐私保护需求,导致电子商务、社交网络等典型应用场景下的隐私保护问题尚未得到根本性解决。为此,本文从隐私信息全生命周期保护的角度出发,针对复杂应用场景下的体系化隐私保护需求,提出了隐私计算理论及关键技术体系,包括隐私计算框架、隐私计算形式化定义、隐私计算应遵循的四个原则、算法设计准则、隐私保护效果评估、隐私计算语言等内容,以图像、位置隐私保护等应用场景为示例描述了隐私计算的普适性应用,并展望了隐私计算的未来研究方向和待解决问题。

二、国内外现状

现有的隐私保护研究主要集中在信息处理过程中的隐私保护、隐私度量与评估两个方面

(一)信息处理过程中的隐私保护

学术界在信息采集、存储、处理、发布(含交换)、销毁等各个环节均开展了隐私信息保护研究,并在社交网络、位置服务、云计算等典型应用场景下提出了大量保护方案,其隐私保护方法主要分为访问控制、信息混淆、密码学等三类

访问控制技术通过制定信息资源的访问策略以保证只有被授权的主体才能访问信息,从而实现信息的隐私保护。近年来,多个基于访问控制的隐私保护方案被相继提出。Scherzer等提出了基于强制访问控制(MAC)模型的高可用智能卡隐私保护方案。Slamanig则提出了基于自主访问控制(DAC)模型的外包数据存储隐私保护方案。为了提高权限管理效率,Sandhu等提出了角色访问控制(RBAC),用户通过成为适当的角色成员获得相应的信息访问权限,极大地简化了复杂场景中的权限管理。Dafa-Alla等基于角色访问控制提出了一种适用于多场景的隐私保护数据挖掘方法。2018年,Li等提出了面向网络空间的访问控制模型(CoAC),该模型涵盖了访问请求实体、广义时态、接入点、访问设备、网络、资源、网络交互图和资源传播链等要素,可有效防止由于数据所有权与管理权分离、信息二次/多次转发等带来的安全问题。基于此模型,他们提出了一种基于场景的访问控制方法——HideMe,为照片分享应用中的用户提供隐私保护。此外,基于属性的加密(ABE)将用户的身份标识形式化为一系列的属性,并将属性信息嵌入加解密的过程中,使公钥密码体制具备了细粒度访问控制的能力。FINE方案利用基于属性加密的密码学算法来实现细粒度的访问控制,保护了用户的位置隐私。

信息混淆技术是基于特定策略修改真实的原始数据,使攻击者无法通过发布后的数据来获取真实数据信息,进而实现隐私保护。k-匿名、l-多样性和t-近邻等多种匿名化技术通过将用户的原始数据隐藏到一个匿名空间中实现敏感信息的隐私保护。差分隐私由于对攻击者的背景知识无要求而成为一种被广泛认可的隐私保护技术,文献将差分技术与位置大数据服务相结合,针对发布数据聚集易受相似性攻击的问题,提出一种最大化差分隐私效果的匿名算法。然而,差分隐私需要在查询结果中加入大量的随机化,随着隐私保护要求增多,可用性会急剧下降。

密码学技术是利用加密技术和陷门函数,使攻击者在无法获得密钥情况下不能得到用户隐私信息。为了保护云计算中用户的隐私信息,Rivest等首次提出了同态加密的概念。基于同态加密,Zhu等构造了隐私保护的空间多边形查询方案。1999年,Paillier设计出了基于复合模数的加法同态加密算法,在多种场景下得到了广泛应用。基于Paillier加密系统,Lu等提出了一种面向智能电网的隐私保护的数据聚合方案,该方案能够保护用户隐私并抵抗多种攻击。2009年,Gentry基于理想格成功构造了全同态加密方案,虽然近年来提出了许多改进方案,但是其复杂度仍然过高,不能应用于实际。为解决此问题,Zhu等基于轻量级隐私保护余弦相似度计算协议,设计了高效隐私保护的POI查询方案,实现了用户查询信息和位置信息的隐私保护。此外,还提出了一些基于密码学的方案,来为云计算场景下的用户数据提供隐私保护。

上述各种隐私保护方案主要是针对特定场景局部数据集的具体算法,缺少针对特定场景动态数据集的算法框架,更缺少适应多场景动态数据集的普适性算法框架;其次针对多媒体数据需要多个隐私保护算法的组合,目前也缺少成熟的方案;第三,将不同隐私保护算法互相叠加以获得更好保护效果的方法也有待开展研究。

(二)隐私度量与评估

目前学术界从信息论和应用领域对此开展针对性的研究。文献提出使用条件熵和互信息作为互补的隐私度量。Ma和Yau提出了一种时间序列数据的隐私度量标准,用于量化对手在尝试推断给定任何已发布数据范围内的原始数据时可用的信息量。Cuff和Yu提出了一种基于条件互信息的度量,通过描述对手观察公开数据后,原始数据中隐私信息不确定性的下降来度量隐私信息。Jorgensen等结合差分隐私算法中ε可控的特点,根据用户对数据隐私保护强度的要求,通过调整噪声的分配策略生成符合lap(∆f/ε)分布的噪声,其中,lap(·)为Laplace分布函数。当ε越小,添加的噪声越多,隐私保护强度越高。Asoodeh等通过互信息来度量隐私泄露的程度,他们通过计算攻击者在观察到发布数据之前和之后,在原始数据集中隐私信息的不确定量的降低来度量隐私信息。Zhao和Wagner应用4个全新的标准来评估车辆工作中的41个隐私指标强度。他们的研究结果表明,没有一个指标能够满足所有标准和交通条件。应用领域的研究则主要聚焦在社交网络、位置服务、云计算等方面。

社交网络领域。Gervais等提出了针对网页搜索中基于混淆技术的隐私保护方案,对用户隐私进行了量化,在考虑用户意图不同时每个个体不同的搜索行为,设计了一个通用性工具,对基于混淆技术的隐私保护方案进行隐私度量;Cao等在考虑时空关联的情况下,通过对隐私形式化描述,以及数据分析与计算,量化了在差分隐私技术下潜在的风险。Luo等提出使用Salus算法保护私有数据免受数据重建攻击,该算法能够实现差分隐私。他们还量化了隐私风险,并为包含Salus的群体感知应用提供了准确实用的预测。在社交推荐场景中,Yang等提出了PrivRank,该框架能抵御成员推断攻击并给出个性化的推荐结果。他们利用Kendall的τ秩距离来测量数据失真程度,并通过最优数据混淆学习来最小化隐私泄漏。

位置服务领域。Shokri等提出关于位置隐私保护机制的框架,利用确定攻击模型以及敌手的背景知识,通过信息熵等方法来描述攻击过程的精确性、确定性、正确性,从而实现隐私保护效果的度量;并同时提出一种基于博弈理论的框架,通过Bayesian Stackelberg博弈模型,该模型中的领头者在该框架中指的是用户,跟随者是攻击者,以此研究用户和攻击者的博弈,从而找出能够抵抗最强推测攻击的最佳隐私保护机制。Kiekintveld等提出了一个框架来寻找能够抵抗最强推断攻击的最佳隐私机制。最近,Zhao等提出了一个隐私保护范式驱动的室内定位框架(P3-LOC),利用特殊设计的k-匿名和差分隐私技术来保护其室内定位系统中传输的数据,既保证了用户的定位优先级,又保证了定位服务器的数据隐私。Zhang等提出了一种利用功率分配策略防止窃听的位置隐私保护方法。通过使用精确的近似算法,不同的功率分配策略能够在定位精度和隐私强度之间达到更好的平衡。

云计算领域。SAFE是以服务为导向的隐私保护框架,为云计算中对协议和本体的在跨邻域交互下实现了安全协调。Wu等基于博弈论和差分隐私,对用户所涉及的博弈元素进行多级量化,通过的单一数据集的分析实现用户的隐私度量。Zhang等利用了差分的概念来对参与用户的隐私等级进行量化,进而实现准确的激励机制。为了保护云端的数据隐私,Chaudhari和Das提出了一种基于单个关键字的可搜索加密方案,适用于多个数据所有者上传数据、多个用户访问数据的应用。

上述各类隐私度量方案缺乏对隐私概念的统一定义;其次,隐私度量随信息接收主体、拥有数据量大小以及场景动态变化,目前缺乏隐私的动态度量方法;第三,信息跨系统传播,缺乏不同系统隐私度量的一致性、隐私信息操作控制的形式化描述方法,不能支持跨平台的隐私信息交换、延伸授权等动态保护需求。

综上所述,现有的隐私保护以及隐私度量方案零散孤立,还缺乏隐私信息操作审计和约束条件的形式化描述方法,尚未有将隐私保护与隐私侵犯取证追踪一体化考虑的方案,无法构建涵盖信息采集、存储、处理、发布(含交换)、销毁等全生命周期各个环节的隐私保护和隐私侵犯取证追踪的技术体系。

三、隐私计算的定义与框架

本节依次介绍隐私与隐私计算的基本概念,隐私计算框架及形式化定义,隐私保护方案的设计准则及效果评估

(一)隐私与隐私计算的概念

1. 隐私权与隐私信息

从隐私保护的角度,本文更多侧重隐私信息的全生命周期保护,具体而言,隐私信息包括当事人不愿他人知道或他人不便知道的个人信息、只愿在本人认可的人群范围且本人认可的传播方式传播等。隐私信息还可被用来精准刻画用户的个人画像,从而影响其生活和工作。

从学术上来讲,隐私信息与时空场景、主体认知能力等因素紧密相关,并呈现出动态的感知结果。本文主要从技术角度对隐私信息进行定义和描述,因此本文所定义的隐私概念与法律的定义有所差异,是为了支持跨系统隐私信息交换、隐私信息处理、隐私保护效果自动化评估等方面的研究。

2. 隐私计算

隐私计算是面向隐私信息全生命周期保护的计算理论和方法,具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护

隐私计算涵盖信息所有者、信息转发者、信息接收者在信息采集、存储、处理、发布(含交换)、销毁等全生命周期过程的所有计算操作,是隐私信息的所有权、管理权和使用权分离时隐私信息描述、度量、保护、效果评估、延伸控制、隐私泄漏收益损失比、隐私分析复杂性等方面的可计算模型与公理化系统。

从全生命周期的角度出发,本文提出了如图1所示的隐私计算框架。该框架面向任意格式的明文信息M,首先将全过程分解成以下几个元素:语义提取、场景提取、隐私信息变换、隐私信息整合、隐私操作选取、隐私保护方案选择/设计、隐私效果评估、场景描述以及反馈机制。然后,将这些元素整合到以下5个步骤中,以此实现隐私计算框架。

前沿研究丨隐私计算的概念、框架及趋势

图1 隐私计算框架。F:隐私计算操作集合;A:隐私属性向量;Γ:广义定位信息集合;Ω:审计控制信息集合;Θ:约束条件集合;Ψ:传播控制操作集;前沿研究丨隐私计算的概念、框架及趋势

归一化隐私信息;

f:隐私计算操作;前沿研究丨隐私计算的概念、框架及趋势

:执行操作后的归一化隐私信息

步骤1:隐私信息提取。根据明文信息M的格式、语义等,抽取隐私信息X,并得到隐私信息向量I

步骤2:场景抽象。根据I中各隐私信息分量的类型、语义等,对应用场景进行定义与抽象。

步骤3:隐私操作选取。选取各隐私信息分量 所支持的隐私操作,并生成传播控制操作集合。

步骤4:隐私保护方案设计/选取。根据需求选择/设计合适的隐私保护方案。如有可用且适合的方案及参数则直接选择,如无,则重新设计。

步骤5:隐私保护效果评估。根据相关评价准则,本文使用基于熵或基于失真的隐私度量来评估所选择的隐私保护方案的隐私保护效果。有关评估保护隐私效果的详情,请参阅第3.5节。

对所采用的隐私保护方案进行效果评价。当隐私保护效果评价结果没有达到预期,则执行反馈机制,包括3种具体情况:①当场景抽象不当时,则对场景重新进行抽象迭代;②当场景抽象无误但隐私操作选取不当时,则对隐私操作重新进行规约;③当场景、操作均无误时,则对隐私保护方案进行调整/完善,以达到满意的隐私保护效果。

需要注意的是,这些元素和步骤可以根据具体场景自由组合,该过程如图1所示。

(二)隐私信息的形式化定义

本节首先定义隐私信息X及其所涵盖的6个基本元素,以及相关公理、定理和假设等,这些是描述隐私计算其他内容的基础。需要指出的是,针对任意信息M的隐私信息向量的提取方法不在本文研究范畴内,因为它们受特定领域提取条件的约束。隐私信息的量化也不在本文研究范畴内,因为这是信息系统编程人员或建模人员的任务。

定义1:隐私信息X 由六元组〈I,A, Γ, Ω, Θ, Ψ〉组成,其中,这6个元素分别代表隐私信息向量、隐私属性向量、广义定位信息集合、审计控制信息集合、约束条件集合、传播控制操作集合。

定义2:隐私信息向量I= (IID,i1,i2, …,ik, …,in),其中,ik(1≤kn)是隐私信息分量,用于表示信息M中语义上含有信息量的、不可分割的、彼此互不相交的原子信息,其信息类型包括文本、音频、视频、图像等,语义特征包括字、词、语调、语气、音素、音调、帧、像素、颜色等。IID为该隐私信息向量的唯一标识。例如,文字信息“U1U2去Loc喝酒”,这句话中I= (IID,i1,i2,i3,i4,i5,i6,i7) = (IID,U1, 和,U2, 去, Loc, 喝, 酒),n= 7。注意:某些特定的信息片段,如谚语,可以用自然语言处理方案进行有效的切分。

公理1:在某种自然语言及其语法规则下,在单词、短语(phrase)、俚语的粒度下,隐私信息向量I的分量数量一定有界。

性质1:隐私信息向量符合第1范式(1NF)和第2范式(2NF)。

隐私信息分量定义为不可细分的最小粒度,具有原子属性。1NF的定义为:称一个关系模式R属于第一范式,当且仅当R的所有属性的域都是原子的。所以符合第1范式。隐私信息向量I有唯一标识的IID为主键,其他非主属性的元素均依赖于该主键。2NF的定义为:若R∈1NF,且每一个非主属性完全函数依赖于唯一的主键,则R∈2NF。所以ik符合第2范式。

定义3:约束条件集合Θ = {θ1,θ2,…, θk, …, θn},θk(1≤kn)表示隐私信息分量ik对应的约束条件向量,用于描述在不同场景下实体访问 所需的访问权限,例如,谁、在什么时间、使用什么设备、以什么方式访问和使用隐私信息向量,并持续使用隐私信息向量多长时间等。只有满足约束条件向量θk中全部访问权限的访问实体才能正常访问隐私信息分量ik。实体包括信息所有者、信息接收者、信息发布者等。

定义4:隐私属性向量A=(a1,a2, …,ak, …,an,an+1,…,am),ak代表隐私属性分量,用于量化隐私信息分量及分量组合的保护程度。在现实应用时,在不同场景下不同的隐私信息分量可进行加权动态组合,这些组合会产生新的隐私信息,但基于隐私信息分量的原子性,本文将不同ik组合的隐私信息保护程度,以隐私属性分量表示。当1≤kn时,ak与ik一一对应;当n km时,ak表示两个或两个以上隐私信息分量组合后的隐私信息的保护程度。

ak取值范围定义为[0, 1],其中,ak取值为0时表示隐私信息所有者在安全可控的环境下信息独享,即信息没有任何共享性,不允许有任何泄漏的可能,代表信息得到最高程度的保护,保护后的隐私信息与原始隐私信息的互信息为0。例如,如果是加密之类的隐私保护方法,代表密钥丢失、信息完全不可恢复的情况;如果是添加噪声、泛化等不可逆有损的隐私保护方法,代表信息失真度,使得保护后信息与原始信息完全不相关。ak取值为1时,代表ik分量不受任何保护,可以不加限制地随意发布。不同的中间值代表对不同隐私信息分量的保护程度,取值越低,表示隐私信息的保护程度越好。

将隐私保护程度量化操作函数记为σ,其中,人工标记、加权函数等都可作为隐私保护程度量化操作函数,因为 有不同的信息类型,因此对应的σ表达式也不同,可记为 ak= σ (ik,θk) (1≤kn)。对于隐私信息分量i1,i2, …, in的任一组合

前沿研究丨隐私计算的概念、框架及趋势

,运算符定义为多个隐私信息分量的组合,通过隐私保护程度量化操作函数σ生成隐私属性分量an+j,即an+j=

前沿研究丨隐私计算的概念、框架及趋势前沿研究丨隐私计算的概念、框架及趋势

(1≤k1<…<ksn)。对于隐私信息分量i1,i2, …,in和隐私信息分量组合in+1,in+2, …, im,生成隐私属性向量A= (a1,a2, …, ak, …, an,an+1, …, am),其中,m取值为大于或等于n的正整数。将上述隐私信息向量与隐私属性向量的关系简记为A=σ(I, Θ)。量化操作与约束条件密切相关,不同实体在不同场景访问时的量化结果可能不同。

定理1:对一个特定的分量个数有界的隐私信息向量I= (IID,i1,i2, …,ik, …,in),其隐私属性向量A=(a1,a2, …,ak, …,an,an+1,…,am)的维数有界,当I中各隐私信息分量的二元/多元组合仅对应唯一隐私属性分量时,其隐私属性分量个数m2 n– 1。

证明:由定义1和公理1可知,在隐私信息向量I 给定的条件下,其维数有界,即为n。再由隐私属性向量的定义可知,隐私属性分量对应隐私信息分量及其组合,因此隐私属性向量维数有界。当隐私信息分量组合与隐私属性分量一一对应时,隐私属性向量维数最多为隐私信息分量的所有组合个数,包括2到n元组合,即

前沿研究丨隐私计算的概念、框架及趋势

为– 1,所以有m≤2n– 1。

定义5:广义定位信息集合Γ= (γ,1 γ2, …, γk, …, γn),γk为广义定位信息向量,表示隐私信息分量ik在信息M中的位置信息及属性信息,可对隐私信息分量ik快速定位。位置信息用于描述所述 在信息M中的具体位置,如页码、章节、段落、序号、坐标、帧序号、时间段、音轨、图层、像素等位置信息。在文本文件中,位置信息主要有页码、章节、段落、序号等,属性信息主要有字体、字号、粗细、斜体、下划线、删除线、上角标、下角标、样式、行间距等;属性信息在音频或视频文件中则包含字体、大小、粗细、行间距、像素、色度、亮度、音调、语调、语气等。

定义6:审计控制信息集合Ω= (ω1,ω2, …, ωk, …,ωn),ωk表示ik在传播过程中一个具体的审计控制向量,用于记录隐私信息分量ik在流转过程中的主客体信息和被执行的操作记录,若发生隐私信息泄露时,可进行追踪溯源。例如,流转过程中主客体信息包括信息所有者、信息转发者、信息接收者、信息发送设备、信息接收设备、信息传输方式、信息传输信道等;操作记录包括复制、粘贴、剪切、转发、修改、删除等。

定义7:传播控制操作集合Ψ = (ψ1,ψ2, …, ψk, …,ψn),ψk为传播控制操作向量,用于描述ik及其组合可被执行的操作,如复制、粘贴、转发、剪切、修改、删除等操作,这些操作不破坏I 的原子性。其中,ψl =judg(al, θl),约束条件向量

前沿研究丨隐私计算的概念、框架及趋势

(n+1≤lm),judg为操作判别函数,包括但不限于包括人工标记、加权函数中的一种或多种的任意组合。

公理2:跨系统交换时,延伸授权的信息管控双方若不能完整有效地交换,则一定会导致隐私信息泄漏。

假设1:隐私计算可以定义成有限个原子操作,其他操作是在有限个原子操作的基础上进行组合得到的。

假设2:隐私计算是建立在隐私信息分量的个数有界的前提下。

(三)隐私计算应遵循的四个原则

原则1原子性。隐私分量之间相互独立,可以刻画到不可细分的粒度。

原则2:一致性。对相同的隐私信息,不同隐私保护算法均使隐私属性向量A的所有分量趋向于0。

原则3:顺序性。隐私保护算法中部分操作的顺序不同可能导致隐私保护的效果不同。

原则4:可逆性。一些隐私保护算法是可逆的,如基于加密的算法可以通过解密来恢复。然而,其他的隐私信息处理往往是不可逆的。

(四)隐私计算的刻画要素

定义8:隐私计算涉及4个元素(X,F,C,Q),其中,X分别代表隐私信息(参见定义1),F代表隐私运算操作集合,C代表隐私保护代价,Q代表隐私保护效果。

定义9:隐私运算操作集合F= {f1,f2, …, fk, …},F为对隐私信息X实施的隐私保护原子运算操作集合,如模加、模乘、模幂等运算,插入、删除等操作。隐私保护算法由隐私运算操作集合中的多个元素构成,且每个元素可重复多次使用。

隐私感知、隐私保护、隐私分析、隐私信息的交换和二次传播、隐私信息融合、隐私信息更新等都可定义为若干个原子运算操作组合而成的特定操作。

公理3:当对信息M进行隐私运算操作处理后,会导致隐私信息向量的变化,由I变为I ′,进而导致隐私属性向量A变为A′,其分量ai′的数量及数值也将发生变化。即当I进行隐私运算操作fk后得到到I′= fk(I),其相应的A′A,其中,A=σ(I),A′=σ(I′) =σ( fk(I))。

定义10:隐私保护复杂度C代表对信息M实施所需的隐私保护所耗费的各种资源的量化,包括计算/存储/网络传输开销等。每个隐私信息分量ik都对应一个隐私保护复杂性代价Ck。其中, Ck与隐私信息分量ik、约束条件向量θk、隐私运算操作向量fk有关,可以表示为:

前沿研究丨隐私计算的概念、框架及趋势

由于每个ik都可能有不同的信息类型,例如,在一个word文件中有文字、图像,甚至还有插入的音频等,因此ik对应的每个函数ck会因信息类型的不同而具有不同的表达形式,C则由向量{Ck}(1≤km)描述。

定义11:隐私保护效果Q代表对信息M进行隐私保护后所达到的保护效果,即为隐私保护前后隐私度量的差值。通常需要综合考虑信息M的隐私信息向量、信息访问实体(包括信息所有者、信息接收者、信息发布者等信息创建、传递过程中的参与者)、约束条件、隐私运算操作等要素。在前文中已经介绍了隐私度量,即隐私属性分量的表达式为ak= σ(ik, θk),其中,函数σ已经包含了对隐私运算操作向量的因素;另外,约束条件的定义中也已经涵盖信息访问实体的因素,故与隐私信息分量对应的隐私保护效果Qk可表示为:

前沿研究丨隐私计算的概念、框架及趋势

式中,σbefore表示加入隐私保护之前的隐私度量函数;σafter表示信息经过隐私保护后的隐私度量函数。

定义12:隐私泄露收益损失比L = {Lk}代表隐私信息披露后的收益和隐私泄露带来的损失比。其与隐私保护复杂性代价C、隐私保护效果Q的关系如下:

隐私计算模型的核心是对隐私计算4个因素和隐私泄露收益损失比L变量及其关系的刻画。

(五)隐私保护效果评估

定义13:隐私保护算法/方案f是由隐私运算操作集合F 中的操作fi组合而成的。f对隐私信息向量I进行作用后,对应的隐私属性向量A 中各分量将趋近于0。即对向量I,A,其中A =σ(I),若存在f∈FkI′= f(I),A′=σ(I′),s.t.||A′|| < ||A||,则f 称为隐私保护算法,其中,||·||表示向量A的某种测度,如L2范数。

定义14:隐私保护效果评估,是指隐私信息向量I被不同隐私保护算法f作用后,新的隐私信息向量I′对应的隐私属性向量的评估。即σ(f(I))越趋近于0,则隐私保护算法的效果越好。

定理2:对于特定的隐私信息内容和相关的隐私保护算法,隐私保护效果Q是可评估的。

证明:根据定义2、公理1和定义4,任意信息都可以表示为隐私向量I,并被进一步划分为有限数目的隐私信息元素 。在这里,假设1≤kn。每个隐私信息元素及其组合都可以由隐私属性向量A来衡量,A=(a1,a2, …,ak, …,an,an+1,…,am),其中,ak=σ(ik, ·) + ok(·),ok(·)是一个无穷小量,表示计算时的偏差。本文定义ak∈[0,1]取值为0时表示隐私信息分量ik受到最高等级保护, 取值为1表示这个分量不受任何保护,可不加限制地发布。也就是说,能够为每一个分量 计算一个值,在最坏情况下,该值的误差在可接受范围内。根据定义11,Q=Q1Q2⊙…⊙Qn+m,⊙代表一类运算操作。简单起见,此处直接用“+”号。由于Qk= Δak,设定Q= ∑kΔσ(ik, ·) + ∑kΔok(·)。综上,隐私保护效果是可以评估的。

效果评估主要包括保护过后的