您好,欢迎来到欧得旅游网。
搜索
您的当前位置:首页面向数据发布的隐私保护技术研究

面向数据发布的隐私保护技术研究

来源:欧得旅游网
龙源期刊网 http://www.qikan.com.cn

面向数据发布的隐私保护技术研究

作者:刘乐伟

来源:《数字技术与应用》2012年第12期

摘要:数据发布中仅采用删除个人身份标识的方法无法保证个人隐私信息的安全,论文分析总结了单敏感属性和多敏感属性情况下常用的匿名模型及匿名化方法,以促进在隐私保护方面有更进一步的研究。

关键词:多敏感属性 数据发布 隐私保护 匿名化

中图分类号:TN914 文献标识码:A 文章编号:1007-9416(2012)12-0077-02 1、引言

随着信息技术的迅猛发展,大量的数据收集和发布为人们的学习和工作提供了巨大的便利条件,但同时也增加了泄露个人隐私信息的风险。数据发布中的隐私保护问题已被许多学者关注,成为当前的研究热点之一。 2、相关概念 2.1 属性分类

待发布的数据表可视为包含多条记录的关系型数据表,其中每一条记录含有多个属性,通常可将关系表中的属性分为以下4类:(1)显式标识符属性,指能准确标识个体身份的属性,如姓名、身份证号等;(2)准标识符属性(QI),与外部数据源进行链接可标识个体身份的一组属性,如年龄、性别、出生日期等;(3)敏感属性(SA),包含个体隐私的属性,如疾病、薪酬等信息;(4)其他属性。 2.2 链接攻击

链接攻击是攻击者经常采用的从发布的数据中获取隐私信息的方法之一,其基本思想为:攻击者通过将发布的数据表和其他数据表进行链接,从中推理出个体隐私信息,从而造成了隐私泄露。

3、单敏感属性的隐私保护 3.1 匿名模型

龙源期刊网 http://www.qikan.com.cn

使经过隐私保护算法处理后的数据表符合某一种匿名模型,能在一定程度上保护个体的隐私信息不被泄露。下面对单敏感属性情况下的基本匿名模型进行分析和总结。

(1)k-匿名:2002年,Sweeney和Samarati对数据发布中的隐私保护进行研究,并首次提出了k-匿名[1,2]模型。k-匿名模型要求发布的数据表中每一条记录至少和其他的k-1条记录具有相同的准标识符属性值,具有相同准标识符属性值的记录组成一个等价类。k-匿名原则可以有效的抵御链接攻击,攻击者获取每个个体的隐私信息的概率至多为1/k。一般情况下,k值越大,隐私保护效果越好,但造成的信息损失越大。

k-匿名的不足在于没有考虑同一等价类中敏感属性值的分布情况,当同一等价类中的记录具有相同的敏感属性值或某一敏感属性值占较大比例时,攻击者仍可较容易的推测出个人的敏感信息。同时,攻击者也可以通过其他的相关背景知识以较高的概率获取个体的隐私信息。因此,k-匿名不能抵御同质攻击和背景知识攻击。

(2)L-diversity:针对k-匿名不能抵御同质攻击和背景知识攻击的缺陷,Machanavajjhala等在研究k-匿名的基础上提出了L-diversity匿名模型。L-diversity要求每个等价类中至少包含L个“well-represented”,即每个等价类中至少有L个不同的敏感属性值。L-diversity使得攻击者至多以1/L的概率获取个体的隐私信息。L-diversity能有效抵制同质攻击和一定的背景知识攻击,但不能抵御相似性攻击。

(3)t-closeness:2007年,Li等人提出了能抵御相似攻击的t-closeness匿名模型,在分析L-diversity的基础上,考虑了敏感属性的分布情况。t-closeness要求数据表满足k-匿名的基础上,每个等价类的敏感属性值的分布与敏感属性值在原数据表中的分布之间的差异不超过t。满足t-closeness的数据表可以保证每个等价类中的敏感属性值具有多样性,同时在语义上也不相似。因此,t-closeness可以抵御相似性攻击。t-closeness自身的不足为它很大程度上降低了数据的可用性,增大阈值t可以提高数据的实用性。 3.2 匿名化技术

目前提出的匿名化技术主要有泛化、隐匿和基于有损连接的分解技术,下面对他们进行详细介绍。

(1)泛化:泛化是一种经常被使用的实现数据匿名化的方法,其基本思想为用更概括、更抽象的值来代替准标识符属性中的具体值,从而使具有相同准标识符属性值的记录数增加,降低攻击者获取某一个体的敏感值的概率。例如,实数1.3经过泛化后变为[1,2]。 (2)隐匿:隐匿即隐藏不符合匿名化原则的数据,对这些数据进行删除,不发布。泛化和隐匿都会带来一定的信息损失,具体的算法中通常将这两种方法结合使用。

龙源期刊网 http://www.qikan.com.cn

(3)基于有损连接的分解技术:当准标识符属性的维数增大时,由泛化和隐匿带来的信息损失会更大,Xiao和Tao针对这种情况提出了一种新的匿名化技术-anatomy。它将原始数据表发布为准标识符属性表和敏感属性表,通过两表间的有损连接达到隐私保护的目的。anatomy仍然采用L-diversity规则对每个等价类中的敏感属性值进行限制,但没有对准标识符属性进行泛化,很大程度上保留了原数据表中的信息,提高了数据的可用性。 4、多敏感属性的隐私保护 4.1 匿名模型

(1)复合敏感属性L-多样性[3]:复合敏感属性L-多样性从单敏感属性L-diversity扩展而来,其基本思想为对每一个分组,所有记录在每一维敏感属性上的取值均满足L-diversity性质。复合敏感属性L-多样性可以保证发布数据的安全性,但其没有考虑分组中敏感属性值的敏感度情况,不能抵制相似性攻击。

(2)(g,l)-匿名模型[4]:在复合敏感属性L-多样性基础上考虑了同一分组中敏感属性的敏感度问题,(g,l)-匿名模型要求同一分组中的记录在每一维敏感属性的取值的敏感度满足l-多样性和g-差异性。由于分组内敏感属性值的敏感度分布满足g-差异性,从而可以抵御相似性攻击,更好的保护了用户隐私。

(3)(Dou-L)-匿名模型[5]:(Dou-L)-匿名模型提出了特殊敏感属性的概念,即容易被攻击者获知的敏感属性。(Dou-L)-匿名模型要求同一分组中的特殊敏感属性满足L-多样性,同时,对特殊敏感属性取值相同的记录的非特殊敏感属性取值也满足L-多样性。(Dou-L)-匿名模型对特殊敏感属性和非特殊敏感属性分层次处理,可以抵御一定的背景知识攻击,当攻击者获知特殊敏感属性值时,仍能很好的保护非特殊敏感属性值。

(4)L-覆盖性[6]:L-覆盖性要求对于数据表中每一个分组,至少移除L个不同的敏感属性值才能将分组中的记录全部删除。移除一个敏感属性值即删除分组中所有包含该敏感属性值的记录。对于满足L-覆盖性的分组可以保证数据发布的安全性,但存在一定的平均概率泄露度。

4.2 匿名化方法

(1)多维桶分组技术:杨晓春[3]等人首次对多敏感属性的数据发布问题进行了研究,并提出了针对多敏感属性数据的分组方法-多维桶分组技术(MSB)。多维桶分组技术定义了一种多维桶结构,将数据表中的各条记录按各自的敏感属性值映射到多维桶中,然后在这些桶上按照一定规则进行分组,使分组中的记录满足隐私保护要求。多维桶分组技术应用较广泛,文献[4-5]中的分组方法都是从多维桶分组技术改进而来。分组完成后的数据表大都基于有损连接

龙源期刊网 http://www.qikan.com.cn

的思想,将数据表发布为准标识符属性表和敏感属性表,利用它们之间的有损连接保护用户隐私信息。

(2)基于聚类的分组方法:首先将原数据表中的记录进行聚类,使敏感属性值距离相近的记录聚为一类,然后在聚好的类中按某种规则挑选记录构成分组。文献[6-7]中提出的算法均用到了聚类的思想。 5、结语

数据发布中的隐私保护问题是当前的研究热点,本文分析总结了单敏感属性和多敏感属性情况下常用的匿名模型和匿名方法,为进一步的研究打下了基础。多敏感属性的数据发布以及动态更新的数据发布是将来研究的工作重点。 参考文献

[1]SWEENY L. K-anonymity: a model for protecting privacy [J]. International Journal on Uncertainty Fuzziness and Knowledge-Based Systems, 2002,10(5): 557-570. [2]Samarati P, Sweeney L. Generalizing data to provide anonymity when disclosing information//Proceedings of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle, Washington, 1998:188.

[3]杨晓春,王雅哲,王斌 等.数据发布中面向多敏感属性的隐私保护方法[J].计算机学报,2008,31(4):574-587.

[4]刘善成,金华,鞠时光.数据发布中面向多敏感属性的隐私保护技术[J].计算机应用研究,2011,28(6):2206-2214.

[5]王胜和,王佳俊,刘腾腾,倪巍伟.多维敏感属性隐私保护数据发布方法[J/OL].计算机工程与应用,http://www.cnki.net/kcms/detail/11.2127.TP.20110929.1035.012.htm.

[6]金华,刘善成,鞠时光. 面向多敏感属性医疗数据发布的隐私保护技术[J].计算机科学,2011,38(12):172-177.

[7]李立,袁方,郗亚辉.面向相关多敏感属性的隐私保护方法[J].山东大学学报(理学版),2011,46(5):82-86.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ovod.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务