隐私保护视角下的新冠数据共享:平衡隐私与效用的创新之道

【字体: 时间:2025年02月13日 来源:Scientific Data 5.8

编辑推荐:

  在新冠疫情背景下,数据共享对研究意义重大,但隐私问题突出。研究人员围绕新冠数据开展隐私感知的开放数据共享研究,利用葡萄牙医院数据,通过系列措施降低再识别风险,平衡了隐私与数据效用,为数据共享提供了重要参考。

  新冠疫情如一场全球性的风暴,席卷了世界的每一个角落,对人类的生活、经济和健康都造成了巨大的冲击。在这场与病毒的较量中,数据共享成为了至关重要的一环。大量的研究需要依赖真实、全面的数据来深入了解新冠病毒的传播机制、临床特征,从而制定出更有效的防控策略。然而,随着数据共享的推进,一个棘手的问题逐渐浮出水面 —— 个人隐私保护。当涉及到医疗健康数据时,每一个数据背后都是一个个鲜活的个体,一旦隐私泄露,将会给个人带来严重的影响。比如,患者的病情信息被不当获取,可能会导致其在就业、保险等方面遭遇歧视。因此,如何在保障个人隐私的前提下,实现数据的高效共享,成为了科研领域亟待解决的难题。
在这样的背景下,来自葡萄牙波尔图大学(University of Porto)等机构的研究人员挺身而出,针对这一问题展开了深入研究。他们的研究成果发表在《Scientific Data》上,为解决数据共享与隐私保护的矛盾提供了新的思路和方法。

研究人员为开展此项研究,运用了多种关键技术方法。首先是属性分类,将数据属性分为直接标识符、准标识符(QI)和敏感属性等类别 。接着通过 k - 匿名性(k-anonymity)和记录链接(record linkage)两种方法评估数据的原始披露风险和数据效用。之后,基于披露风险、数据结构和属性特征,应用隐私保护技术(PPTs),如全局重编码、抑制、添加噪声等。并且在整个过程中,多次重新评估披露风险和数据效用,确保达到平衡 。研究数据来自葡萄牙第二大医院 2020 年 3 月至 2021 年 1 月的 1716 例新冠住院病例。

研究结果如下:

  • 初始披露风险:研究人员对多种准标识符(QI)组合场景进行分析,发现随着选定 QI 集合的增加,再识别风险上升,日期属性对风险影响较大。同时,对特殊子集(如死亡、养老院、重症监护、新生儿等)的风险分析表明,子集观察数越少,风险越高。例如,在新生儿子集中,使用月龄而非年龄时,需去除 AgeDay 和 AgeMonth 属性以防止再识别;养老院子集风险也较高,需进一步保护。此外,对于包含特定病理信息的子集,如 HIV 患者、孕妇等,因其涉及少数人群,存在较高再识别风险,建议将相关属性合并。
  • 隐私保护技术的有效性:在处理数据中的重复住院病例时,研究人员采用行级抑制,保留首次住院日期,这虽使观察数减少,导致再识别风险略有增加,但为后续处理奠定基础。随后,通过去除日期中的小时、聚合养老院和家庭病例、将住院天数按四分位数表示、对年龄进行区间泛化等操作,逐步降低再识别风险。对于日期属性,由于单纯的区间泛化无法满足要求,研究人员添加噪声,并用记录链接评估风险。最终,通过多次迭代和调整,在一些场景下将再识别风险降至 0%,且保持了较高的数据效用。

研究结论和讨论部分指出,在数据共享过程中,隐私保护面临诸多挑战,如人们对隐私保护重要性认识不足、缺乏隐私保护方法的知识、认为保护隐私会破坏数据效用等。但本研究表明,通过合理的数据清洗、选择合适的隐私保护技术(PPTs)并调整其参数,可以在不牺牲太多数据效用的前提下保护隐私。去识别化数据虽不等同于匿名数据,但在保证一定再识别风险控制的情况下,能满足数据共享需求,且仍受隐私法律法规约束。此外,研究还强调了识别准标识符(QI)的重要性,以及领域知识和数据预期用途对选择隐私保护技术(PPTs)及其参数化的关键作用。研究人员还提出,应向数据保管者和终端用户普及隐私保护知识,加强不同团队间的协作,定期进行隐私影响评估,以适应新的威胁和技术发展。

此项研究意义重大,为新冠疫情及其他类似场景下的数据共享提供了可借鉴的模式,推动了数据共享在保障隐私前提下的健康发展,有助于促进多领域的科研合作,为应对全球性公共卫生问题贡献了重要力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号