编辑推荐:
研究人员针对医疗数据隐私威胁,开展隐私工程研究,提出多种技术和框架,对保障数据安全意义重大。
在当今数字化时代,医疗数据如同宝藏,蕴含着无数关于健康与疾病的秘密。然而,这珍贵的宝藏却面临着诸多威胁。医疗数据泄露事件频发,从 2005 年到 2019 年,约 3900 起健康数据记录泄露事件影响了超 2.49 亿患者。而且,随着技术发展,即使没有个人可识别信息(PII),也能推断出个人敏感特征。比如,通过人工智能(AI)、数据分析和在线资源的结合,可对去标识化数据集进行重新识别,对个人隐私造成严重侵犯。同时,数据隐私与共享之间的矛盾也日益凸显,既要保护患者隐私,又要促进数据共享以推动医疗发展,这成为亟待解决的难题。
为了应对这些挑战,来自斯坦福大学医学院(Stanford University, School of Medicine)、斯坦福计算与数学工程研究所(Stanford Institute for Computational and Mathematical Engineering)、加州大学伯克利分校信息科学学院(University of California Berkeley, School of Information Science)和加州大学伯克利分校全球有效行动中心(University of California Berkeley, Center for Effective Global Action)的研究人员展开了深入研究。他们的研究成果发表在《npj Digital Medicine》上,为医疗数据隐私保护提供了新的思路和方法。
在研究中,研究人员采用了多种关键技术方法。一方面,对不同类型的隐私增强技术(PETs)进行研究分析,包括差分隐私(DP)、同态加密(HE)、安全多方计算(SMC)、联邦学习(FL)和合成数据等,探讨其在医疗数据保护中的应用;另一方面,构建了医疗数据隐私框架,从任务、数据类型、用户角色和时间界限等多维度考量数据隐私保护策略。
研究结果如下:
- 当代隐私威胁:除了传统的网络攻击导致数据泄露外,还有多种新的隐私威胁出现。在去标识化数据集方面,看似无害的数据可用于重新识别个人身份,AI 的发展更是加剧了这种风险,如通过训练 AI 系统可从匿名胸部 X 光图像、心电图(ECG)等数据中推断身份;在聚合数据集方面,成员推理攻击(MIA)可辨别个体是否存在于聚合数据中,差异攻击也能通过查询结果的差异揭示个体信息;在 AI 模型方面,AI 模型不仅易受 MIA 攻击,还面临训练数据提取攻击和模型反演攻击等,导致训练数据中的敏感信息泄露。
- 伦理考量和立法策略:传统的数据隐私和共享准则难以应对当代数据共享和隐私威胁。不同地区的立法保护存在差异,美国的《健康保险流通与责任法案》(HIPAA)对数据保护存在局限性,欧盟的《通用数据保护条例》(GDPR)则更广泛地保护健康和个人数据。但总体而言,将技术转化为实际解决方案面临伦理、法律和技术挑战。
- 隐私框架:提出以生物医学任务为核心的隐私框架,该框架从特定任务、数据类型、预期用户和数据访问时间界限四个维度进行评估,可指导数据发布,减少下游隐私风险。例如,在数据类型方面,颗粒数据(如临床检查的详细数据)隐私风险高,可通过泛化技术保护;聚合数据(如临床单位的结果跟踪数据)隐私保护相对较好。
- 隐私工程技术:介绍了多种隐私增强技术(PETs)及其特点和应用场景。差分隐私(DP)通过添加噪声实现隐私保护,可防止多种隐私攻击,但会降低数据准确性,更适用于群体任务;同态加密(HE)允许在加密数据上进行计算,保护数据存储和处理过程中的隐私,但计算时间较长;安全多方计算(SMC)可实现去中心化计算,保护数据集不被泄露,但存在计算复杂性问题;联邦学习(FL)用于联合训练 AI 模型,结合其他技术可增强隐私保护,但存在数据保护和样本分布问题;合成数据可在一定程度上保护隐私,但存在数据类型和准确性限制。
研究结论和讨论部分强调,医疗数据隐私威胁不断演变,传统隐私实践和立法受到挑战。新兴的非传统隐私威胁影响巨大,需要新的解决方案来平衡隐私保护和数据利用。多种隐私解决方案各有优劣,应纳入综合框架考虑。未来的医疗数据隐私保护需以患者为中心进行共享决策,涉及多方利益相关者,包括数据所有者、伦理学家、医疗机构、研究机构、行业、法律专家和政府等。这一研究为解决医疗数据隐私问题提供了全面的思路和方法,对推动医疗数据的安全使用和医疗行业的健康发展具有重要意义。