探秘合成患者数据:隐私、保真度与效用的权衡之解

【字体: 时间:2025年04月27日 来源:iScience 4.6

编辑推荐:

  在医疗研究中,数据共享面临隐私难题。研究人员针对合成患者数据开展研究,评估了 5 种模型和 3 个数据集下隐私、保真度与效用的权衡。结果显示非差分隐私(DP)模型保真度和效用良好,DP 模型影响特征相关性。该研究为合成数据生成提供重要参考。

  在当今医疗领域,随着机器学习(ML)和人工智能(AI)技术的飞速发展,健康数据的价值愈发凸显。众多如阿尔茨海默病神经影像倡议(ADNI)、癌症基因组图谱(TCGA)这样的数据项目不断涌现,它们为医学研究带来了大量宝贵的数据资源,有力地推动了相关领域的研究进展。然而,健康数据尤其是患者层面的数据,因其高度敏感性,在共享时面临着严峻的隐私挑战。法律对数据保护有着严格要求,这使得数据共享过程变得繁琐缓慢,不同机构间的数据共享更是困难重重,进而形成了碎片化的数据孤岛。
虽然联邦学习(FL)等方法试图解决这些问题,但仍存在诸多障碍。比如,在 FL 环境中实施 ML 算法时,数据科学家需要查看样本数据;而随机排列的真实数据或从变量理论范围随机采样的数据,无法匹配真实数据的统计属性,可能导致对真实数据的错误解读和假设,进而引发 ML 算法的实施错误。

为了突破这些困境,生成逼真的合成数据成为了备受关注的解决方案。合成数据是人工生成的数据,它保留了原始数据集的部分统计属性,同时减少了关于真实个人身份的信息。在医疗领域,合成数据可模拟患者的人口统计学特征、临床特征等,在不暴露个人身份的前提下为研究提供支持。不过,合成数据在隐私保护方面的有效性一直备受质疑。有研究表明,合成数据可能无法完全保护隐私,还存在通过成员推理等方式泄露敏感个人数据的风险。

在此背景下,为了深入探究合成数据隐私保证与数据真实性(即保真度)之间的权衡关系,来自弗劳恩霍夫算法与科学计算研究所(Fraunhofer Institute for Algorithms and Scientific Computing)等机构的研究人员开展了一项重要研究。该研究成果发表在《iScience》杂志上,为合成患者数据的应用提供了关键见解。

研究人员在这项研究中运用了多种关键技术方法。首先,他们选择了三个具有代表性的患者层面数据集,包括德克萨斯医院住院患者出院数据公共使用文件(TEXAS)、德国罗伯特?科赫研究所(Robert Koch-Institut)的癌症登记数据(RKI)以及阿尔茨海默病神经影像倡议(ADNI)数据集 。然后,使用了五种不同的生成式 AI 模型来生成合成数据,分别是 BayesianNet、PrivBayes、PateGAN、VAMBN 和使用模型训练并结合差分隐私的 VAMBN(VAMBN-DP) 。此外,还将这些数据合成方法与基于 k - 匿名化的人口统计数据匿名化方法(SanitizerNHS)进行了隐私风险对比。在评估合成数据时,从保真度、效用和隐私三个方面展开,采用了一系列评估指标和工具,如计算歧视分数(Discrimination Score)、分布分数(Distribution Score)和相关分数(Correlation Score)来评估保真度;通过特定的机器学习任务评估效用;利用影子模型攻击(shadow model attacks)和 Anonymeter 框架评估隐私风险。

研究结果


  1. 合成数据的保真度:研究人员基于三个分数评估了每个数据集的合成数据保真度。在所有数据集中,SanitizerNHS 在保持数据保真度方面表现出色。在合成数据生成方法中,VAMBN 总体性能较高,尤其在分布和相关性分数上表现突出。然而,引入差分隐私(DP)后,VAMBN 模型在相关性保留方面显著下降,这表明 DP 机制引入的噪声严重影响了模型维持变量间关系的能力。不过,分布分数受 DP 的影响较小,说明 DP 对数据整体分布的影响有限。此外,合成数据生成模型在歧视分数上表现出较大差异,部分原因是数据中存在的异常特征导致分类模型学习到这些特征从而影响判断。
  2. 合成数据的效用:研究人员以 VAMBN 生成的合成数据为研究对象,结合 SanitizerNHS 处理的数据和真实数据作为基线,开展了不同的机器学习任务。结果显示,对于 ADNI 和 RKI 数据集,基于 VAMBN 合成数据训练的模型预测性能与基于真实数据训练的模型接近;但在 TEXAS 数据集上,合成数据训练的模型性能出现显著下降。进一步分析发现,TEXAS 数据集中合成数据的特征相关性与真实数据差异较大,这表明在评估数据保真度的三个分数中,高相关分数可能是数据保真度的良好指标,而歧视分数对整体数据效用的影响较小。
  3. 合成数据的隐私:在成员推理风险评估中,基于影子模型攻击的隐私增益(PG)分数显示,各数据集的合成数据在平均水平上没有明显的成员推理风险,但存在较高的方差,意味着个体目标可能面临更高风险。在 Singling out 和属性推理风险评估中,使用 Anonymeter 框架发现,所有数据集的合成数据在这些方面的剩余隐私风险较低,但 SanitizerNHS 处理的数据在某些情况下存在较高的隐私风险,例如在 ADNI 数据集上存在 Singling out 风险,在 RKI 和 TEXAS 数据集上存在属性推理风险。

研究结论与讨论


这项研究全面评估了不同合成数据模型在隐私、保真度和效用之间的权衡关系。研究发现,现代生成式 AI 方法如 VAMBN 能够生成高保真度的患者层面合成数据,基于这些数据训练的机器学习模型可获得与真实数据训练模型相当的预测性能。然而,数据保真度一旦受损,尤其是在相关性结构保留方面出现问题,将对数据效用产生不利影响,这在应用 DP 模型训练时表现得尤为明显,说明目前 DP 在生成复杂数据集的真实合成患者数据方面实用性欠佳,需要进一步研究改进。

在隐私评估方面,尽管两种测试的隐私评估框架都未发现明显的隐私漏洞,但这并不意味着风险不存在,而是现有评估方法存在局限性。例如,影子模型攻击在处理高维纵向临床研究数据时存在不足,未来需要探索更有效的方法来评估患者层面合成医疗数据的隐私。

此外,研究还指出目前医疗领域在数据共享、数据保护和合成数据隐私评估方面缺乏标准化的指南和最佳实践,这可能导致不同利益相关者对合成数据的保真度、效用和安全性产生不同结论,不同医疗机构可能采取不同策略,难以确保患者数据得到统一标准的处理。因此,制定清晰的技术指南对于合成患者数据的保真度、保护和隐私评估至关重要。

总体而言,该研究揭示了合成数据在医疗领域应用中的复杂性和重要性,强调了在合成数据生成过程中平衡数据保真度、效用和隐私的关键意义,为后续研究和实践提供了重要的参考依据,有助于推动医疗数据研究在隐私保护前提下更高效地发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号