MIIC-SDG 算法:平衡合成健康数据质量与隐私的创新之选

【字体: 时间:2025年01月23日 来源:npj Digital Medicine 12.4

编辑推荐:

  在医疗数据共享需求增长与隐私保护矛盾突出的背景下,研究人员开展合成健康数据生成算法的研究。他们提出 MIIC-SDG 算法,经多数据集验证,在质量 - 隐私权衡上表现出色,为医疗数据利用提供新方案。

  在医疗领域,随着临床试验患者招募数量的不断攀升以及现实生活中健康相关数据集的大量收集,数据隐私保护的重要性日益凸显。一方面,促进新的研究计划、推动数据共享对生物医学研究的发展至关重要;另一方面,现有的监管标准,如欧盟《通用数据保护条例》(GDPR),出于数据安全的考虑,对数据共享和二次数据使用施加了诸多限制。传统的匿名化技术,像 k - 匿名性、l - 多样性和 t - 紧密性等,不仅计算成本高昂,还会破坏数据分布,使得数据在许多情况下无法有效利用。近年来,机器学习和深度学习方法虽在合成健康数据方面展现出潜力,但在评估生成数据的质量和隐私时,缺乏统一的方法和指标。在此背景下,来自法国罗氏公司(Institut Roche)和居里研究所(Institut Curie)等机构的研究人员展开了深入研究。
研究人员提出了一种名为 MIIC - SDG 的新型算法,该算法基于多元信息框架和贝叶斯网络理论,旨在生成高质量的合成健康数据,同时有效保护患者隐私。为了全面评估该算法的性能,研究人员使用了多个质量和隐私指标,并引入了质量 - 隐私分数(QPS)来量化合成数据生成方法在质量和隐私之间的权衡。

研究中用到的主要关键技术方法包括:一是基于多元信息的归纳因果(MIIC)算法,该算法能够可靠地捕捉复杂异构数据集中变量之间的直接关联,即使数据集包含分类和连续变量的混合,也能估计条件互信息,且对缺失数据具有鲁棒性;二是 MIIC - to - DAG 算法,用于将 MIIC 重建的图转换为有向无环图(DAG),从而为后续的数据生成奠定基础;三是 MIIC 合成器,根据节点变量类型的不同,采用不同的方法生成合成样本。研究使用了三个不同规模和特点的数据集,包括乳腺癌(METABRIC)数据集、膀胱癌(IMvigor210)数据集和糖尿病数据集,以评估算法在不同样本规模下的性能。

研究结果


  1. 单变量分布比较:研究发现,Synthpop 在复制单变量分布方面表现最佳,贝叶斯算法和 MIIC - SDG 的表现相近,而其他算法在这方面表现较差,随机方法几乎将所有变量都标记为不同1
  2. 双变量分析:在互信息距离评估中,MIIC - SDG 在小样本规模(50 和 100 个样本)时表现出色,能较好地重现原始数据中变量之间的互信息;随着样本量增加,Synthpop 表现最佳,MIIC - SDG 通常处于第二或第三位。在相关性距离评估中,贝叶斯树搜索和 Synthpop 在不同样本规模下表现相当,MIIC - SDG 在小样本规模(<200 个样本)时优于其他竞争对手,但随着样本量增加,其性能提升幅度不如前两者23
  3. 多变量分布比较:在多变量 Wasserstein 距离评估中,贝叶斯网络方法(树搜索估计)得分最高,Synthpop 和 medWGAN 得分相近,MIIC - SDG 位居第四。但当仅计算连续特征的 Wasserstein 距离时,贝叶斯树搜索、Synthpop 和 MIIC - SDG 得分相似4
  4. 机器学习性能:在预测总体生存(OS)方面,MIIC - SDG、Synthpop、CTGAN 和 medWGAN 都能识别出影响 OS 的关键特征,但 MIIC - SDG 在预测准确性上并未超越其他一些基准方法。不过,预测目标变量的能力也可作为隐私风险的度量,高预测准确性可能意味着更高的推理攻击风险5
  5. 重新识别评估:在可识别性分数评估中,贝叶斯树搜索算法的隐私分数最低,Synthpop 次之,MIIC - SDG 处于中等水平。在成员推理分数评估中,贝叶斯树搜索算法隐私性最差,Synthpop 次之,MIIC - SDG 排名第三,且随着样本量增加,其隐私分数有所提高67
  6. 质量 - 隐私分数评估:基于互信息距离的 QPS 评估中,MIIC - SDG 在质量 - 隐私权衡方面表现最佳,尤其是在小样本规模时。在使用其他质量指标评估时,不同算法在 QPS 排名上各有优劣。综合所有数据集和样本规模,MIIC - SDG 在整体性能上表现良好,特别是在小样本规模下,而其他一些先进方法在大样本规模下表现更好或与 MIIC - SDG 相当89

研究结论与讨论


研究表明,MIIC - SDG 算法在生成包含混合数据类型且样本量较小(<1000)的合成数据集时表现优异,尤其在质量 - 隐私权衡方面具有优势,适合从敏感的生物医学数据中提取新颖见解。深度学习方法在样本量足够大时,对于生成合成电子健康记录(EHR)具有重要价值,但在小样本和复杂生物医学数据集的情况下,其信息保存能力并不突出。

研究引入的 QPS 和 metaQPS 等质量 - 隐私分数,为评估合成健康数据生成方法提供了量化指标,有助于比较和排名不同的合成数据生成方法(SDG)。其中,metaQPShm指标基于质量和隐私分数的调和均值,对合成数据生成方法的评估更为严格,能更好地突出不同方法之间的差异,在未来的 SDG 方法比较研究中具有重要参考价值。

然而,该研究也存在一定的局限性。例如,研究无法涵盖所有可用的合成数据生成方法,仅对部分具有代表性的方法进行了比较;研究仅基于三个数据集,可能无法推广到所有健康数据;研究主要侧重于合成数据生成方法质量与隐私权衡的定量评估,对其他评估指标关注较少;成员推理分数的计算由于需要留出部分数据进行计算,无法对整个数据集进行估计。

尽管如此,MIIC - SDG 算法为合成健康数据生成提供了一种有效的解决方案,在生物医学研究中具有重要的应用前景。未来的研究可以进一步拓展算法的应用范围,改进评估指标,以更好地满足医疗数据利用和隐私保护的需求。该研究成果发表在《npj Digital Medicine》上,为该领域的研究提供了重要的参考和借鉴。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号