CTGAN模型在低收入和中等收入国家健康人口监测系统数据生成中的优势与应用前景

《JAMIA Open》:Synthetic data generation of health and demographic surveillance systems data: a case study in a low- and middle-income country

【字体: 时间:2025年11月20日 来源:JAMIA Open 3.4

编辑推荐:

  本研究针对低收入和中等收入国家(LMICs)健康人口监测系统(HDSS)数据共享存在的隐私保护难题,创新性地评估了三种开源生成模型(CTGAN、TableGAN和CopulaGAN)在合成数据生成领域的性能。研究发现CTGAN能生成既保持原始数据统计特性又确保隐私保护的高质量合成数据,为LMICs环境下医疗数据的安全共享提供了技术支撑,对推动全球健康研究具有重要意义。

  
在低收入和中等收入国家(LMICs),健康人口监测系统(HDSS)犹如一座数据金矿,持续产出人口健康趋势、疾病负担和公共卫生干预效果等关键信息。然而,这座金矿却因隐私和保密性等监管问题难以被广泛开采。各国数据保护法的差异更使数据共享雪上加霜,这不仅限制了多模态数据的整合,也阻碍了机器学习(ML)和人工智能(AI)等先进数据科学工具的应用,难以生成可指导数据驱动健康政策和优化资源配置的见解。
合成数据生成技术为这一困境带来了曙光。它通过创建既保留原始数据特征和统计属性,又能维护隐私和保密性的合成数据集,有望显著提升数据的可及性。在众多合成数据生成技术中,生成对抗网络(GANs)因其在处理复杂表格数据方面的潜力而备受关注。然而,该技术在全球健康领域的应用仍处于起步阶段,尤其是在LMICs环境下HDSS这类表格数据的生成效果如何,尚需深入探索。
为此,研究人员在《JAMIA Open》上发表了一项研究,以肯尼亚农村地区的Kaloleni/Rabai HDSS(KRHDSS)数据为案例,评估了三种开源生成模型(CTGAN、TableGAN和CopulaGAN)生成高质量表格合成数据的有效性。
研究人员为开展此项研究,主要运用了几项关键技术方法。他们利用了来自肯尼亚Kaloleni和Rabai两个农村地区的KRHDSS数据集(包含第6轮和第8轮共约18.5万条记录,31个分类变量)作为基础数据。研究核心是使用CTGAN、TableGAN和CopulaGAN这三种开源生成模型进行合成数据生成。随后,他们通过保真度测试(评估单变量分布、双变量分布、变量间关联)、效用测试(使用随机森林(RF)分类器预测功能性厕所使用情况,比较在真实数据和合成数据上训练模型的性能)以及隐私测试(使用Anonymeter框架进行属性推断攻击,评估隐私风险)来全面评估合成数据的质量。
结果
保真度测试
在评估合成数据是否准确保留真实数据关键属性的保真度测试中,CTGAN表现卓越。其生成的合成数据在单变量分布上高度接近真实数据。例如,在性别变量上,真实数据中女性占比为50.89%,而CTGAN生成的数据中女性占比为51.99%。相比之下,TableGAN和CopulaGAN的表现则不尽人意,TableGAN生成了99.37%的女性数据,而CopulaGAN为57.34%。CTGAN还能有效复制原始数据中的缺失值。
在双变量分布方面,CTGAN同样优于CopulaGAN。例如,在真实数据和CTGAN生成的R6数据中,户主主要集中在25-59岁年龄段(真实:12.8%,CTGAN:10.5%),而儿童主要分布在5-12岁年龄段(真实:18.5%,CTGAN:18.3%)。CopulaGAN未能准确复制这些模式。
通过层次聚类和热图分析变量间关联,CTGAN生成的数据与真实数据的热图高度相似,尽管合成数据中变量间的关联强度稍弱。
统计检验(Kolmogorov-Smirnov检验和Wilcoxon秩和检验)表明,CTGAN生成的数据与真实数据分布的差异最小,显著优于CopulaGAN。
机器学习效用
效用测试结果与保真度测试一致,凸显了CTGAN模型的强大性能。当使用在R8合成数据上训练的RF模型来预测R6真实数据中的目标变量(功能性厕所使用)时,CTGAN和CopulaGAN都取得了与在真实数据上训练模型相当的结果。特别值得注意的是,当使用在R6合成数据上训练的模型预测R8真实数据时,CTGAN模型在准确率和AUC-ROC等指标上表现出色,与真实数据训练的模型性能非常接近(准确率:72.4% vs 72.0%, P=.38;F1分数:71.4% vs 68.3%, P=.22)。CTGAN在精确度上也高于CopulaGAN。
隐私测试
隐私测试结果显示,在攻击者知识有限(仅知性别和年龄)的合理场景下,隐私风险始终很低(例如,CTGAN在R6的风险为0.000)。然而,在高度知情的攻击场景下(攻击者知晓除目标变量外的所有变量),隐私风险会升高,例如CTGAN在R8的风险达到0.366。这表明隐私风险取决于攻击场景和数据集特性,尤其是随着时间推移数据积累可能增加脆弱性。
讨论与结论
本研究证实,在LMICs设置下,CTGAN模型能够生成高质量的HDSS表格合成数据,其性能优于TableGAN和CopulaGAN。CTGAN成功保留了原始数据集的关键趋势和统计属性,同时保持了数据效用并保护了个人隐私。
这项工作对LMICs的数据共享具有重要意义。合成数据为在确保参与者机密性的前提下,更广泛地共享研究数据提供了一条可行途径,有助于促进合作和创新,同时确保伦理合规和数据安全。然而,研究也指出,合成数据生成并非提供完美的隐私保证,模型可能被“欺骗”以重建部分真实数据实例。因此,负责任地部署合成数据集需要针对性的隐私评估,考虑攻击者知识以及纵向发布中风险的潜在积累。
研究的局限性包括其普遍性可能受限于特定的肯尼亚数据集,以及未来需要进一步探索其他模型(如TT-GAN34)在混合数据类型HDSS数据上的效果,并关注合成数据使用相关的伦理、法律和社会影响(ELSI)。
总之,这项原理验证研究表明,利用CTGAN等技术生成HDSS合成数据,是解决LMICs中数据共享面临的隐私、监管和法律问题的潜在有效方案,有望推动这些宝贵数据资源在研究、政策制定和公共卫生干预中发挥更大作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号