基于注意力的合成数据生成方法在用于校准优化的生存分析中的应用:以电子健康记录为数据来源的慢性肾脏病案例研究

《Journal of Cancer Policy》:Attention-based synthetic data generation for calibration-enhanced survival analysis: A case study for chronic kidney disease using electronic health records

【字体: 时间:2025年11月08日 来源:Journal of Cancer Policy 2

编辑推荐:

  针对生存分析中数据隐私和分布不均的问题,本文提出基于注意力机制的合成数据生成框架MCM,支持独立数据集生成和亚群条件增强。在CKD数据集上验证,MCM使模型校准损失降低15%,亚群优化达9%,并优于VAE、GAN等方法。MCM为隐私保护下的临床模型校准提供了有效解决方案。

  在当前的医疗研究领域,真实世界数据的获取和使用一直受到隐私法规和数据不平衡问题的限制。这些问题不仅影响了研究的广泛性,还对临床预测模型的公平性和可靠性构成了挑战。面对这些挑战,合成数据作为一种替代方案逐渐受到重视。合成数据能够保留真实数据的统计特性,同时去除可识别信息,从而在不违反隐私保护的前提下,为研究提供更广泛的可用性。然而,现有的合成数据方法在保持临床数据真实性和提升模型性能方面仍存在局限,尤其是在处理生存分析任务时,如何维持数据的时间依赖性和风险因素与生存时间之间的准确关系是关键挑战。

本研究提出了一种名为Masked Clinical Modelling (MCM)的新框架,旨在通过注意力机制生成高保真度的生存数据,以提高临床预测模型的校准能力。MCM的设计灵感来源于掩码语言建模(如BERT),其核心思想是通过随机隐藏部分数据特征,再利用上下文信息进行重建,从而学习特征之间的依赖关系。这种方法能够在不依赖生存目标的情况下进行建模,为独立数据集生成和条件子群体增强提供了支持。MCM不仅适用于生成完整的合成数据集,还能够根据特定的临床特征生成子群体数据,而无需重新训练模型,这为医疗数据的隐私保护和模型校准提供了更灵活的解决方案。

在方法论方面,MCM采用了一种分阶段的流程:首先对原始数据进行预处理,将其转换为标准化的范围;然后通过随机掩码机制隐藏部分特征,接着使用注意力机制和多层感知机(MLP)进行特征重建;最后,将重建后的数据重新转换回原始范围,以确保与真实数据的一致性。该方法通过在掩码过程中引入注意力机制,能够更有效地捕捉特征之间的复杂关系,避免了传统方法中由于数据压缩或分布不均而导致的模型偏差问题。此外,MCM支持条件生成,使得模型能够在特定的临床子群体上进行针对性增强,而无需对整个数据集进行重新训练,这在数据获取受限的医疗环境中尤为重要。

在实验设计中,研究团队使用了一个真实世界的慢性肾病(CKD)电子健康记录(EHR)数据集,该数据集涵盖了491名患有心血管疾病风险的成年患者,记录了他们在2008年至2017年间的医疗数据。通过比较MCM生成的合成数据与真实数据的统计特性,研究团队验证了MCM在保持数据真实性和提升模型校准方面的有效性。实验结果表明,MCM生成的数据能够高度还原真实数据的分布特征,包括关键的临床变量(如eGFR、高血压、糖尿病等)和其相互之间的关系。此外,MCM还显著改善了生存模型的校准性能,整体校准损失降低了15%,子群体校准损失降低了9%,优于多种基准方法,包括变分自编码器(VAEs)、生成对抗网络(GANs)、SMOTE变体以及最近的风险感知蒸馏模型。

研究还特别关注了子群体校准的问题。在临床实践中,模型的校准能力对于不同人群的风险评估至关重要。由于某些子群体在真实数据集中代表性不足,这可能会影响模型在这些人群中的准确性。MCM通过条件生成,能够针对这些子群体生成额外的合成数据,从而改善其校准表现。例如,在肾功能不全、糖尿病和高龄患者等高风险子群体中,MCM生成的合成数据不仅保持了良好的校准性能,还能够与真实数据保持高度一致性。这种能力对于提升模型在不同人群中的公平性和可靠性具有重要意义。

在讨论部分,研究团队强调了MCM在临床应用中的优势。首先,MCM能够在不重新训练模型的情况下支持条件子群体增强,这对于动态变化的医疗环境和数据获取受限的情况尤为重要。其次,MCM的掩码机制和注意力机制使其能够更有效地处理数据中的不平衡问题,从而提升模型的泛化能力。然而,研究也指出了一些局限性。例如,当前的CKD数据集规模较小,仅包含491名患者,这可能影响模型在更大规模医疗数据集中的表现。此外,虽然MCM在大多数子群体中表现出色,但在某些极端稀疏的子群体(如心血管疾病阳性患者)中,其校准性能仍有待提升。研究团队建议未来可以探索自适应掩码策略或样本加权损失函数,以增强模型在这些边缘情况下的鲁棒性。

MCM的潜在应用远不止于当前的CKD研究。由于其能够生成与真实数据高度一致的合成数据,并且支持条件子群体增强,该框架在其他医疗领域(如肿瘤学、精神健康和产科护理)中也具有广泛的应用前景。特别是在那些存在子群体不平衡问题的领域,MCM可以通过生成针对性的合成数据,提高模型在不同人群中的公平性和可靠性。此外,MCM还能够支持因果推断,为研究不同治疗方案的效果提供数据支持,尤其是在真实世界数据中缺乏高风险患者信息的情况下。

研究团队还指出,MCM的应用需要考虑数据的隐私保护问题。尽管当前研究使用的是公开的、匿名化的数据集,但在更敏感的数据环境中,可能需要引入额外的隐私保护机制(如差分隐私)。此外,MCM的生成过程目前是确定性的,对于同一掩码输入,每次生成的结果可能相同。未来的研究可以探索引入随机性,以生成多个可能的患者记录,从而提升模型的多样性。这可以通过引入潜在变量建模或自回归解码方法实现。

总体而言,MCM提供了一种灵活且实用的框架,用于生成合成生存数据,以提升临床预测模型的校准能力。该方法不仅克服了传统合成数据方法在保持数据真实性和校准性能方面的不足,还为解决医疗数据隐私和公平性问题提供了新的思路。未来的研究可以进一步探索MCM在更大规模数据集中的表现,并拓展其在其他医疗领域和更复杂子群体增强场景中的应用。此外,结合因果推断和隐私保护机制,MCM有望成为医疗数据生成和分析的重要工具,推动更公平、可靠和可扩展的临床模型开发。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号