基于生成对抗网络的亚群特异性合成电子健康记录提升死亡率预测公平性研究

【字体: 时间:2025年08月09日 来源:JAMIA Open 3.4

编辑推荐:

  本研究针对电子健康记录(EHRs)中少数亚群(SPs)数据不足导致的预测偏差问题,创新性地提出结合生成对抗网络(GANs)和集成学习的框架。通过CTGAN生成亚群特异性合成数据增强训练集,并构建XGBoost集成模型,在MIMIC数据库的两个临床任务(脓毒症-3患者30天死亡率和心衰患者早期死亡率预测)中,使弱势群体的ROC曲线下面积(ROCAUC)提升8%-31%,为医疗AI公平性提供了可推广的解决方案。

  

在医疗人工智能领域,电子健康记录(EHRs)已成为重要的研究资源,但其固有的数据偏差问题日益凸显。由于医疗机构地理位置、疾病流行特征等因素,某些患者亚群(Subpopulations, SPs)在EHRs中的代表性严重不足。这种"数据鸿沟"导致基于机器学习的预测模型在少数群体上表现不佳,可能加剧医疗不平等——当AI系统对非洲裔或亚裔患者的死亡率预测准确性显著低于白人患者时,将直接影响临床决策的公平性。

以色列本古里安大学(Ben-Gurion University of the Negev, Department of Software and Information Systems Engineering)的Oriel Perets和Nadav Rappoport团队在《JAMIA Open》发表的研究,开创性地将生成对抗网络(GANs)技术应用于医疗数据公平性领域。研究人员提出"合成数据增强+亚群特异性建模"的双重策略:首先利用条件表格生成对抗网络(CTGAN)为每个弱势群体生成逼真的合成病例数据,再通过集成学习框架训练针对不同亚群的专属预测模型。这种方法不仅突破了传统重采样技术的局限,更实现了"量体裁衣"式的精准预测。

研究采用了两项关键临床预测任务作为验证场景:基于MIMIC-III/IV数据库的脓毒症-3患者30天死亡率预测(4,559例)和心衰患者早期死亡率预测(11,062例)。技术路线包含五个创新环节:识别低效亚群、数据分层分割、亚群专属CTGAN训练、可控合成数据生成(0%-1000%原数据量)、以及集成模型性能评估。通过对比SMOTE等传统方法,研究团队建立了严谨的评估体系,使用ROC曲线下面积(ROCAUC)作为核心指标。

研究结果

亚群性能差异验证:基线模型在多数群体("白人")表现良好(脓毒症任务ROCAUC=0.877),但在少数群体显著下降,如西班牙裔患者仅有0.556。这种差异在心衰预测任务中同样明显,亚洲裔和西班牙裔患者的ROCAUC分别比白人群体低14.5和10.1个百分点。

合成数据增强效果:添加适量合成数据后,所有弱势群体预测性能均获提升。最显著的改善出现在亚洲裔脓毒症患者群体,ROCAUC从0.751跃升至0.903;西班牙裔心衰患者群体提升幅度达11个百分点(0.622→0.732)。

横向方法对比:相较于SMOTE技术,本方法的优势尤为突出。在亚洲裔心衰患者预测中,SMOTE仅实现0.579的ROCAUC,而本方法达到0.721;对西班牙裔脓毒症患者,SMOTE模型完全失效(ROCAUC=0.642),而本方法恢复至可接受水平(0.695)。

结论与意义

该研究开创了医疗AI公平性研究的新范式,其价值体现在三个维度:方法论上,首次将CTGAN与集成学习结合,构建了可推广的亚群性能提升框架;临床上,使死亡率预测模型在少数族裔群体中的可靠性达到临床可用标准;技术上,开源的评估管道为后续研究提供了标准化工具。特别值得注意的是,该方法保持了对整体数据集预测性能的稳定性,避免了过拟合风险。

研究同时揭示了医疗数据偏差的复杂性——仅以种族划分亚群就表现出显著性能差异,提示需要开发更精细的亚群定义标准。未来研究可探索多维度亚群划分(如年龄+性别+临床指标组合),并将框架扩展至其他医疗预测场景。这项工作为实现"精准医疗+公平医疗"的双重目标提供了切实可行的技术路径,其代码开源策略更促进了研究结果的临床转化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号