基于扩散模型的合成电子健康记录生成:提升多病共患聚类中的隐私保护与临床效用
【字体:
大
中
小
】
时间:2025年10月08日
来源:Connection Science 3.4
编辑推荐:
本综述系统探讨了扩散模型(DDPM)在合成电子健康记录(EHR)生成与多病共患聚类分析中的应用价值。研究显示,DDPM在数据保真度(Jensen–Shannon散度=0.020)、隐私保护(成员推理攻击风险=0.25)和特征依赖性建模方面显著优于生成对抗网络(GAN)和变分自编码器(VAE)。通过狄利克雷过程混合模型(DPMM)实现的无监督聚类能有效识别临床相关疾病模式,为医疗AI研究提供了既符合隐私法规又具有高度临床实用性的数据解决方案。
电子健康记录(EHR)在医学研究和人工智能驱动的医疗分析中的应用日益广泛,但隐私法规和伦理问题限制了真实患者数据的获取。传统生成模型如生成对抗网络(GANs)和变分自编码器(VAEs)在处理高维表格数据时存在模式崩溃、样本多样性不足和特征依赖关系建模困难等问题。本研究引入基于去噪扩散概率模型(DDPM)的方法生成合成EHR数据,并评估其在多病共患聚类中的应用价值。
研究采用定制化的DDPM架构,通过渐进式噪声注入和去噪过程生成结构化EHR数据。与GANs和VAEs不同,DDPM通过迭代去噪过程将随机噪声分布转化为高质量样本,避免了训练不稳定和模式崩溃问题。模型训练结合了均方误差损失(连续变量)、分类交叉熵损失(离散变量)和特征依赖正则化项,确保生成数据既保持统计特性又保留临床相关性。
研究整合了来自坦桑尼亚国家EHR系统、MIMIC-III、英国生物银行、NIMHANS和肯尼亚EHR等五个数据集,涵盖10,000至700,000条记录。采用独热编码、最小-最大归一化和序数编码对分类变量、连续变量和序数特征进行标准化处理。通过高斯扰动和掩码破坏技术注入受控噪声,增强模型对缺失数据和测量变化的鲁棒性。
通过成员推理攻击(MIA)、属性推理攻击、最近邻距离(NND)和K近邻相似度等指标评估隐私风险。DDPM在所有数据集上均表现最佳,MIA风险最低(0.25-0.29),属性推理得分最低(0.17-0.22),NND最高(3.64-3.88)。相比GANs和VAEs,DDPM的迭代去噪过程有效避免了训练样本记忆,显著降低了重新识别风险。
采用狄利克雷过程混合模型(DPMM)对合成EHR数据进行无监督聚类。该贝叶斯非参数方法能动态确定最佳聚类数量,适应EHR数据的异质性和高维特性。聚类结果显示10个临床意义明确的疾病模式,轮廓系数(SI)达0.68,调整兰德指数(ARI)为0.78,标准化互信息(NMI)达0.89,显著优于传统高斯混合模型。
生成的合成数据在机器学习任务中表现出与真实数据相当的效用。XGBoost、随机森林和LSTM模型在合成数据上训练的预测性能(F1-score 0.80-0.86)接近真实数据性能。聚类结果可用于患者分层、风险预测和资源优化,为个性化医疗和公共卫生决策提供支持。
当前研究缺乏纵向数据支持,对罕见疾病模式的捕捉能力有限。未来工作应整合基因组和行为学数据,扩展至实时数据生成,并通过多中心研究验证模型的泛化能力。此外,需建立包含对抗性测试和监管合规评估的综合验证框架。
DDPM为合成EHR生成提供了兼顾数据保真度、隐私保护和临床效用的解决方案。结合DPMM聚类分析,该框架能有效识别多病共患模式,推动医疗AI发展同时确保符合伦理规范和隐私法规。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号