生成式人工智能模型在合成医学文本、时间序列和纵向数据中的研究进展

【字体: 时间:2025年05月16日 来源:npj Digital Medicine 12.4

编辑推荐:

  医疗数据隐私保护与数据短缺问题突出,研究人员开展合成健康记录(SHR)生成模型的研究。基于 52 篇文献,发现隐私保护是主要目标,GAN、概率模型、LLMs 分别在生成纵向数据、时间序列、文本中表现优异,为医疗 AI 发展提供新路径。

  
在医疗领域,人工智能(AI)的应用正深刻改变着疾病诊断、治疗方案制定和健康管理的模式。然而,医疗数据的隐私保护需求与深度学习模型训练所需的大规模、多样化数据集之间的矛盾日益凸显。电子健康记录(EHR)包含患者的敏感信息,严格的隐私法规如欧盟人工智能法案限制了其直接使用,而数据稀缺、类不平衡和数据缺失等问题也严重制约了模型的性能提升。如何在保护患者隐私的前提下,生成高质量的合成健康记录(SHR)以满足研究和应用需求,成为数字医学领域的关键挑战。

为应对这一难题,瑞典梅拉达伦大学(M?lardalen University)的研究人员开展了一项关于生成式 AI 模型合成医疗文本、时间序列和纵向数据的研究。该研究成果发表在《npj Digital Medicine》上,通过系统性综述,分析了 52 篇相关文献,揭示了不同数据模态下的最优模型选择、研究目标及现存问题,为医疗数据合成领域提供了重要的理论和方法支持。

研究主要采用了文献计量分析和分类归纳的方法。通过 PubMed、Scopus 和 Web of Science 数据库检索相关文献,经筛选后纳入 52 篇符合标准的研究。研究团队从数据模态(医疗文本、时间序列、纵向数据)、生成模型(生成式对抗网络 GANs、变分自编码器 VAEs、大语言模型 LLMs 等)、研究目标(隐私保护、数据稀缺、类不平衡、数据插补)等维度进行分类,并总结了各模型的性能评估指标和关键数据集。

研究结果


医疗时间序列数据生成


22 项研究聚焦医疗时间序列生成,以心电图(ECG)和脑电图(EEG)为主。生成式对抗网络(GANs)是最常用的方法,在数据稀缺场景中表现突出,如通过时间序列 GAN(TTS-GAN)处理长序列数据。扩散模型在生成 ECG 时因捕捉长期依赖关系优于 GANs,但存在计算成本高的问题。研究目标以数据稀缺(12 项)和隐私保护(6 项)为主,类不平衡和数据插补研究较少。

医疗纵向数据生成


17 项研究围绕纵向数据展开,涵盖肾脏疾病、帕金森病等多类疾病。隐私保护是核心目标(16 项),GANs 及其改进模型(如层次自回归语言模型、图神经网络)为主要方法,能够有效捕捉电子健康记录(EHR)的时间特征和图结构。概率模型(如贝叶斯网络)在部分研究中用于估计纵向数据分布,但存在多元关系保留不足的问题。

医疗文本数据生成


13 项研究针对医疗文本,涉及临床笔记、病理报告等。大语言模型(LLMs)如 GPT-2/3 表现出显著优势,可生成多语言文本并通过医生图灵测试验证临床相关性。生成对抗网络(GANs)在中文电子健康记录(EHR)生成中有所应用,但长文本生成能力受限。隐私保护是主要目标(9 项),数据稀缺场景下 LLMs 通过迁移学习提升性能。

研究结论与讨论


研究表明,不同数据模态对应最优生成模型:GANs 主导时间序列生成,概率模型适用于纵向数据,LLMs 在文本生成中表现卓越。隐私保护贯穿所有研究,而数据稀缺和类不平衡问题通过合成数据得到有效缓解。然而,领域仍存在显著挑战:缺乏统一的性能评估指标,尤其是重识别风险的量化方法;公共数据集多聚焦重症患者,缺乏多样化人口特征;模型可解释性和跨语言应用能力不足。

该研究的创新性在于首次系统性整合多模态医疗数据生成模型,并提出包含数据模态、模型类型和研究目标的分类框架。其意义不仅在于为研究者提供模型选择的参考指南,更推动了合成健康记录在临床研究、算法训练和隐私保护中的实际应用,为突破医疗数据瓶颈、促进数字医学发展奠定了基础。未来研究需进一步优化模型效率、增强隐私保护机制,并探索多模态数据融合的生成方法,以实现更真实、更安全的医疗数据合成。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号