针对电子病历中存在结构化缺失的多源纵向数据,基于时间感知的注意力机制深度表示学习方法

《Information Fusion》:Time-aware attention-based deep representation learning for multi-source longitudinal data with structured missingness in electronic medical records

【字体: 时间:2025年10月17日 来源:Information Fusion 15.5

编辑推荐:

  多源纵向电子病历数据中结构缺失问题的注意力机制融合框架提出与验证。摘要:本文提出基于时间感知注意力机制的多源数据融合框架,通过掩码引导的自注意模块处理单源结构缺失,设计跨源时间对齐注意力模块实现多源融合,结合对比损失优化表示对齐,在MIMIC-IV和eICU-CRD数据集上验证模型在预测住院死亡率(AUROC 0.8995)和住院时长(超越基线模型15.2%)的优越性。

  在现代医疗环境中,电子病历(Electronic Medical Records, EMR)已经成为临床研究和患者管理的重要数据来源。EMR包含多种类型的数据,如诊断代码、生命体征、实验室检测结果、用药历史和手术记录等,这些数据通常来源于不同的系统,并且在时间上具有不规则性。这种结构化缺失(structured missingness)和多源异构性给构建有效的临床预测模型带来了巨大挑战。传统的数据融合方法往往难以捕捉不同数据源之间的复杂关系,尤其是在处理时间序列数据时,如何应对不规则采样和缺失模式成为关键问题。

为了克服这些挑战,本研究提出了一种基于时间感知注意力机制的深度学习框架,旨在有效处理多源、不规则采样的电子病历数据。该框架通过引入两个关键模块:一个用于捕捉单个数据源内部的缺失模式和时间依赖性的自注意力模块,以及一个用于融合不同数据源序列并学习其全局相关性和时间依赖性的跨源注意力模块,实现了对复杂数据结构的建模。此外,研究还引入了一种对比损失方法,以进一步提升不同数据源之间表示的一致性,并设计了基于缺失掩码的辅助任务,帮助重建原始数据序列,从而增强模型的表示学习能力。

EMR数据的多源特性意味着来自不同系统的数据在采集频率和时间点上存在显著差异。例如,生命体征数据通常以每小时甚至每分钟的频率记录,而实验室检测结果可能每天或每隔几天才被采集一次。这种频率差异使得数据在整合过程中容易出现空缺,导致序列变得稀疏。同时,EMR数据的时间不规则性意味着,即使在同一个数据源内部,数据点的分布也可能不一致。这些特点使得传统的数据对齐和融合方法难以有效处理,从而影响了模型的性能。

针对上述问题,研究者们提出了多种解决方案。一种常见的方法是使用统一的时间戳,将不同数据源的数据对齐到相同的采样时间点。这种方法虽然简化了数据处理流程,但同时也带来了数据稀疏性的风险。例如,将所有数据对齐到每小时的时间点可能会导致低频数据的丢失,而高频数据则可能因为时间戳的调整而变得不准确。此外,这种方法还假设所有数据源的采样频率是相同的,这在实际医疗场景中并不总是成立。

另一种方法是构建独立的模型来处理每个数据源,然后在输出层进行特征融合。这种方法的优势在于能够保留每个数据源的原始特性,同时在融合过程中学习其与其他数据源之间的关系。然而,这种方法在处理多源数据时,可能会忽略时间维度上的相关性,导致模型对时间依赖性的建模能力不足。此外,独立模型之间的融合可能需要复杂的机制,增加了模型设计和训练的难度。

近年来,基于注意力机制的模型逐渐成为处理多源异构数据的有效工具。这些模型能够自适应地学习不同数据源之间的相关性,而无需依赖手动的时间对齐。例如,Transformer架构中的交叉注意力机制已被广泛应用于多模态数据的融合任务中,通过捕捉不同模态之间的交互,提升模型的整体性能。然而,这些方法在处理多源不规则时间序列数据时仍然面临挑战,尤其是在如何有效建模时间依赖性和缺失模式方面。

本研究提出的TAMF框架,通过引入时间感知的自注意力机制和跨源注意力机制,解决了上述问题。在单个数据源内部,自注意力模块能够捕捉缺失模式,并学习该数据源中的时间依赖性。而在跨源融合阶段,时间感知的交叉注意力模块则能够对齐不同数据源的时间序列,并学习它们之间的全局相关性。这种双重注意力机制不仅保留了原始数据的时间特性,还能够有效处理数据缺失问题,从而提升模型的预测能力。

为了进一步增强模型的性能,研究还引入了对比损失方法。该方法通过减少不同数据源之间嵌入表示的相对距离,使模型能够更好地融合来自不同来源的信息。此外,研究设计了基于缺失掩码的辅助任务,以帮助模型更准确地重建原始数据序列,从而提升其在不同任务上的表现。这些方法的结合,使得TAMF能够在保持数据完整性的同时,提高模型的泛化能力和预测精度。

在实验评估方面,本研究使用了两个大规模的EMR数据库:MIMIC-IV和eICU-CRD。这两个数据库包含了丰富的临床数据,涵盖了不同疾病类型、性别和年龄段的患者信息,为模型的泛化能力提供了良好的测试环境。实验结果表明,TAMF在预测住院死亡率和住院时间(Length of Stay, LoS)方面均优于现有的多种基线模型。特别是在住院死亡率预测任务中,TAMF在两个数据集上的AUROC(Area Under the Receiver Operating Characteristic Curve)分别为0.8995和0.8077,显示出其在处理复杂临床数据方面的优越性。

此外,研究还进行了广泛的消融实验和敏感性分析,以验证所提出方法的有效性。消融实验结果显示,各个模块对模型性能的贡献是显著的,特别是时间感知的交叉注意力模块和对比损失方法的引入,对提升模型的预测能力起到了关键作用。敏感性分析则表明,TAMF在不同疾病类型、性别和年龄段的患者数据上均表现出良好的稳定性,说明该框架具有较强的泛化能力。

本研究的创新点在于,它不仅解决了多源异构数据的融合问题,还有效应对了时间不规则性和结构化缺失带来的挑战。通过引入自注意力机制和交叉注意力机制,TAMF能够更全面地建模数据之间的关系,而无需依赖人工对齐或假设数据频率一致。此外,对比损失方法的引入,使得模型能够更有效地对齐不同数据源的表示,从而提升其整体性能。这些方法的结合,使得TAMF在处理复杂的临床数据时表现出色,为构建更准确、更全面的临床预测模型提供了新的思路。

在实际应用中,TAMF框架可以用于多种临床任务,如疾病预测、治疗方案优化和患者风险评估等。通过有效处理多源异构数据,该框架能够提供更全面的患者健康信息,从而帮助医生做出更准确的诊断和治疗决策。此外,TAMF的灵活性也使其能够适应不同医疗机构的数据结构,为医疗AI的发展提供了更广泛的应用基础。

本研究的成果不仅在理论上具有重要意义,也在实践中展现了巨大的潜力。通过构建一个能够处理复杂数据结构的深度学习框架,TAMF为电子病历数据的分析和利用提供了新的工具。未来,随着医疗数据的不断积累和AI技术的进一步发展,TAMF框架有望在更多临床任务中得到应用,为提升医疗服务质量、优化资源分配和改善患者预后提供有力支持。同时,该研究也为处理其他类型的多源异构时间序列数据提供了参考,拓展了注意力机制在跨领域数据融合中的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号