利用电子健康记录对非平稳时间序列进行预测的混合方法:以重症监护病房死亡率为案例的研究
《ACM Transactions on Computing for Healthcare》:A Hybrid Approach for Irregular-Time Series Prediction Using Electronic Health Records: An Intensive Care Unit Mortality Case Study
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Transactions on Computing for Healthcare
编辑推荐:
本研究提出STraTS-mTAND模型,结合非插值(STraTS)和插值(mTAND)方法处理医疗不规则时间序列数据,显著提升ICU死亡率预测的ROC-AUC(0.860)和PR-AUC(0.520),且在数据稀疏情况下仍表现稳健。
近年来,深度学习技术在医疗研究领域取得了显著进展,特别是在处理不规则采样时间序列数据以预测临床结果方面。这类数据的不规则性主要源于患者随访时间不一致和生命体征记录的不确定性,这给传统的机器学习方法带来了重大挑战。传统方法通常依赖于定期采样的数据,而医疗数据的不规则性导致这些方法难以有效捕捉数据中的趋势和模式。为了解决这一问题,研究者们开发了两种主要的方法:基于插值的方法和非插值的方法。本文提出了一种名为STraTS-mTAND的新方法,它结合了这两种方法的优势,以提升对不规则时间序列数据的预测能力。
在医疗领域,不规则时间序列预测具有重要意义,尤其是在电子健康记录(EHR)系统中。EHR数据通常呈现出不规则的采样模式,因为这些数据是根据患者的临床活动、诊断测试和治疗安排进行记录的。这种不规则性对传统时间序列预测方法构成了挑战,因为这些方法可能难以准确捕捉不规则数据中的趋势和模式。在临床环境中,准确预测未来的事件,如疾病进展、药物依从性或患者结果,对于指导临床决策、优化资源分配和提高患者护理质量至关重要。因此,开发能够处理不规则时间序列数据的鲁棒预测模型,对于挖掘数据驱动的医疗干预的潜力具有关键作用。
重症监护病房(ICU)死亡率预测是临床决策中的重要工具,有助于优化患者护理和资源分配。大多数进入ICU的患者都面临生命威胁,治疗这些患者的病情通常需要复杂的认知过程,并且需要大量的时间敏感决策,这增加了出错的可能性。因此,自动化实时预测对于帮助临床医生进行医疗决策具有极大的价值。准确的预测模型可以识别出高死亡风险的患者,从而进行及时干预和个性化的治疗计划。这种方法不仅提高了临床医生对患者预后的判断能力,也增强了他们与患者及其家属之间的沟通。
从计算机科学的角度来看,ICU死亡率预测推动了预测建模和机器学习技术的创新,使开发能够分析来自不同数据源的不规则数据、识别复杂模式并提取可操作见解的算法成为可能。如图1所示,ICU中收集的数据具有几个显著特征,包括观察时间间隔的不规则性、不同变量之间的异步性以及某些变量可能没有观察记录的情况。这种复杂性和异质性使得分析和预测任务面临独特挑战。
基于插值的方法通常通过插值技术将不规则时间序列转换为规则时间序列,以估计变量在预定义时间点的值。例如,Shukla和Marlin提出的Discretized Multi-Time Attention(mTAND)模型使用注意力机制来处理不规则时间点,并通过学习数据中的时间相似性来生成时间序列的嵌入。这种方法在实验中表现优于其他插值方法,特别是在处理PhysioNet Challenge 2012数据集时。然而,插值可能引入噪声并导致信息丢失,因此需要一种能够克服这些缺点的模型。
另一方面,非插值方法直接使用不规则时间序列作为输入,而不进行插值。例如,STraTS(Self-Supervised Transformer for Time-Series)模型通过编码每个观测值,而不是依赖插值,来处理时间序列数据。STraTS模型在MIMIC III和PhysioNet Challenge 2012数据集中,分别在ROC-AUC和PR-AUC指标上提高了1.0%和0.7%。然而,当观测时间间隔较大时,模型可能难以准确预测患者病情的变化。因此,结合插值和非插值方法可以弥补这些方法的不足。
本文提出的STraTS-mTAND模型结合了STraTS和mTAND两种方法,以生成更全面的时间序列表示。该模型首先利用STraTS模块对时间序列进行编码,生成观测嵌入,然后通过mTAND模块进行插值,生成规则时间嵌入。这两种嵌入随后通过Fusion Self-Attention(FSA)模块进行融合,以生成最终的预测输出。这种方法的目的是通过结合两种方法的优势,提高预测的准确性和鲁棒性。
在实验部分,我们使用了PhysioNet Challenge 2012和MIMIC-III数据集对STraTS-mTAND模型进行了评估。这两个数据集都包含了来自Beth Israel Deaconess Medical Center的大量ICU记录,涵盖了不同类型的变量和静态信息。实验结果表明,STraTS-mTAND模型在两种数据集上的性能都优于其他基线模型,特别是在ROC-AUC和PR-AUC指标上。此外,该模型在数据量较少和时间序列更加稀疏的情况下仍然表现良好,这表明其在实际临床环境中具有广泛的适用性。
在模型的各个部分中,STraTS模块首先将时间序列视为观测三元组(时间、特征和特征值),并利用连续值嵌入(CVE)模块对这些三元组进行编码。每个观测三元组被编码为一个嵌入向量,这些向量随后通过多头自注意力(Multi-Head Self-Attention)层进行处理,以捕捉观测之间的依赖关系。然后,这些嵌入被传递到上下文三元组嵌入模块,该模块包含多个Transformer块,以进一步处理观测嵌入。另一方面,mTAND模块利用注意力机制和密集层,将不规则时间序列插值为规则时间序列,并生成规则时间嵌入。
在模型的融合和输出部分,观测嵌入和规则时间嵌入分别通过FSA模块进行处理,以生成注意力权重,这些权重随后用于融合嵌入。融合后的嵌入与静态变量嵌入结合,通过两个密集层进行处理,最终生成二分类任务的输出。这一过程通过引入注意力机制和FSA模块,使模型能够有效地结合两种不同的时间序列表示,以提高预测的准确性。
在实验分析中,我们发现STraTS-mTAND模型在不同数据量和时间序列稀疏性条件下都表现出色。例如,当训练数据减少时,STraTS-mTAND模型的性能仍然优于其他基线模型,这表明其在数据稀缺情况下的鲁棒性。此外,该模型在不同时间窗口上的表现也显示出其在预测时间序列中的灵活性和适应性。例如,当使用更长的时间窗口时,模型的性能通常会提高,这表明模型能够更好地捕捉患者的病情变化。
静态变量的分析也表明,这些变量在预测模型中具有重要作用。当移除静态变量后,模型的预测性能有所下降,这说明静态变量能够帮助模型更好地对齐预测概率分布与实际类别分布。这种对齐使得模型在预测死亡率时更加准确,从而有助于临床医生制定更有效的治疗计划。
总的来说,STraTS-mTAND模型通过结合插值和非插值方法,为不规则时间序列预测提供了一种新的解决方案。实验结果表明,该模型在多个数据集上的性能优于现有方法,特别是在处理稀疏和不规则时间序列数据时表现出色。此外,该模型还展示了其在不同时间窗口和静态变量整合方面的适应性,这为未来的研究提供了新的方向。未来的工作可以探索不同的时间查询配置,以及将其他特征或数据源整合到模型中,以进一步提高预测的准确性和应用范围。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号