
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自监督学习的电子健康记录实验室数据填补框架LIFE:提升临床决策与患者预后的新范式
【字体: 大 中 小 】 时间:2025年07月04日 来源:Communications Medicine 5.4
编辑推荐:
本研究针对电子健康记录(EHRs)中实验室数据高缺失率导致的临床价值受限问题,开发了基于多头注意力机制的实验室数据填补框架LIFE。该框架通过整合患者完整EHRs(包括诊断代码、药物数据和离散实验室结果),实现了对344项实验室检测的联合建模,在肿瘤患者队列中23/25项检测性能超越现有方法,并显著提升7/9种不良事件检测任务的AUC-PR至0.75。LIFE的创新性体现在临床情境化预测和规模化应用两方面,为利用真实世界数据(RWD)支持精准医疗提供了新工具。
在医疗大数据时代,电子健康记录(EHRs)已成为挖掘临床洞见的金矿,其中实验室数据因其客观反映患者生理状态而具有特殊价值。然而现实情况令人沮丧——高达31,000项的实验室检测(LOINC编码)在真实世界数据(RWD)中普遍存在严重缺失,这种"数据稀疏性"不仅导致临床研究出现偏差,更直接影响诊疗决策质量。传统填补方法如多重插补(MICE)或双向循环插补(BRITS)存在明显局限:或仅能处理少量检测项目,或忽视患者完整的临床背景,在异质性强的多机构RWD中表现欠佳。
针对这一挑战,Tempus AI的研究团队在《Communications Medicine》发表了突破性解决方案——实验室电子健康记录填补框架(LIFE)。这项研究基于超过110万肿瘤患者的真实世界数据,创新性地将自监督学习与医疗时序特征相结合,开发出首个能同时处理数百项实验室检测的通用填补模型。通过量化转换标准化、时间衰减模块和多头注意力机制的协同作用,LIFE不仅实现了跨检测项目的联合建模,更将临床背景信息转化为预测优势,为大规模医疗数据分析树立了新标杆。
研究团队采用三项核心技术:首先通过量化转换将实验室值映射到[0,1]均匀分布,解决检测项目量纲差异问题;其次设计含7/30/365天三种半衰期的时间衰减模块,捕捉医疗事件的时间相关性;最后构建256维编码空间和8头注意力机制,实现跨模态特征融合。模型训练采用分布式数据并行(DDP)策略,在1.1百万患者(平均每人727条记录)的队列中验证性能。
1实验室填补性能评估
在344项检测的基准测试中,LIFE平均绝对误差(MAE)达0.15,显著优于规则方法(提升14%)。特别在钠(0.15 vs 0.19)、肌酐(0.10 vs 0.12)等关键指标上表现突出。时间衰减模块的消融实验证实其贡献率达7%,而异常值识别AUC-ROC达0.79,证明模型能有效捕捉临床异常。
2下游任务验证
将填补结果用于9种肿瘤不良事件检测时,LIFE在7种情况中表现最优,如发热性中性粒细胞减少(AUC-PR 0.75)和贫血(0.70)。在固定精度0.8时,可多识别31%的肾衰竭和16%的发热性中性粒细胞减少病例,显著提升临床试验入组潜力。
3模型可解释性分析
注意力权重可视化揭示LIFE符合临床逻辑的决策模式:体重预测关注BMI历史,血红蛋白预测聚焦红细胞相关指标,PSA值则关联骨转移诊断。这种与医学知识的一致性增强了模型的可信度。
这项研究突破了传统填补方法的两大瓶颈:通过多头注意力机制实现临床情境化预测,借助自监督学习架构达成规模化应用。LIFE的创新价值不仅体现在技术层面,更开创了利用完整EHRs进行数据增强的新范式。值得注意的是,模型在肿瘤各分期和类型中表现稳健,暗示其向非肿瘤领域的扩展潜力。尽管存在MNAR(非随机缺失)数据的固有挑战,但LIFE在独立检测项目(如HbA1c和PSA)的优秀表现,证实了其在真实临床场景的适用性。
从转化医学视角看,LIFE为三大应用场景带来革新:临床决策支持系统可获得更完整的患者画像;回顾性研究能减少选择偏倚;特别是临床试验匹配领域,模型有望解决因数据缺失导致的合格患者漏筛问题。随着医疗AI向多模态发展,LIFE的架构思想可延伸至离散型临床数据的联合建模,为构建统一的EHRs基础模型铺平道路。这项研究也提示未来方向:结合保形预测(conformal prediction)提供不确定性量化,以及开发面向全类型医疗概念的通用填补系统,最终实现"一个模型处理所有EHRs数据"的终极目标。
生物通微信公众号
知名企业招聘