基于电子健康记录轨迹分析的疾病风险评估研究进展与展望
《Journal of the American Medical Informatics Association》:Evaluation of trajectory analysis for disease risk assessment: a scoping review
【字体:
大
中
小
】
时间:2025年11月28日
来源:Journal of the American Medical Informatics Association 4.6
编辑推荐:
本刊推荐:为评估轨迹分析在疾病风险预测中的价值,研究人员对62项利用纵向电子健康记录(EHR)进行疾病特征识别或预测的研究进行了系统性综述。研究发现,深度学习模型(如RNN、Transformer)在风险预测中表现出中等程度的性能提升(AUC中位数提升4.2%),但存在初级保健数据应用不足、外部验证缺乏等局限性。这项研究为结构化EHR数据的时序建模提供了重要方法学参考,对推动精准医疗发展具有重要意义。
在当今数字医疗时代,电子健康记录(EHR)系统积累了海量的患者临床数据,这些数据按时间顺序排列形成了宝贵的"患者轨迹"。传统的疾病风险预测模型往往将复杂的医疗历史简化为静态的快照,忽略了临床事件发生的时间顺序和间隔这一关键信息。这就好比试图通过几张孤立的照片来理解一部电影的情节,必然丢失了大量重要的叙事线索。
为了解决这一问题,研究人员开始探索如何更好地利用这些纵向数据。患者轨迹分析这一新兴领域旨在通过分析临床事件的时间序列模式来识别疾病特征和预测疾病风险。然而,该领域面临着方法学不统一、性能评估标准不一致、临床适用性不明确等多重挑战。为此,Freya Pollington等研究人员在《Journal of the American Medical Informatics Association》上发表了题为"Evaluation of trajectory analysis for disease risk assessment: a scoping review"的综述文章,对现有研究进行了系统性评估。
研究方法上,作者遵循PRISMA-ScR指南,检索了2014年1月至2025年3月期间PubMed和Web of Science数据库的相关文献。最终纳入62项研究,涵盖了统计方法和深度学习等多种技术路线。研究重点分析了这些研究的数据特征、模型类型、性能指标和验证方法。
研究将轨迹分析方法分为统计方法和深度学习两大类。统计方法主要基于疾病对的相对风险(RR)计算和方向性检验,通过链式分析构建疾病轨迹。Jensen等开创性地使用丹麦全国患者登记库的600万患者数据,通过计算疾病A(DA)与疾病B(DB)的顺序诊断相对风险,并使用二项检验确定方向性,最终形成完整的疾病轨迹。
深度学习模型则主要采用循环神经网络(RNN)及其变体,如长短期记忆网络(LSTM)和门控循环单元(GRU),以及基于注意力机制的Transformer架构。RNN通过隐藏状态保留时间步信息,但存在长序列梯度消失问题。LSTM通过引入遗忘门、输入门和输出门解决这一问题,而GRU则通过简化设计降低计算复杂度。
Transformer模型采用自注意力机制,能够并行处理序列并捕捉长距离依赖关系。BEHRT模型借鉴BERT架构,使用ICD-10和Read代码表示、年龄和序列位置作为输入,在疾病预测任务中表现出色。
数据特征分析显示,65%的研究使用二级保健数据,主要采用ICD-10编码系统。人口统计学变量的纳入不一致,年龄在49%的研究中被纳入,性别在52%的研究中被考虑,而种族、民族和社会人口学变量很少被包含。
样本规模差异显著,13项研究纳入少于10,000名个体,而10项研究超过100万参与者。Transformer模型的样本量范围最大,RR-based模型的中位样本量较大,这主要得益于丹麦研究人员能够访问丹麦全国患者登记库。
研究目标可分为三类:识别疾病关联(轨迹表征)、预测下一个医疗事件、预测特定疾病风险。39%的研究为疾病无关性研究,20%专注于心血管疾病(CVD)。深度学习模型既预测下一个诊断,也进行疾病分类,如TransformEHR同时预测胰腺癌和创伤后应激障碍患者的自伤风险。
为处理包含数千个分层代码的复杂编码系统(如ICD-10、Read代码、SNOMED-CT),研究者采用了多种简化方法。临床分类软件将ICD-10代码编码为更少的高阶类别,截断ICD-10代码至2-4位数字,或将Read和ICD-10代码映射到CALIBER代码(将10,000多个诊断代码浓缩为301种表型)。
Transformer模型使用编码层通过自注意力学习上下文关系。词嵌入技术将离散输入标记转换为连续向量表示,部分研究使用预训练嵌入(如Word2Vec、GloVe),其他研究则训练自己的嵌入层。
在48项预测性研究中,63%报告了AUC/AUROC(曲线下面积/受试者工作特征曲线下面积)指标。最佳性能模型AUC达到0.966,最差性能模型为0.668。总体而言,提出的模型优于现有的轨迹基模型或静态模型,相对于未优化基线的改进更大。
50%的研究在其数据集和预测结果上评估了静态模型,77%评估了基线时序模型。部分研究发现改进有限,而其他研究则显示出显著增益,如TransformEHR在胰腺癌分类上比BERT、LSTM和线性回归(LR)分别提高了3.5%、6.4%和11.4%。
模型性能还取决于观察期长度和预处理方法。Choi等发现GRU在12个月观察数据和3个月预测窗口下表现最佳。Placido等发现排除诊断前3个月内的代码会降低性能,表明临近诊断的疾病代码可能包含重要信号。
验证方面,仅35%的研究进行了外部验证,其余仅进行内部验证或未验证结果(针对非风险预测研究)。
这项综述揭示了疾病轨迹分析领域的快速发展态势,同时指出了几个重要挑战。首先,初级保健数据集的应用明显不足,这限制了模型在初级保健场景中的适用性。其次,尽管深度学习模型显示出潜力,但性能提升并不总是显著,且受到数据质量和数量的严重影响。
研究结果强调了外部验证的重要性。缺乏外部验证增加了模型在不同数据环境中应用的不确定性。联邦学习等现代方法提供了在保护隐私的同时跨不同数据集训练模型的途径,可能有助于提高性能和通用性。
临床适用性评估方面,没有研究使用决策分析或临床效用评估。通过将预测风险与临床或经济结果相结合来衡量净收益或成本效益,可能会改善实施效果。TRIPOD+AI指南鼓励透明报告,并需要讨论"在当前护理背景下模型的可用性"。
轨迹分析的临床应用可分为三类:为特定疾病识别轨迹以指导诊断指南;在给定患者临床轨迹的情况下预测特定疾病风险,为临床转诊决策提供信息;预测最可能的疾病,为临床调查优先级提供指导。
尽管轨迹分析领域充满希望,但仍需从多个角度进行持续研究,以确定这一不断发展的领域是否能够提供有意义的临床益处。特别是对于缺乏明显早期迹象的疾病(如胰腺癌),轨迹分析通过改善患者分层可能特别受益,但在实践中实施需要与临床利益相关者合作。
该综述的局限性包括检索仅限于PubMed和Web of Science,可能遗漏其他存储库中的研究;仅纳入使用结构化数据的研究,排除了使用自由文本或多模态数据的研究;性能指标和基线模型的差异阻碍了详细比较。
总之,疾病轨迹分析是一个新兴且有前景的领域,其发展部分得益于人工智能持续热潮的推动。从多样化视角进行持续研究将有助于确定这一不断增长的领域是否能够提供有意义的临床益处。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号