
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于电子健康记录的标签高效表型分析:LATCH算法在长新冠识别与医疗资源利用研究中的突破
【字体: 大 中 小 】 时间:2025年07月06日 来源:npj Digital Medicine 12.4
编辑推荐:
为解决长新冠(Long COVID)异质性表现和ICD-10编码U09.9可靠性不足的问题,哈佛医学院等团队开发了LAbel-efficienT Long COVID pHenotyping(LATCH)算法。该研究整合少量金标准标签与大规模EHR数据,通过半监督学习实现F-score 75.4%的高精度识别,揭示感染后第4个月医疗资源使用达峰值的规律,为长新冠管理提供重要工具。成果发表于《npj Digital Medicine》。
在全球范围内,长新冠(Long COVID)正成为日益严峻的公共卫生挑战。这种被世界卫生组织(WHO)定义为"新冠后状态"的疾病,表现为感染SARS-CoV-2后持续60天以上的多系统症状。然而,其异质性临床表现和ICD-10编码U09.9的低可靠性(阳性预测值仅64.7%),使得准确识别患者和研究疾病负担变得异常困难。更棘手的是,不同医疗系统对U09.9编码的实施存在显著差异,而现有基于规则或调查的方法缺乏金标准验证。这些挑战严重阻碍了对长新冠流行病学特征和医疗影响的深入理解。
为突破这些限制,来自哈佛医学院、退伍军人健康管理局(VHA)和匹兹堡大学医学中心(UPMC)的研究团队开展了一项创新性研究。他们开发了名为LATCH(LAbel-efficienT Long COVID pHenotyping)的半监督学习算法,通过巧妙结合少量金标准标签(474例VHA患者和178例UPMC患者的病历审查结果)与593,283例VHA患者的完整电子健康记录(EHR)数据,成功构建了高精度的长新冠识别模型。这项重要成果发表在《npj Digital Medicine》期刊上,为长新冠研究提供了新的方法论框架。
研究团队采用三步走的技术路线:首先利用XGBoost树模型对U09.9编码进行无监督预训练,整合结构化数据(PheCodes)和非结构化数据(通过命名实体识别提取的临床概念);然后通过子队列特异性概率对齐处理不同感染时期(U09.9编码引入前后)和住院状态的异质性;最后采用逻辑回归模型结合金标准标签进行半监督微调。研究特别设计了两种WHO定义的标准:WHO-1(单一核心症状持续>60天)和WHO-2(≥2个新发症状),以应对疾病定义的演变。
研究结果部分呈现了令人信服的数据。在内部验证(VHA)中,LATCH算法对WHO-1定义的识别性能显著优于单纯U09.9编码:F-score从15.9%提升至75.4%,真阳性率(TPR)从9.1%提高到67.7%,阳性预测值(PPV)从64.7%增至82.8%。在外部验证(UPMC)中,虽然性能有所下降,但LATCH仍保持F-score 52.1%的优势,显著高于U09.9编码的16.5%。特征重要性分析显示,U09.9编码计数是最具预测力的特征(Shapley值0.250),而神经精神症状和呼吸系统特征也是重要预测因子。

医疗资源利用的时序分析揭示了长新冠的独特模式。如图3所示,长新冠阳性患者的医疗资源使用呈现"双峰"特征:在感染当月出现高峰后,第4-5个月再次出现小高峰,且整体利用率持续高于阴性患者。值得注意的是,VHA患者的基础医疗利用率显著高于UPMC,反映了两个医疗系统服务人群的差异。研究还发现,不同SARS-CoV-2变异株引起的长新冠对医疗资源的影响模式相似,提示病毒变异可能不改变长新冠的基本病理生理机制。
在讨论部分,作者强调了LATCH算法的四大创新点:(1)通过半监督学习解决了金标准标签有限与高维特征空间的矛盾;(2)首次实现了结构化与非结构化EHR数据的深度融合;(3)通过区分"U09.9前/后"时期和住院类型处理临床实践的时空异质性;(4)在两大医疗系统中验证了算法的鲁棒性。这些突破使LATCH成为首个经过严格验证的长新冠表型分析工具。
该研究的临床意义深远。准确的长新冠表型识别将助力于:(1)基因组关联研究(GWAS)发现疾病易感基因;(2)评估疫苗和抗病毒药物对长新冠的预防效果;(3)优化医疗资源配置策略。正如作者指出,虽然算法存在外部验证性能下降和未整合可穿戴设备数据等局限,但LATCH已显著缩小了研究人群范围(阴性预测值达95.1%),为后续研究奠定了坚实基础。这项研究不仅为长新冠管理提供了重要工具,其方法论框架也可拓展至其他复杂慢性病的电子健康记录研究。
生物通微信公众号
知名企业招聘