整合宿主生物标志物FABP4与大型语言模型GPT-4提升危重症患者下呼吸道感染诊断准确性
《Nature Communications》:Integrating a host biomarker with a large language model for diagnosis of lower respiratory tract infection
【字体:
大
中
小
】
时间:2025年12月17日
来源:Nature Communications 15.7
编辑推荐:
本研究针对危重症患者下呼吸道感染(LRTI)诊断难题,开发了一种结合宿主转录组生物标志物FABP4与大型语言模型GPT-4电子病历文本分析的新型诊断方法。研究显示,整合分类器在推导队列中曲线下面积(AUC)达0.93±0.08,准确率84%,显著优于单一指标和临床初诊(72%)。该研究为人工智能联合生物标志物优化感染诊断提供了新范式。
在全球范围内,下呼吸道感染(LRTI)一直是导致死亡的主要原因之一,但在重症监护室(ICU)中,准确诊断LRTI尤为困难。非感染性急性呼吸系统疾病常常表现出与LRTI相似的临床症状,而大多数临床确诊的LRTI病例甚至无法确定致病病原体。这种诊断不确定性导致经验性抗生素的过度使用,进而引发从艰难梭菌感染到抗菌药物耐药性发展等一系列不良后果。
宿主转录生物标志物作为一种新兴的LRTI诊断方式,能够克服传统微生物检测的多种局限性。通过提供更直接、动态的宿主免疫反应测量,它们能够更早、更准确地识别感染,并区分细菌和病毒病因,即使在病原体检测失败的情况下也能发挥作用。单基因生物标志物尤其适合临床转化,因为它们可以轻松整合到医疗场所已广泛使用的简单核酸扩增平台中。
例如,基因FABP4(脂肪酸结合蛋白4)的肺部表达最近被确定为危重症急性呼吸衰竭患者LRTI诊断生物标志物,在成人中曲线下面积(AUC)达到0.85±0.12,在儿童中达到0.90±0.07。FABP4在成人(以细菌感染为主)和儿童(以病毒感染为主)不同微生物学特征的队列中表现一致,表明FABP4对引起LRTI的病原体类型不具有特异性。虽然其作为LRTI生物标志物的性能超过C反应蛋白(CRP)或降钙素原(PCT)等临床生物标志物,但单独使用FABP4可能仍达不到在危重症急性呼吸衰竭患者中实现抗菌药物使用自信临床决策所需的准确性。
Generative Pre-trained Transformer 4(GPT-4)等大型语言模型(LLM)是一类新的人工智能工具,在多种医疗应用中具有潜在效用。虽然LLM在一些医疗用例中表现出色,但其在辅助临床推理方面的效用尚不清楚,基于电子病历(EMR)数据诊断LRTI或其他危重疾病综合征的潜在作用尚未得到评估。此外,LLM与其他工具(如宿主生物标志物)结合的评估在很大程度上仍是空白。
为了填补这一空白,研究人员开展了一项创新研究,构建了一种结合FABP4表达与GPT-4电子病历数据分析的诊断分类器。该研究纳入了两个前瞻性观察队列的危重症成人患者,这些患者在插管72小时内入住加州大学旧金山分校医学中心。推导队列(N=202)于2013年10月至2019年1月期间入组,验证队列(N=115)于2020年4月至2023年12月期间入组。金标准LRTI状态判定由两名或以上医师在ICU出院后回顾性进行,使用EMR中的所有可用信息,并基于美国疾病控制与预防中心(CDC)PNEU1标准以及已识别的肺部病原体。
研究人员评估了四种不同诊断方法(FABP4、GPT-4、整合FABP4/GPT-4分类器以及初级医疗团队的入院诊断)相对于金标准判定的性能。推导队列包括42例LRTI患者和56例无感染证据且呼吸衰竭有明确替代解释的患者,外部验证队列包括33例LRTI病例和26例非LRTI病例。推导队列中大多数LRTI患者为细菌性LRTI,而主要在全球COVID-19大流行期间招募的验证队列则以病毒性为主。
研究团队为GPT-4提供了来自EMR的实用临床摘要信息:入组当天的胸部X光(CXR)放射学报告和前一天的医疗团队记录。GPT-4被要求在三轮独立诊断中判断LRTI,为每位患者生成0-3分的评分。基于该评分的逻辑回归分类器达到了0.83±0.07的AUC。FABP4表达经过归一化后用于训练逻辑回归分类器,通过五折交叉验证,其AUC为0.84±0.11。
关键实验技术方法主要包括:基于美国CDC PNEU1标准的回顾性医师判读确定LRTI金标准;从EPIC电子病历平台提取临床笔记和胸部X光报告作为GPT-4输入,并使用链式思维提示策略进行提示工程;对气管吸出物样本进行RNA提取、rRNA去除和Illumina NovaSeq配对末端测序,并使用DESeq2软件包对FABP4表达进行归一化处理;使用逻辑回归模型结合FABP4表达和GPT-4评分构建整合分类器,并在推导队列和验证队列中分别采用五折和三折交叉验证评估性能。
在推导队列中,初级医疗团队的ICU入院诊断准确率为72%,正确识别了37/37(100%)的真实LRTI病例,但在非LRTI组中错误地判断24/49(49%)为LRTI。所有被不当治疗的24名非LRTI患者均接受了抗菌覆盖治疗。整合FABP4/GPT-4分类器实现了0.93±0.08的AUC,显著优于单独的FABP4和GPT-4。以50%的预测概率为阈值,其敏感性为78%,特异性为88%,准确率为84%。
在验证队列中,整合分类器表现更为出色,AUC达到0.98±0.04,敏感性为96%,特异性为95%,准确率为96%,再次优于单独的FABP4(准确率79%)和GPT-4(准确率79%)。医疗团队的初始诊断准确率为85%。
为了解GPT-4基于有限信息的诊断逻辑,研究比较了GPT-4与三位获得相同输入信息的医师的诊断决策。三位比较医师根据相同的有限EMR数据和提示为推导队列中的每位患者分配LRTI或非LRTI诊断。考虑至少一位医师诊断为LRTI即为阳性,其敏感性为78%,特异性为88%,准确率为84%。
对诊断差异最大的病例分析发现,GPT-4更频繁诊断LRTI的9名患者中,有6名的临床笔记未提及LRTI,但CXR报告明确关注LRTI(如提及“肺炎”和/或“感染”),这表明GPT-4可能比医师更重视CXR解读。
本研究证明,结合宿主转录组生物标志物与人工智能对EMR文本数据的分析可以改善危重症患者的LRTI诊断。整合FABP4/GPT-4分类器比单独的FABP4、GPT-4或治疗医疗团队具有更高的LRTI诊断准确性。在研究人群中,初始治疗医师在最终发现具有非感染性急性呼吸衰竭原因的患者中,不必要地处方抗菌药物的比例高达三分之一至二分之一。理论上,如果在ICU入院时可获得整合分类器结果,推导队列和验证队列中分别有83%和100%的不当治疗本可避免。
急性呼吸道疾病是抗生素不当使用的主要原因,本研究结果提示生物标志物/AI分类器在抗菌药物管理方面具有潜在作用。然而,考虑到在危重症患者中降阶梯使用抗菌药物的挑战,以及在真实LRTI患者中不当停药的潜在后果,该结果主要作为概念验证,需要进一步确认。
许多临床LRTI患者从未有确诊的微生物学诊断。在整个研究队列中,约50%的入组患者被临床判定为患有LRTI但未确定病原体,或LRTI状态不确定。虽然本研究侧重于明确的LRTI或非LRTI病例来开发和测试GPT-4和FABP4/GPT-4分类器,但正是在那些诊断不明确、LRTI仅是众多可能诊断之一的情况下,该方法可能最终被证明最有用。未来需要随机临床试验来最终验证。
本研究的主要优势在于结合宿主转录生物标志物与人工智能解读EMR文本数据以推进传染病诊断。它解决了ICU中最常见和最具挑战性的诊断难题之一,利用了深度表征的队列,并采用了结合多名医师的严格事后LRTI判定方法。重要的是,能够访问符合HIPAA标准的GPT-4接口的临床医生可以轻松使用其提示,而无需任何生物信息学专业知识。该方法在LRTI病原学迥异的两个患者队列中均取得了有希望的结果,表明FABP4和LLM分析EMR数据作为诊断方法可能具有实用性,且对LRTI病原体类型不敏感。
研究的局限性包括样本量相对较小,验证队列中使用了三折(而非五折)交叉验证。此外,专注于机械通气患者可能限制其对较轻呼吸道疾病的普适性。抗菌药物给药是临床团队LRTI诊断的不完美代理指标,但它是回顾性估计临床团队决策的客观、可重复且无偏倚的选择。GPT-4分析仅限于单个EMR笔记和CXR解读,评估更完整的EMR数据可能会带来改进或不同的性能。
鉴于这些局限性,本研究最好被视为概念验证,确立了基于人工智能的EMR分析与宿主生物标志物相结合的诊断方法的可行性和前景。未来的工作可以测试GPT-4是否能提高CRP等广泛可用的临床生物标志物的边际性能,在更大的ICU患者独立队列中评估FABP4/GPT-4分类器性能的普适性,并评估这些方法用于诊断其他危重疾病综合征(如脓毒症)的效果。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号