基于人工智能的从早期临床数据中识别长期新冠(long COVID)的关键风险因素
《Journal of Infection and Public Health》:Artificial intelligence-based identification of key risk factors for long COVID from early clinical data
【字体:
大
中
小
】
时间:2025年11月22日
来源:Journal of Infection and Public Health 4
编辑推荐:
长期COVID的早期预测研究采用XGBoost机器学习模型和生化指标分析,基于394名住院患者72小时内临床数据。结果显示模型AUC-ROC为0.732,血红蛋白降低(p=0.015)是唯一显著预测因子,氧饱和度、体重等8个变量通过SHAP分析确认重要性,模型召回率达78.6%。研究证实AI模型可整合多维度早期数据实现长COVID风险分层,为临床干预提供新工具。
长新冠(Long COVID)是一种复杂的后遗症,其特征是在感染SARS-CoV-2病毒后持续存在多种症状。这种状况已经成为全球公共卫生领域的重要关注点,因为其对患者的生活质量产生了深远影响,并且对医疗系统的资源构成了长期压力。为了有效应对这一挑战,科学家们正在探索各种方法,以期能够在感染早期识别出可能发展为长新冠的高风险个体。本文介绍了一项研究,该研究利用生物化学和临床指标,结合机器学习(ML)模型,分析了感染后72小时内采集的数据,以预测长新冠的发生。这种基于早期数据的预测方法具有重要的临床意义,因为它能够在患者住院期间就识别出高风险个体,从而为及时干预提供依据。
### 早期识别的重要性
长新冠的症状多种多样,包括疲劳、呼吸困难、认知障碍以及其他严重影响生活质量的状况。由于这些症状可能在感染后数周甚至数月才显现,因此在感染初期就识别出潜在风险因素至关重要。早期识别不仅可以帮助医疗工作者制定个性化的管理方案,还可以优化医疗资源的分配,避免对那些可能不会发展为长新冠的患者进行不必要的跟踪和治疗。此外,通过早期干预,可能有助于减轻长新冠对患者和社会的长期负担。
### 机器学习在预测中的作用
近年来,人工智能(AI)技术,特别是机器学习,已经被广泛应用于医学研究和临床实践。这些技术能够处理大量的数据,并从中发现潜在的模式和关系,这些关系可能在传统统计方法中难以察觉。在本研究中,机器学习模型被用来分析感染SARS-CoV-2后的生物化学和临床数据,以预测长新冠的发生。模型采用XGBoost算法,这是一种先进的梯度提升决策树方法,因其在处理复杂、非线性数据方面的强大能力而被选中。通过系统地评估多种算法,研究团队发现XGBoost在预测长新冠方面表现最佳,尤其是在召回率(Recall)方面,达到了78.6%的高水平,这表明该模型在识别真正高风险患者方面具有显著优势。
### 数据的收集与处理
研究的数据来自一个名为“Galicia Sur健康研究研究所”(IIS Galicia Sur)的生物银行,该生物银行存储了大量与SARS-CoV-2感染相关的临床和实验室数据。为了确保数据的准确性和可靠性,研究团队对数据进行了严格的筛选和清洗。首先,他们排除了那些在数据集中出现频率低于50%的变量,因为这些变量可能无法提供足够的信息来支持模型的训练。其次,他们剔除了那些与模型构建无关的变量,例如那些在感染后72小时之后才被记录的数据。通过这些步骤,最终形成了一个包含394名患者的数据库,这些患者在感染后72小时内接受了临床和实验室检查。
### 模型的构建与评估
研究团队使用XGBoost算法构建了一个预测模型,该模型能够基于感染后的早期数据预测长新冠的发生。模型的超参数通过贝叶斯优化技术进行了优化,以确保模型的性能达到最佳状态。此外,变量的重要性通过SHAP(SHapley Additive exPlanations)值进行了评估,这有助于理解每个变量在预测过程中的贡献。结果显示,模型在AUC-ROC(受试者工作特征曲线下面积)方面达到了0.732,表明其在区分高风险和低风险患者方面具有一定的能力。尽管模型的整体准确率仅为63.9%,但其在召回率方面表现突出,达到了78.6%,这说明该模型在识别真正高风险患者方面具有很高的价值。
### 关键变量的分析
在模型中,多个变量被识别为与长新冠的发生密切相关。其中,血红蛋白水平是唯一在统计上显著差异的变量(p=0.015),表明其在预测长新冠中的重要性。此外,氧饱和度、体重、C反应蛋白(CRP)、活化部分凝血活酶时间(APTT)、钠水平、肺部浸润类型以及性别也被视为关键预测因子。这些变量的组合使得模型在预测长新冠方面具有更高的准确性,而不是依赖于单一指标。
### 变量之间的相互作用
研究还发现,某些变量之间的相互作用对于预测长新冠具有重要意义。例如,血红蛋白水平较低可能与氧饱和度和肺部浸润类型相结合,进一步增加长新冠的风险。这种复杂的相互作用表明,单一指标可能不足以准确预测长新冠的发生,而是需要综合考虑多个变量之间的关系。此外,性别也被视为一个重要的预测因子,尽管在本研究中没有发现显著的性别差异,但女性患者中长新冠的发生率仍然高于男性。
### 模型的局限性与未来方向
尽管该模型在预测长新冠方面表现出色,但研究团队也指出了其局限性。首先,该研究仅包括住院患者,这可能导致样本选择偏差,限制了模型在轻症或无症状患者中的适用性。其次,研究的样本仅限于西班牙的一个地区,这可能影响模型的普遍适用性。为了提高模型的准确性和适用性,未来的研究应考虑包括更多样化的患者群体,并进行外部验证以确保模型的稳健性。此外,研究团队建议在未来的模型优化中,调整阈值以在提高准确率的同时减少误报率,从而更好地服务于临床决策。
### 临床应用的潜力
该模型的临床应用潜力巨大,尤其是在急诊和住院环境中。通过在感染早期识别出高风险患者,医疗工作者可以采取针对性的干预措施,如个性化监测和康复治疗的推荐。这种早期干预不仅有助于改善患者的预后,还可以减轻医疗系统的负担。此外,该模型的构建方法为未来的长新冠预测研究提供了新的思路,即通过整合多种变量和复杂的相互作用,提高预测的准确性和临床实用性。
### 伦理与资金支持
本研究获得了西班牙科学与创新部的资金支持,部分资金来自欧盟的NextGenerationEU计划,以及加利西亚自治区和西班牙国家健康研究所(ISCIII)的资助。这些资金支持确保了研究的顺利进行,并为未来的进一步研究提供了基础。然而,研究团队也提到,由于该研究未涉及人类受试者的伦理审查,因此其伦理批准可能不适用。
### 总结
综上所述,本研究通过整合生物化学和临床指标,结合机器学习模型,成功预测了长新冠的发生。模型在感染后的早期阶段(72小时内)表现出较高的召回率,这表明其在临床应用中具有重要的价值。然而,研究团队也指出了模型的局限性,并建议未来的研究应进一步优化模型,扩大样本范围,并进行外部验证以确保其普遍适用性。此外,模型的构建方法为未来的长新冠预测研究提供了新的思路,强调了综合考虑多种变量和相互作用的重要性。通过这些努力,科学家们希望能够在感染早期识别出长新冠的高风险个体,从而为及时干预和资源分配提供科学依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号