编辑推荐:
这篇综述聚焦儿科肺炎,总结了机器学习(ML)技术在区分儿童病毒性和细菌性肺炎方面的研究。通过对 35 项研究分析,探讨了相关模型、数据集、性能指标等。虽 ML 有潜力,但目前存在局限性,为后续研究指明了方向。
背景与目的
肺炎是 5 岁以下儿童住院和死亡的主要原因,准确区分病毒性和细菌性肺炎对指导治疗至关重要,但临床和影像学特征的重叠使这一区分颇具挑战。机器学习(ML),尤其是深度学习(DL),在利用胸部 X 光(CXR)图像对肺炎进行分类方面展现出潜力。本综述旨在总结 ML 技术在儿科患者中利用 CXR 图像对病毒性和细菌性肺炎进行分类的研究证据。
方法
本综述遵循乔安娜?布里格斯研究所的方法和 PRISMA-ScR 指南进行。在 PubMed、Embase 和 Scopus 数据库中进行全面检索,以确定涉及 0 - 18 岁通过 CXR 诊断为肺炎的儿童的研究,这些研究使用 ML 模型进行二元或多类分类。数据提取包括 ML 模型、数据集特征和性能指标。
结果
共纳入 35 项 2018 - 2025 年发表的研究。其中 31 项使用公开的 Kermany 数据集,这引发了对过拟合和泛化性的担忧。大多数研究(n = 33)使用卷积神经网络(CNNs)进行肺炎分类。由于方法、数据集大小和验证策略的差异,模型性能存在显著差异,难以直接比较。二元分类(病毒性与细菌性肺炎)的中位准确率为 92.3%(范围:80.8% - 97.9%);多类分类(健康、病毒性肺炎和细菌性肺炎)的中位准确率为 91.8%(范围:76.8% - 99.7%)。
研究特征
35 项研究中,14 项聚焦多类分类,16 项聚焦二元分类,5 项涉及两种分类。研究发表年份分布显示近年来相关研究呈增长趋势。研究来源包括期刊文章、会议论文和白皮书,且多个来源有多篇论文发表,但均未遵循公认的报告指南。
数据集
31 项研究使用广州妇女儿童医疗中心的公共数据集,该数据集包含 5856 张儿科 CXR 图像,标注由医生完成,但未纳入临床或辅助临床数据。4 项研究使用其他数据集,部分数据集通过微生物检测确定病因。各数据集年龄范围不同,且仅有一项研究报告了性别分布。多数研究在训练和验证所用数据集的不同子集上评估模型,少数研究采用特殊的测试方式。常用的 NIH Chest X-ray Dataset 和 PediCXR 数据集因无法区分病毒性和细菌性肺炎,在本研究中主要用于预训练或不适用。
预处理方法
预处理包括数据归一化和数据增强。多数研究对图像进行尺寸调整,部分研究进行像素归一化或缩放,输入格式有灰度和 RGB 两种。数据增强技术广泛应用,包括几何变换(如旋转、翻转、缩放等)、非几何变换(如噪声添加、亮度调整)以及先进的数据增强技术(如 SMOTE、ADASYN、Mixup 和 Cutmix)。
超参数和设置
超参数对模型性能有重要影响,但多数研究未完整报告。常见超参数包括学习率(最常见值为 0.0001)、优化器(Adam 使用最多)、批量大小(最常用值为 16)、辍学率和正则化参数等。超参数选择方法多样,但很少被报告。目标函数方面,交叉熵损失最常见,部分研究探索了其他损失函数。收敛监测也不一致,多数研究依赖预定义的训练轮数,少数使用早期停止策略。
机器学习模型
多数研究(n = 33)使用 CNNs,包括预训练模型(如 ResNet、VGG 等)、自定义模型、与传统分类器结合的模型以及集成模型等。预训练模型利用 ImageNet 等数据集进行预训练,部分研究进行了域特定预训练。自定义模型通过对现有架构进行修改或设计全新架构来满足研究需求。集成模型通过聚合多个模型的预测结果来降低偏差。
分类结果
数据集分割策略多样,导致模型性能评估存在差异。多类分类中,使用 Kermany 数据集的模型中位准确率为 91.8%,不同模型性能差异较大。二元分类中,模型中位准确率为 92.3%,不同计算方法和数据集下性能有所不同。
影响分类性能的因素
肺分割可提高分类性能,如使用 U - Net 进行肺分割可使二元准确率从 93.3% 提高到 97.9%。数据增强能改善模型泛化性,不同研究中对模型性能提升效果各异。预训练可增强模型学习能力,域特定预训练能提高模型准确性。多模态数据结合可提升诊断性能,如结合血液测试数据和成像数据的模型表现更优。不同分类器对模型性能有影响,使用传统分类器替代 SoftMax 可提高准确率。结合统计和 CNN 特征对模型性能的影响因情况而异。
可解释性技术
部分研究探索了可解释性人工智能(XAI)技术,如类激活映射(CAM)、梯度加权类激活映射(Grad - CAM)和局部可解释模型无关解释(LIME)。CAM 依赖特定架构,Grad - CAM 可用于任何 CNN 模型,LIME 通过扰动数据集来解释模型决策,但这些技术的临床实用性和相关性尚未充分探索。
讨论
研究结果
ML 有潜力提高儿科肺炎诊断准确性,但模型性能受算法、预处理方法和评估方式等影响。一些模型表现出色,如 DenseNet169、ResNet50 与传统分类器结合的模型等。然而,研究存在诸多局限性,包括数据集偏差、报告不规范、评估实践不一致、XAI 技术临床实用性待探索以及临床部署研究不足等。
未来方向
- 提高数据集质量和多样性:未来研究应开发大型、多样、经病理证实的数据集,涵盖不同患者群体、成像条件和医疗环境,减少人口统计学偏差,提高模型泛化性。同时,要解决标注不准确问题,进行外部验证。
- 新兴 ML 策略:自我监督学习可利用未标记数据学习有用表示,减少对大量标注数据的依赖;联邦学习可实现隐私保护下的数据共享和模型训练;整合多模态数据能提升诊断性能,这些新兴策略具有发展潜力。
- 加强报告标准:研究应遵循 CLAIM 和 FUTURE - AI 等指南,提高研究的透明度、可重复性和可靠性,解决当前研究中的方法不一致问题。
- 克服实施障碍:AI 在儿科肺炎诊断中的临床部署面临技术、操作和人为因素的阻碍,包括与医院基础设施集成困难、监管不确定性、患者隐私问题以及可解释性不足等,未来需针对性解决这些问题。
局限性
本综述存在一定局限性,如仅纳入英文研究、由单一 reviewer 筛选分析、未进行正式的偏倚风险评估、未捕捉到最新进展以及缺乏临床和患者视角等。
结论
ML 在儿科 CXR 肺炎分类中具有潜力,但目前的局限性限制了其临床应用。未来研究应注重创建高质量数据集,发展新兴技术,加强报告规范,克服实施障碍,以推动 ML 在儿科肺炎诊断中的应用,优化治疗策略。