
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于人工智能的创面感染识别模型构建及其与人类专家表现的对比研究
【字体: 大 中 小 】 时间:2025年09月18日 来源:Biocybernetics and Biomedical Engineering 6.6
编辑推荐:
本刊推荐:本研究基于899张创面图像,开发了用于识别感染伤口的YOLO机器学习模型(AI)。结果显示,第8代YOLO模型表现最佳,其平均精度(mAP)、F1分数和准确率中位数分别达到92.7%、92.9%和92.7%,显著优于专业医师(74.1%、76.4%、74.4%)和护理学生(68.4%、59.4%、67.7%)。该研究表明人工智能在创面感染视觉诊断中具有重要应用价值,可辅助临床快速决策。
Highlight
创面图像
在这项回顾性研究中,我们使用了PODOS创面护理诊所(波兰华沙)采集的899张伤口照片。患者特征和伤口病因学详见表1和表2。本研究选择的是初次就诊且清创前拍摄的伤口照片——这一点至关重要,因为清除坏死组织后伤口的形态会发生改变,可能影响对感染状态的判断。
部分伤口以2-3张不同角度或尺度的照片呈现,但每张照片均被视为独立样本。所有图像均由临床微生物学检测结果(确认感染状态)和抗生素治疗记录提供标注支持。感染伤口的判定标准包括:微生物检测阳性且接受了抗生素治疗;非感染伤口则对应微生物检测阴性且未使用抗生素的情况。
Results
在模型训练过程中,我们发现它们很快出现过拟合现象。因此,第8代模型的训练周期设为15轮,而第11代仅训练4轮。数据分析的第一步,我们比较了YOLO第8代和第11代共10个模型的性能。表3展示了两代5个模型的平均精度均值(mAP)。其中YOLOv8n模型取得了最高mAP值(95.1%),且第8代模型整体表现优于第11代。第8代模型的mAP中位数为92.7%,而第11代仅为83.1%。
接下来,我们将表现更优的第8代YOLO模型与6位专家和6位护理学生的评估结果进行对比。事后分析显示,AI模型在mAP、准确率和F1分数上均显著优于专家和学生组,而专家与学生组之间则无显著差异。专家的mAP、F1分数和准确率中位数分别为74.1%、76.4%和74.4%;学生组为68.4%、59.4%和67.7%;AI模型则高达92.7%、92.9%和92.7%。表现最佳的YOLOv8n模型准确率达到95.1%,显著优于专家中的最佳成绩(84.1%)。
Discussion
第8代与第11代YOLO模型的对比表明,尽管版本较旧,第8代在创面图像分类中实现了更高的mAP。不过,第11代训练速度更快,能以更少周期达到较高mAP——仅需4轮训练即可,而第8代需要15轮。这表明第11代计算效率更高,对于大型训练数据集可能更具优势。
需要指出的是,第11代模型训练周期减少是为了防止过拟合。尽管两代模型都使用预训练权重,但架构差异可能导致特征提取能力不同。第8代模型可能更适应我们的数据集特征,从而取得更好性能。
与人类评估者对比时,AI模型展现出显著优势。专家和学生组的评估结果无统计学差异,说明经验因素并未产生决定性影响。这可能是因为评估仅基于静态图像,无法获取温度、疼痛感等临床指标(这些通常是感染判断的重要依据)。AI模型则能专注于视觉特征挖掘,从而实现更客观的判断。
最高准确率(95.1%)和mAP(95.1%)均由YOLOv8n模型取得,其参数量最少、架构最简单。这表明模型性能并非总是随复杂度增加而提升,有时简单架构反而能更高效地学习关键特征。
与既往研究对比,我们的AI模型取得了当前最优性能(95.1%准确率)。Goyal等人[30]报告准确率为72.7%,Das等人[31]提升至80.0%,Ahsan等人[32]使用ResNet50架构达到84.76%,Huang等人[18]的模型为68.5%,而Liu等人[34]声称达到97.92%——但该研究使用了数据增强(将样本量扩增至原集的15倍),其测试集包含8730张图像,可能影响结果可比性。
本研究的主要局限在于样本量相对有限(899张图像),且所有数据均来自单一中心。未来需要通过多中心研究和更大样本量验证模型泛化能力。此外,当前模型仅基于图像数据,整合临床参数(如体温、疼痛指数)有望进一步提升诊断准确性。
尽管存在局限,本研究证实了AI在创面感染识别中的巨大潜力。这类工具可辅助医护人员(尤其初级或资源匮乏地区)快速识别感染,及时采取干预措施,从而减少抗生素滥用和耐药菌产生风险。
生物通微信公众号
知名企业招聘