编辑推荐:
为精准区分原发性骨肿瘤(PBTs)和骨感染,研究人员构建集成深度学习框架,其性能优于部分成像模型和低年资放射科医生。
在医学领域,骨骼疾病的诊断一直是个重要课题。原发性骨肿瘤(PBTs)是一类在骨骼系统中发生的异质性肿瘤 ,虽然发病率相对较低,但却有着较高的发病率和死亡率,在美国,它是 20 岁以下人群中癌症相关死亡的第三大原因。目前针对骨肿瘤的治疗手段,像化疗和手术,都面临着诸多挑战。化疗常常会带来严重的副作用,而且对于像骨肉瘤这种特定类型的骨肿瘤,由于存在化疗耐药性,其成功率也比较有限;手术治疗则可能导致功能障碍、残留转移,甚至是畸形或残疾。
同时,PBTs 在诊断上也困难重重。X 射线成像虽在骨科诊断中常用,能帮助评估病变位置、内部结构等,但 PBTs 的成分多样,在影像学和组织学上存在特征重叠,不同的 PBTs 可能在 X 射线上表现相似,同一 PBTs 也可能呈现不同影像。而且,培养专业的放射科医生面临着训练周期长、经验积累不足的问题。骨感染主要包括骨髓炎和关节感染,在临床实践中,它与 PBTs 在症状上有相似之处,比如发热、软组织肿胀、骨膜反应等,这使得二者的术前鉴别诊断变得至关重要,却又充满挑战。
为了解决这些问题,中南大学湘雅二医院等机构的研究人员开展了一项研究,旨在开发一种集成深度学习框架,通过整合多中心 X 射线影像和广泛的临床特征,来准确区分 PBTs 和骨感染。该研究成果发表在《npj Precision Oncology》上。
研究人员采用了多种关键技术方法。首先是数据收集,进行了一项回顾性多中心研究,从 2013 年到 2022 年连续收集患者数据,分为训练队列(来自医院 1)和测试队列(来自医院 2 和医院 3) 。经过筛选,1569 例患者纳入内部数据集,423 例患者用于外部验证。其次是模型构建,基于 EfficientNet B3(E3)、EfficientNet B4(E4)、Vision Transformer(ViT)和 Swin Transformers(SWIN)四种神经网络构建成像模型,并采用迁移学习策略进行训练。最后通过集成学习,将四种成像模型的预测结果与基于患者临床特征的传统机器学习模型相结合,构建出 Ensemble 模型。
下面来看具体的研究结果:
- 研究参与者特征:研究共纳入 1992 例患者,其中 1208 例为 PBTs 患者,784 例为骨感染患者。患者的年龄、病变位置、疼痛、肿胀、创伤、C 反应蛋白(CRP)、红细胞沉降率(ESR)、碱性磷酸酶(ALP)等临床特征在两组间分布存在显著差异1。
- 模型分类性能:在内部测试集中,Ensemble 模型在区分 PBTs 和骨感染的二元分类任务上表现优于四种成像模型,AUC 达到 0.948,准确率为 88.1%;在外部测试集中,Ensemble 模型同样表现出色,AUC 为 0.963,准确率为 89.5%,证明了该模型的一致性和适用性23。
- Ensemble 框架与放射科医生的性能比较:Ensemble 框架的性能显著优于初级和中级放射科医生组,与高级放射科医生组相当。其中,基于 SWIN 的成像模型与 Ensemble 模型性能相近,且也优于初级和中级放射科医生组4。
- 阅片者间可靠性:放射科医生之间的阅片可靠性低于模型之间的可靠性。随着放射科医生资历的增加,判断的一致性有所上升,但仍低于模型之间的一致性5。
- 模型的可视化解释:利用 GradCAM 和 ScoreCAM 技术对模型进行可视化分析,发现模型主要聚焦于识别 PBTs 或骨感染的病变区域,如出血、坏死、钙化等。ScoreCAM 相较于 GradCAM 能更精确地描绘病变边界67。
- 放射科医生的解读:研究中存在一些病例,专家和模型的分类结果存在差异。部分骨肿瘤或骨感染病例,专家判断错误但模型判断正确,也有部分病例两者判断都错误或专家正确而模型错误,这反映出不同情况下诊断的复杂性89。
研究结论和讨论部分指出,该研究引入的集成深度学习框架,结合了基于 X 射线的成像模型和临床逻辑回归模型,提高了放射科医生的分类准确性,在临床环境中对检测和分类 PBTs 和骨感染具有重要意义。不过,该研究也存在一定的局限性,如病例分布不均衡、外部验证集可能存在偏差、数据标注方式和临床信息收集存在问题等。未来需要更多来自代表性医院的病例和更标准化的临床信息收集,以提高模型的泛化性和完整性。总体而言,这项研究为骨科医生制定治疗决策提供了重要参考,有助于及时对患者进行干预,在医学诊断领域有着重要的价值,为后续相关研究奠定了基础 。<【深度学习模型助力原发性骨肿瘤与骨感染精准鉴别】【为精准区分原发性骨肿瘤(PBTs)和骨感染,研究人员构建集成深度学习框架,其性能优于部分成像模型和低年资放射科医生。】【原发性骨肿瘤 | 骨感染 | 深度学习 | 放射学 | 诊断 | 临床特征 | 成像模型 | 分类性能 | Ensemble 模型 | 交叉验证】【国内】【在医学领域,骨骼疾病的诊断一直是个重要课题。原发性骨肿瘤(PBTs)是一类在骨骼系统中发生的异质性肿瘤 ,虽然发病率相对较低,但却有着较高的发病率和死亡率,在美国,它是 20 岁以下人群中癌症相关死亡的第三大原因。目前针对骨肿瘤的治疗手段,像化疗和手术,都面临着诸多挑战。化疗常常会带来严重的副作用,而且对于像骨肉瘤这种特定类型的骨肿瘤,由于存在化疗耐药性,其成功率也比较有限;手术治疗则可能导致功能障碍、残留转移,甚至是畸形或残疾。
同时,PBTs 在诊断上也困难重重。X 射线成像虽在骨科诊断中常用,能帮助评估病变位置、内部结构等,但 PBTs 的成分多样,在影像学和组织学上存在特征重叠,不同的 PBTs 可能在 X 射线上表现相似,同一 PBTs 也可能呈现不同影像。而且,培养专业的放射科医生面临着训练周期长、经验积累不足的问题。骨感染主要包括骨髓炎和关节感染,在临床实践中,它与 PBTs 在症状上有相似之处,比如发热、软组织肿胀、骨膜反应等,这使得二者的术前鉴别诊断变得至关重要,却又充满挑战。
为了解决这些问题,中南大学湘雅二医院等机构的研究人员开展了一项研究,旨在开发一种集成深度学习框架,通过整合多中心 X 射线影像和广泛的临床特征,来准确区分 PBTs 和骨感染。该研究成果发表在《npj Precision Oncology》上。
研究人员采用了多种关键技术方法。首先是数据收集,进行了一项回顾性多中心研究,从 2013 年到 2022 年连续收集患者数据,分为训练队列(来自医院 1)和测试队列(来自医院 2 和医院 3) 。经过筛选,1569 例患者纳入内部数据集,423 例患者用于外部验证。其次是模型构建,基于 EfficientNet B3(E3)、EfficientNet B4(E4)、Vision Transformer(ViT)和 Swin Transformers(SWIN)四种神经网络构建成像模型,并采用迁移学习策略进行训练。最后通过集成学习,将四种成像模型的预测结果与基于患者临床特征的传统机器学习模型相结合,构建出 Ensemble 模型。
下面来看具体的研究结果:
- 研究参与者特征:研究共纳入 1992 例患者,其中 1208 例为 PBTs 患者,784 例为骨感染患者。患者的年龄、病变位置、疼痛、肿胀、创伤、C 反应蛋白(CRP)、红细胞沉降率(ESR)、碱性磷酸酶(ALP)等临床特征在两组间分布存在显著差异。
- 模型分类性能:在内部测试集中,Ensemble 模型在区分 PBTs 和骨感染的二元分类任务上表现优于四种成像模型,AUC 达到 0.948,准确率为 88.1%;在外部测试集中,Ensemble 模型同样表现出色,AUC 为 0.963,准确率为 89.5%,证明了该模型的一致性和适用性。
- Ensemble 框架与放射科医生的性能比较:Ensemble 框架的性能显著优于初级和中级放射科医生组,与高级放射科医生组相当。其中,基于 SWIN 的成像模型与 Ensemble 模型性能相近,且也优于初级和中级放射科医生组。
- 阅片者间可靠性:放射科医生之间的阅片可靠性低于模型之间的可靠性。随着放射科医生资历的增加,判断的一致性有所上升,但仍低于模型之间的一致性。
- 模型的可视化解释:利用 GradCAM 和 ScoreCAM 技术对模型进行可视化分析,发现模型主要聚焦于识别 PBTs 或骨感染的病变区域,如出血、坏死、钙化等。ScoreCAM 相较于 GradCAM 能更精确地描绘病变边界。
- 放射科医生的解读:研究中存在一些病例,专家和模型的分类结果存在差异。部分骨肿瘤或骨感染病例,专家判断错误但模型判断正确,也有部分病例两者判断都错误或专家正确而模型错误,这反映出不同情况下诊断的复杂性。
研究结论和讨论部分指出,该研究引入的集成深度学习框架,结合了基于 X 射线的成像模型和临床逻辑回归模型,提高了放射科医生的分类准确性,在临床环境中对检测和分类 PBTs 和骨感染具有重要意义。不过,该研究也存在一定的局限性,如病例分布不均衡、外部验证集可能存在偏差、数据标注方式和临床信息收集存在问题等。未来需要更多来自代表性医院的病例和更标准化的临床信息收集,以提高模型的泛化性和完整性。总体而言,这项研究为骨科医生制定治疗决策提供了重要参考,有助于及时对患者进行干预,在医学诊断领域有着重要的价值,为后续相关研究奠定了基础 。